Создание точечных диаграмм с помощью группированных данных

Введение

В данном примере представлено, как создавать точечные диаграммы с использованием сгруппированных выборочных данных. Точечная диаграмма — это простой график зависимости одной переменной от другой.

Функцияscatter создаёт точечные диаграммы. Мы создадим функцию gplotmatrix, которая может создавать матрицу таких графиков, показывающую взаимосвязь между несколькими парами переменных. Для обозначения принадлежности к группе, будут использоваться различные графические символы. Таким образом, будут созданы группированные версии этих графиков. Это полезно для определения того, одинаковы ли значения двух переменных или взаимосвязь между ними в каждой группе.

Исходные данные

Импортируем и присоединим необходимые библиотеки.

import Pkg 
Pkg.add(["PlotlyKaleido", "StatsPlots", "DataFrames", "StatsBase", "CSV", "RDatasets", "Statistics", "Random"])
using StatsPlots, DataFrames, StatsBase, CSV, RDatasets, Statistics, Random
plotly()

Предположим, нам необходимо изучить вес и пробег автомобилей трёх различный годов выпуска.

Импортируем и отобразим набор данных об автомобилях.

автомобили = dataset("datasets", "mtcars")

Так как в представленном наборе данных отсутствует информация о годах выпуска, предположим, что это 1970, 1976, и 1982 годы. Добавим эти данные вручную.

n = nrow(автомобили)
наблюдений_в_год = div(n, 3)
годы_выпуска = repeat([1970, 1976, 1982], inner=наблюдений_в_год)
if length(годы_выпуска) < n
    append!(годы_выпуска, годы_выпуска[1:(n-length(годы_выпуска))])
end
shuffle!(годы_выпуска)
автомобили[!, :Год_выпуска] = годы_выпуска;
автомобили

Построим точечную диаграмму зависимости расхода топлива от массы автомобилей.

p1 = scatter(автомобили.WT, автомобили.MPG, 
        group=автомобили.Год_выпуска,
        markershape=[:x :o :square],
        markercolor=[:blue :green :red],
        xlabel="Масса", ylabel="Удельный запас хода",
        title="Зависимость расхода топлива от массы",
        legend_title="Год выпуска",
        legend=:best,
        markersize=7)
display(p1)

Функцияscatterсоздаёт точечную диаграмму, на которой каждая группа отображена определённым символом.

Набор данныхавтомобилисодержит другие переменные, описывающие различные характеристики автомобилей. Мы можем изучить несколько из них в одном окне, создав матрицу диаграмм.

Создадим функцию, формирующую данные для отображения матрицы диаграмм.

xvars = [:WT, :Disp, :HP] 
yvars = [:MPG, :QSec]   

function gplotmatrix(df, xvars, yvars, группа)
    nx = length(xvars)
    ny = length(yvars)
    plt = plot(layout=(ny, nx), size=(800, 600), dpi=150)
    xlabels = ["Масса", "Объём двигателя", "Мощность (л.с.)"]
    ylabels = ["Удельный запас хода", "Время разгона (сек)"]
    
    for i in 1:ny  
        for j in 1:nx  
            subplot_idx = (i-1)*nx + j
            цвета = [:blue, :green, :red]
            значки = [:x, :o, :square]
            обозначения = ["1970", "1976", "1982"]
            
            for (k, grp) in enumerate([1970 1976 1982])
                mask = df[!, группа] .== grp
                scatter!(df[mask, xvars[j]], df[mask, yvars[i]],
                        subplot=subplot_idx,
                        marker=значки[k],
                        color=цвета[k],
                        label=обозначения[k],
                        markersize=6,
                        alpha=0.7,
                        legend=(i==1 && j==1) ? :best : false)
            end
            
            if i == ny
                xlabel!(plt.subplots[subplot_idx], xlabels[j])
            end
            if j == 1
                ylabel!(plt.subplots[subplot_idx], ylabels[i])
            end
        end
    end
    
    return plt
end

gplotmatrix (generic function with 1 method)

И отобразим матрицу диаграмм.

matrix_plot = gplotmatrix(автомобили, xvars, yvars, :Год_выпуска)
display(matrix_plot)

Матрица диаграмм отображает зависимость одних различных параметров от других. Например исходя из верхней левой диаграммы можно сделать обобщение о том, что чем ниже масса автомобиля, тем выше удельный запас хода.

Заключение

Представленный метод визуализации группированных данных является важным инструментом для анализа для статистики и машинного обучения.

Матрица диаграмм позволяет оценить однородность взаимосвязей между переменными в разных группах. Это помогает определить, требуется ли в модель включать эффекты взаимодействия между количественными и категориальными переменными, что критически важно для корректной спецификации статистических моделей.

В машинном обучении такая визуализация помогает выявить групповую структуру данных и несбалансированность классов, что особенно важно для алгоритмов, чувствительных к распределению данных. Она также позволяет выбрать оптимальный уровень сложности модели — от единой глобальной зависимости до раздельного обучения на подгруппах, снижая риск переобучения.

Таким образом, группированные диаграммы служат мостом между первичным анализом данных и построением формальных моделей, способствуя созданию более точных и интерпретируемых решений.

Row	Model	MPG	Cyl	Disp	HP	DRat	WT	QSec	VS	AM	Gear	Carb
	String31	Float64	Int64	Float64	Int64	Float64	Float64	Float64	Int64	Int64	Int64	Int64
1	Mazda RX4	21.0	6	160.0	110	3.9	2.62	16.46	0	1	4	4
2	Mazda RX4 Wag	21.0	6	160.0	110	3.9	2.875	17.02	0	1	4	4
3	Datsun 710	22.8	4	108.0	93	3.85	2.32	18.61	1	1	4	1
4	Hornet 4 Drive	21.4	6	258.0	110	3.08	3.215	19.44	1	0	3	1
5	Hornet Sportabout	18.7	8	360.0	175	3.15	3.44	17.02	0	0	3	2
6	Valiant	18.1	6	225.0	105	2.76	3.46	20.22	1	0	3	1
7	Duster 360	14.3	8	360.0	245	3.21	3.57	15.84	0	0	3	4
8	Merc 240D	24.4	4	146.7	62	3.69	3.19	20.0	1	0	4	2
9	Merc 230	22.8	4	140.8	95	3.92	3.15	22.9	1	0	4	2
10	Merc 280	19.2	6	167.6	123	3.92	3.44	18.3	1	0	4	4
11	Merc 280C	17.8	6	167.6	123	3.92	3.44	18.9	1	0	4	4
12	Merc 450SE	16.4	8	275.8	180	3.07	4.07	17.4	0	0	3	3
13	Merc 450SL	17.3	8	275.8	180	3.07	3.73	17.6	0	0	3	3
⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮
21	Toyota Corona	21.5	4	120.1	97	3.7	2.465	20.01	1	0	3	1
22	Dodge Challenger	15.5	8	318.0	150	2.76	3.52	16.87	0	0	3	2
23	AMC Javelin	15.2	8	304.0	150	3.15	3.435	17.3	0	0	3	2
24	Camaro Z28	13.3	8	350.0	245	3.73	3.84	15.41	0	0	3	4
25	Pontiac Firebird	19.2	8	400.0	175	3.08	3.845	17.05	0	0	3	2
26	Fiat X1-9	27.3	4	79.0	66	4.08	1.935	18.9	1	1	4	1
27	Porsche 914-2	26.0	4	120.3	91	4.43	2.14	16.7	0	1	5	2
28	Lotus Europa	30.4	4	95.1	113	3.77	1.513	16.9	1	1	5	2
29	Ford Pantera L	15.8	8	351.0	264	4.22	3.17	14.5	0	1	5	4
30	Ferrari Dino	19.7	6	145.0	175	3.62	2.77	15.5	0	1	5	6
31	Maserati Bora	15.0	8	301.0	335	3.54	3.57	14.6	0	1	5	8
32	Volvo 142E	21.4	4	121.0	109	4.11	2.78	18.6	1	1	4	2

Row	Model	MPG	Cyl	Disp	HP	DRat	WT	QSec	VS	AM	Gear	Carb	Год_выпуска
	String31	Float64	Int64	Float64	Int64	Float64	Float64	Float64	Int64	Int64	Int64	Int64	Int64
1	Mazda RX4	21.0	6	160.0	110	3.9	2.62	16.46	0	1	4	4	1982
2	Mazda RX4 Wag	21.0	6	160.0	110	3.9	2.875	17.02	0	1	4	4	1970
3	Datsun 710	22.8	4	108.0	93	3.85	2.32	18.61	1	1	4	1	1970
4	Hornet 4 Drive	21.4	6	258.0	110	3.08	3.215	19.44	1	0	3	1	1976
5	Hornet Sportabout	18.7	8	360.0	175	3.15	3.44	17.02	0	0	3	2	1970
6	Valiant	18.1	6	225.0	105	2.76	3.46	20.22	1	0	3	1	1982
7	Duster 360	14.3	8	360.0	245	3.21	3.57	15.84	0	0	3	4	1976
8	Merc 240D	24.4	4	146.7	62	3.69	3.19	20.0	1	0	4	2	1976
9	Merc 230	22.8	4	140.8	95	3.92	3.15	22.9	1	0	4	2	1982
10	Merc 280	19.2	6	167.6	123	3.92	3.44	18.3	1	0	4	4	1970
11	Merc 280C	17.8	6	167.6	123	3.92	3.44	18.9	1	0	4	4	1982
12	Merc 450SE	16.4	8	275.8	180	3.07	4.07	17.4	0	0	3	3	1970
13	Merc 450SL	17.3	8	275.8	180	3.07	3.73	17.6	0	0	3	3	1976
⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮
21	Toyota Corona	21.5	4	120.1	97	3.7	2.465	20.01	1	0	3	1	1970
22	Dodge Challenger	15.5	8	318.0	150	2.76	3.52	16.87	0	0	3	2	1976
23	AMC Javelin	15.2	8	304.0	150	3.15	3.435	17.3	0	0	3	2	1976
24	Camaro Z28	13.3	8	350.0	245	3.73	3.84	15.41	0	0	3	4	1970
25	Pontiac Firebird	19.2	8	400.0	175	3.08	3.845	17.05	0	0	3	2	1976
26	Fiat X1-9	27.3	4	79.0	66	4.08	1.935	18.9	1	1	4	1	1976
27	Porsche 914-2	26.0	4	120.3	91	4.43	2.14	16.7	0	1	5	2	1970
28	Lotus Europa	30.4	4	95.1	113	3.77	1.513	16.9	1	1	5	2	1970
29	Ford Pantera L	15.8	8	351.0	264	4.22	3.17	14.5	0	1	5	4	1982
30	Ferrari Dino	19.7	6	145.0	175	3.62	2.77	15.5	0	1	5	6	1970
31	Maserati Bora	15.0	8	301.0	335	3.54	3.57	14.6	0	1	5	8	1982
32	Volvo 142E	21.4	4	121.0	109	4.11	2.78	18.6	1	1	4	2	1970