使用分组数据创建点图

导言

此示例演示如何使用分组样本数据创建散点图。散点图是一个变量如何依赖于另一个变量的简单图形。

功能scatter 创建点图。我们将创建一个函数 gplotmatrix，从而可以创建显示几对变量之间关系的这种图形的矩阵。各种图形符号将用于指示组中的成员资格。这样，将创建这些图形的分组版本。这对于确定两个变量的值是否相同或它们在每个组中的关系很有用。

初始数据

我们将导入并附加必要的库。

import Pkg 
Pkg.add(["PlotlyKaleido", "StatsPlots", "DataFrames", "StatsBase", "CSV", "RDatasets", "Statistics", "Random"])
using StatsPlots, DataFrames, StatsBase, CSV, RDatasets, Statistics, Random
plotly()

假设我们需要研究三个不同年份制造的汽车的重量和里程。

导入和显示有关汽车的数据集。

автомобили = dataset("datasets", "mtcars")

由于呈现的数据集中没有关于发布年份的信息，因此我们假设这些是1970年、1976年和1982年。我们将手动添加此数据。

n=nrow（汽车）
观察值in_year=div(n,3)
发布年份=重复([1970,1976,1982],inner=observation_in_year)
如果长度（发布年份）<n
    追加！(release years,发布年份[1:(n-length(release years))])
end
洗牌！(发行年份)
汽车[！,:发布年份]=发布年份_;
汽车

让我们建立燃料消耗对汽车质量的依赖性的点图。

p1=散射（汽车。WT，汽车。石油气, 
        组=汽车。发行年份,
        markershape=[:x :o :square],
        markercolor=[:blue :green :red],
        xlabel="重量", ylabel="特定动力储备",
        title="燃料消耗对质量的依赖",
        legend_title="发行年份",
        legend=:best,
        markersize=7)
display(p1)

功能scatter创建一个点图，其中每个组由特定符号表示。

数据集автомобили它包含描述汽车各种特性的其他变量。我们可以通过创建图表矩阵在一个窗口中探索其中的几个。

让我们创建一个生成数据以显示图表矩阵的函数。

xvars = [:WT, :Disp, :HP] 
yvars = [:MPG, :QSec]   

gplotmatrix函数（df，xvars，yvars，group）
    nx = length(xvars)
    ny = length(yvars)
    plt = plot(layout=(ny, nx), size=(800, 600), dpi=150)
    xlabels = ["重量", "发动机容量", "功率(马力)"]
    ylabels = ["特定动力储备", "加速时间（秒）"]
    
    for i in 1:ny  
        for j in 1:nx  
            subplot_idx = (i-1)*nx + j
            颜色=[:蓝色,:绿色,:红色]
            图标=[:x,:o,:正方形]
            обозначения = ["1970", "1976", "1982"]
            
            for (k, grp) in enumerate([1970 1976 1982])
                面具=df[！，组]。==grp
                scatter!(df[mask, xvars[j]], df[mask, yvars[i]],
                        subplot=subplot_idx,
                        标记=图标[k],
                        颜色=颜色[k],
                        标签=名称[k],
                        markersize=6,
                        alpha=0.7,
                        legend=(i==1 && j==1) ? :best : false)
            end
            
            if i == ny
                xlabel!(plt.subplots[subplot_idx], xlabels[j])
            end
            if j == 1
                ylabel!(plt.subplots[subplot_idx], ylabels[i])
            end
        end
    end
    
    return plt
end

gplotmatrix (generic function with 1 method)

我们将显示一个图表矩阵。

matrix_plot=gplotmatrix(cars,xvars,yvars,:发布年份)
display(matrix_plot)

图表矩阵显示了一些不同参数对其他参数的依赖性。例如，根据左上图，我们可以概括地说，汽车的重量越低，比动力储备越高。

结论

所提出的分组数据可视化方法是统计和机器学习分析的重要工具。

图表矩阵允许您评估不同组中变量之间关系的一致性。这有助于确定模型是否需要包括定量变量和类别变量之间相互作用的影响，这对于正确规范统计模型至关重要。

在机器学习中，这种可视化有助于识别数据的组结构和类的不平衡，这对于对数据分布敏感的算法尤其重要。它还允许您选择模型的最佳复杂程度-从单个全局依赖到子组中的单独训练，从而降低过度拟合的风险。

因此，分组图作为初级数据分析和形式化模型构建之间的桥梁，有助于创建更准确和解释的解决方案。

Row	Model	MPG	Cyl	Disp	HP	DRat	WT	QSec	VS	AM	Gear	Carb
	String31	Float64	Int64	Float64	Int64	Float64	Float64	Float64	Int64	Int64	Int64	Int64
1	Mazda RX4	21.0	6	160.0	110	3.9	2.62	16.46	0	1	4	4
2	Mazda RX4 Wag	21.0	6	160.0	110	3.9	2.875	17.02	0	1	4	4
3	Datsun 710	22.8	4	108.0	93	3.85	2.32	18.61	1	1	4	1
4	Hornet 4 Drive	21.4	6	258.0	110	3.08	3.215	19.44	1	0	3	1
5	Hornet Sportabout	18.7	8	360.0	175	3.15	3.44	17.02	0	0	3	2
6	Valiant	18.1	6	225.0	105	2.76	3.46	20.22	1	0	3	1
7	Duster 360	14.3	8	360.0	245	3.21	3.57	15.84	0	0	3	4
8	Merc 240D	24.4	4	146.7	62	3.69	3.19	20.0	1	0	4	2
9	Merc 230	22.8	4	140.8	95	3.92	3.15	22.9	1	0	4	2
10	Merc 280	19.2	6	167.6	123	3.92	3.44	18.3	1	0	4	4
11	Merc 280C	17.8	6	167.6	123	3.92	3.44	18.9	1	0	4	4
12	Merc 450SE	16.4	8	275.8	180	3.07	4.07	17.4	0	0	3	3
13	Merc 450SL	17.3	8	275.8	180	3.07	3.73	17.6	0	0	3	3
⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮
21	Toyota Corona	21.5	4	120.1	97	3.7	2.465	20.01	1	0	3	1
22	Dodge Challenger	15.5	8	318.0	150	2.76	3.52	16.87	0	0	3	2
23	AMC Javelin	15.2	8	304.0	150	3.15	3.435	17.3	0	0	3	2
24	Camaro Z28	13.3	8	350.0	245	3.73	3.84	15.41	0	0	3	4
25	Pontiac Firebird	19.2	8	400.0	175	3.08	3.845	17.05	0	0	3	2
26	Fiat X1-9	27.3	4	79.0	66	4.08	1.935	18.9	1	1	4	1
27	Porsche 914-2	26.0	4	120.3	91	4.43	2.14	16.7	0	1	5	2
28	Lotus Europa	30.4	4	95.1	113	3.77	1.513	16.9	1	1	5	2
29	Ford Pantera L	15.8	8	351.0	264	4.22	3.17	14.5	0	1	5	4
30	Ferrari Dino	19.7	6	145.0	175	3.62	2.77	15.5	0	1	5	6
31	Maserati Bora	15.0	8	301.0	335	3.54	3.57	14.6	0	1	5	8
32	Volvo 142E	21.4	4	121.0	109	4.11	2.78	18.6	1	1	4	2

Row	Model	MPG	Cyl	Disp	HP	DRat	WT	QSec	VS	AM	Gear	Carb	Год_выпуска
	String31	Float64	Int64	Float64	Int64	Float64	Float64	Float64	Int64	Int64	Int64	Int64	Int64
1	Mazda RX4	21.0	6	160.0	110	3.9	2.62	16.46	0	1	4	4	1982
2	Mazda RX4 Wag	21.0	6	160.0	110	3.9	2.875	17.02	0	1	4	4	1970
3	Datsun 710	22.8	4	108.0	93	3.85	2.32	18.61	1	1	4	1	1970
4	Hornet 4 Drive	21.4	6	258.0	110	3.08	3.215	19.44	1	0	3	1	1976
5	Hornet Sportabout	18.7	8	360.0	175	3.15	3.44	17.02	0	0	3	2	1970
6	Valiant	18.1	6	225.0	105	2.76	3.46	20.22	1	0	3	1	1982
7	Duster 360	14.3	8	360.0	245	3.21	3.57	15.84	0	0	3	4	1976
8	Merc 240D	24.4	4	146.7	62	3.69	3.19	20.0	1	0	4	2	1976
9	Merc 230	22.8	4	140.8	95	3.92	3.15	22.9	1	0	4	2	1982
10	Merc 280	19.2	6	167.6	123	3.92	3.44	18.3	1	0	4	4	1970
11	Merc 280C	17.8	6	167.6	123	3.92	3.44	18.9	1	0	4	4	1982
12	Merc 450SE	16.4	8	275.8	180	3.07	4.07	17.4	0	0	3	3	1970
13	Merc 450SL	17.3	8	275.8	180	3.07	3.73	17.6	0	0	3	3	1976
⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮
21	Toyota Corona	21.5	4	120.1	97	3.7	2.465	20.01	1	0	3	1	1970
22	Dodge Challenger	15.5	8	318.0	150	2.76	3.52	16.87	0	0	3	2	1976
23	AMC Javelin	15.2	8	304.0	150	3.15	3.435	17.3	0	0	3	2	1976
24	Camaro Z28	13.3	8	350.0	245	3.73	3.84	15.41	0	0	3	4	1970
25	Pontiac Firebird	19.2	8	400.0	175	3.08	3.845	17.05	0	0	3	2	1976
26	Fiat X1-9	27.3	4	79.0	66	4.08	1.935	18.9	1	1	4	1	1976
27	Porsche 914-2	26.0	4	120.3	91	4.43	2.14	16.7	0	1	5	2	1970
28	Lotus Europa	30.4	4	95.1	113	3.77	1.513	16.9	1	1	5	2	1970
29	Ford Pantera L	15.8	8	351.0	264	4.22	3.17	14.5	0	1	5	4	1982
30	Ferrari Dino	19.7	6	145.0	175	3.62	2.77	15.5	0	1	5	6	1970
31	Maserati Bora	15.0	8	301.0	335	3.54	3.57	14.6	0	1	5	8	1982
32	Volvo 142E	21.4	4	121.0	109	4.11	2.78	18.6	1	1	4	2	1970