线性判别分析(lda)

在这个例子中，我们将考虑将线性判别分析（lda）应用于"Fischer的虹膜"数据集。还将进行与主成分分析（PCA）的比较。

线性判别分析(lda)是一种统计分析方法，可让您找到线性特征组合，将观测值分成两类。

Pkg.add(["MultivariateStats", "RDatasets"])

   Resolving package versions...
  No Changes to `~/.project/Project.toml`
  No Changes to `~/.project/Manifest.toml`

让我们假设正类和负类的样本具有平均值:

（对于正类）,

（对于负面类）,
以及协方差矩阵和 .

根据线性判别的Fisher准则，由公式给出最优投影方向:

哪里 -任意非负系数。

安装和连接必要的库:

using MultivariateStats, RDatasets

从Fischer的Irises数据集下载数据:

iris = dataset("datasets", "iris")

从数据集中提取具有特征的观测对象矩阵 - X 以及这些对象的类向量 - X_labels:

X = Matrix(iris[1:2:end,1:4])'
X_labels = Vector(iris[1:2:end,5])

75-element Vector{CategoricalArrays.CategoricalValue{String, UInt8}}:
 "setosa"
 "setosa"
 "setosa"
 "setosa"
 "setosa"
 "setosa"
 "setosa"
 "setosa"
 "setosa"
 "setosa"
 "setosa"
 "setosa"
 "setosa"
 ⋮
 "virginica"
 "virginica"
 "virginica"
 "virginica"
 "virginica"
 "virginica"
 "virginica"
 "virginica"
 "virginica"
 "virginica"
 "virginica"
 "virginica"

让我们比较线性判别分析与PCA（主成分法）方法。

学习PCA模型:

pca = fit(PCA, X; maxoutdim=2)

PCA(indim = 4, outdim = 2, principalratio = 0.9741445733283195)

Pattern matrix (unstandardized loadings):
────────────────────────
         PC1         PC2
────────────────────────
1   0.70954    0.344711
2  -0.227592   0.29865
3   1.77976   -0.0797511
4   0.764206  -0.0453779
────────────────────────

Importance of components:
──────────────────────────────────────────────
                                PC1        PC2
──────────────────────────────────────────────
SS Loadings (Eigenvalues)  4.3068    0.216437
Variance explained         0.927532  0.0466128
Cumulative variance        0.927532  0.974145
Proportion explained       0.95215   0.04785
Cumulative proportion      0.95215   1.0
──────────────────────────────────────────────

将PCA应用于数据:

Ypca = predict(pca, X)

2×75 Matrix{Float64}:
 2.71359    2.90321   2.75875   …  -2.39001   -1.51972   -1.87717
 0.238246  -0.233575  0.228345      0.333917  -0.297498   0.0985705

学习LDA模型:

lda = fit(MulticlassLDA, X, X_labels; outdim=2);

将LDA应用于数据:

Ylda = predict(lda, X)

2×75 Matrix{Float64}:
 -0.758539  -0.685016  -0.773267  …   0.976876   0.790049   0.84761
 -0.766144  -0.703192  -0.79546      -1.0143    -0.682331  -1.01696

结果可视化:

using Plots
p = plot(layout=(1,2), size=(800,300))

for s in ["setosa", "versicolor", "virginica"]

    points = Ypca[:,X_labels.==s]
    scatter!(p[1], points[1,:],points[2,:], label=s)
    points = Ylda[:,X_labels.==s]
    scatter!(p[2], points[1,:],points[2,:], label=false, legend=:bottomleft)

end
plot!(p[1], title="PCA")
plot!(p[2], title="LDA")

结论:

PCA和LDA是具有不同目标的降维方法：PCA最大化全局数据方差，适用于没有类标签的可视化，而LDA使用标签信息优化类分离，这使得它对分类任务有效。在使用Fischer虹膜的示例中，LDA提供了投影中类的清晰分离，而PCA保留了一般数据结构，但具有重叠类。方法的选择取决于任务：PCA-用于数据分析，LDA-用于在存在标记类的情况下改进分类。

Row	SepalLength	SepalWidth	PetalLength	PetalWidth	Species
	Float64	Float64	Float64	Float64	Cat…
1	5.1	3.5	1.4	0.2	setosa
2	4.9	3.0	1.4	0.2	setosa
3	4.7	3.2	1.3	0.2	setosa
4	4.6	3.1	1.5	0.2	setosa
5	5.0	3.6	1.4	0.2	setosa
6	5.4	3.9	1.7	0.4	setosa
7	4.6	3.4	1.4	0.3	setosa
8	5.0	3.4	1.5	0.2	setosa
9	4.4	2.9	1.4	0.2	setosa
10	4.9	3.1	1.5	0.1	setosa
11	5.4	3.7	1.5	0.2	setosa
12	4.8	3.4	1.6	0.2	setosa
13	4.8	3.0	1.4	0.1	setosa
⋮	⋮	⋮	⋮	⋮	⋮
139	6.0	3.0	4.8	1.8	virginica
140	6.9	3.1	5.4	2.1	virginica
141	6.7	3.1	5.6	2.4	virginica
142	6.9	3.1	5.1	2.3	virginica
143	5.8	2.7	5.1	1.9	virginica
144	6.8	3.2	5.9	2.3	virginica
145	6.7	3.3	5.7	2.5	virginica
146	6.7	3.0	5.2	2.3	virginica
147	6.3	2.5	5.0	1.9	virginica
148	6.5	3.0	5.2	2.0	virginica
149	6.2	3.4	5.4	2.3	virginica
150	5.9	3.0	5.1	1.8	virginica