确定随机森林模型的影响要素

导言

在现代数据分析中，预测连续量的任务在各种应用领域中占据中心位置，从经济学和生物信息学到汽车工程和能源。解决此类问题最广泛使用的方法之一是Random Forest，这是Leo Breiman在2001年提出的集成机器学习算法。

随机森林是回归树的集合，每个回归树都基于源数据的独立样本。这里的基本元素是回归树，一种"决策树"类型的分层结构，在节点处，特征空间被依次划分为更均匀的区域。整合是基于这样一个想法，即将许多简单模型组合成一个组合可以比单独使用它们中的任何一个更高的准确性和稳定性预测。

构建决策树时的一个单独问题是数据中存在缺失值。采用代理拆分机制来解决。当主要特征由于遗漏而无法进行最佳分区时，算法会自动选择一个替代特征，其分区尽可能模仿原始特征。

此示例显示了在构建回归随机林时选择分区条件的策略。该分析解决了识别对模型的预测能力做出最大贡献的关键预测因子的问题，这证明了它们必须包含在最终训练数据集中的理由。

初始数据

我们将附加必要的文件和库。

# EngeePkg.purge()
# import Pkg
# Pkg.add(["DataFrames", "XLSX", "CategoricalArrays", "MLJ", "MLJDecisionTreeInterface", "StableRNGs", "EvoTrees", "DecisionTree", "Statistics", "Random", "PyPlot"])
using DataFrames, XLSX, CategoricalArrays, MLJ, MLJDecisionTreeInterface, StableRNGs, EvoTrees, DecisionTree, Statistics, Random, PyPlot
foreach(include, filter(contains(r"\.jl$"), readdir()))

包含乘用车特性的数据集用于分析。作为研究的一部分，正在建立一个回归模型，根据以下参数预测燃料消耗:

*气缸数;
*发动机排量;
*电源;
*车辆重量;
*加速时间;
*发行年份;
*原产国。

X = XLSX.readdata("автомобили.xlsx系列", "Sheet1", "A:G")
X = DataFrame(X[2:end, :], Symbol.(X[1, :]))

载燃料消耗数据。

расход_ = XLSX.readdata("支出。xlsx系列", "Sheet1", "A:A") 
费用=解析。(Float64,flow_[2:结束])

406-element Vector{Float64}:
  18.0
  15.0
  18.0
  16.0
  17.0
  15.0
  14.0
  14.0
  14.0
  15.0
 NaN
 NaN
 NaN
   ⋮
  25.0
  38.0
  26.0
  22.0
  32.0
  36.0
  27.0
  27.0
  44.0
  32.0
  28.0
  31.0

部分车辆缺乏油耗数据。这将在进一步的计算中考虑到。

确定唯一要素值的数量

让我们从数据集中确定每个要素的唯一值的数量。

对于名称中的列(X)
    try
        X[！,column]=[getdata(val)for Val in X[!,栏目]]
    catch e
        X[！,列]=categorical(X[!,列])
    end
end
unique=[length(unique(skipmissing(X[!,列])))对于名称中的列(X)]

7-element Vector{Int64}:
   5
  83
  94
 356
  96
  13
   7

让我们使用条形图比较唯一值。

图1=图。酒吧（1：长度（唯一），唯一, 
    title = "唯一值数",
    ylabel = "唯一值",
    xticks=（1：长度（唯一），名称（X）[1：结束]）,
    ylims=（0，最大值（唯一）*1.1）,
    xrotation = 45,
    legend = false,
    bar_width = 0.7,
    color = :steelblue)
显示(图1)

该图显示唯一特征值的数量存在显着差异。这样的差异在使用用于在随机森林树的节点处选择分裂变量的标准算法时产生偏置估计的风险，因此，要形成回归树的合奏，必须考虑到特征之间的关

回归树合奏的形成

为了评估特征重要性的指标，有必要训练由回归树组成的合奏，同时考虑到特征之间的关系。让我们创建一个训练样本。

X_matrix = zeros(Float64, nrow(X), ncol(X))
col_names = names(X)

for (j, col) in enumerate(eachcol(X))
    if eltype(col) <: String || eltype(col) <: CategoricalValue
        unique_vals = unique(col)
        val_to_num = Dict(val => i for (i, val) in enumerate(unique_vals))
        X_matrix[:, j] = [Float64(val_to_num[x]) for x in col]
    else
        X_matrix[:, j] = Float64.(col)
    end
end

train_idx=。!伊斯南。(费用)
X_train = X_matrix[train_idx, :]
y_train=流量[train_idx]

println("训练样本大小：$(size(X_train,1))行")
println("属性数:$(size(X_train,2))")

Размер обучающей выборки: 398 строк
Количество признаков: 7

让我们完成合奏训练。

Random.seed!(1)
树=200
树木，yHat_train=build_forest（y_train，X_train，0，树木，0.632，-1，5，2）
valid_pred_idx = .!isnan.(yHat_train)
if sum(valid_pred_idx) > 0
    R2 = cor(y_train[valid_pred_idx], yHat_train[valid_pred_idx])^2
    println("R² = ", R2)
end

R² = 0.8713331235365577

判定系数的值这表明模型解释了目标变量相对于平均值的87％的传播。

属性影响的评估

特征的影响是通过重新排列合奏树之间的样本外观测值来估计的。

重要性=排列_importance（树，X_train，y_train，5）;

意义 важность 它是一个1×7向量，包含初始特征影响的估计值。所获得的估计的一个特征是对具有大量唯一值的特征没有偏见。让我们比较所获得的指标的影响的迹象。

图2=图。bar（重要性, 
    title = "迹象影响的指标",
    xlabel = "迹象",
    ylabel = "影响",
    xticks=（1：长度（唯一），名称（X）[1：结束]）,
    ylims=(0,最大值(重要性)*1.1),
    xrotation = 45,
    legend = false,
    bar_width = 0.7,
    color = :steelblue)
显示(图2)

较高的估计值对应于较有影响力的预测变量。根据条形图，汽车的制造年份具有最大的预测价值，其次是汽车的重量。

让我们以颜色矩阵的形式显示特征关系的估计值。

график3 = imshow(predAssociation, cmap="viridis", aspect="auto", interpolation="nearest")
title("特征关系的评估")
colorbar(label="的关系")
PyPlot.xticks(0:length(col_names)-1, col_names, rotation=45, ha="right")
PyPlot.yticks(0:length(col_names)-1, col_names)
显示(图3)

PyObject <matplotlib.image.AxesImage object at 0x7f317892a990>

关系的预测度量是表征用于划分观测值的决策规则之间的相似程度的指标。此度量的最大值是为最佳代理拆分而实现的。

矩阵元素允许我们得出特征之间关系强度的结论：较高的值表示相应特征之间的相关性较强。

结论

此示例演示了一种构建回归随机林的方法，重点是正确选择有影响力的要素。使用一组汽车特性的示例，解决了预测油耗的问题-汽车行业的典型问题，其中模型的准确性影响工程解决方案。
代理拆分机制使得能够正确地处理数据间隙并构建特征关系矩阵，从而对数据中的依赖关系结构提供有意义的解释。

所提出的方法是普遍的，适用于广泛的领域：从机械工程到生物信息学。主要的实际结论是，在选择分区标准时正确考虑变量的性质，可以提高预测的准确性，并获得关于不受统计偏差影响的因素的显着性的有意义的结论。

Row	Цилиндров	Объём	Мощность	Масса	Разгон	Год	Страна
	Any	Any	Any	Any	Any	Any	Any
1	8	307	130	3504	12	70	USA
2	8	350	165	3693	11.5	70	USA
3	8	318	150	3436	11	70	USA
4	8	304	150	3433	12	70	USA
5	8	302	140	3449	10.5	70	USA
6	8	429	198	4341	10	70	USA
7	8	454	220	4354	9	70	USA
8	8	440	215	4312	8.5	70	USA
9	8	455	225	4425	10	70	USA
10	8	390	190	3850	8.5	70	USA
11	4	133	115	3090	17.5	70	France
12	8	350	165	4142	11.5	70	USA
13	8	351	153	4034	11	70	USA
⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮
395	6	181	110	2945	16.4	82	USA
396	6	262	85	3015	17	82	USA
397	4	156	92	2585	14.5	82	USA
398	6	232	112	2835	14.7	82	USA
399	4	144	96	2665	13.9	82	Japan
400	4	135	84	2370	13	82	USA
401	4	151	90	2950	17.3	82	USA
402	4	140	86	2790	15.6	82	USA
403	4	97	52	2130	24.6	82	Germany
404	4	135	84	2295	11.6	82	USA
405	4	120	79	2625	18.6	82	USA
406	4	119	82	2720	19.4	82	USA