使用多层神经网络进行分类

在这个例子中，我们将训练一个分类任务的神经网络，并将其放置在一个块中。 Engee Function，这将使我们能够轻松地将训练好的算法从一个模型转移到另一个模型。

神经网络训练

在这个问题中，我们将为标准异或问题的数据创建一个分类算法。创建向量 noisy 用一组输入数据 x1 和 x2，从0到1分布，并且向量 truth -我们期望从神经网络（操作）预测的结果 xor( (x1>0.5, x2>0.5)).

让我们在一个单元格中完成所有工作，然后将训练好的神经网络转移到画布上，并对代码进行所有解释。

Pkg.add(["Statistics", "Flux", "Symbolics"])

   Resolving package versions...
  No Changes to `~/.project/Project.toml`
  No Changes to `~/.project/Manifest.toml`

# Pkg。add("ChainPlots")#谨慎使用，版本之间存在不一致

using Flux, Statistics, Random
Random.seed!( 2 )           # 我们将确保学习过程的可控性

# 模型架构：两个完全连接的层，每个层中有少量神经元。
model = Chain(
      Dense(2 => 3, tanh),
      Dense(3 => 2),        # 类和神经网络输出一样多
      softmax )

# 生成输入数据
inputs = rand( Float32, 2, 1000 );                                   # 2×1000 Matrix{Float32}
truth = [ xor(col[1]>0.5, col[2]>0.5) for col in eachcol(inputs) ];  # 1000个元素的向量{Bool}

# 让我们为未来保存"未经训练"模型的预测。
probs1 = model( inputs );

# 数据准备和培训
targets = Flux.onehotbatch( truth, [true, false] );          # 将输出变量分解为logits并创建数据加载器
data = Flux.DataLoader( (inputs, targets), batchsize=64, shuffle=true );
opt_state = Flux.setup( Adam( 0.01 ), model );               # 优化过程设置和特定的损失函数
loss(ỹ, y) = Flux.crossentropy( ỹ, y )
accuracy(ỹ, y) = mean( Flux.onecold( ỹ ) .== Flux.onecold( y ))
loss_history, accuracy_history = [], []                      # 我们通过记录结果来提供培训
for i in 1:5000
    Flux.train!( model, data, opt_state) do m, x, y
        loss( m(x), y ) # 损失函数-数据集每个元素上的错误
    end
    push!( loss_history, loss( model(inputs), targets ) ) # 让我们记住损失函数的值和预测的准确性
    push!( accuracy_history, accuracy( model(inputs), targets ) )
end

# 训练后的模型预测
probs2 = model( inputs );

# 这是一个可用于评估培训质量的图表。
gr()
plot( [ loss_history, accuracy_history], size=(300,200), label=["loss" "accuracy"], leg=:right )

学习成果

我们专门保存了模型在训练前后的预测:

println( "训练前预测的准确性: ", 100 * mean( (probs1[1,:] .> 0.5) .== truth ), "%" )
println( "训练后的预测精度: ", 100 * mean( (probs2[1,:] .> 0.5) .== truth ), "%" )

Точность прогноза перед обучением: 50.4%
Точность прогноза после обучения: 97.1%

# 输出源数据的图形
p_true = scatter( inputs[1,:], inputs[2,:], zcolor=truth, title="初始数据" );
p_raw = scatter( inputs[1,:], inputs[2,:], zcolor=probs1[1,:], title="训练前的预测" );
p_done = scatter( inputs[1,:], inputs[2,:], zcolor=probs2[1,:], title="培训结束后" );

plot(p_true, p_raw, p_done, layout=(1,3), size=(700,200), titlefont=font(9), ms=3.5, legend=false, cbar=false )

将神经网络传输到Engee功能块

我们将通过将符号变量替换为其输入并获得符号表达式而不是输出来为该神经网络生成Julia代码。

让我们把它放在街区里 Engee Function 以获得可以复制并粘贴到任何其他模型中的块。

# 我们将生成一个新的图像放置在块的正面。
# （成功取决于当前版本的ChainPlots的稳定性）

# using ChainPlots
# p = plot( model,
# titlefontsize=10, size=(300,300),
# xticks=:none, series_annotations="", markersize=8,
# markercolor="white", markerstrokewidth=4, linewidth=1 )
# savefig( p, "$(@__DIR__)/neural_net_block_mask.png");

# 创建神经网络代码

using Symbolics
@variables x1 x2
s = model( [x1, x2] );

# 如果模型尚未在画布上打开，我们将加载它。
if "neural_classification" ∉ getfield.(engee.get_all_models(), :name)
    engee.load( "$(@__DIR__)/neural_classification.engee");
end

# 我们将放入Engee功能块的代码模板
code_strings = """
struct Block <: AbstractCausalComponent; end

# 神经网络有两个输出：s[1]和s[2]
nn(x1, x2) = ($(s[1]), $(s[2]))

# 计算神经网络的输出并返回分类结果：0或1
function (c::Block)(t::Real, x1, x2)
    # 每个类的"概率"
    c1, c2 = nn(x1, x2)
    # 根据分类结果计算输出值
    # -如果c1的概率较高，则会选择true（1）类
    # -如果概率高于c2，则将选择false（2）类
    return (c1 > c2) ? 1 : 0
end
"""

# 模型的哪个块应该包含神经网络代码？
block_address = "neural_classification/Engee Function"
engee.set_param!( block_address, "StepMethodCode" => code_strings)

# 更改后保存模型
engee.save( "neural_classification", "$(@__DIR__)/neural_classification.engee"; force = true )

Model(
	name: neural_classification
	id: 995f8eb6-3102-488a-8dac-5040e7bd1526
)

所需块的地址可以在该块的设置中复制，从信息面板上的路径到模型字段。

让我们运行模型并查看结果。:

model_data = engee.run( "neural_classification" );

# 准备输出变量
model_x1 = model_data["X1"].value;
model_x2 = model_data["X2"].value;
model_y = vec( hcat( model_data["Y"].value... ));

# 让我们建立一个图表
scatter( model_x1, model_x2, model_y, ms=2.5, msw=.5, leg=false, zcolor=model_y, c=:viridis,
         xlimits=(0,1), ylimits=(0,1), title="来自Engee功能块的预测", titlefont=font(10) )

守则的解释

# plot( model, size=(600, 350) )

让我们来看看分类的神经网络学习过程的几个特征，即:

*softmax功能,
*one-hot编码,
*创建数据加载器,
*损失函数"交叉熵",
*预测精度的计算。

模型=链(
      密集（2=>3，tanh）,
      密集(3=>2),
      softmax)

首先，你可以看到我们神经网络的任务是确定一个对象应该属于哪个类。

我们的神经网络不会将两个输入参数转换为一个输出变量。输出变量的数量等于类的数量。

请注意：最后一个FC层具有线性激活。在它之后有一些**"softmax层"**。 Softmax是对数字的操作，有时表现为激活。但在包 Flux 否则就接受了。它的本质是什么？ softmax?

Softmax将神经网络的输出值转换为概率。这些是二进制交叉熵损失函数的稍微更正确的输入（见下文）。

假设一个神经网络有 N 输出在输出层，之后是函数 softmax. 它需要每个输入值。 x_i，将其指数提升为幂 (）和每个值计算输出 . 输出函数将每个对于所有的总和在输出中，我们得到logits–严格的正数，其总和为1。

目标=通量。onehotbatch(真理,[真,假])

我们的分类器任务被组织起来，以便网络返回 [1, 0]，或 [0, 1]. 这是为什么？

想象一下，一个神经网络应该返回你一个类号，十有八九。如果神经网络错误并且返回2而不是1，则MSE返回error(2-1)=1。如果神经网络是错误的并且返回10而不是1，则MSE返回error(10-1)=9，尽管此错误通常不是比所有其他错误更严重的错误。我们需要建立在别的东西上。编码一个热允许您避免比较类号和比较网络"置信度"在特定类中的分布。

但在训练样本中，输出变量的值仍然是标量的。: true 和 false. 功能 onehot 将它们转换为两个值的向量: true 在 [1,0]，而 false 在向量上 [0,1].

数据=通量。DataLoader（（嘈杂，目标））

DataLoader -将数据馈送到神经网络的稍微更优雅的方法，该方法在将参数向量馈送到网络之前不需要转置参数向量。您也可以将参数传递给它。 shuffle = true 使样本在训练的每个epoch混合，以及 batchsize=64 以并行执行。这就是这个对象输入神经网络的元素的样子。:

data = Flux.DataLoader( (inputs, targets), batchsize=1 );
first( data )

(Float32[0.5859486; 0.54989403;;], Bool[0; 1;;])

正如我们所看到的，对象的第一个元素 DataLoader 它由两部分组成:

-特征向量-馈送到神经网络输入的标量值,
-预测向量-所需的类，按类型编码 one-hot.

损失(ζ,y)=通量。跨界(ỹ,y)

如上所述，有一条规则不能在分类任务中使用均方误差（MSE）。神经网络的学习速度非常慢，特别是如果分类是多类的。我们做什么回报？

如果分类任务按照我们的示例进行组织，那么交叉熵通常用作损失函数（crossentropy），或其二进制版本（binarycrossentropy）如果只有两个类。有时一个操作被排除在神经网络之外。 softmax 为了加快其操作，那么您可以通过指定在损失函数中执行 logitcrossentropy 或 logitbinarycrossentropy.

精度（ψ，y）=均值（通量。onecold（ỹ）。==通量。(y))

我们保持预测的准确性（准确性）-正确猜测值的百分比。功能 onecold 相对于执行反向操作 onehot. 运作 onehot-编码找到向量中最大的元素，并用输出向量中的数字1表示它，其中所有其他位置都是0。反过来，操作 onecold 查找输入向量中最大的元素，并在输出端输出单个值-与此元素对应的类标签（如果未指定标签，则为序数）。

这个函数可以更容易地定义，但是高级函数通常允许您避免大量错误或至少获得更有价值的错误消息。

不是每次发射都会导致一个好的结果，所以在这个例子的开始，我们设置了一些具体的 seed. 自动训练具有不同初始化的多个模型并选择最佳模型非常有用。或者，如果培训计划经常进行，并且在稍微不同的样本上进行（如数字双胞胎的情况），最好花更多时间创建更稳定的培训程序。例如，您可以设置正弦学习速率控制或添加批量归一化。

结论

我们训练了一个用于分类的神经网络，并将其定位在画布上，作为模型内的另一个块。

训练过程的代码非常简洁，可以减少到7行。块内的神经网络代码是自动生成的。

我们研究的用于训练神经网络的代码没有太多的*"超参数"*（由设计者配置的参数），它们可以手动排序，并且多层神经网络的表达能力非常高。

使用多层神经网络进行分类

神经网络训练

学习成果

将神经网络传输到Engee功能块

守则的解释

结论

示例中使用的块¶