确定部分样本的分布参数

在这个例子中，我们将把样本分成两部分，用一个单独的概率密度函数近似每一半，使用最小二乘法找到每个函数的参数。

创建选择

我们的样本将是区间[-20,20]中布朗运动过程的模型。粒子转变以相等的概率向左和向右发生，路径长度由具有给定单位平均值的指数分布确定。

我们将通过从区域中心发射100,000个轨迹来获得这一过程的一组实现。

Pkg.add(["Distributions", "Statistics", "Random",
         "StatsBase", "Measures", "HypothesisTests", "LsqFit"])

a = -20
b = 20
λ = 1

using Random
Random.seed!(2)

Ntraj = 100_000  # 计算轨迹数
Nc = []          # 轨迹长度集
NtrajList = []   # 粒子轨迹的坐标列表

for i in 1:Ntraj
    x = 0
    k = 0
    if length(NtrajList) < 200 push!( NtrajList, [] ); end
    while a < x < b
        r1,r2 = rand(2)
        dx = -log(r2) / λ
        if( r1 < 0.5 ) x -= dx; else x += dx; end;
        k += 1;
        # 让我们将前200个轨迹保存在内存中
        if length(NtrajList) < 200 push!( NtrajList[end], x ); end
    end
    Nc = push!( Nc, k )
end

Nc = Float64.( Nc );

我们必须翻译矢量 Nc 类型 Float64，没有它，我们经常会收到向量可能包含类型的数据的警告 Nothing 或 Missing 即使他们实际上不在那里。

让我们打印前几百个轨迹。

gr()

plot()
for traj in NtrajList
    plot!( 1:length(traj), traj, c=1 )
end

using Measures
plot!( legend=:false, size=(1000,400), xlabel="仿真步骤", ylabel="粒子位置", left_margin=10mm, bottom_margin=10mm )

我们可以看到，一些粒子在受控空间中已经存在了很长时间（最多800个周期或更长时间），但大多数情况下，它们在模拟开始的前一百个步骤中离开了它。

让我们找到这个样本的统计参数:

using Statistics
Nave = mean( Nc ); # 的平均值
Nd = std( Nc );    # 方差

histogram( Nc, xlims=(0,1000), normalize=true, label="数据资料" )
vline!( [Nave], lw=4, lc=2, label = "平均" )
vline!( [Nave+Nd], lw=3, lc=3, label=:none )
vline!( [Nave-Nd], lw=3, lc=3, label=:none )

要检查这个样本，算术平均值是不够的。我们需要猜测哪个函数负责观察过程结果的分布。首先，让我们假设我们面前有一个对数正态分布。

using Distributions

dist0 = fit( LogNormal, Nc )
x1 = 10:1000

histogram( Nc, xlims=(0,1000), normalize=true, label="数据资料" )
plot!( x1, pdf.( dist0, x1 ), lw=4, lc=2, label="对数正态分布" )

直方图的右尾在外观上与找到的对数正态分布的曲线明显不同。

让我们将数据分成两个样本

让我们试着分别研究两个样本。为此，我们将样本分成两半（在最大值之前和之后），并找到两个分布函数的参数。首先，分布的最大值在哪里？

xx = range( 10, 1000, step=8 )        # 直方图间隔
xc = xx[1:end-1] .+ (xx[2]-xx[1])/2   # 间隔中心

# dist_h=fit(Histogram,Nc,xx)。权重;#直方图的最大值由于异常值而没有给出最佳估计值,
dist_h = pdf.( dist0, x1 )                  # 因此，让我们取对数正态函数的最大值

m,i = findmax( dist_h )
Nc_mid = x1[i]

88

让我们分开两个子样本:

Nc1 = Nc[ Nc .<= Nc_mid ];
Nc2 = Nc[ Nc .> Nc_mid ];

我们独立地近似这两个样本，一个接一个。让我们基于它们构建直方图。注意论点 bins –如果不指定，系统将为每个样本选择不同的间隔大小，并且由于我们有不同的样本大小，密度图将相对于间隔大小异常。

histogram( Nc1 )
histogram!( Nc2, size=(600,150) )

histogram( Nc1, bins=1:10:Nc_mid, label="样品的左半部分" )
histogram!( Nc2, bins=Nc_mid+1:10:1000, label="样品的右半部分" )

现在我们有绘制直方图后获得的每个区间的权重。

using StatsBase

# 直方图的间隔边界
x1 = 10:Nc_mid
x2 = Nc_mid+1:1000

# 间隔中心
c1 = x1[1:end-1] .+ (x1[2]-x1[1])/2
c2 = x2[1:end-1] .+ (x2[2]-x2[1])/2

# 直方图值（第三个参数是区间边界）
w1 = fit( Histogram, Nc1, x1 ).weights;
w2 = fit( Histogram, Nc2, x2 ).weights;

# 归一化直方图（使用Nc的整个长度而不是单个尾巴的长度归一化很重要）
w1n = w1 ./ length(Nc);
w2n = w2 ./ length(Nc);

plot( c1, w1n, label="样品的左半部分" )
plot!( c2, w2n, label="样品的右半部分" )

但它们中的每一个仅代表用于构造直方图的数据的一部分。基于这些数据，不可能完全找到分布参数，因为我们的样本有限。

plot( c1, w1n, label="样品的左半部分" )
plot!( c2, w2n, label="样品的右半部分", size=(600,180) )

dist1 = fit( LogNormal, Nc1 )
dist2 = fit( Exponential, Nc2 )

plot!( c1, pdf.( dist1, c1 ), lw=4, label="对数正态分布" )
plot!( c2, pdf.( dist2, c2 ), lw=4, label="指数分布" )

但另一方面，如果我们将其设置为必须通过所呈现的点的函数，我们可以找到分布参数。

左侧选择的参数

假设分布的左侧遵循对数正态定律。此分布具有以下概率密度公式:

这个公式有两个参数 – 和，我们将不得不形成向量的元素 p (p[1] 和 p[2]).

我们将找到这条曲线的参数，条件是它应该尽可能接近地通过可用点。

# 让我们通过选择函数参数（而不是分布）来编写函数
using LsqFit

# 这些函数必须为向量参数编写，所以@。 开始时（这样所有的操作都是。*, .+等。)
@. lognormDist( x, p ) = (1 / (x * p[2] * sqrt(2π) )) * exp(-(log(x) - p[1])^2 / (2p[2]^2));

p0 = [1.0, 1.0];
af1 = curve_fit( lognormDist, c1, w1n, p0 );

af1.param

2-element Vector{Float64}:
 5.0813235614097465
 0.8009541756702706

我们选择了分布参数，这些参数给我们一个与内置函数给出的概率密度非常相似的概率密度。 LogNormal.

plot( c1, lognormDist(c1, af1.param), label="我们的LogNorm函数", legend=:topleft )
plot!( c1, pdf.(LogNormal(af1.param[1], af1.param[2]), c1), label="Lognorm密度的标准功能" )
plot!( c1, w1n, label="我们用来构建分布的直方图", legend=:bottomright )

正确选择的参数

让我们尝试将样本的"右"半部分的点拟合成指数概率密度函数。:

有时这种分布是使用单参数函数构造的，但在我们的例子中，如果 .

@. expDist( x, p ) = p[1] * exp( -p[2]*x );

p0 = [ 0.1, 0.1]; # 一切都非常依赖于初始参数。 当值超过0.5时，模型不会收敛。
af2 = curve_fit( expDist, c2, w2n, p0 );

af2.param

2-element Vector{Float64}:
 0.00685261267119607
 0.005432207598447344

由于我们使用迭代方法使用给定函数来近似样本，因此我们需要指定解的初始近似值。 p_0，其中的选择往往决定了我们的算法是否会收敛。

plot( c2, expDist(c2, af2.param), label="指数分布" )
plot!( c2, w2n, label="我们用来搜索参数的直方图" )

两个部件都兼容

如果我们把这两个函数放在同一个图上，我们得到了与原始直方图相当好的匹配，因为我们可以在包的帮助下进行验证。 HypothesisTests.

stephist( Nc, xlims=(10,1000), bins = 10:5:1000, normalize=true, label="初始数据", fill=true, fillalpha=0.3, color=:black, fillcolor=1 )
plot!( [c1; c2], pdf.( dist0, [c1; c2] ), lw=3, lc=2, ls=:dash, label="对数正态分布" )
plot!( [c1; c2], [lognormDist(c1, af1.param); expDist(c2, af2.param)], lw=3, lc=:black, ls=:dash, label="找到的分布密度" )

让我们来评估这个解决方案的质量。

我们实际上已经在样本中写了一个分段线性函数。现在让我们评估残余误差，无论是视觉上还是使用学生的标准。

using HypothesisTests

yy1 = pdf.( dist0, [c1; c2] )
yy2 = [ lognormDist(c1, af1.param); expDist(c2, af2.param) ]
yy3 = [w1n; w2n]

plot(
    plot( yy1 .- yy3, size=(600,250), lc=2,
        label="Lognorm (pvalue = $(round(pvalue(OneSampleTTest(yy1 .- yy3)),digits=3)))" ),
    plot( yy2 .- yy3, size=(600,250), lc=1,
        label="Lognorm + Exponential (pvalue=$(round(pvalue(OneSampleTTest(yy2 .- yy3)),digits=3)))" ),
    layout=(2,1)
)

第二误差图看起来更均匀。

-值表明我们考虑了更多的系统效应，并且样本和我们编译的函数之间的误差比样本和分布函数之间的误差更接近正态分布的随机变量。 LogNorm.

结论

我们解决了一个应用程序问题，我们需要在示例中拟合几个函数。因此，我们构建了一个复杂的分布函数来描述物理实验的结果。