从 Excel 中读取数据并建立模型¶
需要分析的数据往往不是来自抽象的存储库或数据库,而是一些表格格式文件。在某些行业,首选格式是 CSV,而在其他情况下,数据是在标准表格编辑器中创建的。
在本演示中,我们将学习如何从 Excel 电子表格中加载数据并绘制图表,然后从中建立模型。
读取整个文件¶
对于大多数命令,我们都需要以下已内置到环境中的库。我们只需指定要使用这些库命名空间中的命令即可。
Pkg.add(["Interpolations", "XLSX", "GLM", "Optim"])
using XLSX, DataFrames
一个 Excel 文件可能包含多个电子表格。大多数情况下,我们只使用其中的第一张表,它被称为Лист1
或Sheet1
(但也可能被称为其他名称)。
读取整个文件将返回一个包含多个表格的对象,每个表格都在单独的工作表上。
xf = XLSX.readxlsx( "table_simple_example.xlsx" )
我们可以通过显示工作表列表再次看到这一点。
XLSX.sheetnames(xf)
如果已经使用readxlsx
命令打开了文件,则可以使用附加命令分隔所需的工作表。
sh = xf["Лист1"]
或者使用更快的命令。
从表格中读取单张纸¶
您可以使用标准库命令XLSX
单独读取每个工作表。
XLSX.readtable( "table_simple_example.xlsx", "Лист1" )
您可以将表格表单输入DataFrame
格式,并使用该库的方法处理数据。
DataFrame( XLSX.readtable( "table_simple_example.xlsx", "Лист1" ) )
xdf = Float32.(DataFrame( XLSX.readtable( "table_simple_example.xlsx", "Лист1" ) ))
但当数据代表一组对象及其属性列表时,这样做才有意义。有时,表格只包含一个数字矩阵,这时最好使用标准数据类型Matrix
来处理。
xm = XLSX.readdata( "table_simple_example.xlsx", "Лист1", "A2:C4" )
选择正确的数据类型可以简化表格或矩阵的进一步处理。
gr()
wireframe( xm )
在新的计算网格上计算数据(插值)¶
现在,我们已经掌握了在某个坐标系中定义的数据表,我们可以使用样条曲线对其进行插值并建立模型。
xm = vec( Float32.( XLSX.readdata("table_matrix_example.xlsx", "Лист1", "B1:D1") ))
ym = vec( Float32.( XLSX.readdata("table_matrix_example.xlsx", "Лист1", "A2:A4") ))
zm = Float32.( XLSX.readdata("table_matrix_example.xlsx", "Лист1", "B2:D4") )
wireframe( xm, ym, zm )
using Interpolations
# Переводим описание системы координат из векторов в набор диапазонов
xSrc = range( minimum(xm), maximum(xm), step=xm[2]-xm[1] )
ySrc = range( minimum(ym), maximum(ym), step=ym[2]-ym[1] )
# Строим модель, которая предскажет нам значения на новой сетке
cubInt = cubic_spline_interpolation( (xSrc, ySrc), zm )
# Задаем новую расчетную сетку
xRange = range( minimum(xm), maximum(xm), 50 )
yRange = range( minimum(ym), maximum(ym), 50 )
zIntRes = cubInt(xRange, yRange)
# Визуализируем результат
surface( xRange, yRange, zIntRes, fillalpha=0.2 )
wireframe!( xRange, yRange, zIntRes )
我们已经使用三次样条曲线进行了插值。如果原始数据点位于一个坐标系中,但 X 和 Y 缺口不规则,我们就只能通过线性插值(或 "近邻 "模型)来建立模型。
函数逼近和最小搜索¶
在对数据进行直观分析后,您可以猜测哪个函数可以方便地逼近数据。这需要一些经验和与数据的交互式工作。
假设我们已经验证了二次函数可以很好地表示数据。让我们构建一个多项式,以便更准确地找到输出参数的预期值,使所研究过程的目标值最小。
using GLM
# Подготовим данные: представим таблицу как список отдельных точек данных
xx = Float64.(repeat( collect(xSrc), outer = length(ySrc) ))
yy = Float64.(repeat( collect(ySrc), inner = length(xSrc) ))
zz = Float64.(vec(reshape(zm', 1, :)))
# Создадим объект DataFrame
data = DataFrame( X = xx, Y = yy, Z = zz )
# Построим модель с двумя входными параметрами
model = lm( @formula(Z ~ X + Y + X^2 + Y^2 + X*Y), data )
# Задаем новую расчетную сетку
dx = 2 * abs(maximum(xm) - minimum(xm))
dy = 2 * abs(maximum(ym) - minimum(ym))
xRange = range( minimum(xm) - dx, maximum(xm) + dx, 50 )
yRange = range( minimum(ym) - dy, maximum(ym) + dy, 20 )
# Визуализируем результат
xx = repeat( collect(xRange), outer = length(yRange) )
yy = repeat( collect(yRange), inner = length(xRange) )
zz = reshape( GLM.predict(model, (;X=xx,Y=yy)), length(xRange), :)
# Построим графики
surface( xRange, yRange, zz', fillalpha=0.2, xlabel="x", ylabel="y", zlabel="z" )
wireframe!( xRange, yRange, zz' )
使用GLM
创建的模型接受点云作为输入(如您所见,我们使用的是一维向量形式的数据Vector
),并允许我们在不进行任何额外设置的情况下进行推断。
寻找最小点¶
这两个对象都可以让我们找到函数的最小点,我们可以从表格中得到函数的描述。
using Optim
opt = optimize( x->GLM.predict( model,(;X=[x[1]],Y=[x[2]]) )[1], [0.0,0.0] )
(x_min, y_min) = Optim.minimizer( opt )
surface( xRange, yRange, zz', xlabel="x", ylabel="y", zlabel="z", c=:viridis, zcolor=zz' )
scatter!( [x_min], [y_min], [GLM.predict( model,(;X=[x_min],Y=[y_min]) )[1]],
camera = (30,50), legend=false, cbar=false )
我们得到了一个标有最小值的图形。
将数据写入 Excel 文件¶
要将分析结果保存到另一个 Excel 电子表格中,请使用以下命令:
XLSX.openxlsx( "table_write_example_1.xlsx", mode="w" ) do xf
# Поместим матрицу на первый лист
XLSX.rename!( xf[1], "Лист1" )
xw = reshape(xx, 1, :) # Сделаем матрицы из векторов
for ind in CartesianIndices(xw)
XLSX.setdata!( xf["Лист1"], XLSX.CellRef( ind[1], ind[2]+1 ), xw[ind])
end
yw = reshape(yy, :, 1)
for ind in CartesianIndices(yw)
XLSX.setdata!( xf["Лист1"], XLSX.CellRef( ind[1]+1, ind[2] ), yw[ind])
end
zw = zz
for ind in CartesianIndices(zw)
XLSX.setdata!( xf["Лист1"], XLSX.CellRef( ind[1]+1, ind[2]+1 ), zw[ind])
end
# На второй лист поместим DataFrame
XLSX.addsheet!( xf, "Лист2" )
XLSX.writetable!( xf["Лист2"], eachcol(xdf), names(xdf); anchor_cell=XLSX.CellRef("A1"))
end
或者使用更短的命令--将DataFrame
保存在一个表格中:
XLSX.writetable( "table_write_example_2.xlsx", xdf, overwrite=true )
要将Matrix
或Vector
对象保存为表格格式,使用CSV
格式更为常见。
结论¶
在本例中,我们学习了如何读取 Excel 电子表格格式的文件。我们将它们转换成了不同的格式:
- 最适合分析表格数据的格式
DataFrame
*Matrix
格式,可将源表中的一组数字作为矩阵处理。
我们还演示了如何对从 Excel 文件读取的数据进行插值和近似计算,以及如何保存结果。