不同计算器上的矩阵乘法

在此示例中，我们将向您展示如何使用工具包研究代码性能。 BenchmarkTools 让我们比较它在CPU和GPU上的执行。

连接到GPU

目前，GPU资源对用户的可用性仍然是Engee平台的一个高级功能。 GPU是一种图形显卡，允许您通过在位于图形协处理器内部的数万个计算内核上运行它来显着并行化代码执行。

使用GPU的主库是 CUDA.jl. 让我们安装这个库，并用它来评估代码性能的工具包（包 BenchmarkTools).

# 如果以不同的方式安装库，请注释掉此行。
Pkg.add( url="https://github.com/JuliaBinaryWrappers/CUDA_Runtime_jll.jl.git" )
Pkg.add( ["CUDA", "cuDNN", "Flux", "BenchmarkTools"] );
Pkg.instantiate()

Cpu上的矩阵乘法

让我们看看在常规处理器上矩阵乘法平均需要多长时间。

N = 1_000

A = rand(ComplexF64, (N,N))
B = rand(ComplexF64, (N,N))

using BenchmarkTools
@benchmark A*B

BenchmarkTools.Trial: 11 samples with 1 evaluation per sample.
 Range (min … max):  384.014 ms … 500.289 ms  ┊ GC (min … max): 0.00% … 0.00%
 Time  (median):     496.367 ms               ┊ GC (median):    0.00%
 Time  (mean ± σ):   462.194 ms ±  50.123 ms  ┊ GC (mean ± σ):  0.00% ± 0.00%

            ▁                                               ▁ █  
  ▆▁▁▁▁▁▁▁▁▁█▆▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▆█▁█ ▁
  384 ms           Histogram: frequency by time          500 ms <

 Memory estimate: 15.26 MiB, allocs estimate: 2.

执行此单元格可能需要相当长的时间，因为命令 @benchmark 多次运行分配给她的操作，以消除朱莉娅固有的"热身"效果。当代码意外显示尽可能低的性能时，它还可以减少罕见条件的影响。

在这种特殊情况下，实验表明，将1000乘以1000个复数矩阵平均需要300毫秒。

GPU上的矩阵乘法

要将图形卡上的矩阵相乘，需要将它们转移到它，这可以通过多种方式完成。例如，使用命令 A |> gpu 但是，由于系统中可能没有GPU，我们将检查计算空间的配置并选择可用的计算机。

转移矩阵后 Matrix 现在他们是对象 CuArray. 它们的乘法在没有额外代码的情况下执行（由于乘法运算符的重载）。但乘以矩阵 A_gpu 在矩阵上 B 我们不能这样做，而不将两个矩阵转移到同一个计算器（否则你会得到一个错误 KernelError: kernel returns a value of type Union{}).

using CUDA, Flux

if CUDA.functional()
    A_gpu = A |> gpu
    B_gpu = B |> gpu
    @benchmark A_gpu * B_gpu
end

BenchmarkTools.Trial: 9878 samples with 1 evaluation per sample.
 Range (min … max):   41.620 μs … 349.520 ms  ┊ GC (min … max): 0.00% … 94.80%
 Time  (median):     492.424 μs               ┊ GC (median):    0.00%
 Time  (mean ± σ):   503.189 μs ±   3.522 ms  ┊ GC (mean ± σ):  6.78% ±  0.98%

                                                            █    
  ▃▂▂▂▂▁▁▁▁▁▂▁▁▁▁▁▁▁▁▂▁▁▁▁▁▁▁▂▁▁▁▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▂▁▁▂▁▂▂▂▂▂▃█▆▃ ▂
  41.6 μs          Histogram: frequency by time          509 μs <

 Memory estimate: 1.62 KiB, allocs estimate: 71.

GPU上的最小操作时间几乎比GPU上的最小计算时间少10,000倍（41微秒对384毫秒）。

结论

Julia允许您将计算传输到GPU，以便可以多次加速各种应用的计算，而无需重写其代码。我们在处理器和显卡上进行了矩阵乘法，并确定了1000乘1000的方阵，由随机复数组成，显卡比CPU快几万倍。