英伟达的GPU(3)

原创

Transofomer周 2024-05-25 12:38:53 ©著作权

文章标签 Core 矩阵乘法 CUDA 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者Transofomer周的原创作品，请联系作者获取转载授权，否则将追究法律责任

上节内容：英伟达的GPU(2) (qq.com)

书接上文，上文我们讲到CUDA编程体系和硬件的关系，也留了一个小问题CUDA core以外的矩阵计算能力是咋提供的

本节介绍一下Tensor Core

执行矩阵运算的逻辑，基本就是矩阵的一条横向量*另一个矩阵的列向量（逻辑上可以这么认为）

英伟达的GPU(3)_矩阵乘法

:11

core 来处理矩阵运算的逻辑，蓝色的矩阵和紫色的矩阵分别代表两个矩阵，然后他俩做点积的时候，基本就是一个横向量*一个列向量。

我们把这个过程细化一下：

两个矩阵A和B，他俩点乘等于一个C，写出来其实就是这样的

英伟达的GPU(3)_Core_02

I和J代表行和列的角标，k就是算到第几轮计算了。

这个好理解吧。

虽然宏观上我们说是向量点乘向量，但是微观上，其实还是一个格子对一个格子的算。

CUDA Core 实现矩阵乘法

矩阵分块：将大矩阵划分成适合 CUDA 核心处理的小块（block）。通常每个 block 是一个二维块，其中包含多个线程（thread）。例如，16x16 或 32x32 的 block 大小是常见的选择。
线程分配：每个线程块中的线程负责计算结果矩阵 C 中一个小块的元素。例如，一个 16x16 的 block 会有 256 个线程，每个线程计算 C 中一个 16x16 小块中的一个元素。
并行计算：每个线程独立执行矩阵乘法的部分计算。具体来说，每个线程计算一个元素Cij，它需要遍历矩阵 A 的第 i 行和矩阵 B 的第 j 列，进行乘法和累加操作。
共享内存：为了提高性能，CUDA 核心利用共享内存。共享内存是一种高速缓存，允许同一个 block 内的线程共享数据。（这我后面讲Cache和显存那块会细讲）矩阵的分块计算过程中，子矩阵会被加载到共享内存中，减少全局内存访问次数，提高计算效率。

具体计算步骤

分配线程和块：

定义网格（grid）和块（block）的尺寸。（这块看不懂的，去看我上一节讲的CUDA编程线程分级体系）
将计算任务分配给每个块和线程。

加载数据到共享内存：

每个线程块加载一小块矩阵 A 和 B 到共享内存中。
这些小块矩阵被多次重复使用，减少对全局内存的访问。

计算并累加结果：

每个线程计算其负责的结果矩阵 C 中一个元素。
进行多次小块矩阵乘法的累加，直到完成整个矩阵乘法运算。

写回结果：

计算完成后，将结果写回全局内存中的结果矩阵 C。

用代码表示：

英伟达的GPU(3)_Core_03

），但是当年V系列推出的时候还是很惊艳的，现在其实也很猛，但是主要是连年的性能提高。

Tensor Core除了对比图中展示的，直接矩阵*矩阵，在一个单位的时钟里面能提供尽可能多的计算能力以外，还有就是可以支持16和32的混合精度能力

英伟达的GPU(3)_Core_04

如上图所示，在V100刚出的时候就推出了这个功能。

每个 Tensor Core 4x4x4 GEMM，就相当于64 个 FMA。

比如对于运算D=A*B+C，其中A、B、C 和 D 是 4×4矩阵。矩阵乘法输入 A 和 B 是 FP16矩阵，而累加矩阵 C 和 D我就不非得要求是 FP16，我是FP16还是FP32 矩阵都行。

这个对于CUDA Core来讲，也不是做不到的，你可以手动实现可以通过 CUDA 代码手动实现混合精度计算，例如使用 FP16 数据类型进行部分计算，然后转换为 FP32 进行累加等。但是这么做，第一是墨迹，多出一步增加复杂度和延迟，第二是没专门硬件给你优化啊，因为CUDA Core我们第一章讲过，固定的精度，多少就是多少。

所以对于混合精度，现在也是LLM训练必备的能力了，从某种意义上讲，在NV上想支持，Tensor Core就是必须的了。

英伟达的GPU(3)_Core_05