LLM 参数，显存，Tflops? 训练篇(5）

原创

Transofomer周 2024-03-08 08:47:54 ©著作权

文章标签 权重方差 Soft 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者Transofomer周的原创作品，请联系作者获取转载授权，否则将追究法律责任

上篇文章链接 LLM 参数，显存，Tflops? 训练篇(4） (qq.com)

上上篇文章链接LLM 参数，显存，Tflops? 训练篇(3) (qq.com)

上上上篇文章链接 LLM 参数，显存，Tflops? 训练篇(2) (qq.com)

上上上上篇文章链接 LLM 参数，显存，Tflops? 训练篇(1) (qq.com)

为了后文大家看算式明白，我们先约定一下每个变量代表的意义（和前一篇的命名方式一样）

L: Transfomer有多少层
H：代表两个意义，第一个意义是hiddensize的维度，第二个就是token被embedding以后的维度，这两值本来也相等
h: 小写的h代表多头注意力的数量，即有几个attention 头
B:batchsize
S：序列的长度，比如GPT 2K，LLama2 4K，就是这个东西
V: 词表里词的数量
H'为每个多头分到的head_dim

上篇文章主要是讲在训练阶段，静态显存的占用，这块如果用FP16或者BF16的情况下，一般占用的显存为模型参数的2倍

静态显存占用的最基本逻辑就是load模型参数，但是别忘了在训练的过程中，同时还要保存另外两个重要的东西：

梯度
优化器

在一次用AdamW和混合精度训练的Epcho里，每一个模型参数，需要占用：
2byte的模型静态参数权重（以16bit存储）
2byte的模型更新参数权重（以16bit存储）
2byte的梯度（以16bit存储）
2byte的梯度更新（以16bit存储）
4byte的一阶动量优化器更新（以32bit存储）
4byte的二阶方差优化器更新（以32bit存储）

LLM 参数，显存，Tflops? 训练篇(5）_权重

整体的分布如上图所示，所以在训练的过程中，一个模型参数需要占用16bytes的内存。

除了第一项，其他后5项严格来说都不能算是静态占用。

除了训练时load的以上各种参数相关的权重以外，最终要的是输入模型进行训练的token的batchsize长度和单个训练的seq_number,这两个值会直接影响到我到底要load多少数据，这部分数据会和刚才讲的参数占用的显存一起构成训练过程中的显存消耗。

而这些就是我们一会要讲一下在训练过程中最消耗显存的部分，这里的激活（activations）指的是：前向传递过程中计算得到的，并在后向传递过程中需要用到的所有张量。这里的激活不包含模型参数和优化器状态，但包含了dropout操作需要用到的mask矩阵，不是激活函数的那个Activation。

同时也要有取有舍，比如：

只考虑中间激活大头，忽略掉一些小的，例如对于layer normalization，计算梯度时需要用到层的输入、输入的均值μ和方差(σ的平方)，输入包含了 BSH 个元素，而输入的均值和方差分别包含了 BS个元素。由于通常H是比较大的（好几千数量级），所以 BSH≫BS。因此，对于layer normalization，中间激活近似估计为 BSH ，而不是 BSH+2BS （只计算了层的输入，不考虑均值和方差那部分输入的计算了）

因为我们假设是用混合精度来训练的，Activation值的存取是以半精度来保留的，也就是2bytes，dropout的mask矩阵特殊，它每个元素占用1个bytes。

现在我们一起逐层分析一下这部分Activation显存怎么计算。

先分析Self-Attention层：

1-x作为新进入的sequence经过这3个矩阵（线性层）就会出来QKV的值，这个3个矩阵的共同输入x，就是我们所谓的Activation

LLM 参数，显存，Tflops? 训练篇(5）_方差_02