page11image22434480.png 整个混合精度框架使用了FP8数据格式,但为了简化说明,只展示了线性算子(Linear Operator)的部分 采用了混合精度框架,即在不同的区块里使用不同的精度来存储数据。我们知道精度越高,内存占用越多,运算复 杂度越大。DeepSeek在一些不需要很高精度的模块,使用很低的精度FP8储存数据,极大的降低了训练计算量。