LLM大模型量化技术小结

关注 Do1phln

LLM大模型量化技术小结

原创

Do1phln 2023-09-15 10:23:55 博主文章分类：随笔 ©著作权

文章标签 大模型 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者Do1phln的原创作品，请联系作者获取转载授权，否则将追究法律责任

量化是一种用低精度的数据格式来表示原来用高精度的数据格式表示的模型，从而降低内存使用和提高计算速度的方法。
INT8量化就是将模型中的浮点数（float32或float64）转换为8位整数（int8），即用-128到127之间的整数来近似表示原来的浮点数。
量化的过程需要一个缩放因子（scale factor）和一个偏移量（zero point），用来将浮点数的范围映射到整数的范围。例如，如果浮点数的范围是[-3.0, 3.0]，那么缩放因子可以是0.0235，偏移量可以是0，那么量化后的整数范围就是[-128, 127]，即：

float32 -> int8: q = round(scale_factor * f + zero_point)
int8 -> float32: f = (q - zero_point) / scale_factor

量化可以分为对称量化和非对称量化，区别在于偏移量是否为0。对称量化可以保持正负分布均匀，但可能会损失一些动态范围；非对称量化可以利用更多的动态范围，但可能会导致正负分布不均匀。
量化可以分为饱和量化和非饱和量化，区别在于是否对浮点数的范围进行截断。饱和量化可以减少离群值（outliers）对量化精度的影响，但可能会损失一些重要信息；非饱和量化可以保留所有信息，但可能会导致离群值占用过多的动态范围。
量化可以分为per layer量化和per channel量化，区别在于缩放因子和偏移量是针对每一层还是每一个通道计算。per layer量化可以减少参数数量，但可能会忽略每个通道之间的差异；per channel量化可以提高参数精度，但可能会增加参数数量。
量化可以分为静态量化和动态量化，区别在于缩放因子和偏移量是在训练时还是推理时计算。静态量化可以提前确定参数值，但可能会忽略输入数据的变化；动态量化可以根据输入数据实时调整参数值，但可能会增加计算开销。

扩展阅读：https://zhuanlan.zhihu.com/p/586406082

赞
收藏
评论
分享
举报

上一篇：缺陷检测常见的工业层架构

下一篇：Prompts for Generation (Li & Liang, ACL-IJCNLP 2021)

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册