论文笔记题目Mixture-of-Agents Enhances Large Language Model Capabilities作者Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou论文摘要近年来,大型语言模型(LLMs)在自然语言理解和生成任务方面取得了显著进展。然而,单个模型在规模和训练数据上存在固有的限制,进一步扩展这
1. 几乎所有量化方式在8bit 量化无损失 2. GPTQ 和 AWQ 4bit量化对8B模型来说有1-2%的性能损失,对70B模型只有0.4%性能损失。 3. 参数越大的模型,低bit量化损失越低。 4. 综合来说,如果追求无任何性能损失,8B模型用8bit量化,70B模型用4bit量化;如果能接受2-3%损失,8B模型用4bit量化,70B模型用3bit量化。
KVcache一句话总结:KV cache其实就是通过空间换取时间的方式,通过缓存Attention中的K和V来实现推理优化。注意力机制公式其中:Q 表示查询(Query)矩阵K 表示键(Key)矩阵V 表示值(Value)矩阵dk 是键向量的维度,用于缩放因子,防止内积后的数值过大导致梯度消失问题softmax函数是用来归一化权重的计算过程矩阵乘法(QKT):首先,计算查询矩阵Q和键矩阵K的转置
大海捞针测试通过在长文本中随机插入关键信息,形成大型语言模型(LLM)的Prompt。该测试旨在检测大型模型能否从长文本中提取出这些关键信息,从而评估模型处理长文本信息提取的能力 数星星测试通过两个任务评估LLMs的长上下文能力:多证据获取和多证据推理。实验使用了多种长文本数据,中文版本使用《红楼梦》,英文版本使用Paul Graham的文章作为长文本。
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号