#GPT-4o mini测评

懂得不多,但答得极快

GPT-4o mini主打一个字「快」。

昨晚,OpenAI 突然上线新模型 GPT-4o mini, 声称要全面取代 GPT-3.5 Turbo。

在性能方面,GPT-4o mini 在 MMLU 上的得分为 82%,在 LMSYS 排行榜的聊天方面分数优于 GPT-4。

在价格方面,GPT-4o mini 比之前的 SOTA 模型便宜一个数量级,商用价格是每百万输入 token 15 美分,每百万输出 token 60 美分,比 GPT-3.5 Turbo 便宜 60% 以上。

OpenAI 表示,ChatGPT 的免费版、Plus 版和 Team 用户将能够从周四开始访问 GPT-4o mini(其知识截至 2023 年 10 月),以代替 GPT-3.5 Turbo,企业用户可以从下周开始访问。

目前,GPT-4o mini 在 WildBench 测试上排名第九,优于谷歌的 Gemini-flash 以及 Anthropic 的 Claude 3 Haiku。

在今天的凌晨的文章中,我们已经介绍了 GPT-4o mini 的一些基本情况(参见《GPT-4o Mini 深夜突发:即刻免费上线,API 降价 60%》)。在这篇文章中,我们将补充介绍模型的实际使用体验以及这份工作背后的研究者。

GPT-4o mini 一手评测

在 GPT-4o mini 开放测试的第一时间,我们问了它一个最近比较热门的话题,9.11 和 9.9 哪个大,很遗憾,GPT-4o mini 依然没有答对,还一本正经地回答 0.11>0.9。

接着我们在 Poe(Quora 开发的应用程序,已经集成了 GPT-4o mini)中输入人物传记电影《Eno》的设计封面,让两个模型解读,结果 mini 翻车了。GPT-4o mini 直接表示「自己认不出照片上的人。」

与之相对的,GPT-4o 的回答就比较准确。「这张图片看起来像是一幅拼贴画,由一张照片的多个碎片组成,照片中是一位留着白胡子、身穿亮粉色衬衫的老人。这幅图由同一张照片的不同部分创造性地排列而成,产生了马赛克或拼图般的效果。照片中的男子表情若有所思,手抚摸着脸。」

接着我们又测试了另一个问题:在客厅的桌子上放着一个杯子,杯子里有一个戒指。这个杯子被移到了书房的桌子上,然后移到了卧室的床上。在那里,杯子被翻倒了一次,然后又恢复了原样。之后,杯子被放回了客厅的桌子上。那么,现在戒指在哪里呢?如果我们分开问,答案不一样,GPT-4o 似乎更聪明点。

但是,如果我们一起发问,它们的答案又会变得雷同:

GPT-4o mini 回答数学题的表现如何呢?机器之心用丘成桐少年班 2024 年选拔试题测试了一下它解决数学问题的能力。

虽然 GPT-4o mini 对问题的解读都比较清晰,但在分析过程中出现「胡言乱语」的逻辑错误,像极了上数学课根本听不懂但硬答的学生。

不过也不必着急,毕竟 GPT-4o 的回答更不理想,它甚至没有看懂数字表示的是正方形的边长。

在文字的总结能力上,GPT-4o mini 与 GPT-4o 的能力不相上下。都能将重点信息进行抓取,但 GPT-4o 的回答更显条理。

不过主打「Faster for everyday tasks」的 GPT-4o mini,响应速度确实对得起「Faster」之称。和它对话,几乎无需等待,输出速度也是快得离谱。

日本网友用 GPT-4o mini 搭建了一款 AI 聊天机器人,响应速度依然快得惊人。

还有网友将 GPT-4o  和 GPT-4o  mini 输出速度进行了对比,GPT-4o  mini 明显更快:

从大家体验效果上来看,GPT-4o  mini 主打一个字「快」,但实际使用体验可能还是差了一些。

这个问题目前没有官方信息。但从 OpenAI 等 AI 巨头纷纷发布小模型的动作来看,小模型正在成为一个新战场。

OpenAI 创始成员 Karpathy 对此表示,「LLM 模型大小竞争正在加剧…… 但方向是相反的」!

我敢打赌,我们会看到非常小的模型,它们思考得非常好,而且非常可靠。甚至 GPT-2 参数的设置很可能会让大多数人认为 GPT-2 很智能。


当前模型如此之大的原因在于我们在训练过程中表现得很浪费 —— 我们要求 LLM 记住互联网上的整个内容,令人惊讶的是,它们确实可以做到,例如背诵常用数字的 SHA 哈希值,或者回忆起非常深奥的事实。(实际上,LLM 非常擅长记忆,比人类好得多,有时只需要一次更新就可以长时间记住很多细节)。


但想象一下,如果你要接受闭卷考试,考卷要求你根据前几句话背诵互联网上的任意段落。这是当今模型的(预)训练目标。想要做的更好,面临着一个难点,在训练数据中,思考的展示与知识「交织」在一起的。


因此,模型必须先变大,然后才能变小,因为我们需要它们(自动化)的帮助来重构和塑造训练数据,使其成为理想的合成格式。


这是一个改进的阶梯 —— 一个模型帮助生成下一个模型的训练数据,直到我们得到「完美的训练集」。当你用 GPT-2 对其进行训练时,按照今天的标准, 它会成为一个非常强大、智能的模型。也许它在 MMLU(大规模多任务语言理解) 方面会低一点,因为它不会完美地记住所有的细节。也许它偶尔需要查找一下,以确保信息的准确性。



按照 Karpathy 的说法,以后小模型会变得越来越多,越来越好用。这个领域的竞争会有多激烈?我们拭目以待。

参考链接:https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/



#Mistral联合英伟达开源12B小模型

小模型卷起来了:Mistral联合英伟达开源12B小模型,128k上下文

小模型,正在成为 AI 巨头的新战场。

今天凌晨,OpenAI 突然发布了 GPT-4o 的迷你版本 ——GPT-4o mini。这个模型替代了原来的 GPT-3.5,作为免费模型在 ChatGPT 上提供。其 API 价格也非常美丽,每百万输入 token 仅为 15 美分,每百万输出 token 60 美分, 比之前的 SOTA 模型便宜一个数量级,比 OpenAI 此前最便宜的 GPT-3.5 Turbo 还要便宜 60% 以上。

OpenAI CEO 山姆・奥特曼对此的形容是:通往智能的成本已经「too cheap to meter」。

与动辄上千亿参数的大模型相比,小模型的优势是显而易见的:它们不仅计算成本更低,训练和部署也更为便捷,可以满足计算资源受限、数据安全级别较高的各类场景。因此,在大笔投入大模型训练之余,像 OpenAI、谷歌等科技巨头也在积极训练好用的小模型。

其实,比 OpenAI 官宣 GPT-4o mini 早几个小时,被誉为「欧洲版 OpenAI」的 Mistral AI 也官宣了一个小模型 ——Mistral NeMo

这个小模型由 Mistral AI 和英伟达联合打造,参数量为 120 亿(12B),上下文窗口为 128k。

Mistral AI 表示,Mistral NeMo 的推理能力、世界知识和编码准确性在同类产品中都是 SOTA 级别的。由于 Mistral NeMo 依赖于标准架构,因此易于使用,可在任何使用 Mistral 7B 的系统中成为替代品。

下表比较了 Mistral NeMo 基本模型与两个最新的开源预训练模型(Gemma 2 9B 和 Llama 3 8B)的准确性。(严格来讲,这个对比不太公平,毕竟Mistral NeMo 的参数量比另外两个都要大不少)


51c大模型~合集5_概率分布

表 1:Mistral NeMo 基本模型与 Gemma 2 9B 和 Llama 3 8B 的性能比较。

他们在 Apache 2.0 许可证下发布了预训练的基本检查点和指令微调检查点,允许商用。Mistral NeMo 经过量化感知训练,可在不损失任何性能的情况下进行 FP8 推理。

面向大众的多语言模型

该模型专为全球多语言应用而设计。它受过函数调用训练,拥有一个大型上下文窗口,在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面表现尤为突出。

51c大模型~合集5_搜索_02

图 1:Mistral NeMo 在多语言基准测试中的表现。

Tekken:更高效的分词器

Mistral NeMo 使用基于 Tiktoken 的新分词器 Tekken,该分词器经过 100 多种语言的训练,能比以前 Mistral 模型中使用的 SentencePiece 分词器更有效地压缩自然语言文本和源代码。在压缩源代码、中文、意大利文、法文、德文、西班牙文和俄文时,它的效率要高出约 30%。在压缩韩文和阿拉伯文时,它的效率是原来的 2 倍和 3 倍。事实证明,与 Llama 3 分词器相比,Tekken 在压缩所有语言中约 85% 的文本方面更胜一筹。

51c大模型~合集5_概率分布_03

图 2:Tekken 的压缩率。

指令微调

Mistral NeMO 经历了高级微调和对齐阶段。与 Mistral 7B 相比,它在遵循精确指令、推理、处理多轮对话和生成代码方面的能力大大提升。


51c大模型~合集5_概率分布_04

表 2:Mistral NeMo 指令微调模型的准确率。使用 GPT4o 作为裁判进行的评估。

Mistral NeMo 基础模型和指令微调模型的权重都托管在 HuggingFace 上。

  • 基础模型:https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
  • 指令微调模型:https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407

你现在就可以使用 mistral-inference 试用 Mistral NeMo,并使用 mistral-finetune 对其进行调整。

该模型被还打包在一个容器中,作为 NVIDIA NIM inference 微服务,可从 ai.nvidia.com 获取。

模型变小之后,小公司也能用 AI 赚钱了

在接受 Venturebeat 采访时,英伟达应用深度学习研究副总裁 Bryan Catanzaro 详细阐述了小型模型的优势。他说:「小型模型更容易获取和运行,可以有不同的商业模式,因为人们可以在家中自己的系统上运行它们。事实上,Mistral NeMo 可以在许多人已经拥有的 RTX GPU 上运行。」

51c大模型~合集5_权重_05

这一进展发生在 AI 行业的关键时刻。虽然很多注意力都集中在拥有数千亿参数的庞大模型上,但人们对能够在本地商业硬件上运行的更高效模型越来越感兴趣。这种转变是由对数据隐私的担忧、对更低延迟的需求以及对更具成本效益的 AI 解决方案的渴望所驱动的。

Mistral-NeMo 128k 的上下文窗口是一个突出的功能,允许模型处理和理解比许多竞争对手更多的文本块。Catanzaro 说:「我们认为长上下文能力对许多应用来说可能很重要。如果无需进行微调,那模型会更容易部署。」

这种扩展的上下文窗口对于处理冗长文档、复杂分析或复杂编码任务的企业来说尤其有价值。它有可能消除频繁上下文刷新的需要,从而产生更加连贯一致的输出。

该模型的效率和本地部署能力可能会吸引在联网受限或有严格数据隐私要求的环境中运营的企业。然而,Catanzaro 澄清了该模型的预期使用场景。他说:「我会更多地考虑笔记本电脑和台式电脑,而不是智能手机。」

这一定位表明,虽然 Mistral-NeMo 使 AI 更接近个人业务用户,但它还没有达到移动部署的水平。

行业分析师认为,这次发布可能会显著扰乱 AI 软件市场。Mistral-NeMo 的推出代表了企业 AI 部署的潜在转变。通过提供一种可以在本地硬件上高效运行的模型,英伟达和 Mistral AI 正在解决阻碍许多企业广泛采用 AI 的担忧,如数据隐私、延迟以及与基于云的解决方案相关的高成本。

这一举措可能会使竞争环境更加公平,允许资源有限的小型企业利用以前只有拥有大量 IT 预算的大型公司才能获得的 AI 能力。然而,这一发展的真实影响将取决于模型在实际应用中的表现以及围绕它构建的工具和支持生态系统。

随着各行业的企业继续努力将 AI 整合到他们的运营中,像 Mistral-NeMo 这样的模型代表了向更高效、可部署的 AI 解决方案的转变。这是否会挑战更大、基于云的模型的主导地位还有待观察,但它无疑为 AI 在企业环境中的整合开辟了新的可能性。

参考链接:https://mistral.ai/news/mistral-nemo/

https://venturebeat.com/ai/nvidia-and-mistrals-new-model-mistral-nemo-brings-enterprise-grade-ai-to-desktop-computers/



#GTS LocMoE+

高可扩展性亲和度 MoE 架构,低开销实现主动路由

本论文共同一作为李婧博士,孙志杰和林大超博士,主要成员来自GTS AI计算Lab,主要研究及落地领域包含LLM训推加速、AI训练保障和图计算。

MoE 因其在训推流程中低销高效的特点,近两年在大语言模型领域大放异彩。作为 MoE 的灵魂,专家如何能够发挥出最大的学习潜能,相关的研究与讨论层出不穷。此前,华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ,包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等,引发了广泛关注。

LocMoE 的上述设计有效缓解了部分 MoE 经典结构在训练中的瓶颈,如: 专家路由算法可能无法有效区分 token,以及通信同步效率受限于节点内和节点间的传输带宽差异等。此外,LocMoE 证明并求解出在能够成功处理判别性 token 的前提下专家容量的下限。该下限是根据 token 被动派发给专家的场景下,判别性 token 存在于 token 批次中的概率分布而得出。那么,如果专家同样具备择优 token 的能力,判别性 token 被处理的概率将大幅提高,专家容量下限将能进一步压缩。

在上述设想的基础上,该团队进一步提出了基于低开销主动路由的 MoE 架构,将其命名为 LocMoE+。LocMoE+ 继承了 LocMoE 高判别性专家以及本地性通信优势,进一步改造路由策略,定义 token 与专家之间的亲和度指标,并以此指标入手,更有效率完成 token 分派,进而提升训练效率。

论文简介

该论文的核心思路是通过结合传统被动路由与专家主动路由,提升一定容量下处理判别性 token 的概率,从而降低样本噪声和提升训练效率。该论文从 token 和其被分派的专家之间的关系入手,以一种低计算开销的方案量化和定义了专家与 token 之间的亲和性。据此,该论文实现了全局的自适应路由策略,并基于亲和性得分以专家维度对 token 进行重排和选择。同时,专家容量的下限被证明随着 token 特征分布的稳定而逐渐减小,训练开销得以降低。

该论文率先结合两种路由机制,根据学习性路由策略中 token 倾向于路由至与其夹角更小的专家的发现,打破了主动路由现存方案开销过大影响训练效率的障碍,并与被动路由的本质保持统一。

值得一提的是,作者选用了和 LocMoE 工作完全不同的硬件环境(服务器型号,NPU卡型号,集群组网方案)、训练框架和骨干模型,以证明该系列工作的高扩展性和易于移植性。

自适应双向路由分派机制

背景介绍

传统 MoE 有两种路由分派机制:

(1)hard router,直接把整个 token 特征进行分派;

(2)soft router,把 token 特征的加权组合进行分派。

本文延续考虑(1)因其较低的计算代价。而对于 hard router 场景,又可分为 1)Token Choice Router (TCR), 也就是让每个 token 去选 top-k 专家;2)Expert Choice Router (ECR),也就是让每个专家去选择 top-C 合适的 token。由于容量限制,每个专家接收的 token 数有上限 C, 因此在场景 1)中,会对每个专家接收的 token进行截断:

51c大模型~合集5_概率分布_06

前人工作指出 MoE 训练分为两阶段:Phase 1. 路由训练,保障路由可以合理分派 token,也就是能把不同领域或者差异大的 token 进行区分和分派给不同专家;Phase 2. 由于 token 路由的作用,每个专家接收到相同领域或者性质相近的 token,每个专家在经历一定训练后就可以习得相关领域和性质的知识。总结来说,MoE 每步训练“成功”的关键在于 token 分派的正确和合理性。

该文贡献

(1)通过 softmax 激活函数推演,专家和 token 之间的余弦相似度能够较为准确地衡量亲和度:

51c大模型~合集5_权重_07

(2)从理论建模角度,分析 TCR 和 ECR 两个常见场景下单次训练成功率:

51c大模型~合集5_概率分布_08

基于理论,作者指出

  • 在模型训练初期,路由分派 token 能力不足时,每次训练 TCR 要比 ECR 以更高概率成功训练,而且需要较大的专家容量保证选到合适的 token。
  • 在模型训练后期,路由有一定能力正确分派 token 时,每次训练 ECR 要比 TCR 以更高概率成功训练,此时只需要较小的容量就可以选到合适的 token。

51c大模型~合集5_权重_09

该理论也很符合直观,路由没有分派能力时,不如让 token 随机选择专家,而当路由有一定分派能力,也就是专家能选到合适 token 的时候,使用 ECR 更合适。因此作者推荐 TCR 向 ECR 方式的转变,提出了全局级别的自适应路由切换策略,同时基于专家容量的需求估计,在训练后期使用更小的专家容量。

实验结果

该论文的实验在昇腾 910B3 NPU 的自建集群上进行,得益于华为专有的高速缓存一致性协议高性能计算系统(HCCS)在多卡场景下实现的高性能设备间数据通信,以及专为昇腾处理器设计的华为集合通信库(HCCL)在 HCCS 等高速链路上实现高性能分布式训练。实验采用兼容昇腾 NPU 的 PyTorch for Ascend 框架和专为昇腾设备定制的加速库 AscendSpeed 和训练框架 ModelLink,关注 LLM 并行策略和通信遮掩优化。

训练效率

实验结果表明,在不影响模型训练收敛性或有效性的情况下,每个专家至少需要处理的token数量较基线可以减少60% 以上。结合通信优化,在 32 卡、64 卡和 256 卡的集群规模下,训练效率平均提高 5.4% 至 46.6%。

51c大模型~合集5_概率分布_10

显存占用

LocMoE+ 对于显存占用也存在一定增益,尤其是集群规模较小计算较密集的场景。使用 Ascend Insight 工具对显存监控样本进行分析,可以看出,LocMoE+ 显存使用相比于基线下降了 4.57% 至 16.27%,相比于 LocMoE 下降了 2.86% 至 10.5%。随着集群规模的增大,显存占用的差距随之缩小。

51c大模型~合集5_搜索_11

效果评测

开源评测集 C-Eval 和 TeleQnA,以及自主构建的 ICT 领域评测集 GDAD 被用于评估 LocMoE+ 在通用知识和领域知识上的能力。其中,GDAD 共计覆盖了 47 个子项,包含 18060 条样本,考察模型在领域任务,领域能力认证考试和通用能力三大评估体系中的表现。

经过充分 SFT 后,LocMoE+ 相比于基线在领域任务能力的 16 个子能力上平均提升了约 20.1%,相比于 LocMoE 则提升了约3.5%。领域能力认证考试则分别提升了 16% 和 4.8%。在通用能力的 18 个子能力中,LocMoE+ 分别提升约 13.9% 和 4.8%。整体而言,LocMoE+ 在 GDAD、C-Eval 和 TeleQnA 上分别表现出 9.7% 到 14.1% 的效果提升。

51c大模型~合集5_搜索_12



#DeePEn

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

本文的主要作者为黄毅翀。黄毅翀是哈尔滨工业大学社会计算与信息检索研究中心博士生,鹏城实验室实习生,师从秦兵教授和冯骁骋教授。研究方向包括大语言模型集成学习、多语言大模型,相关论文发表于自然语言处理顶级会议 ACL、EMNLP、COLING。

随着大语言模型展现出惊人的语言智能,各大 AI 公司纷纷推出自己的大模型。这些大模型通常在不同领域和任务上各有所长,如何将它们集成起来以挖掘其互补潜力,成为了 AI 研究的前沿课题。

近期,哈工大和鹏城实验室的研究人员提出了「Training-free 的异构大模型集成学习框架」DeePEn。

不同于以往方法训练外部模块来筛选、融合多个模型生成的回复,DeePEn 在解码过程中融合多个模型输出的概率分布,联合决定每一步的输出 token。相较而言,该方法不仅能快速应用于任何模型组合,还允许被集成模型访问彼此的内部表示(概率分布),实现更深层次的模型协作。

结果表明, DeePEn 在多个公开数据集上均能取得显著提升,有效扩展大模型性能边界:

51c大模型~合集5_概率分布_13

目前论文及代码均已公开:

  • 论文标题:Ensemble Learning for Heterogeneous LargeLanguage Models with Deep Parallel Collaboration
  • 论文地址:https://arxiv.org/abs/2404.12715
  • 代码地址:https://github.com/OrangeInSouth/DeePEn

方法介绍

异构大模型集成的核心难点在于如何解决模型间的词表差异问题。为此,DeePEn 基于相对表示理论,构建由多个模型词表之间的共享 token 构成的统一相对表示空间。在解码阶段,DeePEn 将不同大模型输出的概率分布映射到该空间进行融合。全程无需参数训练

下图中展示了 DeePEn 的方法。给定 N 个模型进行集成,DeePEn 首先构建它们的转换矩阵(即相对表示矩阵),将来自多个异构绝对空间的概率分布映射到统一的相对空间中。在每个解码步骤中,所有模型进行前向计算并输出 N 个概率分布。这些分布被映射到相对空间并进行聚合。最后,聚合结果被转换回某个模型(主模型)的绝对空间,以确定下一个 token。

51c大模型~合集5_搜索_14

图 1:方法示意图。其中,相对表示转换矩阵是通过计算词表中每个 token 与模型间共享的锚点 token 之间的词嵌入相似度得到的。

构建相对表示转换

给定 个要集成的模型,DeePEn 首先找出所有模型词表的交集,即共享词集

51c大模型~合集5_权重_15

,并从中抽取一个子集 A⊆C 或使用全部共享词作为锚点词集合 A=C。


对于每个模型

51c大模型~合集5_概率分布_16

,DeePEn 计算词表中每个 token 与锚点 token 的嵌入相似度,得到相对表示矩阵

51c大模型~合集5_概率分布_17

。最后,为了克服离群词的相对表示退化问题,论文作者对相对表示矩阵进行行归一化,通过对矩阵的每一行进行 softmax 操作,得到归一化相对表示矩阵

51c大模型~合集5_概率分布_18

相对表示融合

在每个解码步骤中,一旦模型

51c大模型~合集5_搜索_19

输出概率分布

51c大模型~合集5_概率分布_20

,DeePEn 使用归一化相对表示矩阵将

51c大模型~合集5_权重_21

转换为相对表示

51c大模型~合集5_搜索_22


51c大模型~合集5_概率分布_23


并将所有相对表示进行加权平均以获得聚合的相对表示:

51c大模型~合集5_权重_24



其中

51c大模型~合集5_权重_25

是模型

51c大模型~合集5_搜索_26

的协作权重。作者尝试了两种确定协作权重值的方法:(1) DeePEn-Avg,对所有模型使用相同的权重;(2) DeePEn-Adapt,根据各个模型的验证集性能成比例地为每个模型设置权重。

相对表示逆映射

为了根据聚合的相对表示决定下一个 token,DeePEn 将其从相对空间转换回主模型(开发集上性能最好的模型)的绝对空间。为了实现这种逆转换,DeePEn 采用了基于搜索的策略,找出相对表示与聚合后的相对表示相同的绝对表示:

51c大模型~合集5_概率分布_27



其中

51c大模型~合集5_权重_28

表示模型

51c大模型~合集5_搜索_29

的绝对空间,

51c大模型~合集5_搜索_30

是衡量相对表示之间距离的损失函数(KL 散度)。

DeePEn 利用损失函数

51c大模型~合集5_概率分布_31

相对于绝对表示

51c大模型~合集5_概率分布_32

的梯度来指导搜索过程,并迭代地进行搜索。具体来说,DeePEn 将搜索的起始点

51c大模型~合集5_权重_33

初始化为主模型的原始绝对表示,并进行更新:

51c大模型~合集5_概率分布_34

其中 η 是称为相对集成学习率的超参数,T 是搜索迭代步数。

最后,使用更新后的绝对表示

51c大模型~合集5_权重_35

来确定下一步输出的 token。

实验

51c大模型~合集5_权重_36

表 1:主实验结果。第一部分为单模型的性能,第二部分为分别对每个数据集上的 top-2 模型进行集成学习,第三部分为 top-4 模型集成。

通过实验,论文作者得出了以下结论:

(1) 大模型在不同任务上各有所长。如表 1 所示,不同大模型在不同数据集上的表现存在显著差异。例如 LLaMA2-13B 在知识问答 TriviaQA 和 NQ 数据集上取得了最高的结果,但是其他四个任务上的排名并未进入前四。

(2) 分布融合在各个数据集上取得了一致性的提升。如表 1 所示,DeePEn-Avg 和 DeePEn-Adapt 在所有数据集上均取得了性能提升。在 GSM8K 上,通过与投票法组合使用,最终取得了 + 11.35 的性能提升。

51c大模型~合集5_概率分布_37

表 2:不同模型数量下的集成学习性能。

(3) 随着集成模型数量的增加,集成性能先增后减。作者在根据模型性能由高到低,依次将模型加入集成,然后观察性能变化。如表 2 所示,不断引入性能较差的模型,集成性能先增后减。

51c大模型~合集5_权重_38

表 3:在多语言机器翻译数据集 Flores 上,大模型与翻译专家模型之间的集成学习。

(4) 集成大模型与专家模型有效提升特定任务性能。作者还在机器翻译任务上对大模型 LLaMA2-13B 和多语言翻译模型 NLLB 进行集成。如表 3 所示,通用大模型与任务特定的专家模型之间的集成,可以显著提升性能。

结论

当前的大模型层出不穷,但很难有一个模型能在所有任务上全面碾压其他模型。因此,如何利用不同模型之间的互补优势,成为一个重要的研究方向。本文介绍的 DeePEn 框架,解决了不同大模型在分布融合时的词表差异问题,且无需任何参数训练。大量实验表明,DeePEn 在不同任务、不同模型数量及不同模型架构的集成学习设置中,均取得了稳定的性能提升。