#PanoSent

情感分析的终极形态:全景式细粒度多模态对话情感分析基准

罗盟,本工作的第一作者。新加坡国立大学(NUS)人工智能专业准博士生,本科毕业于武汉大学。主要研究方向为多模态大语言模型和 Social AI、Human-eccentric AI。

情感计算一直是自然语言处理等相关领域的一个火热的研究课题,最近的进展包括细粒度情感分析(ABSA)、多模态情感分析等等。

新加坡国立大学联合武汉大学、奥克兰大学、新加坡科技设计大学、南洋理工大学团队近期在这个方向上迈出了重要的一步,探索了情感分析的终极形态,提出了 PanoSent —— 一个全景式细粒度多模态对话情感分析基准。PanoSent 覆盖了全面的细粒度、多模态、丰富场景和认知导向的情感分析任务,将为情感计算方向开辟新的篇章,并引领未来的研究方向。该工作被 ACM MM 2024 录用为 Oral paper。

论文地址:https://www.arxiv.org/abs/2408.09481

项目地址:https://panosent.github.io/ 

研究背景

在人工智能领域,让机器理解人类情感是迈向真正智能化的重要一步。情感分析是自然语言处理领域的一个关键研究课题。通过多年的研究,情感分析在各个维度和方面取得了显著的发展。该领域已从传统的粗粒度分析(如文档和句子级别分析)发展到细粒度分析(例如 ABSA),融合了广泛的情感元素,并发展出提取目标、方面、观点和情感等不同的情感元组。此外,情感分析的范围已从纯文本内容扩展到包括图像和视频的多模态内容。

因为在现实世界场景中,用户通常通过多种多样的多媒体更准确地传达他们的观点和情绪,提供超越文本的附加信息,如微表情、语音语调和其他线索。此外,研究已超越单一文本场景,考虑更复杂的对话情境,在这些情境中,个体在社交媒体平台(例如 Twitter、Facebook、微博、知乎、小红书、抖音等)上频繁进行关于服务、产品、体育等的多轮、多方讨论。

尽管情感分析领域已取得显著进展,目前的研究定义仍然不够全面,无法提供一个完整且详细的情感画面,这主要是由于以下几个问题。

首先,缺乏一个综合定义,将细粒度分析、多模态和对话场景结合起来。在现实生活应用中,如社交媒体和论坛上,这些方面往往需要同时考虑。然而,现有研究要么在多模态情感分析定义中缺乏详细分析,要么在对话 ABSA 中缺失多模态建模。最完整的基于文本的 ABSA 定义仍然无法完全涵盖或细致划分情感元素的粒度。

其次,当前的情感分析定义只考虑识别固定的静态情感极性,忽略了情感随时间变化或因各种因素变化的动态性。例如,社交媒体对话中的用户最初的观点,可能会在接触到其他发言者的新信息或不同观点后发生变化。

第三,也是最关键的,现有工作没有彻底分析或识别情感背后的因果原因和意图。人类情感的激发和变化有特定的触发因素,未能从认知角度理解情感背后的因果逻辑意味着尚未根本实现人类级别的情感智能。总的来说,提供一个更全面的情感分析定义可能会显著增强这项任务的实用价值,例如,开发更智能的语音助手、更好的临床诊断和治疗辅助以及更具人性化的客户服务系统。

为填补这些空白,本文提出了一种全新的全景式细粒度多模态对话情感分析方法,旨在提供一个更全面的 ABSA 定义,包括全景情感六元组提取(子任务一)和情感翻转分析(子任务二)。如图 1 所示,本文关注的是涵盖日常生活中最常见的四种情感表达模态的对话场景。

一方面,作者将当前的 ABSA 四元组提取定义扩展到六元组提取,包括持有者、目标、方面、观点、情感和理由,全面覆盖更细粒度的情感元素,提供情感的全景视图。

另一方面,作者进一步定义了一个子任务,监控同一持有者在对话中针对同一目标和方面的情感动态变化,并识别导致情感翻转的触发因素。在六元组提取和情感变化识别中,作者强调辨别潜在的因果逻辑与触发因素,力求不仅掌握方法,还要理解背后的原因,并从认知角度进行分析。

51c大模型~合集43_大模型

为了对这一新任务进行基准测试,作者构建了一个大规模高质量的数据集,PanoSent。PanoSent 涵盖了 100 多个常见的领域和场景,基于多轮、多方的对话情境,情感元素在六元组中可能跨越多个句子。

为了更真实地模拟人类的情感表达习惯,数据集中的元素可以来自文本和非文本(音频或视觉)模态。情感可能以隐式的方式表达,数据集涵盖了隐式和显式的情感元素。

为确保基准的通用性,数据集包括三种主流语言:英语、中文和西班牙语。作者从现实世界来源收集数据,进行了精心的手动标注。为了扩大数据集的规模,作者进一步利用 OpenAI GPT-4 自动生成数据,并结合多模态检索技术进行扩展。严格的人工检查和交叉验证确保了高质量标准。PanoSent 总共覆盖了 10,000 个对话。表 1 对 PanoSent 与现有的一些多模态细粒度情感分析数据集进行了对比分析。

51c大模型~合集43_大模型_02

与现有的 ABSA 任务相比,本文提出的新任务提出了更大的挑战,例如需要理解复杂的对话情境并灵活地从各种模态中提取特征,尤其是在认知层面识别因果原因。考虑到多模态大型语言模型(MLLMs)在跨多模态的强大语义理解方面最近取得的巨大成功,作者构建了一个主干 MLLM 系统,Sentica,用于编码和理解多模态对话内容。受人类情感分析过程的启发,作者进一步开发了一个情感链推理框架(CoS),用于高效地解决任务,该框架基于思维链的思想,将任务分解为从简单到复杂的四个渐进推理步骤。该系统能够更有效地提取情感六元组的元素,并逐步识别情感翻转,同时引导出相应的理由和触发因素。基于释义的验证(PpV)机制增强了 CoS 推理过程的稳固性。

全景式细粒度多模态对话情感分析基准:PanoSent

任务建模

PanoSent 包括两个关键任务,具体可参见图 1 的可视化展示。

  • 全景式情感六元组抽取:从多轮、多方、多模态对话中识别情感持有者、目标、方面、观点、情感及其原因。
  • 情感翻转分析:检测对话中情感的动态变化及其背后的因果关系。

PanoSent 基准数据集

研究团队构建了一个包含 10,000 个对话的大规模高质量数据集 PanoSent,数据来自现实世界的多样化来源,情感六元组元素经过手动注释,并借助 GPT-4 和多模态检索进行扩展。通过严格的人工检查和交叉验证,确保数据集的高质量。PanoSent 数据集首次引入了隐式情感元素和情感背后的认知原因,覆盖最全面的细粒度情感元素,适用于多模态、多语言和多场景的应用。

51c大模型~合集43_大模型_03

51c大模型~合集43_大模型_04

51c大模型~合集43_大模型_05

多模态情感分析大模型:Sentica

51c大模型~合集43_大模型_06

多模态大语言模型骨干

当前,大型语言模型(LLM)在理解语言语义方面表现卓越,多模态大语言模型(MLLM)则展示了对多模态数据的强大理解能力。基于此,研究团队为 PanoSent 设计了一款新的 MLLM——Sentica。该模型使用 Flan-T5 (XXL) 作为语义理解和决策的核心 LLM。对于非文本输入,采用 ImageBind 统一编码多模态信息,并将编码结果投影到 LLM 的嵌入空间。

链式情感推理框架

针对全景式情感六元组抽取和情感翻转分析任务,团队提出了受思想链(CoT)推理启发的链式情感推理框架(CoS)。该框架通过四个渐进的推理步骤,从简单到复杂,逐步解决每个任务,并为后续步骤积累关键线索和见解。步骤包括 “目标 – 方面” 识别、“持有者 - 观点” 检测、“情感 - 理由” 挖掘及 “情感翻转触发器” 分类。

步骤 1:“目标 - 方面” 识别

在给定对话文本及其多模态信号下,通过特定指令,要求模型识别对话中提到的所有可能的目标及其对应的方面,形成目标 - 方面对。

51c大模型~合集43_大模型_07

步骤 2:“持有者 - 观点” 检测

在识别出 “目标 - 方面” 对之后,下一步是检测相关的持有者及其具体观点。输出应为包含持有者、目标、方面和观点的四元组,为后续的情感分析奠定基础。

51c大模型~合集43_大模型_08

步骤 3:“情感 - 理由” 挖掘

基于已识别的四元组,分析与每个观点相关的情感并识别其背后的理由。最终输出为六元组,全面展现情感表达及其背后的因果逻辑。

51c大模型~合集43_大模型_09

步骤 4:“情感翻转触发器” 分类

在识别出所有六元组后,最后一步是检测情感的翻转,即从初始情感到翻转情感的变化,对导致情感翻转的触发因素进行分类。输出应为包含上述情感元素的六元组或 “None” (如果没有情感翻转)

51c大模型~合集43_大模型_10

基于复述的验证

为避免链式推理中可能产生的错误累积,研究团队设计了基于复述的验证机制(PpV)。在每个推理步骤中,通过将结构化的 k 元组转化为自然语言表达,并结合上下文检查其是否具有蕴涵或矛盾关系,从而确保每个步骤的准确性。这一机制不仅增强了情感分析的稳健性,还有效减轻了 LLM 固有幻觉的影响。

51c大模型~合集43_大模型_11

51c大模型~合集43_大模型_12

51c大模型~合集43_大模型_13

51c大模型~合集43_大模型_14

实验和分析

主实验结果

团队通过实验验证了 Sentica 在两个子任务中的表现。在六元组抽取任务中,Sentica 显著优于其他方法,尤其是在结合 CoS 和 PpV 机制后,表现达到最佳。在情感翻转分析中,Sentica 同样表现出色,特别是在多语言环境下,准确性显著提高。

51c大模型~合集43_大模型_15

51c大模型~合集43_大模型_16

验证构建合成数据的必要性

实验结果表明,尽管合成数据量较大,模型在真实数据上的训练效果更佳。这是因为真实数据的信息分布更为自然,帮助模型学习到更具代表性的特征。然而,合成数据作为补充则显著提升了模型的最终性能,进一步证明了合成数据在优化模型表现中的关键作用。因此,构建合成数据不仅是必要的,而且有助于提升情感分析的整体效果。

51c大模型~合集43_大模型_17

验证多模态信息的重要性

研究团队深入分析了多模态信息在情感分析中的作用,发现其不仅是对文本信息的补充,还在六元组元素的判断中起到关键作用。实验结果显示,移除任何模态信号都会导致性能下降,尤其是图像信息的缺失对性能的影响最大。这表明,多模态信息在任务中不可或缺,对提高模型的识别精度至关重要。

51c大模型~合集43_大模型_18

验证显性与隐性元素的识别性能

通过对显性与隐性情感元素的识别性能进行对比分析,结果显示,隐性元素的识别难度明显高于显性元素。这反映了识别隐性元素对上下文语义理解的更高要求,进一步说明在情感分析中,应特别关注对隐性元素的识别和处理。

51c大模型~合集43_大模型_19

验证 PpV 机制的合理性

作者验证了基于复述的验证机制(PpV)的有效性。实验表明,通过 LLM 复述和直接验证,PpV 机制能够确保结构化数据与对话上下文之间的语义一致性,其性能优于仅依赖直接验证或不进行验证的方式。此外,使用固定模板复述结构化元组比依赖 LLM 复述更为可靠,这进一步增强了情感分析的稳健性。

51c大模型~合集43_大模型_20

案例研究

作者通过多个实例展示了所提出模型在与其他模型对比中的优越性能。如图 12-14 所示,该模型展现了对复杂对话上下文的更深入理解,能够精准捕捉对话中的微妙细节,并推断出隐含意图。得益于卓越的多模态信息处理能力,该模型能够更准确地解释各种模态信号。此外,该模型在识别对话中隐含元素方面表现突出。这些优势使模型能够更全面地提取六元组信息,并更准确地分析对话中的情感翻转。

51c大模型~合集43_大模型_21


51c大模型~合集43_大模型_22

结论与展望

在这项研究中,团队引入了全新的全景式细粒度多模态对话情感分析基准 PanoSent,提出了两项新任务:全景情感六元组抽取和情感翻转分析。基于 MLLM 的链式情感推理方法在 PanoSent 数据集上展示了卓越的基准性能,为情感分析领域开辟了新的篇章。

未来的研究可以朝以下几个方向展开:

  • 多模态信息的进一步探索:开发更强大的多模态特征提取和融合方法,深入研究不同模态在情感识别中的具体影响。
  • 隐性情感元素的识别:探索更精准的技术来识别隐性情感元素,这是当前情感分析中较为棘手的挑战。
  • 情感认知与推理机制:研究情感元素之间的交互及其背后的因果机制,以开发更为稳健的情感推理解决方案。
  • 对话上下文的建模:增强模型对对话上下文的理解能力,特别是在处理对话结构和说话者共指解析方面。
  • 跨语言与跨领域迁移学习:研究多模态场景下的迁移学习方法,开发能适应不同语言和领域的通用情感分析模型。

 #Llama系列下载量近3.5亿

全球3.5亿下载量破纪录! Llama家族暴涨10倍,开源帝国掀AI革命

诞生一年半,Llama家族早已稳坐开源界头把交椅。最新报告称,Llama全球下载量近3.5亿,是去年同期的10倍。而模型开源让每个人最深体会是,token价格一降再降。

Llama一举成为世界开源的领头羊。

截至目前,Llama模型在开源平台HuggingFace下载量近3.5亿。

Groq的创始人表示,这也太疯狂了,想想Linux花了多长时间才达到这个数字?

官博介绍,这一数字,是去年同期的10倍。而且,仅在上个月,模型的下载量超2000万次。

2023年2月,Llama 1首次亮相,经过多次迭代,到现在已经过去了整整18个月。

而在这仅有的一年半里,Llama已经从一个最先进的单体基础模型,发展成为,一个面向开发者的强大生态系统。

LeCun还不忘给自家模型宣传一波,越来越多的大公司、小公司、初创公司、政府和非营利组织,正基于此开发新的产品和服务。

还有高校机构、研究人员和工程师每天都在改进Llama,并提出新的用例。

另外,值得关注的一点是,自今年5月Llama 3.1发布之后,云服务商对模型API token调用需求,翻了一番还要多。

一些Meta最大的云服务提供商,从2024年1月到7月,Llama的每月token量增长了10倍。

从微软云、英伟达、谷歌云等科技巨头,到Groq、Databricks等初创公司,全都支持Llama模型的使用。

老黄称,「Llama深深地影响着最先进AI的进步」。

可见,Llama正引领着开源之光。

Llama开源,拉低token价格战

GPT-4级别模型开源,最先带来的好处是,token的价格不断下降。

AI大牛吴恩达在DeepLearning的博客中,算了一笔账:

近期,OpenAI官宣降价后,GPT-4o的token成本,现在是每百万token4美元。(假设是80%输入和20%输入token混合率)

还记得,2023年3月首发GPT-4时,每百万token的成本是36美元。

博客地址:https://www.deeplearning.ai/the-batch/issue-264/

17个月的时间,价格相当于每年下降了79%(4/36 = (1 - p)^{17/12})。

如你所见,token价格正迅速下降!

而推动token价格不断下降的一个因素,便是开源模型(如Llama 3.1)的发布。

这是因为,API提供商(如Anyscale、Fireworks、Together AI初创公司,以及一些大型云服务商)并不需要担心赚回开发模型所需的成本,因此他们可以直接在价格、速度等其他因素上,开启竞争。

此外,一些芯片公司Groq(快速生成token领先者)、Samba Nova(能以114 token/s速度运行Llama 3.1 405B)、Cerebras(以1800 token/s速率运行Llama 3.1 8B),以及英伟达、AMD、英特尔、高通等半导体巨头,在硬件上的创新,近一步拉低了模型价格。

Groq发文介绍了,如今支持Llama模型的生态。

「到目前为止,Groq已经使用Llama模型套件和自家LPU Inference,每天向40多万开发人员提供50亿个免费token」。

在构建用程序时,吴恩达发现,根据未来技术发展方向,进行设计是非常有用的,而非局限于当前水平。

基于多家软硬件公司的技术路线(改进半导体、更小的模型、推理架构中的算法创新),可以预见的是,token价格还将持续下降。

这意味着,即便你构建的智能体工作流看起来成本太高,而随着token价格不断下降,或许在某个时间,这套方案在未来也变得经济可行。

假设你创建了一个APP帮助人类,可每秒连续输出100个token。那如果百万token 4美元,每小时只花费1.44美元。

这远远低于美国,以及许多其他国家最低工资标准。

Meta挑战ChatGPT赢得数百万用户

小扎希望,到今年年底,让Meta AI成为全球使用量最多的AI助手,超越OpenAI的ChatGPT。

目前,这一切正朝着他的目标,取得了进展。

据内部2位员工透露,8月初,Meta AI(2023年9月发布)在发布不到一年时间里,收揽了至少4亿月活跃用户和4000万日活跃用户。

这些数字从侧面反映了,超30亿用户的Meta,每天至少使用Meta旗下的一款应用中的AI助手。

此外还包括,通过Meta AI专属网站,以及Ray-Ban智能眼镜,也收获了不少用户。

庞大的用户群,成为大型科技公司优势,希望从ChatGPT中夺取一部分市场份额和关注度。

其实,谷歌也向数十亿用户推广了对话式AI——Gemini,但力度却不如Meta。

但一些使用Meta应用程序的人,在Facebook、Reddit、X上,抱怨Meta过于激进地推广AI助手,比如在其APP的键盘上添加搜索按钮。

有的人还出了一个关闭Meta AI对话的教程。

出于对用户参与度的担忧,Meta员工可能会不定期讨论的一个问题是,是否有些用户无意间使用了Meta AI。

8月初使用数据显示,大约10%的月活跃用户,每天使用助手来回答问题、生成图像和执行其他任务。

而这一比例远低于Meta的其他应用程序。

Meta此前2月报告称,80%的月活跃用户每天至少使用一款自家的应用。

这些数字表明,Meta AI已经是ChatGPT强有力的竞争者之一。

2022年11月,ChatGPT首次推出。截至目前,每周有超2亿人使用。鉴于最近的使用数据,Meta AI可能相距不远。

与Meta AI不同,ChatGPT也是一项盈利的业务模型。

数百万用户每月需要支付20美元,成为ChatGPT Plus用户,才能用上最先进模型撰写、编程、答问的能力。

数据显示,ChatGPT订阅收入,每年大约高达20亿美元。

Meta已在今年投入高达400亿美金数据中心和其他基础设施。

而Meta AI被视为,未来公司获得这些巨额投资回报的关键部分,主要用于开发这一产品的背后大模型Llama。

虽有报道曝出,Meta正推出一个付费版的高级人工智能助手。

去年9月,Meta刚刚推出AI助手时,人们最初只能通过Instagram、WhatsApp或Messenger上的直接消息与Meta AI聊天。

今年,Meta开始在各种应用中, 让其变得更加显眼、容易访问。

4月,他们将Meta AI添加到其应用程序的搜索栏和信息流中,并为其推出了独立网站meta.ai。

同月,Meta还推出了一个新版本的AI助手,该版本能够识别和解析图像,并在其Ray-Ban智能眼镜中广泛应用。

目前,该助手在Meta的应用程序中可用的语言有8种,并在22个国家提供,同时在美国和加拿大的智能眼镜中提供英语版本。

开源AI如火如荼

开源AI技术正在迅速发展,推动着生成式AI的重大创新。通过GitHub和Hugging Face等可访问的研究和平台,社区已经启动了取得突破性成果的项目。

生态系统:稳步增长,走出泡沫化的底谷期(Trough of Disillusionment)

自2023年第一季度的温和增长以来,开发者的兴趣已经增长并稳定下来,进入了「稳步爬升的光明期」(Slope of Enlightenment)——价值驱动的创新在此增长。

2024年,开源AI中严肃的开发者参与(即GitHub贡献者)仍在继续增加。

市场分析:开发工具仍是热门,训练和监督势头正旺

- 开源AI产品初创企业数量显著增加

2024年,参与开源AI的参与者数量激增,新的参与者如Neum AI和Patronus AI进入了这一领域,而像Vian AI这样的老牌参与者也为其用户提供了开源工具包。

- 开发工具仍然热门;培训和监控工具竞争加剧

大多数初创企业仍专注于生成式AI的开发工具,这对于构建、部署和管理应用程序至关重要。

然而,围绕模型训练和监督用例的初创企业活动有所增加,这表明可能会向在小众数据上微调模型和增强AI治理的方向转变。

在开源模型领域,领先者开始显现,开发的新模型较少,更多的重点放在来自Mistral和Meta等公司的改进和更高效的版本上。

- 开源开发正在缩小与闭源解决方案的差距

开源使得研究更具成本效益和可访问性,促进了来自多元创作者的创新,并且法律限制较少。据统计,有41%的企业用户倾向于选择开源来满足生成式AI的需求。

融资环境:融资步伐加快,规模更大、后期交易增多

过去两年,开源AI领域已完成60多笔交易,总融资额超过130亿美元。这些交易中有超过45%属于A轮及以上的融资,表明对增长阶段投资的强烈关注。

- Deci AI被英伟达以3亿美元收购

- Scale AI完成了10亿美元的F轮融资

- Mistral AI完成了6.4亿美元的B轮融资

- Together AI完成了1.06亿美元的A轮融资

在开源AI领域中,模型训练和开发工具是获得资金最多的细分领域(不包括Mistral和Databricks),占总融资的60%。

其中,英伟达参与了8笔交易(包括Scale AI、Mistral AI、Together AI)。

基础模型:性能差距已缩小

如今,开源和闭源模型之间的基准差距现在比以往任何时候都要小——Meta Llama和Mistral在MMLU上的表现几乎与GPT-4o相同。

其他开源模型,如Qwen和Yi,也在性能上快速赶上。

为了解决现有评估(如Elo和MMLU)的局限性,Hugging Face于2024年6月正式推出了专注于复杂任务的开源LLM排行榜——Open-LLM-Leaderboard。

在过去的6个月中,随着新竞争者的出现,开源AI的格局发生了显著变化。

经过大量数据预训练的Qwen,于2024年6月在Huggingface Traction上获得了最高的下载量。

Github:Huggingface、MindsDB和Roboflow非常火爆

GitHub的stars是项目在GitHub上受欢迎程度的直接指标。

AutoGPT和ModularML的Mojo在2023年引领了GitHub热度——自那时以来,多个仓库已经获得了显著的进展。

LeRobot提供基于PyTorch的真实世界机器人模型、数据集和工具,旨在使机器人技术更易于访问。它具有最先进的模仿学习和强化学习方法,提供预训练模型、人类收集的数据集和模拟环境。

由英伟达支持的MindsDB是一个使用企业数据构建AI模型的平台。MindsDB简化了数据源和AI/ML工具之间的连接,自动化工作流程以创建定制的AI系统。

参考资料:

https://ai.meta.com/blog/llama-usage-doubled-may-through-july-2024/?utm_source=twitter&utm_medium=organic_social&utm_cnotallow=image&utm_campaign=llama

https://x.com/ylecun/status/1829233754876834298

https://www.theinformation.com/articles/metas-ai-assistant-wins-millions-of-users-in-challenge-to-chatgpt?rc=epv9gi

https://synaptic.com/resources/open-source-ai-2024/

开源启动!18个月Llama系列下载量近3.5亿,黄仁勋:快到难以置信

今天一大早,Meta 便秀了一把「Llama 系列模型在开源领域取得的成绩」,包括如下:

HuggingFace 下载量接近 3.5 亿次,较 2023 年同期增长了 10 倍;

过去一个月下载量达到了 2000 万次,使得 Llama 成为领先的开源模型系列;

云服务供应商对 Llama 需求巨大,自 5 月以来,Meta 最大云供应商的 token 使用量增加了一倍多;

Llama 模型正被整个行业采用,包括 Accenture、ATT、DoorDash、GoldmanSachs 等。

距离 Llama 3.1 的发布(7 月 24 日)仅仅过去了一个多月,Meta 已经将上下文扩展到了 128k,增加了对 8 种语言的支持,并且 405B 参数量的 Llama 3.1 成为全球最强的开源大模型。

可以说,Llama 的成果要归功于开源的力量。目前围绕 Llama 已经形成了一个充满活力和多样性的 AI 生态系统,开发者拥有了比以往更多的选择和能力,初创公司和各种规模的企业都在使用 Llama 来构建 On-premises(指公司的本地数据中心内运行的软件、服务或系统。)。

可以说,开源已经成为 Meta 的 DNA。此前,Meta 创始人扎克伯克公开写信声明开源的好处:这将促进更有活力的 AI 开发生态,对普通用户、Meta 以及其他公司都有利。

7 月 24 日,在 Llama 3.1 发布的同时,扎克伯格也发了一封标题为「拥抱开源 AI:通往未来的必由之路」的公开信。

历时 18 个月,Llama 成长为开源模型标杆

自 2023 年 2 月首次亮相以来,Llama 只用了 18 个月便从单一的先进基础模型发展成为面向开发者的强大系统。到如今,借助 Llama 3.1,Meta 为开发者提供了一个完整的参照系统,使他们可以轻松创建自己的智能体,并通过安全工具帮助他们负责任地创建。

除了下载量的持续增长,Meta 还与 AWS、微软 Azure、Databricks、戴尔、谷歌云、Groq、NVIDIA、IBM watsonx、Scale AI、Snowflake 等公司合作,帮助开发者发挥模型潜力。

发布 Llama 3.1 后,Meta 的主要云服务供应商的 Llama 使用量显著增长。具体来说,从 2024 年 5 月到 7 月,按 token 计算的使用量翻了一番多。

从今年 1 月到 7 月,Meta 的主要云服务供应商每月对 Llama 使用量增长了 10 倍。参数量最大的 Llama 3.1 405B 也很受欢迎,据某云服务供应商 8 月的数据显示,用户数最高的是 Llama 3.1 405B。

Llama 3.1 发布后,拥有访问 Llama 权限的合作伙伴增长了 5 倍,Wipro、Cerebras 和 Lambda 等知名企业也将成为其中的一员。

开发者社区对 Llama 的偏好也日益增长。据专注于 AI 基准测试的独立网站 Artificial Analysis 的调查,Llama 是开发者们的首选排行榜上的第二名。

在 Hugging Face 平台上,Llama 已有超过 60,000 个模型变体,活跃的开发者社区正在根据自己的需求,对 Llama 进行细致的定制和优化,包括 AT&T、DoorDash、高盛、Niantic、野村证券、Shopify、Spotify、Zoom 等在内的行业巨头,以及 Infosys 和 KPMG 等专业服务领域的领军企业,都已经将 Llama 集成到内部系统中。

在企业服务中,Llama 系列已经有一些成功的用例。基于 Llama 3.1 知名咨询公司埃森哲构建了一个用于 ESG(环境、社会和治理)报告的定制大模型。他们期望,用上了 AI 之后,写报告的生产力能提高 70%,质量提高 20% 至 30%。

通过微调 Llama 模型,美国电信巨头 AT&T 在客户服务搜索响应上取得了接近 33% 的大幅提升。这一改进不仅降低了成本,还提升了业务效率。

随着 Llama 生态系统的不断壮大,Meta AI 的功能和接入点也在同步扩展。现在,用户可以通过 Instagram、WhatsApp、Messenger 和 Facebook 等应用直接体验 Meta 的智能助手。

Meta 也没忘记心心念念的「元宇宙」,Meta 还在开发头显 Quest 系列和智能眼镜 Ray-Ban Meta,正在朝着一个目标迈进:届时,一个全天候待命、知冷知热、提供情绪价值的 AI 助手将以可穿戴的形式主动融入你的日常生活,为你提供帮助。

与此同时,OpenAI 也亮出了自己的数据,每周有超过 2 亿人在使用 ChatGPT,相比去年 11 月的报告,ChatGPT 每周的活跃用户数约为 1 亿,仅过半年,这个数字就涨了一倍。

在 ToB 赛道上,OpenAI 也不遑多让,92% 的财富 500 强公司都在使用 OpenAI 的产品,更便宜、更智能的 GPT-4o Mini 推出后,API 的使用量翻了一番。

评论两极分化:真·假开源

看到 Meta 的喜报,Grok 的 CEO Jonathan Ross 发来了贺电:一个大模型的下载量达到 3.5 亿次,太疯狂了!Linux 达到这个数字用了多久?

他还表示:开源赢了!到目前为止,Groq 已经向超过 40 万开发者每天提供 50 亿 Llama 系列模型的免费 token。但这仍然供不应求,Ross 称,即使 Groq 将部署的容量增加 10 倍,这些资源也会在 36 小时内用完。

Llama 系列以如此快的速度,达成了 3.5 亿次下载的成就,老黄也赶紧点了赞:「在过去的一个月里,我们见证了 Llama 3.1 以如此之快速度被应用部署,真是令人难以置信。」

但是在网友和合作伙伴的一片叫好声中,也有对 Meta 只开放代码,未开放模型权重的质疑声。

虽然 Meta 给自己全身贴满了「开源」的标签,但是最近开放源代码促进会(OSI)却明确表示:Llama 系列并不算真开源。

在 OSI 给出的定义下,判断一个 AI 模型真正开源,需要符合「四项基本自由」:不限制使用目的,允许深入研究其工作原理,支持随意修改,无论是否进行过修改都允许用户自由分享模型。

虽然 Llama 3 模型可以自由部署,但 Meta 限定了 Llama 3 可以生成的内容类型。因此, Llama 3 也不算真正的开源了。

然而 ,Meta 对 OSI 非黑即白的「二元论」提出了反对,他们认为开发大模型的成本很高,过程也很复杂。因此,对于开源的标准,应该有一个从完全开放到部分开放的范围,而不是只有完全开源或完全闭源两种极端状态,并且被 OSI 列入第一批「白名单」的开源模型中,都没有达到 Sota 的水准。

Meta 这么刚,知名杂志《经济学人》对此点评道:Meta 被指控正在「霸凌」开源社区。

在今年的 SIGGRAPH 大会上,扎克伯格曾在和黄仁勋的对谈中提及,Meta 做开源并非纯纯做慈善,而是一种明智的经营策略。在开源计算系统后,Meta 成为了行业标准,供应链主动对齐 Meta 的设计,这种为行业打造整套生态的经验,实际为 Meta 节省了数十亿美元。

同时,Meta 开源的决策也要拜苹果所赐,在以手机为代表的智能移动设备崛起后,苹果的闭源生态太过垄断,以至于扎克伯格放弃了很多想要开发的功能。为此,扎克伯格甚至当场爆粗。

但在 OSI 看来,Meta 现在的做法似乎让他们变成了「另一个苹果」。发出「Meta 正在霸凌开源社区」指控的正是 OSI 的执行董事 Stefano Maffulli:「扎克伯格真的在强迫整个行业跟随他的步伐」。

OSI 计划在今年 10 月正式揭晓对「开源 AI」定义的最终修订版。他们期望通过一个清晰而严格的标准,赋予开发者们信心:他们可以自由地使用、复制和修改像 Llama 这样的开源模型,而不必「受扎克伯格善意的摆布」。




#智谱「超大杯」模型

一手实测结果出炉!智谱「超大杯」模型全家桶亮相KDD,部分任务超越GPT-4o


在与 GPT-4o 的全面较量中,GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。还有 One More Thing:清言上线了视频通话功能,首批面向部分用户开放。


中国的大模型,正在世界舞台上站稳脚跟。

近日,数据挖掘顶会 KDD 2024 在西班牙巴塞罗那正式召开,来自中国的研究团队和科技企业纷纷亮相。其中,在 8 月 29 日举办的大语言模型日(Large Language Model Day)上,智谱 AI 顾晓韬博士介绍了智谱 AI 支持中英双语的对话机器人 ChatGLM,成为中国科技力量的鲜明代表 。

与此同时,他还介绍了智谱基础模型的重大升级,即新一代基座大模型 GLM-4-Plus。这是智谱全自研 GLM 大模型的最新版本,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。

此外,他们还发布了文生图模型 CogView-3-Plus 和图像 / 视频理解模型 GLM-4V-Plus。前者具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能,后者具备卓越的图像理解能力和基于时间感知的视频理解能力,上线开放平台后将成为国内首个通用视频理解模型 API。

在视频生成方面,比 CogVideoX 2B 更大的 5B 版本也正式开源,其性能进一步增强,是当前开源视频生成模型中的最佳选择。

这些模型共同构成了智谱自主原创的全栈大模型谱系,推动智谱全面对标国际先进水平,巩固中国在全球大模型领域的领先地位。 

第一手实测

通用知识、视觉理解、图像生成体验升级

我们首先对刚刚发布的 GLM-4-Plus 的通用知识掌握程度、逻辑推理等相关能力来了一波测验。

先看官方给出的指标。从结果来看,在与 OpenAI 最强旗舰模型 GPT-4o 的全面较量中,GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。

对于逻辑推理任务,先让它尝试解答最近一段时间让大模型犯糊涂的「数字比较」问题。从结果看,GLM-4-Plus 很懂小数位比较的逻辑思路。

给 GLM-4-Plus 上上难度,看它能不能搞定经典的「瓶子装水」问题。显然它可以一步步厘清破解思路,并给出准确答案。

GLM-4-Plus 对 AI 圈名人 Ilya Sutskever 的最新近况也了如指掌,说明背后的搜索功能做得也不错。

接下来,我们测试了 GLM-4V-Plus 的图像理解能力。

给出一张有关英伟达的漫画,GLM-4V-Plus 能 get 到这是用淘金热比喻当下的 AI 热,指出英伟达是铲子卖家,其他 AI 公司是铲子买家,和漫画寓意相符。

接下来,我们又给了它一张包含多个人物的梗图。结果发现,GLM-4V-Plus 不仅能够描述出人物的穿搭、表情以及照片里模糊的背景,还能看出几个人之间的关系以及表情的成因,效果出乎意料。

GLM-4V-Plus 在「实战」中不仅可以理解网页内容,将它们转换为 html 代码,而且能够对复杂的视频内容进行透彻的理解与分析,并做到与人类之间类似的沟通。

我们也让 GLM-4V-Plus 生成了截图的 html 代码。它基本对设计稿进行了分区规划,排版方式用了比较现代的 flex,支持一定的响应式,具有一定的基于当前代码继续补充细节的可行性。

从代码功能来看,它能够正确识别模块的内容大概是什么(比如是 Logo、是 Banner 还是新闻),并且语义化给出 class 命名(如新闻板块命名为.news)。

眼见为实,GLM-4V-Plus 强不强,下面这个视频示例也会给我们答案。我们喂给模型一段 11 秒时长的篮球比赛现场视频:

然后分别从视频总结、推理、时间问答等几个角度考验 GLM-4V-Plus。



Q1: 这个穿绿色衣服的球员在整个视频都做了什么?

A1: 在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。

Q2: 这个视频的精彩时刻是什么?发生在第几秒?

A2: 这个视频的精彩时刻发生在第 4 秒,当时穿绿色衣服的球员跳起并将球投入篮筐。



可以看到,GLM-4V-Plus 显然准确地 get 到了视频传达的内容,并进行了全面的总结。不仅如此,它还能根据「看到」的某些显著特征(如球员的服装)来展开进一步合理的推理判断;并针对具体时间节点的内容进行概括总结,在某种程度上可以说具备了时间感知能力。

我们测试了当前大火的《黑神话・悟空》片段,GLM-4V-Plus 也能按照时间顺序描述清楚,而且描述语言文学性高,与视频片段高度适配。


一个穿着传统中国盔甲的动画孙悟空,站在多云的天空下,散发出决心和战斗的准备。随着时间的推移,他的装束被详细展示,包括金色的盔甲、红色的流苏和类似羽毛的头饰,背景是雾蒙蒙的。他的表情从严肃的决心变为沉思,暗示着内省。场景转换到一个雾蒙蒙的山区地形,在那里,一个穿着华丽盔甲的战士面对着一个巨大的、有鳞片的生物,预示着一场史诗般的对抗。随着战士和生物之间的紧张关系升级,最终在多云的天空下,一场戏剧性的对峙达到高潮。


最后,从 CogView-3-Plus 生成的一系列图像示例中,我们体验到了文生图能力的显著提升。

比如在下面这张图中,我们看到 CogView-3-Plus 可以非常准确地生成单词,这在很多文生图应用中都是高频翻车区。

在下面这张图中,CogView-3-Plus 不仅准确还原了马斯克的面部特征,还创意性地给马加上了类似电路的纹理,非常富有想象力。

CogView-3-Plus 对于古诗词的理解有些出乎意料,不仅画出了所有的元素,还还原了诗词中的意境。

人物的生成则非常逼真,而且细节丰富、氛围感强。

可以说,智谱「超大杯」模型系列的实际体验效果,「兑现了」性能指标上的全面提升。

One More Thing

智谱版「Her」正式上线

除了以上基础模型的进展,智谱旗下 C 端产品 —— 生成式 AI 助手智谱清言也迎来了重磅升级。

我们知道,在 GPT-4o 出现后,大家都在猜测,下一个 Killer APP 的交互方式会是什么样子。很多人看好语音,但毋庸置疑,语音 + 视频会更加方便,所以顶级大模型厂商都在想方设法给自己的大模型安上「眼睛」,让大模型不仅会写、会听、会说,还会看。

在国内,智谱是首个把这项综合功能做成 C 端产品并开放给部分用户的公司。这部分用户只要下载最新版本的智谱清言,然后打开视频通话窗口,就可以和它视频通话。

这个视频通话跨越了文本、音频和视频模态,并具备实时推理的能力。随着该功能的加入,清言 APP 成为首个可以通过文本、音频、视频和图像来进行多模态互动的 AI 助手。

从官方 demo 来看,这个功能可以用在陪伴、教学、办公、生活等多种场景。

为了验证效果,在第一时间进行了尝试。

首先,我们尝试了一道小学数学题。在看到题目后,清言似乎自动代入了一个小学老师的角色,语速放慢且富有耐心。而且,它不是直接给出结果,而是用苏格拉底启发式教学法,引导提问者一步一步算出答案。这不就是家长想要的「作业辅导」搭子吗?

接下来,我们尝试了一下工作场景 —— 让清言帮忙解读一篇英文报道。可以看出,它不仅能把新闻概括出来,还能自行扩展新闻背后的信息,可以考虑拿来当工作搭子了。

目前,该功能也开放了外部申请。现在到智谱清言 APP 或登录 PC 端,就能站内申请内测。智谱表示会持续迭代并逐步放开规模,尽快让全员都可以使用。

此外,智谱还透露,这其实只是一个 beta 版本,清言的视频通话功能近期还会迎来大的版本迭代。看来,智谱有意将 C 端大模型卷到会写、会听、会说还会看的 Next Level,在行业内掀起新一轮竞赛。

密集的迭代背后

智谱有着充足的技术弹药

在众多大模型公司中,智谱是非常有辨识度的一家。这一方面是因为,智谱的模型早早就做到了接近 GPT-4 的水平;另一方面则是因为,没有哪家国产大模型公司像智谱的技术动作这样密集。

比如 2024 开年以来,智谱这家公司就一直「没消停过」。

比如,在模型方面,智谱在 1 月份就迭代出了新一代基座大模型 GLM-4。该模型整体性能成为当时最接近 GPT-4 的国产大模型。如今,GLM-4 再度进化,时间间隔也不过半年多。

在战火纷飞的小模型战场,智谱也没闲着,推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中,GLM-4V-9B 还是多模态的,通过加入 Vision Transformer,该模型仅以 9B 的参数量就实现了比肩 GPT-4V 的能力。但和后者不同的是,这个模型是开源的。

而在产品方面,智谱也是在 1 月份就推出了对标 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中,GLM-4-All Tools 实现了根据用户意图自动理解、规划复杂指令,自由调用文生图、代码解释器、网页浏览、Function Call 等多项工具来完成复杂任务,这意味着 GLM 系列模型的全家桶能力实现工业化。GLMs 则实现了个性化智能体定制,帮助没有编程基础的用户实现大模型的便捷开发。

在清言这款 C 端产品上,智谱也是更新不断,其中动静最大的要数最近发布的视频生成功能「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。而且,和 OpenAI 迟迟没有上线的 Sora 不同,清影同源的视频生成模型 ——CogVideoX 也是开源的,而且一路从 2B 开源到 5B(未来可能更大),这在国内外开发者群体中都引发了不小的轰动。

今天 HuggingFace 热榜,CogVideoX-5b 排名第三,超过 Llama 了。

据悉,智谱开源模型累计下载量已突破 2000 万次。

可以看到,从基础大模型到小模型,从语言到多模态,从技术到产品,智谱在各个方向全面发展,且全方位对标 OpenAI。这在国内大模型厂商中并不常见。这是一种技术储备充足的表现。

在竞争激烈的全球大模型市场中,智谱正通过频繁的技术迭代和开源举措,不断推动行业和生图的发展,赢得了越来越多的关注与认可。




#Runway突然删除HuggingFace库

网友:真跑(Run)路(Way)了

太突然!也没有任何理由的!

Runway 就删除、清空了他们在 HuggingFace 上的所有内容。

在 Hugging Face 主页上,Runway 声明不再维护 HuggingFace。

Runway 之前的很多项目也无法访问了,比如 Stable Diffusion v1.5。

目前,Runway 在 GitHub上的代码库有 40 个。

网友热议

此事在 Reddit、Twitter 上也引起了大家的关注与热议。

帖子链接:https://www.reddit.com/r/StableDiffusion/comments/1f4epto/runway_took_down_15_and_15_inpainting/

有网友调侃称:Runway 真跑路了。

也有网友猜测是不是被收购了。

当然,也有热心网友趁机把魔搭社区的资源贡献给大家:

  • 1.5:https://www.modelscope.cn/models/AI-ModelScope/stable-diffusion-v1-5/files
  • 1.5 修复:https://www.modelscope.cn/models/AI-ModelScope/stable-diffusion-inpainting/files

但截至发文,我们还没能看到任何官方的解释。




#1X消费级人形机器人亮相

终于有了点赛博朋克的样子。

这真不是个穿着皮套的人类吗?

刚刚,OpenAI 押注的机器人创业公司 1X 宣布正式推出一款专为家庭使用而设计的双足人形机器人原型 ——NEO Beta。

NEO 身高 5 英尺 5 英寸,大概 1 米 65,体重 30 公斤,步行速度 2.5 英里 / 小时(1.12 m/s),跑步速度 7.5 英里 / 小时(3.35 m/s),NEO 专为做家务而设计,可以承重 20 公斤,运行时间可达 2 到 4 个小时。

NEO 能做哪些家务呢?1X 展示的全都是高难度动作。整理一下高脚杯吧:

正在做饭,需要鸡蛋吗,给:

你看起来要出门,背上包吧:

有趣的是,NEO 干活,全程「静音」,主打一个陪伴,沟通主要靠「眼神交汇」,手势比划:

网友评论道:是否需要称之为「他」?

「下回我和 Claude、GPT 之类的 AI 对话时可要小心了。」

1X 机器人的人工智能副总裁、前谷歌资深科学家 Eric Jang 表示,在硬科技领域,最简单的东西也是非常难做的。我们制造了一款超静音机器人,它在人类周围非常安全。

NEO Beta 超越了传统的僵硬机器人,成为了具有仿生设计、可以在人类中安全工作的人形机器人。这是人形机器人领域一项重大进展,也标志着机器人公司 1X 从概念开发过渡到将人形机器人带入消费者家庭。接下来,NEO 将在挪威的工厂内进行大规模生产。

1X 旨在构建与人类一起工作的安全、智能类人机器人,来创造充足的体力劳动供应。为了实现这一目标,1X 类人机器人必须能够适应复杂的真实环境,才能有能力执行各种任务。

1X 首席执行官 Bernt Børnich 表示:「我们的首要任务是安全,安全是我们能够自信地将 NEO Beta 引入家庭的基石,它将收集重要的反馈并在现实环境中展示其功能。今年,我们将在选定的家庭中部署数量有限的 NEO 装置,用于研究和开发目的。这意味着我们朝着实现我们的使命又迈出了一步。」

与众不同的 1X 人形机器人

NEO 的身体采用类似人类肌肉组织的结构设计,而不是刚性的液压系统,因此显得既强壮又温和,就像人类一样。

NEO 可以行走、慢跑、爬楼梯,并自然地在用户所处的实际空间中导航。随着移动和执行任务,NEO 会变得更加高效。

NEO 为何一登场,在技术上就如此成熟?

实际上,1X 公司早期推出的旗舰产品 —— 轮式人形机器人 EVE 已经成功地进入了职场,在美国和欧洲部分地区投入商业化应用,例如在制造业协助后勤搬运等等。

EVE 为 1X 积累了大量通用知识,而 NEO 正是建立在 EVE 多年真实世界经验的基础上。

1X 第一代人形机器人:EVE

1X 在每个 NEO 部署之前,都会在真实场景中反复进行测试。1X 表示:「如果用户需要帮助,NEO 的视觉和动作可以迅速由远程人类操作员接管。」

1X 的测试表明,NEO 是一款具有广泛能力的人形机器人,在安保、物流、制造、操作机械以及处理复杂任务等行业中的工业任务中表现出色。并且,与 NEO 互动得越多,与 NEO 一起生活的体验就会变得越自然和直观。NEO 将理解所处的环境以及如何处理易碎物品,从而实现无缝协作和沉浸式的人机互动。

1X 还在研究 NEO 如何为行动不便的人士提供支持,比如取物品和提供陪伴。NEO 的潜力还延伸至科研领域,帮助机器人社区探索心理学和人工智能等领域。

关于人形机器人的设计,1X 认为,首先人类本身非常灵活,可以以各种方式移动。通过模仿人类形体和动作,1X 的机器人可以执行复杂的任务,并轻松地在环境中移动。

其次,人类擅长通过表情和手势等非语言的方式相互理解,当机器人看起来像人类时,他们可以使用这些熟悉的方式与人类沟通和合作。

最后,由于人类生活的世界中的一切都是为人类设计的,所以拥有符合人类外形的机器人可以更容易地融入我们的世界,而不需要做出太多改变。

借助具身人工智能(Embodied AI)技术,NEO 将通过融合 AI「感知」与其物理身体来更深入地理解环境。NEO 会不断学习和改进,随着时间的推移变得更加智能和高效。

OpenAI 看好的人形机器人公司

1X 是人形机器人领域的领导者,致力于创建通用家庭机器人,并解决物理智能问题。1X 专注于安全性,为消费者家庭提供实用且易用的产品。

1X 公司于 2014 年创立,公司最初由首席执行官 Bernt Børnich 以 Halodi Robotics 之名成立,以实现一种新解决方案:能够与人类一起执行劳动的通用机器人。

2022 年,1X 与 OpenAI 合作,将机器人技术与人工智能结合,为具身学习奠定基础。

近年来,1X 收获了外界巨额资金的支持,2024 年 1 月的 B 轮融资达到 1 亿美元,支持者中也有 OpenAI 的身影。

参考链接:

https://www.1x.tech/androids/neo

https://www.1x.tech/discover/announcement-1x-unveils-neo-beta-a-humanoid-robot-for-the-home




#将Llama3蒸馏成混合线性 RNN

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。

前段时间,Mamba 的出现打破了这一局面,它可以随上下文长度的增加实现线性扩展。随着 Mamba 的发布,这些状态空间模型 (SSM) 在中小型规模上已经可以与 Transformer 匹敌,甚至超越 Transformer,同时还能维持随序列长度的线性可扩展性,这让 Mamba 具有有利的部署特性。

简单来说,Mamba 首先引入了一个简单却有效的选择机制,其可根据输入对 SSM 进行重新参数化,从而可让模型在滤除不相关信息的同时无限期地保留必要和相关的数据。

最近,一篇题为《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的论文证明:通过重用注意力层的权重,大型 transformer 可以被蒸馏成大型混合线性 RNN,只需最少的额外计算,同时可保留其大部分生成质量。

由此产生的混合模型包含四分之一的注意力层,在聊天基准测试中实现了与原始 Transformer 相当的性能,并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一种硬件感知推测解码算法,可以加快 Mamba 和混合模型的推理速度。

论文地址:https://arxiv.org/pdf/2408.15237

该研究的性能最佳模型是从 Llama3-8B-Instruct 中蒸馏出来的,在 AlpacaEval 2 上相对于 GPT-4 实现了 29.61 的长度控制(length-controlled)胜率,在 MT-Bench 上实现了 7.35 的胜率,超越了最好的指令调整线性 RNN 模型。

方法

知识蒸馏(KD)作为一种模型压缩技术,用于将大型模型(教师模型)的知识迁移到较小的模型(学生模型)中,旨在训练学生网络模仿教师网络的行为。该研究旨在对 Transformer 进行蒸馏,使其性能与原始语言模型相当。

该研究提出了一种多级蒸馏方法,结合了渐进式蒸馏、监督微调和定向偏好优化。与普通蒸馏相比,这种方法可以获得更好的困惑度和下游评估结果。

该研究假设来自 Transformer 的大部分知识都保留在从原始模型迁移而来的 MLP 层中,并专注于蒸馏 LLM 的微调和对齐步骤。在此阶段,MLP 层保持冻结状态,Mamba 层进行训练。

51c大模型~合集43_大模型_23

该研究认为线性 RNN 和注意力机制之间天然存在一些联系。通过删除 softmax 可以线性化注意力公式:

51c大模型~合集43_大模型_24

但线性化注意力会导致模型能力退化。为了设计一个有效的蒸馏线性 RNN,该研究尽可能接近原始 Transformer 参数化,同时以有效的方式扩展线性 RNN 的容量。该研究没有尝试让新模型捕获精确的原始注意力函数,而是使用线性化形式作为蒸馏的起点。

如算法 1 所示,该研究将来自注意力机制的标准 Q、K、V 头直接馈入到 Mamba 离散化中,然后应用得到的线性 RNN。这可以看作是使用线性注意力进行粗略初始化,并允许模型通过扩展的隐藏状态学习更丰富的交互。

51c大模型~合集43_大模型_25

该研究用微调线性 RNN 层直接替换 Transformer 注意力头,保持 Transformer MLP 层不变,不训练它们。这种方法还需要处理其他组件,例如跨头共享键和值的分组查询注意力。研究团队注意到,这种架构与许多 Mamba 系统中使用的架构不同,这种初始化允许用线性 RNN 块替换任何注意力块。

51c大模型~合集43_大模型_26

该研究还提出了一种使用硬件感知多步生成的线性 RNN 推测解码新算法。

算法 2 和图 2 显示了完整的算法。该方法仅在缓存中保留一个 RNN 隐藏状态以进行验证,并根据多步内核的成功来延迟推进它。由于蒸馏模型包含 transformer 层,该研究还将推测解码扩展到 Attention/RNN 混合架构。在此设置中,RNN 层根据算法 2 执行验证,而 Transformer 层仅执行并行验证。

51c大模型~合集43_大模型_27

51c大模型~合集43_大模型_28

为了验证这种方法的有效性,该研究使用 Mamba 7B 和 Mamba 2.8B 作为目标模型进行推测。结果如表 1 所示。

51c大模型~合集43_大模型_29

图 3 显示了多步内核本身的性能特征。

51c大模型~合集43_大模型_30

H100 GPU 上的加速。该研究提出的算法在 Ampere GPU 上表现出强大的性能,如上表 1 所示。但在 H100 GPU 上面临巨大挑战。这主要是因为 GEMM 操作速度太快,这使得缓存和重新计算操作产生的开销更加明显。实际上,该研究的算法的简单实现(使用多个不同的内核调用)在 3090 GPU 上实现了相当大的加速,但在 H100 上根本没有加速。

实验及结果

该研究使用两个 LLM 聊天模型进行实验:Zephyr-7B 是在 Mistral 7B 模型的基础上微调而来, 以及 Llama-3 Instruct 8B。对于线性 RNN 模型,该研究使用 Mamba 和 Mamba2 的混合版本,其中注意力层分别为 50%、25%、12.5% 和 0%,并将 0% 称为纯 Mamba 模型。Mamba2 是 Mamba 的一种变体架构,主要针对最近的 GPU 架构而设计。

在聊天基准上的评估

表 2 显示了模型在聊天基准上的性能,主要对比的模型是大型 Transformer 模型。结果显示:

蒸馏后的混合 Mamba 模型 (50%) 在 MT 基准测试中取得的分数与教师模型相似,在 LC 胜率和总体胜率方面都略优于 AlpacaEval 基准测试中的教师模型。

蒸馏后的混合 Mamba (25% 和 12.5%) 的性能在 MT 基准测试中略逊于教师模型,但即使在 AlpcaaEval 中具有更多参数,它仍然超越了一些大型 Transformer。

蒸馏后的纯 (0%) Mamba 模型的准确性确实显著下降。

值得注意的是,蒸馏后的混合模型的表现优于 Falcon Mamba,后者是从头开始训练的,使用了超过 5T 的 token。

51c大模型~合集43_大模型_31

一般基准评估

零样本评估。表 3 显示了从不同教师模型中蒸馏出的 Mamba 和 Mamba2 在 LM Eval 基准中的零样本性能。从 Llama-3 Instruct 8B 中蒸馏出的混合 Mamba-Llama3 和 Mamba2-Llama3 模型与从头开始训练的开源 TRI Mamba 和 Nvidia Mamba 模型相比表现更好。

51c大模型~合集43_大模型_32

基准评估。表 4 显示经过蒸馏的混合模型的性能与 Open LLM Leaderboard 上最好的开源线性 RNN 模型相匹配,同时在 GSM8K 和 CRUX 中优于相应的开源指令模型。

51c大模型~合集43_大模型_33

混合推测性解码

对于 50% 和 25% 的蒸馏模型,与非推测基线相比,该研究在 Zephyr-Hybrid 上实现了超过 1.8 倍的加速。

实验还表明,该研究训练的 4 层 draft 模型实现了更高的接收率,不过由于 draft 模型规模的增加,额外开销也变大了。在后续工作中,该研究将专注于缩小这些 draft 模型。

51c大模型~合集43_大模型_34

与其它蒸馏方法的比较:表 6(左)比较了不同模型变体的困惑度。该研究在一个 epoch 内使用 Ultrachat 作为种子提示进行蒸馏,并比较困惑度。结果发现删除更多层会使情况变得更糟。该研究还将蒸馏方法与之前的基线进行了比较,发现新方法显示出较小的退化,而 Distill Hyena 模型是在 WikiText 数据集中使用小得多的模型进行训练的,并且显示出较大的困惑度退化。

表 6(右)展示了单独使用 SFT 或 DPO 不会产生太大的改进,而使用 SFT + DPO 会产生最佳分数。

51c大模型~合集43_大模型_35

表 7 比较了几种不同模型的消融研究。表 7(左)展示了使用各种初始化的蒸馏结果,表 7(右)显示渐进式蒸馏和将注意层与 Mamba 交错带来的收益较小。

51c大模型~合集43_大模型_36

表 8 比较了使用两种不同初始化方法的混合模型的性能:结果证实注意力权重的初始化至关重要。

51c大模型~合集43_大模型_37

表 9 比较了有 Mamba 块和没有 Mamba 块的模型的性能。有 Mamba 块的模型性能明显优于没有 Mamba 块的模型。这证实了添加 Mamba 层至关重要,并且性能的提高不仅仅归功于剩余的注意力机制。

51c大模型~合集43_大模型_38




#再见,AnandTech

他们成为了一个传奇故事。

「让人极度悲伤的是,这是我在 AnandTech 上撰写的有史以来最难以下笔的新闻。在 27 年疯狂的计算机硬件领域报道之后,今天是 AnandTech 的最后一天,」主编 Ryan Smith 写道。

昨天,老牌硬件科技网站 AnandTech 关停的消息在互联网上引发震动。多年以来,这家网站凭借其深入的硬件评论和分析在科技新闻界具有重要的影响力。

在硬件爱好者中,AnandTech 一直拥有忠实的受众群体,这归功于它对主板、芯片和其他硬件组件的详尽评测,细致的原理解读。其高质量的分析水准使其成为 PC 制造商、学者、同行记者及任何对计算机内部工作原理感兴趣的人的资源。

作为 AnandTech 的最后一篇文章,主编 Ryan Smith 发出了一封公开信:

无论如何,我们已经走到了漫长旅程的尽头 —— 从对 AMD 处理器的评测开始,到对 AMD 处理器的评测结束。这很有诗意,但也证明了我们在过去 27 年里一直做着自己喜欢的事情,报道作为计算机行业命脉的芯片。

在过去的四分之一个世纪里,很多事情都发生了变化 ——1997 年,英伟达甚至还没有创造「GPU」一词 —— 我们很幸运地看到硬件世界在这段时间里不断发展。我们已经从四四方方的台式电脑和笔记本电脑(今天我们可以宽容地将其归类为便携式电脑)发展到掌上电脑,即使是最便宜的设备也能让 1997 年最快的 PC 相形见绌。

这些年世界的发展也给出版界带来了翻天覆地的变化。AnandTech 当然不是第一个硬件爱好者网站,也不会是最后一个。但是,在过去的几十年里,我们很幸运地蓬勃发展了起来,这要归功于我们辛勤的工作、对人才和产品的战略投资,以及更辛勤的工作,还有我们许多朋友、同事和读者的支持。

然而,很少有东西能够永存,书面技术新闻的市场已经不复从前。所以,现在是 AnandTech 结束工作的时候了,让下一代技术记者在时代精神中占据一席之地。

过去 19 年里,我为 AnandTech 撰稿,并在过去十年里担任主编,这是我莫大的荣幸。虽然作为 AnandTech 的最后一位负责人,我感到很懊悔,但我至少可以为多年来取得的一切成就感到自豪,无论是赞扬一些传奇产品,编写至今仍具有现实意义的技术入门书,还是看着新星在我们预测的地方崛起。我还希望 AnandTech 能做更多的事情,但在发表了 2.15 万篇文章之后,可能一切已经无法继续了。

虽然 AnandTech 员工即将淡出,但我很高兴能告诉大家,该网站本身暂时不会消失。我们的出版商 Future PLC 将无限期地保留 AnandTech 网站及其众多文章。这样,我们多年来创建的所有内容都可以访问和引用。即使没有新文章添加到收藏中,我预计我们在过去几十年中撰写的许多内容在未来几年仍将具有现实意义,并且仍然可以访问。

AnandTech 论坛也将继续由 Future 的社区团队和版主团队运营。其中的论坛主题可以追溯到 1999 年(一些活跃成员的历史也一样长),论坛的历史几乎与 AnandTech 本身一样悠久。因此,即使 AnandTech 不再发布文章,我们仍然会为每个人提供一个讨论最新技术的地方,并且这些讨论会持续超过 48 小时。

最后,对于仍然需要技术写作帮助的每个人,我们过去 27 年来的对手 Tom’s Hardware 将继续报道科技世界。那里已经有几位熟悉的 AnandTech 老面孔提供他们积累的专业知识,该网站将继续尽最大努力提供有关技术新闻的书面报道。

Ryan Smith 回顾了 AnandTech 在过去 27 年取得的成就,感谢了很多个人、公司和团体。

Ian Cutress、Anton Shilov 和 Gavin Bonshor 在 ComputeX 2019 上。

27 年前,Anand Lal Shimpi 在自己的卧室里创办了 AnandTech。一个重要的节点是,2014 年 Anand 加入了苹果,成为 M 系列 Apple Silicon 芯片交付团队的一员。

虽然 Anand 早在十年前就已从科技新闻界退休,但他为质量设定的标准和他带来的经验至今仍在 AnandTech 中产生共鸣。

Ian Cutress、Anand Lal Shimpi、Joshua Ho 在 MWC 2014 上。

最后,对于所有正在或即将成为科技记者的人,Ryan Smith 请求他们履行职责,忠于自己,忠于读者需求,提供高质量的内容,保持真诚,为读者提供他们需要的深度报道。

深度报道或许没有其他内容那么吸引眼球,但在对抗现在众多浮夸和悲观的报道时,支持有根据的深度结论相比以往显得格外重要了。

1998 年,Anand 在主持 AGN 硬件 Show。

参考内容:

https://www.anandtech.com/show/21542/end-of-the-road-an-anandtech-farewell

https://news.ycombinator.com/item?id=41399872