#Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型

本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

随着多类型大模型的飞速发展,全球 AI 已经进入到了多模交互时代。

2024 年 5 月,OpenAI 推出了全新的多模态模型 GPT4o,引起全球轰动。其中 GPT4o 展现出了与人类相近的自然语言交互能力,实现了 AI 能同时读懂人类语音中的内容及情绪,并实时做出反馈。同时,GPT4o 也给众多语音研究人员带来「新的春天」,语音文本多模态大模型成为热门研究方向。

实现类似 GPT4o 实时语音交互能力的核心是模型能够直接在语音模态上进行理解和推理,这与传统的语音对话功能有本质的不同。现有的语音对话系统中主要包含 3 个过程:首先将输入语音内容转换为文本,其次利用大语言模型进行文本推理,最后利用语音合成系统生成并输出语音。

然而,类似的多阶段串联系统存在一些缺陷,比如模型无法理解语音中包含的情绪及其它非文本内容信息;同时由于额外的语音识别及合成带来的时间开销导致 AI 回复迟缓等实时性问题。

针对以上问题,学术界开始研究支持端到端、语音到语音的多模态大模型。为方便结合大语言模型的研究成果,通常会将语音离散化为 Audio Token,并基于 Audio Token 进行学习和推理。这其中具有代表性的工作包括 SpeechGPT、Spectron 等,它们均采用 QuestionAudio-QuestionText-AnswerText-AnswerAudio 等形式来降低直接对语音进行学习推理的难度。

但同时,这些方法也需要生成完整的 AnswerText 后才能生成 AnswerAudio,无法解决实时性问题。

为解决上述问题,我们提出了 Mini-Omni,第一个开源的端到端实时语音多模态模型,支持语音输入、流式语音输出的多模态交互能力。具体来讲,我们提出了文本-语音同时生成的方案,通过让已生成的文本 token 指导生成语音 token,有效降低了直接推理语音内容的难度,同时避免了等待生成完整文本答案带来的时间消耗。

  • 论文题目:Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
  • 论文地址:https://arxiv.org/abs/2408.16725
  • 代码仓库:https://github.com/gpt-omni/mini-omni

针对多层级的音频编码方案,本文采用不同层级延迟并行输出的方案减小音频推理长度,有效解决实时性问题。同时还提出了多任务同时推理的生成方法进一步加强模型的语音推理能力。另一方面,本文所采用训练方案可有效迁移至任意语言大模型,通过增加少量参数及分阶段训练,在尽可能保留模型原始推理能力的同时,为模型加上 「听、说」的语音交互能力。

为了验证方案的有效性,Mini-Omni 在使用仅 0.5B 的小模型和少量开源及合成数据的情况下,在实时语音问答及语音识别等方面表现出令人惊喜的效果。

总结来说,本文主要贡献为:

  • 提出了首个开源的端到端、实时语音交互的多模态模型解决方案,支持语音流式输出,不需要额外的 ASR 或 TTS 系统。
  • 推理过程中,可同时生成语音和文本信息,通过文本指导语音生成,有效降低语音推理的学习难度。
  • 提出多阶段的训练方案,可通过少量开源或合成数据使任意语言模型具备语音交互能力。

,时长00:59

Mini-Omni 模型架构

Mini-Omni 整体模型框架如下图所示,模型输入端可以是语音或文本,输出端同时包含文本和语音。为复用语言模型「预测下一个 token」的学习范式,输出侧语音采用离散编码,本文采用了 SNAC 编解码方案。

针对语音交互场景,输入语音经过预训练 whisper 的语音编码模块进行连续特征提取,然后通过 2 层 MLP 对齐语音信息与文本信息。输出侧,每一步会通过音频解码头和文本解码头同时进行文本 token 与语音 token 解码,然后将输出的音频表征和文本表征进行特征融合,再作为下一步的输入。同时,在推理过程中,可将输出的语音 token 流式输入至 SNAC 解码器中生成语音,实现低延迟的语音交互。

通过采用文本信息指导语音信息输出的形式,有效降低了直接进行语音输出推理的学习难度,实现少量数据即可使语言模型具备语音问答能力。这种一边生成文本,一边生成对应语音的形式功能上类似于「在线 TTS 系统 (online TTS)」,具有较好的灵活性。

51c大模型~合集48_大模型

文本指导下的音频生成

为降低直接推理语音信息的学习难度,以及减少推理过程中语音 token 长度,我们采用了文本和语音延迟并行生成的方案,其示意图如下。

51c大模型~合集48_大模型_02

本文所采用的 SNAC 方案,每一帧具有 7 个有效语音 token,对应音频时长为 80ms。一种语音建模方案是将语音的所有 token 平铺展开进行顺序推理,类似方案在音乐生成领域已被验证生成效果较好。但也存在语音 token 序列长、学习难度高等问题。为实现实时语音推理,我们采用延迟并行推理的方案。

具体来讲,模型每一步同时生成 8 个 token,包括 7 个语音 token 和 1 个文本 token。由于音频依赖文本内容,而音频的 7 个 token 之间从前到后是由粗到细的建模关系,所以在推理开始时如上图 (b) 所示。首先生成文本的第一个 token,然后生成文本的第二个 token 和第一层音频的第一个 token,以此类推。先输出文本 token 主要为了语音 token 在生成过程中有文本内容进行参考。

同时,由于文本指导语音生成方案的灵活性,我们在实验中发现,推理时在一个批次中同时进行 audio-to-audio 和 audio-to-text 两个任务,并用后者的文本 token 替换前者的文本 token 以指导前者的语音生成(如上图 c 中所示),可有效提升语音对话的能力。

让每个模型都能「听说」

我们提出了一种主要基于适配器的模型能力扩展方法,具体学习过程可以分为三个阶段:

首先模态对齐:此阶段的目标是增强文本模型理解和生成语音的能力。过程中,Mini-Omni 的 LLM 模块完全冻结,只在语音理解和生成两个适配器中进行梯度更新。在这个阶段,我们使用开源语音识别 (ASR) 和语音合成 (TTS) 数据集来进行训练。

其次适应训练:完成新的模态与文本模态的输入对齐后,将语音适配器冻结。在这个阶段中,我们将可用的文本问答对中的问题部分采用开源多音色的语音合成系统进行语音数据合成,生成语音问答数据集。我们关注于训练模型在给定音频输入时的文本推理能力。模型使用语音识别 (ASR)、语音问答 (AudioTextQA) 和文本问答 (TextTextQA) 任务的数据集进行训练。

最后多模态微调:在最后阶段,我们使用全面的数据对整个模型进行微调,新增如全语音问答 (AudioAudioQA)、文本语音问答 (TextAudioQA) 等形式数据集。此时,除了音频所有模型权重都会参与训练。由于适配器训练期间已经处理了主要的模态对齐任务,原始模型的能力得以最大限度地保留。

通过上述多阶段的训练流程,结合开源语音数据,本文只需合成少量的语音问答数据即可使任意语言模型具备「听说」的能力,实现纯语音的端到端自然交互。

实验效果

我们主要采用开源语音或文本问答数据进行训练,具体可参考下表。其中 A1 和 T1 表示音频及对应的文本内容,A2、T2 同理。针对问答场景,1 表示问题,2 表示对应问答的答案。

51c大模型~合集48_大模型_03

下图中,我们展示了 Audio-to-Text、Audio-to-Audio、Batch-Audio-to-Audio 三种任务中 Mini-Omni 的具体表现。

51c大模型~合集48_大模型_04




#英伟达市值暴跌2万亿

一夜蒸发3个英特尔,创美国历史纪录

一觉醒来,英伟达的市值竟蒸发了2790亿美元!

而且,这次又破纪录了——

市值暴跌9.5%,创下了美国公司有史以来最大的单日跌幅纪录。

AI大佬马库斯调侃道:英伟达今天的市值损失,可能比他们向GenAI公司卖出的所有芯片总和还要多……

要知道,OpenAI目前的估值也才刚达到1000亿美元,相当于英伟达一夜之间损失了将近3个OpenAI。

如此惊人的股价大跌背后,究竟是什么原因?

除了投资者对于AI更加谨慎之外,另一个原因,恐怕就是司法部升级了对英伟达的反垄断调查。

据悉,美国司法部已经向英伟达发出传票,寻找这家芯片巨头违反反垄断法的证据。

英伟达被怀疑有如下「罪名」:让客户更难转向其他供应商,且将不全部使用其AI芯片的买家置于不利地位。

如今,司法部离正式向英伟达提出诉讼,又近了一步。

屋漏偏逢连夜雨,如今的英伟达,是厄运连连。

不得不说,老黄套现的时机,把握得是非常准了。

市值一夜蒸发2790亿美元,创美国公司单日纪录

就在上周,英伟达公布财报,营收增长122%,净利润增长至168%至166亿美元。

然而电话会议后,股价却一路暴跌,一度跌超8%,带垮整个美股科技股。

谁能想到,英伟达的「噩梦」还没结束!

就在昨天,英伟达的股票暴跌了9.5%,市值一夜蒸发2790亿美元。

这个单日股市市值跌幅已经打破了美股纪录,甚至超过了Meta在2022年2月3日,因发布悲观预测而遭受的2023亿美元大跌。

显然,经济数据疲软后,投资者对AI不再那么乐观,从而引爆了市场的全面抛售。

在辉煌时,AI曾一度推动了今年的美股大涨;但上周英伟达财报发布后,未能达到投资者的高预期,因此股价一路暴跌。

所谓成也AI,败也AI。

Strategas Securities的ETF策略师Todd Sohn解释道——

过去12个月里,大量资金疯狂涌入科技和半导体领域,导致交易完全扭曲,稍微一点风吹草动,就会引发巨大的蝴蝶效应。

比如,英特尔CEO基辛格和主要高管打算向董事会提出一项计划,以削减不必要的业务,从而摆脱困境,此举就让公司一度下跌近9%。

今年7月,在创纪录的高点收盘时,英伟达的市值在2024年几乎翻了三倍。

而即使算上昨天的暴跌,英伟达比起今年年初,依旧上涨118%。

不过,英伟达还能撑到几时?

拖累芯片股,创4年半来最差表现

不仅如此,英伟达的暴跌甚至还拖累了整个芯片股。

当天,英特尔下跌近8%,Marvell下跌8.2%,博通下跌约6%。AMD下跌7.8%,高通下跌近7%。

可以说,整个芯片股的表现都很疲软。

本来,AI热潮引发的乐观情绪,让芯片股在过去一年中一直呈上涨趋势。

公司们竞相抢购更多的半导体和内存,以跟上AI应用日益增长的计算需求。

在AI数据中心芯片市场上,占主导地位的当然就是英伟达。而其他芯片公司,也都分得了一杯羹。

英特尔和AMD也在销售AI芯片,尽管市场渗透率有限;博通支持谷歌的TPU芯片;高通则将其芯片宣传为在安卓手机上运行AI的最佳选择。

而英伟达在财报中预计的「本季度销售额增长80%」,令投资者们失望了,因此竟牵连道了其他芯片制造商。

巨额AI投资,何时才能获得回报?

其实,不仅英伟达,所有曾经最受华尔街青睐的公司,包括微软和谷歌,都在面临着交易价格走低的困扰。

巨额的AI投资,何时能带来回报?这一质疑的呼声,如今越来越大。

华尔街需要证明,仅靠AI带来的收入,能否证明对应资本支出合理性。

他们越来越不确定了。

肉眼可见,被AI泡沫冲昏了头的投资人,热情已经渐渐冷却下来。

早在今年7月,红杉和高盛就充当起了「吹哨人」,给市场大泼冷水——如今的AI收支鸿沟,或已达5000亿美元!

冷冰冰的数字告诉我们:每年要挣6000亿美元才能支付的巨额硬件支出,换来的却只是OpenAI 34亿美元的收入,而绝大多数初创,连1亿美元都达不到。

部分高盛分析师认为,AI目前根本没有赚到任何大钱,杀手级应用如今尚未出现,即使在未来十年,AI的经济上升空间也极其有限。

红杉资本的分析师也发文提醒:如今AI基础设施的巨额投资和实际的AI生态实际收入之间,鸿沟已经大到不可思议。AI行业需要每年赚取6000亿美元来支付巨额的硬件支出,人工智能泡沫正在接近临界点!

大家冷静下来一想,都明白了:大量泡沫和炒作之中,唯一赚得盆满钵满的,就是英伟达的老黄。

祸不单行:反垄断调查突然升级

英伟达,垄断着全球产业链上最好的资源。

台积电的先进制程芯片产能,全世界AI公司的算力命脉,无不在它的掌握之中。

这种长久的绝对垄断,已经在行业内滋生了大量愤懑和不满的声音。

所有做大模型的都在亏钱,只有一家在赚钱。行业内很多人就此发声:「英伟达的利润率让所有客户都很难受,很伤害AI行业!」

如今,「围剿英伟达」的呼声,已经上升到了官方层面。

据彭博社报道,美国司法部已经向英伟达及其他公司发出传票,以寻求英伟达违反反垄断法的证据。

针对英伟达的调查,正式升级!

此前,司法部就曾向公司发送问卷,此次发出的则是更有法律约束力的传票,要求提供信息。

距离政府正式发起诉讼,又近了一步。

此前,英伟达CEO老黄曾表示,自己会优先考虑使用公司产品的客户。

这就让反垄断官员担心,英伟达会惩罚那些不专门使用其AI芯片的买家。

比如,监管机构一直在调查英伟达四月宣布的对RunAI的收购。

这家公司开发的是用于管理AI计算的软件,监管机构担心,这种合并会导致客户更难转向使用非英伟达的芯片。

另外,英伟达是否对专门使用其技术、购买其完整系统的客户提供优先供应和定价?这也在监管机构的调查中。

总之,此消息传出后,英伟达股价立刻经历了创纪录的暴跌。

对此,英伟达的回应是:公司之所以能占市场主导地位,是源于过硬的产品质量,能提供更快的性能。

「英伟达凭借其基准测试结果和对客户的价值赢得了市场,客户可以选择最适合他们的解决方案」。

自从成为全球最有价值的芯片制造商和AI支出激增的主要受益者以来,英伟达一直受到监管审查。

显然,英伟达的成功,已经引起了国家层面的注意。

司法部的怀疑,也是有迹可循的。

黄仁勋曾表示,会优先考虑理解在现成数据中心使用其产品的客户,这样可以防止囤积,加速AI的广泛应用。

毫无疑问,英伟达让竞争对手们难以超越,虽然他们一直在努力推出英伟达GPU的平替。

比如微软和Meta,就不得不将硬件预算的40%以上,花在英伟达的芯片上。

而在H100短缺的高峰期,单个H100的零售价就高达9万美元。

据分析师预计,英伟达将在2024年实现1208亿美元的收入,相比起2020年的160亿美元,大部分收入都将来自其数据中心。

仅看今年的利润,英伟达已经超过了最接近自己的竞争对手——AMD的总销售额。

如今,随着AI对经济实力和国家安全日益重要,获取AI能力已经成为全球各国政府的重点关注事项。

英伟达的一家独大,还会招来更多的审查。

参考资料:

https://www.bloomberg.com/news/articles/2024-09-03/nvidia-gets-doj-subpoena-in-escalating-antitrust-investigation

https://www.reuters.com/markets/nvidia-chip-index-tumble-investors-pause-ai-rally-2024-09-03/

https://www.cnbc.com/2024/09/03/nvidia-tumbles-leading-chip-stocks-lower.html




#这家AI公司按结果收费

不好用不收钱,这家AI公司破天荒按结果收费,要卷死同行?


一种新的人工智能商业模式。


近两天,关于 OpenAI 提高付费版模型价格的消息满天飞,有消息称订阅价格最高可达每月 2000 美元。

尽管最终价格尚未确定,但现在个人每月 20 美元、企业每人每月 25 美元的订阅费也让大家苦不堪言。

或许,这一个月你用了没几次,又或许订阅的服务根本没能解决问题,用户还是需要支付全部的费用。而这种付费模式,也是当前很多企业都在采用的。

不过,这种方式正在被一家 AI 公司摒除。上个月,这家位于美国旧金山的 AI 公司 Zendesk 决定以一种大胆的新方式销售其产品。

他们改变了传统的产品收费模式,之前是根据企业使用软件(本质上是一个 AI 聊天机器人)解决客户问题的频率来收费。现在,只有在聊天机器人独立完成任务、不需要员工介入时,Zendesk 才会向企业收费。这种模式更注重结果而非使用频率。 

一句话概括就是,不好用不要钱,付费软件真正帮你干活了,才收钱。

Zendesk 高级副总裁 Nikhil Sane 表示,在一个日益自动化的世界里,传统的软件付费模式已经没有意义了。仅仅因为用户使用了你们的服务,并不意味着用户得到了价值。

这一不同寻常的定价决策是在 Zendesk 和其他软件提供商预测,AI 将可靠地自动化工作场所中的某些角色。如果他们的预测正确,这可能意味着更少的客户会订阅基于用户数量收费的软件计划,也被称为软件即服务 SaaS ,这是 20 多年来企业软件行业的基石。

Zendesk 并非孤例,它的两家竞争对手 Intercom 和 Forethought 也开始要求客户仅在 AI 功能运行良好、客户可以将其设置为自动运行的情况下才付费。

这种称为基于结果的定价商业模式也旨在吸引客户在 IT 预算紧缩的时期增加支出。

不过,现在判断新定价方式对软件供应商的增长和利润的影响还为时过早,而且这仍然只占其业务的一小部分。上市软件公司尚未采用基于结果的定价。

但已经采用这种定价模式的公司高管表示,随着行业越来越多地使用人工智能来推出自动化客户支持、销售和招聘等任务的产品,其他公司也将效仿。这是因为软件买家已经对软件产品中迅速普及的高价人工智能功能越来越谨慎,他们需要计算新购买的服务将如何影响企业的利润。

根据完成任务而不是使用情况向公司收费的一大风险是,收入可能更加难以预测 —— 尤其是当人工智能不能按预期工作时 —— 而且这种方法可能导致销售额低于订阅等传统定价方案。

客户不希望通过按人数来收费

但 Zendesk 和其他公司还是希望冒着短期内销售额下降的风险,避免 AI 对自己业务的威胁。企业现在可以以相对便宜的价格获得 GPT-4o mini 等大型语言模型的使用权限,理论上他们可以用它来构建自己的企业应用程序,而不是从别人那里购买。这种发展损害了软件供应商的利益。

「这可能会威胁到软件公司的生存。」风险投资公司 Foundation Capital 的合伙人 Joanne Chen 表示。

软件行业对于商业模式的重大变化并不陌生。近年来,软件客户不断向供应商施压,要求他们根据使用情况(例如他们使用软件的时间或使用软件所消耗的计算资源数量)而不是能够访问软件的员工数量来收费。客户认为按需付费模式可以为他们省钱。

现在,一些软件供应商认为客户会倾向于基于结果的定价,客户认为这样可以节省他们更多的成本。如果一些软件公司转向基于结果的定价,许多其他公司可能会效仿。当市场确实转向基于结果的定价时,几乎肯定会发生的是,你的竞争对手将被迫极快地适应。

Zendesk 改变其聊天机器人的定价方式,是继去年 Intercom 采取行动之后的又一举措。去年,Intercom 的 AI 机器人 Fin 每次自动解决客户互动问题时,都会向客户收取固定费用。(其早期产品仍根据人员和使用情况定价。)

据管理该业务的 Robb Clarke 介绍,使用 Fin 机器人的一家公司到目前为止似乎很满意。Fin 聊天机器人在八月处理了 948 个工单中的 60% 问题。Clarke 估计,鉴于人工解决一个工单平均需要 15 分钟,Fin 在八月为两人小团队节省了 142 小时的工作时间。该公司每解决一个工单支付 99 美分,相比之下,人工解决一个工单的成本约为 10 美元。 

51c大模型~合集48_大模型_05

另一家软件初创公司 Forethought 最近也开始在探索这种收费模式。其首席执行官 Deon Nicholas 表示:我们只有在为客户赢得胜利时才赚钱。

不过,现在还无法判断 Zendesk 的客户对其基于结果的 AI 机器人的付费模式的接受程度如何。

基于结果的收费,有人持怀疑态度

不过,还是有一些软件高管对基于结果的定价持怀疑态度。比如美国 AI 公司 Moveworks (其聊天机器人可自动处理 IT 支持)首席执行官 Bhavin Shah 表示,他们不会采用这种定价方式,原因在于要给解决一个 IT 工单的价值定一个统一的价格是很难的。对于不同的客户,甚至同一个客户内的不同公司部门,对于解决 IT 工单获得的价值感受也会不同。 

另一位对基于结果的定价持怀疑态度的公司 Decagon,正在销售一种用于客户支持的人工智能聊天机器人 —— 类似于 Intercom 和 Zendesk 的聊天机器人 —— 无论它是否能自行解决客户问题,每次使用都要收费。

该公司首席执行官 Jesse Zhang 表示,基于结果的定价模式可能会鼓励买家减少使用该产品,这可能会损害公司的业务。

参考链接:https://www.theinformation.com/articles/new-ai-business-model-charging-customers-only-when-the-tech-works?rc=ks2jbm




#FireRedTTS

名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI

近日,来自小红书的技术团队 FireRed,提出了基于大语言模型的 FireRedTTS 语音合成系统,并分享了在短视频配音及聊天式语音对话等应用的一些实践。

,时长02:39

FireRedTTS 只需要给定文本和几秒钟参考音频,无需训练,就可模仿任意音色、任意说话风格,创造独特的音频内容。搞怪风、女友风、emo 小片段…… 百变风格自由定制,只有你想不到,没有 FireRedTTS 做不到。

,时长00:51

是的,你没听错。这一段带着京腔,中英文混杂的片段正是由 FireRedTTS 生成。中英夹杂的 strong(死装)感在「city」中透着一丝阴阳怪气。不只语言混杂,FireRedTTS 还有让人直呼「更 city」的配音与对话。

,时长00:35

大家听出来了哪几个影视剧角色?运用 FireRedTTS,能够让《黑神话》悟空、《亮剑》李云龙、《狂飙》中的徐江、《西虹市首富》中的王多鱼这些本不可能聚集在一起的人物插科打诨,互相斗嘴,整活不断。

,时长00:45

FireRedTTS 不仅能够驾驭多风格、高表现力的音色,在自然对话领域也表现亮眼。视频中基于 FireRedTTS 的陪伴式交流真实自然,刁蛮可爱的女友形象让人情不自禁。

,时长00:29

同时,除运用 FireRedTTS 的能力进行多音色、中英混杂的「整花活」之外,FireRedTTS 还能够生成具有小红书博主风格的高级感旁白,少年博主音颇具特色,将听众拉入即将离去的夏天。

FireRedTTS 的效果卓群,能 hold 住不同类型、不同风格、不同使用场景的需求。目前,FireRed 团队已经公布了该工作的技术报告,并且将开源模型权重和推理代码,以供大家体验尝试。

FireRedTTS 是如何一步步突破局限,做到如此惊艳的效果?我们可以打开 FireRedTTS 的论文一探究竟。

  • 技术报告及 Demo 链接:https://arxiv.org/abs/2409.03283
  • 代码链接:https://github.com/FireRedTeam/FireRedTTS

FireRedTTS 提出了一套完整的基座语音合成框架,由三部分组成:数据处理、基座系统、与下游应用。在基座系统部分,他们提出了一种基于语言模型的语音合成方案,旨在利用语言模型强大的序列生成能力,将文本序列转换成自然的、有表现力的语音序列。

该方案首先训练一个关注语义信息的语音离散编码器,以把语音信号转换成离散的标签序列,和一个说话人全局表征。随后,文本到语音的语言模型被训练以从文本和说话人表征中预测目标语音序列。

为将预测的离散语音序列稳定地还原至高保真音频,FireRedTTS 提出了一种两阶段方法:先用大规模低采样率数据训练高泛化性梅尔谱生成器,再用小规模高保真数据训练超分辨神经声码器以合成高采样率音频。同时,除了基于流匹配的解码器,该系统还提出了一种基于多流语言模型的流式解码器以满足流式解码需求。

51c大模型~合集48_大模型_06

待基座模型训练完毕后,FireRedTTS 便可以通过 In-Context Learning, Supervised Fine-Tuning, Instruct Tuning 等方法,服务下游语音应用。比如:在配音领域,该系统可以零样本克隆用户声音、1 小时数据构造专业级特色声音;在自然对话领域,该系统通过指令优化实现情感和副语言行为可控的拟人化语音生成。



#Self-supervised Anomaly Detection Pretraining Enhances Long-tail ECG Diagnosis

突破传统:AI如何应对心电图中的长尾挑战?

近日,上海交通大学、上海人工智能实验室和上海交通大学附属瑞金医院联合团队发布基于异常检测预训练的心电长尾诊断模型。

  • 论文链接:http://arxiv.org/abs/2408.17154
  • 论文标题:Self-supervised Anomaly Detection Pretraining Enhances Long-tail ECG Diagnosis

研究背景

随着医疗技术的不断进步,使用无创手段来准确诊断心脏疾病变得尤为重要。在这些手段中,心电图(ECG)因其低成本和广泛使用的特点,被认为是诊断心脏健康的关键工具。然而,分析 ECG 数据面临着一个重大挑战:数据的长尾分布。这意味着大部分 AI 技术虽然能有效检测常见的心脏病,但对于稀有或非典型的异常往往难以察觉。这些未被识别的异常(如室上性心动过速、室颤和高级房室传导阻滞)可能是心源性休克和猝死等致命事件的前兆。因此,开发能够处理这些罕见异常的 AI 模型至关重要。

为了应对这些挑战,上海交通大学、上海人工智能实验室和上海交通大学附属瑞金医院的研究团队提出了首个基于异常检测预训练的心电长尾诊断模型,并在以下三个方面做出了显著贡献:

  1. 创新性方法:该研究首次将自监督异常检测引入为预训练方式,模拟专业医生的诊断流程,成功开发出具有长尾诊断能力的心电 AI 模型,大幅提升了对常见及稀有心脏疾病的诊断准确性。
  2. 严谨的数据验证:研究团队在一个大规模的临床 ECG 记录数据集上对模型进行了严格验证。该数据集包含了 2012 年至 2021 年期间在上海真实医院环境中收集的超过一百万份 ECG 样本,涵盖了 116 种不同的 ECG 类型。经过异常检测预训练的模型在 ECG 诊断及异常检测 / 定位的内部和外部评估中均展现了显著的整体准确性提升。尤其是在处理稀有 ECG 类型时,该模型实现了 94.7% 的 AUROC、92.2% 的灵敏度和 92.5% 的特异性,明显优于传统方法,并显著缩小了与常见 ECG 类型诊断性能之间的差距。
  3. 前瞻性临床验证:在前瞻性验证中,采用该模型辅助诊断的心脏病医生相比于单独工作的医生,诊断准确率提高了 6.7%,诊断完整性提升了 11.8%,诊断时间减少了 32%。这些结果表明,将异常检测预训练集成到 ECG 分析中,具有极大的潜力来解决临床诊断中长尾数据分布的挑战。

接下来将从数据、方法与实验结果三个方面介绍原文细节。

数据介绍

本研究使用了一个涵盖从 2012 年至 2021 年期间上海真实医院数据的大规模心电图(ECG)数据集,总共包含 1089367 个样本。每个样本不仅包括心电图信号图像,还包含一个详细的诊断摘要,记录了特定的异常情况。数据集中涵盖了从常见到罕见的 116 种心电异常类型。例如,房室传导阻滞是一种较常见的类型,有数万个样本;而双室肥大则是一种非常罕见的异常,仅有极少的样本。这种明显的长尾分布突出了研究中的挑战。

51c大模型~合集48_大模型_07

图一:心电类型长尾分布情况

这 116 种心电图类型可以大致分为三类:疾病分类、非特异性特征以及信号采集。研究团队收集了截至 2020 年的所有心电图记录,共计 416,951 个正常心电图和 482,976 个异常心电图,并将其用于模型训练。为有效评估模型在长尾分布场景下的分类性能,研究团队在 2021 年的心电图数据上进行了内部验证,验证数据包括 94,304 个正常心电图和 95,136 个异常心电图。为进一步测试模型的适应性,团队根据心电图类型的出现频率将验证集划分为三种不同的测试集:常见类型、不常见类型和罕见类型。

51c大模型~合集48_大模型_08

图二:数据集具体类型,年龄性别分布,与外部验证的开源数据集 PTB-XL 对比

方法介绍

本研究提出了一个新颖的两阶段框架,将 ECG 诊断转化为一个细粒度、长尾分类问题。首先,框架通过异常检测预训练阶段来定位心电图中的异常区域,这有助于后续分类任务的集中和精确执行。基础假设是,预训练通过专注于区分正常和异常信号,使模型能够更有效地识别罕见异常的特征,进而提升模型在长尾数据分布上的表现。分类组件无缝集成到预训练的异常检测模型中,作为一个额外分类头,确保一个统一的诊断流程,模拟专家心脏病学家所进行的全面、逐步分析。

该框架的核心创新在于,设计了一种专门针对 ECG 信号的新型掩码和恢复技术,用于自监督异常检测预训练。该框架的核心组件是多尺度交叉注意力模块,大大增强了模型在整合全局与局部信号特征方面的能力。与现有主要聚焦于时间序列分析的异常检测方法不同,本研究还整合了 QRS 和 QT 间期等关键 ECG 参数以及年龄、性别等人口统计因素,这些因素对于准确理解个体心脏状况至关重要。通过这种综合集成,该框架能够更细致地解读 ECG 信号,减少个体差异对诊断的影响,从而显著提升诊断的准确性。

51c大模型~合集48_大模型_09

图三:提出的两阶段 ECG 诊断框架仿照医生的诊断流程,包括两个主要步骤,即自监督的心电图异常检测预训练和基于预训练的异常检测模型微调分类器

实验结果

(1)内部验证

实验结果显示,使用简单的监督分类方法时,随着 ECG 类型从常见转为稀有,模型性能显著下降。然而,当引入基于预训练的异常检测模型(使用正常 ECG 数据进行训练)后,这种性能下降得到了明显缓解。在实验中,研究团队通过两种设置(1. 固定异常检测模型,仅微调分类器,2. 联合训练异常检测模型和分类器)对模型进行了评估,结果显示,无论哪种设置,模型在处理所有数据子集时的指标均有所改善,尤其是在应对长尾稀有数据时表现尤为突出。

表一:心电诊断内 / 外部验证结果

51c大模型~合集48_大模型_10

除了评估总体诊断性能外,确保模型在关键人口特征上的公平性也至关重要,尤其是在临床应用中,不同年龄组和性别之间的诊断准确性需要保持一致。实验结果显示,男性和女性之间的诊断性能基本相当。在所有测试数据中,不同年龄组的诊断性能也相对一致,虽然在 10 岁以下和 90 岁以上患者中的表现略低,但在 10 岁至 90 岁之间的年龄组中,模型的 AUROC 和特异性均保持在 90% 以上。

51c大模型~合集48_大模型_11

图四:长尾类型的诊断结果,诊断公平性与异常定位效果

在异常检测性能评估上,研究团队提出的方法在大多数评价指标上均优于现有方法,涵盖所有测试数据集。具体来说,该方法实现了 91.2% 的 AUROC,83.7% 的 F1 分数,84.2% 的敏感性,83.0% 的特异性,以及在固定 90% 召回率下 75.6% 的精度,显著超越了其他竞争方法。该模型对细微信号模式变化的敏感性更高,能够比真实情况中的广泛标注更精确地定位异常。这些精准定位为潜在异常提供了宝贵的见解,从而为医疗从业者提供了显著支持。

表二:心电异常检测与定位实验结果

51c大模型~合集48_大模型_12

(2)外部验证

研究团队使用欧洲的开源心电数据集 PTB-XL 对研究方法和基线模型进行了外部验证。与内部数据集相比,该数据集在年龄分布、信号采集质量和心电图信号类型方面存在显著差异。通过线性探测将本方法应用于外部验证数据集时,联合训练的异常检测模型与分类器实现了最高的诊断准确性。值得注意的是,在线性探测过程中,只有分类器的最终线性层参与了训练,而其余模型参数则保持不变。

(3)前瞻验证

为了严格评估模型在真实临床环境中的表现,研究团队在不进行微调的情况下,将模型部署在医院环境中,设置了 AI 辅助诊断组和对照组,通过对比两组医生的诊断准确率、诊断效率和结论完整度,来验证 AI 模型辅助诊断对心脏病专家诊断过程的影响。每份心电图都由至少三位心脏病专家在不同条件下进行评估: 

a. 心脏病专家 A 的任务是在尽可能短的时间内提供诊断结论,模拟紧急情况下需要快速决策的场景。 

b. 心脏病专家 B 在没有时间限制的情况下独立进行诊断,代表常规诊断流程。 

c. 心脏病专家 C 在 AI 模型的辅助下进行诊断,模型为每个病例提供了五种最有可能的异常类型作为参考。

在时间限制下,心脏病专家的诊断准确性较低,心脏病专家 A 的结论不够全面,主要集中于识别关键疾病。相比之下,在没有时间限制的情况下,心脏病专家 B 的诊断全面性和准确性都有显著提升。AI 方法的优势在于分析一份心电图只需 0.055 秒,速度大约是人类急诊诊断时间的 1000 倍。除了速度优势外,AI 方法还实现了 81.9% 的诊断准确率,明显优于未使用辅助工具的人类 67.7% 的诊断准确率。当结合临床实践时,AI 辅助的心脏病专家诊断准确率达到了 84.0%,比未使用辅助工具的诊断提高了 6.7%。此外,诊断效率显著提高,平均诊断时间缩短了 36 秒。AI 系统还提供了更详细的信号模式和节律分析,特别是在识别 T 波变化和窦性心动过速等细微变化方面,使 11.8% 的心电图结论更加全面,从而提升了诊断结果的整体质量。

51c大模型~合集48_大模型_13

图五:前瞻验证中,诊断准确率,结论完整性与诊断时间对比

在临床诊断中,尤其是面对长尾异常,心脏病专家在时间限制或经验不足的情况下,容易出现误诊,通常表现为较高的特异性(>99%)但敏感性却非常低(<50%)。将 AI 整合到诊断过程中,显著减少了这些误诊,提高了对罕见异常的检测能力,并突出了关键的信号模式。当 AI 作为辅助工具使用时,心脏病专家在处理长尾数据时的敏感性从 46.9% 提高到 71.4%,同时特异性仍保持在 99.7% 的高水平。这表明 AI 在增强临床决策,特别是在具有挑战性的诊断场景中,展现出了巨大的潜力。

表三:前瞻验证中,常见与长尾心电类型的诊断敏感性,特异性对比

51c大模型~合集48_大模型_14

研究价值

作为首个基于异常检测预训练的心电长尾诊断模型,该研究在以下几个方面展现了其重要价值:

  • 临床应用的巨大潜力:通过异常检测预训练,该模型能够以远超经验丰富的心脏病专家的速度,提供准确且全面的诊断结果。这表明,AI 辅助系统在临床诊断中具有广阔的应用前景,无论是在紧急情况下还是常规 ECG 评估中,均能发挥重要作用。
  • 减轻长尾分布影响的能力:异常检测预训练通过识别可能的异常特征偏差,使模型能够集中关注特定异常区域,从而更精确地分类不同类型的异常。这种方法促进了对各种稀有异常的高效学习,有效应对了不平衡的长尾异常分布带来的挑战。
  • 提供可解释且信息丰富的定位结果:除了提升诊断性能外,异常检测预训练还具备一个关键优势,即能够精确定位异常。这为模型的诊断决策提供了清晰且易于理解的解释,有助于医疗从业者更好地理解诊断结果。
  • 临床诊断模型的公平性:该研究模型在男性和女性之间,以及 10 至 90 岁各年龄组中的诊断效果相当。这些发现强调了在临床实践中,考虑人口统计因素以提升诊断准确性和公平性的重要性。进一步研究有助于揭示这些年龄和性别差异的机制,从而开发改善所有患者群体健康结果的策略。
  • 可扩展的 ECG 诊断框架:该框架专为解决 ECG 数据的长尾分布问题而设计,并经过对 116 种不同 ECG 类型的细致训练。这种全面覆盖确保了模型能够适应临床实践中遇到的几乎所有 ECG 类型,使其在多样化数据集中的适应性和通用性得到了高度保障。




#Reflection 70B遭质疑基模为Llama 3

最近,开源大模型社区再次「热闹」了起来,主角是 AI 写作初创公司 HyperWrite 开发的新模型 Reflection 70B。

它的底层模型建立在 Meta Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。

这个模型横扫了 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。

凭借如此惊艳的效果,Reflection 70B

Reflection 70B 能不能经受住社区的考验呢?今天 AI 模型独立分析机构 Artificial Analysis 进行了独立评估测试,结果有点出乎意料。

该机构表示,Reflection Llama 3.1 70B 的 MMLU 得分仅与 Llama 3 70B 相同,并且明显低于 Llama 3.1 70B。

51c大模型~合集48_大模型_15

图源:https://x.com/ArtificialAnlys/status/1832505338991395131

还有科学推理与知识(GPQA)和定量推理(MATH)基准测试的结果,同样不如 Llama 3.1 70B。

51c大模型~合集48_大模型_16

图源:https://x.com/ArtificialAnlys/status/1832457791010959539

此外,Reddit 上 LocalLLaMA 社区的一个帖子比较了 Reflection 70B 与Llama 3.1、Llama 3 权重的差异,结果显示,Reflection 模型似乎是使用了经过 LoRA 调整的 Llama 3 而不是 Llama 3.1。

51c大模型~合集48_大模型_17

51c大模型~合集48_大模型_18

贴主还提供了以上模型权重比较结果的代码来源。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import matplotlib.pyplot as plt
import seaborn as sns


base_model_name = "meta-llama/Meta-Llama-3-70B-Instruct"
chat_model_name = "mattshumer/Reflection-Llama-3.1-70B"
base_model = AutoModelForCausalLM.from_pretrained(base_model_name, torch_dtype=torch.bfloat16)
chat_model = AutoModelForCausalLM.from_pretrained(chat_model_name, torch_dtype=torch.bfloat16)


def calculate_weight_diff(base_weight, chat_weight):
    return torch.abs(base_weight - chat_weight).mean().item()


def calculate_layer_diffs(base_model, chat_model):
    layer_diffs = []
    for base_layer, chat_layer in zip(base_model.model.layers, chat_model.model.layers):
        layer_diff = {
            'input_layernorm': calculate_weight_diff(base_layer.input_layernorm.weight, chat_layer.input_layernorm.weight),
            # 'mlp_down_proj': calculate_weight_diff(base_layer.mlp.down_proj.weight, chat_layer.mlp.down_proj.weight),
            # 'mlp_gate_proj': calculate_weight_diff(base_layer.mlp.gate_proj.weight, chat_layer.mlp.gate_proj.weight),
            # 'mlp_up_proj': calculate_weight_diff(base_layer.mlp.up_proj.weight, chat_layer.mlp.up_proj.weight),
            'post_attention_layernorm': calculate_weight_diff(base_layer.post_attention_layernorm.weight, chat_layer.post_attention_layernorm.weight),
            'self_attn_q_proj': calculate_weight_diff(base_layer.self_attn.q_proj.weight, chat_layer.self_attn.q_proj.weight),
            'self_attn_k_proj': calculate_weight_diff(base_layer.self_attn.k_proj.weight, chat_layer.self_attn.k_proj.weight),
            'self_attn_v_proj': calculate_weight_diff(base_layer.self_attn.v_proj.weight, chat_layer.self_attn.v_proj.weight),
            'self_attn_o_proj': calculate_weight_diff(base_layer.self_attn.o_proj.weight, chat_layer.self_attn.o_proj.weight)
        }
        layer_diffs.append(layer_diff)
    return layer_diffs


def visualize_layer_diffs(layer_diffs):
    num_layers = len(layer_diffs)
    num_components = len(layer_diffs[0])


    fig, axs = plt.subplots(1, num_components, figsize=(24, 8))
    fig.suptitle(f"{base_model_name} <> {chat_model_name}", fnotallow=16)


    for i, component in enumerate(layer_diffs[0].keys()):
        component_diffs = [[layer_diff[component]] for layer_diff in layer_diffs]
        sns.heatmap(component_diffs, annot=True, fmt=".6f", cmap="YlGnBu", ax=axs[i], cbar_kws={"shrink": 0.8})
        axs[i].set_title(component)
        axs[i].set_xlabel("Layer")
        axs[i].set_ylabel("Difference")
        axs[i].set_xticks([])
        axs[i].set_yticks(range(num_layers))
        axs[i].set_yticklabels(range(num_layers))
        axs[i].invert_yaxis()


    plt.tight_layout()
    plt.show()


layer_diffs = calculate_layer_diffs(base_model, chat_model)


visualize_layer_diffs(layer_diffs)

还有人贴出了 Matt Shumer 在 Hugging Face 对 Reflection 70B 配置文件名称的更改,可以看到从 Llama 3 70B Instruct 到 Llama 3.1 70B Instruct 的变化。

这样的事实摆在眼前,似乎让人不得不信。各路网友也开始发声附和,有人表示自己从一开始就怀疑它是 Llama 3,当用德语问模型一些事情时,它却用英语回答。这种行为对于 Llama 3 非常常见。

还有人奇怪为什么 Reflection 70B 模型一开始就得到了如此多的炒作和关注,毕竟第一个谈论它是「顶级开源模型」的人是开发者本人(Matt)。而且更确切地说,模型是微调的。

更有人开始质疑开发者(Matt),认为他只是这家公司(GlaiveAI)的利益相关者,试图通过炒作来增加价值,实际上却对这项技术一无所知。

在被质疑 Reflection 70B 的基础模型可能是 Llama 3 而非 Llama 3.1 70B 时,Matt Shumer 坐不住了,现身进行了澄清,并表示是 Hugging Face 权重出现了问题。

就在几个小时前,Matt Shumer 称已经重新上传了权重,但仍然存在问题。同时他们开始重新训练模型并上传,从而消除任何可能出现的问题,应该很快就会完成。

当被问到为何需要重新训练时,Matt Shumer 表示本不需要这样做,但已经尝试了所有方法。无论做什么,Hugging Face 上 Reflection 70B 模型都会出现问题,导致离预期中的性能差得远。

当然 Matt Shumer 还面临更多质疑,比如对 GlaiveAI 的投资情况、为什么 Hugging Face 上的基础模型为 Llama 3 而不是 Llama 3.1 以及基准中有关 LORAing 的问题。

Matt Shumer 一一进行了解释。(以下标引用)



1. 我是一个超级小的投资者(1000 美元),只是一次支持性的投资,因为我认为 Sahil Chaudhary 很棒。

2. 至于为什么基础模型是 Llama 3,我们不知道。这就是为什么我们从头开始再训练,应该很快完成。 

3. 那些尝试了 Playground 并拥有早期访问权限的用户获得了与托管 API 截然不同的体验,我们需要弄清楚这一点。 

4. 不确定什么是 LORAing,但我们检查了污染,将在下周与 405B(或更早)一起发布数据集,到时候可以查看。



至于重新训练后的 Reflection 70B 表现如何?我们拭目以待。

参考链接:

https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/




#英伟达市值一周蒸发4060亿美元

AI时代「卖铲人」怎么就不香了?


卖铲人」英伟达股价又又又跌了。


江湖上流传着一张梗图,说美国经济有两大支柱:

一个是创下巡演纪录的泰勒・斯威夫特,一个是人工智能时代的「卖铲人」英伟达。

英伟达也确实不负众望,8 月底出炉的 2024 年第二季度财报,成绩相当亮眼。

财报显示,英伟达在该季度收入 300.4 亿美元,高于去年同期的 135.1 亿美元,超出了普遍预期的 207.5 亿美元。净利润达到了 166 亿美元,比去年同期增长了 152%。

然而,逆天的业绩并未带来股价的狂飙,而是再三暴跌。

英伟达股价跌跌跌

8 月 29 日,英伟达交出「炸裂」财报后,盘后交易下跌 8%,市值一夜之间蒸发 1476 亿美元。

9 月 3 日,英伟达股价再次暴跌 9.53%,蒸发了 2790 亿美元,相当于近 3 个 OpenAI 的估值。

本周,英伟达公司市值蒸发了约 4060 亿美元,让关键股指承压,同时也让人工智能「泡沫」的论调再一次甚嚣尘上。

作为全球最大的人工智能芯片制造商,英伟达在过去两周内市值缩水了五分之一。

对于这家价值 2.5 万亿美元的巨头来说,这些跌幅也向投资者展示了一个更为紧迫的问题:它的波动性现在远远超过了谷歌、苹果、微软、Meta 等美股六巨头,甚至让上蹿下跳的比特币,都显得平静了许多。

过去 30 个交易日,英伟达的股价在 90.69 美元和 131.26 美元之间波动,周二更是创下了市值蒸发的纪录。

这种剧烈波动使其 30 天实际波动率上升到了大约 80。

这是什么概念?

大约是微软公司的四倍,是比特币的两倍,甚至高于像唐纳德・特朗普的媒体公司和埃隆・马斯克的特斯拉公司这样的热门股票。

股价下跌为哪般?

据彭博社数据显示,这次下跌使得英伟达经历了两年来最糟糕的两周。

第三季度业绩预测令人不满

英伟达发布了对第三季度的业绩预测,营收约为 325 亿美元,同比增长仅有 79%。这虽然高于分析师平均预计的 317 亿美元,但远低于市场对英伟达三季度营收的最高预期达到了 379 亿美元。

这样疲软的业绩预测无疑打击了投资者的热情。投资者们也不禁怀疑,AI 的爆炸式增长是否正在削弱,芯片需求是否难以维持在一稳定值。

博通公司还发布了令人失望的销售预测,这更增加了悲观情绪。

「你现在正处于一个极其复杂的市场环境中,」Wayve Capital Management LLC 的首席策略师 Rhys Williams 表示。他进一步指出,尽管人工智能领域的交易尚处于初期阶段,但「市场的底儿在哪里,真没人能说得准。」

Blackwell 芯片量产难

Blackwell 芯片的产量一时跟不上需求,延迟的消息也让投资者们更加担心。

黄仁勋在财报发布后的访谈中说到预计第四季度开始发货,也会大幅提升产量,预计 Blackwell 在第四季度将创收数十亿美元。但如此乐观的说辞,投资者们似乎并不买账。

视频链接:https://www.youtube.com/watch?v=pcuwZ8zk2ng

反垄断调查

英伟达在人工智能芯片市场中稳居王座 —— 数据显示,它在 AI 训练芯片市场的份额高达 70% 到 95%,这足以证明其产品在这个飞速发展的领域中的不可替代性。

多年来,英伟达在 GPU 和 CUDA 上的投入让它构建了一个难以撼动的生态系统,宛如一道深不可测的护城河,竞争对手想追赶几乎是不可能的事。

英伟达不仅仅是销售硬件,还通过提供定制的软件生态系统,确保客户在使用其硬件时获得最大化的性能和功能。

然而,正是这种「软硬一体」的销售策略,让英伟达引来了反垄断调查的关注。

原文地址:

https://www.businessinsider.com/elizabeth-warren-backs-justice-department-nvidia-antitrust-investigation-2024-9

与此同时,英伟达的股价也因此遭受了重创。

投资者们喜忧参半

尽管近期股价下跌,但英伟达今年依然给投资者带来了丰厚的回报。

今年英伟达股价仍然上涨超过 100%,市值增加了 1.3 万亿美元。

华尔街普遍认为,随着公司加快构建与人工智能相关的基础设施,英伟达仍然处于有利位置,这一过程预计将至少持续几个季度。微软、Meta、Alphabet 和亚马逊这些大客户,占了英伟达四成以上的营收。

英伟达上周的「成绩单」,证实了市场的乐观预期。收入翻了一番多,超出了预期,调整后的收益也是如此。该公司还给出了超出分析师共识的收入预测,尽管它没达到最高预期。

这份成绩单,让习惯了惊喜的市场参与者感到失望。同时,这也加深了对人工智能长期投资前景的疑虑。

这些情况表明,随着投资者逐渐理解人工智能的发展,英伟达和其他芯片制造商的股价波动可能会持续。对于想要长期投资的基金经理来说,这可能是个不错的买入机会。

「对长期投资者来说,现在是逐步建仓的好时机,」Wayve Capital 的 Williams 说,「如果今天有人给我新资金,我会毫不犹豫地买进一些人工智能相关股票。」

参考链接:

https://www.bloomberg.com/news/articles/2024-09-06/nvidia-s-400-billion-tumble-this-week-makes-bitcoin-look-calm?srnd=phx-technology





#大模型边推理边纠错,有可能做到吗?

这是ICML爆火的演讲

即便是最强大的语言模型(LLM),仍会偶尔出现推理错误。除了通过提示词让模型进行不太可靠的多轮自我纠错外,有没有更系统的方法解决这一问题呢?

来自 Meta FAIR、CMU 和 MBZUAI 的叶添、徐子诚、李远志、朱泽园团队在最新的 arXiv 论文《语言模型物理学 Part 2.2:如何从错误中学习》中,通过可控实验,探索了让模型「边推理边纠错」的可能性。

他们在预训练中加入大量「错误的推理」和「错误的纠正」,展示了这类数据可以提高语言模型的推理准确性(无需提示词,无需多轮对话)。文章还深入探讨了许多细节,例如(1)这种方法与 beam search 的区别,(2)如何准备此类数据,(3)是否需要对错误进行掩码,(4)所需的错误数量,(5)此类数据是否可用于微调等。

图 1

作者首先展示了一个 GPT-4o 通过提示词和多轮对话进行纠错的示例(图 2),可以看到成功率不高,而且需要很长的对话才能完成纠错。那么,如果模型最终能纠错,为什么不在第一次犯错时「立即收回并改正」呢?

图 2:GPT-4o 通过提示词和多轮对话进行纠错的实例

为此,作者使用探针(probing)方法研究模型的内部工作机制。通过 Part 2.1 建立的 iGSM 数据集,作者发现当模型犯错后,内部参数常常表现出「很后悔」的状态,也就是说,模型可能已经知道自己犯了错,但「覆水难收」。

那么,能否简单地让模型「后悔即重试(retry upon regret)」?即,通过额外训练(如微调)得到一个检测错误的模型,只要该模型判定当前步骤有错,就立即退格回到上一步骤的末尾,再重新生成呢?

如图 3 所示,作者进行了横向对比。即便错误识别率超过 99%,这种重试方法在 iGSM 数据集上也只能将推理正确率提高 2%(虽然比 beam search 好)。作者总结了此方法的三个不足。

首先,对正确率提高有限,毕竟退格后,模型依然是随机生成,并没有用高级的方法改错。其次,对错误识别率的要求很高(同等条件下,需要 100% 错误识别率才能将推理正确率提高 8%,但这太不现实)。最重要的是,这并不能降低模型生成文本的时间复杂度,因为依然需要一次次地重新生成。

图 3

接下来,作者更换方法,在预训练数据中加入大量的错误和纠正,例如「A=>B,哦我说错了,应该是 A=>C」。那么,这能否提升模型的推理正确率呢?乍一看,这似乎不合理,因为增加错误的同时,模型岂不是被迫学习说错误的话(即 A=>B)?是否需要将错误部分(譬如「A=>B,哦我说错了,应该是」这几个字)通过掩码(label masking)从训练标签中删除?

答案是不需要。依然通过 iGSM 数据集,作者用控制变量法,横向对比了诸多参数后得出若干结论(图 4)。

例如,即便预训练数据中的每道题目有 50% 的步骤包含错误,模型在测试阶段并不会刻意犯错(如使用 temp=0 生成时)。背后的原因与语言模型对语法的纠错能力有关,具体可参见作者的另一篇 Part 1 论文,因此不需要对错误进行掩码。更神奇的是,在合理范围内,训练集里的错误其实越多越好,例如包含 50% 错误的数据,比 10% 错误的数据在 iGSM 数据集上还能再提升推理正确率 4 个百分点。

图 4

接下来,作者研究了包含「错误和纠正」的数据能否作为微调数据使用。这是个重要问题,因为现有的开源大模型可能并不具备很好的纠错能力。如果我们制备了完美的错误纠正数据集,能否通过少量参数微调(如使用 LoRA 方法)让现有模型学会纠错?

答案是否定的。如图 5 所示,作者尝试了多种 LoRA 参数,发现最多只能将推理正确率从 78% 提高到 83%—— 甚至在大多数情况下,如 LoRA 的 rank 较小时,模型的正确率远低于 78%。这说明「纠正错误」是一个高级能力,与模型的正常推理不同,需要大量参数变化才能实现。(这也合理,毕竟如果修改少量参数就能完成纠错,那么让模型「后悔即重试(图 3)」恐怕早就能提高推理正确率了。)

相对而言,「错误识别」并不是高级能力,可以通过微量的 LoRA 微调学会。此外,通过 beam search 模型也能进行一定程度的重试,但对正确率的提升几乎为零。综合以上,作者认为,如果能制备优质的「错误和纠正」数据,应将此类数据放入预训练数据集中,而不是等到微调时再使用。

图 5

最后,作者研究了在实际生活中如何制备「错误和纠正」数据。目前为止,文章都在 iGSM 数据集上进行可控实验,由于此数据集中的数学题满足统一格式,可以随意删减拼接,制作无限量的错误和纠正数据。这太理想化了。现实生活中,有没有办法在不要求理解题目的基础上生成一些「假错误」?

作者对此做了一些初步尝试。例如,通过将解题步骤中靠后的第 Y 步骤挪到前面作为第 X 步的假错误,然后用原本的第 X 步作为纠正。这一方法在 iGSM 数据集上也能显著提升正确率(从 78% 到 91%),如图 6 所示。

图 6

据此,作者大胆预测,尽管未来的 LLM 可能不会直接在 iGSM 数据上进行训练,但本文通过可控的对比试验,研究了在通向 AGI 的道路上,我们需要对数据进行哪些修改和制备。

例如,利用像 Llama3-405B 这样的模型来改写数学题,在正确的解题步骤中插入许多错误 —— 甚至是简单的假错误,也有望改变模型的答题方式。让模型「边推理边纠错」,而不是通过额外的提示词被动纠错,或许是一个新的思路。作者限于 GPU 限制,无法对如此方向做真实数据的大规模研究,但欢迎读者沿着这一思路试试看。

最后,这篇 arXiv 论文是《语言模型物理学》系列作品中的 Part 2.2。此系列目前共 6 篇论文,在 ICML 2024 大会上做了 2 小时的演讲,收获诸多好评(图 7)。有兴趣了解整个系列作品的小伙伴,可以移步 https://www.bilibili.com/video/BV1Yw4m1k7nH




#TIME揭榜2024全球AI 100人

奥特曼、黄仁勋、姚期智、王小川等上榜

风起云涌的AI领域,是哪些人物站在潮头?TIME一年一度的评选给你答案。国外的风云人物奥特曼、黄仁勋、劈柴、纳德拉、小扎,都悉数上榜。而姚期智、梁汝波、王小川作为国内代表,也光荣上了榜单。

近日,TIME正式揭晓了第二届100位最具影响力AI人物名单!

其中,「领导者」榜单中,有我们耳熟能详的OpenAI CEO Sam Altman、英伟达CEO黄仁勋。而字节跳动联合创始人兼CEO梁汝波、百川智能创始人兼CEO王小川作为国内代表,也入选了榜单。

「创新者」榜单中,则包含了AMD CEO苏姿丰、OpenAI首席技术官Mira Murati、Groq CEO Jonathan Ross、Cerebras Systems CEO兼创始人Andrew Feldman、Mistral AI联合创始人兼CEO Arthur Mensch等人。

今年TIME100 AI名单上,最年轻的是15岁的Francesca Mani。最年长的是77岁的姚期智,这位著名的计算机科学家正在位中国培养新一代的AI人才。

其中,第二次入选TIME100 AI名单的行业领袖包括:OpenAI CEO Sam Altman、Anthropic CEO Dario Amodei、英伟达CEO黄仁勋、Mila-Quebec AI研究所创始人Yoshua Bengio、谷歌DeepMind CEO Demis Hassabis、微软AI CEO Mustafa Suleyman。

部分榜单如下,这些人物分属领导者、创新者、思想者、塑造者等,都是AI圈极有代表性的人物。

领导者(Leaders)

Sundar Pichai,谷歌和Alphabet CEO

Sundar Pichai是斯坦福大学硕士,宾夕法尼亚大学MBA,早期曾任职麦肯锡。

2004年加入谷歌,领导了谷歌工具栏和Chrome的开发,帮助推出了Android操作系统,被谷歌前人力运营高级副总裁Laszlo Bock称为最「睿智谦逊」的领导者。

Satya Nadella,微软CEO

Satya Nadella是威斯康星大学计算机硕士,芝加哥大学工商管理硕士,1992年加入微软,现任微软CEO、Azure云计算平台的执行副总裁。

早期从事Windows NT的开发,2013年他曾监督微软以72亿美元收购诺基亚的移动设备业务,2016年监督了对领英的收购。

Sam Altman,OpenAI CEO

Sam Altman是OpenAI CEO,GhatGPT的成功,为奥特曼带来了巨大的收益;去年遭到董事会的解雇,但在短短几天后重回「最高领导位」。

2024年,他除了带领OpenAI推出了GPT-4o、视频生成器Sora和AI搜索引擎SearchGPT等多个「爆款」。

今年2月,据传他正在募集7万亿美元的资金,期望建立新的芯片制造厂,以摆脱英伟达对市场的垄断。

参考阅读:

  • 巨亏下艰难转型,OpenAI变CloseAI?奥特曼或计划IPO上市
  • 奥特曼秀5颗草莓疯狂暗示GPT-5?匿名新模型神秘现身,数学超强!
  • OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真

黄仁勋,英伟达CEO

黄仁勋是斯坦福大学硕士,曾任AMD芯片设计师,1993年创立英伟达。

如今,老黄白手起家创建的英伟达已经跻身Magnificent 7之一,市值接近3万亿,

继ChatGPT带起GenAI热潮后,「卖铲子」的英伟达也跟着飞升,市值飙升1.8万亿美元,穿着标志性皮衣的老黄也成为了最著名的科技icon之一。

但最近受Blackwell出货延迟影响,股价闪崩暴跌2000多亿美元。

所以英伟达能不能继续辉煌,号称无敌的Blackwell能不能如期交付,就看老黄接下来的行动了。

参考阅读:

  • 黑神话爆火,老黄趁热秀肌肉!4070实测全景光追,悟空要「觉醒」?
  • 小扎老黄亲密换衣炉边对谈!小扎竟破防爆粗,老黄自曝第一批Blackwell已出炉
  • 老黄一口气解密三代GPU!粉碎摩尔定律打造AI帝国,量产Blackwell解决ChatGPT全球耗电难题

Mark Zuckerberg,Meta CEO

Mark Zuckerberg在2004年从哈佛辍学后创立社交媒体Facebook,2021年更名为Meta,现任Meta CEO。

小扎在最近的公开信「开源人工智能是前进的道路」中,回忆了Meta在LLM浪潮中的翻身之路,坚信「开源AI是未来」,领导了最强开源模型Llama 3.1 405B推出。

在近期SIGGRAPH会议上,小扎与老黄进行了一次炉边对谈,激动地表明Meta和自己的愿景:「正在为Meta规划AI助手和AI Studio产品,让每个人都能为不同用途创建自己的Agent」。

参考阅读:

  • 全球3.5亿下载量破纪录!Llama家族暴涨10倍,开源帝国掀AI革命

Demis Hassabis,Google DeepMind联合创始人兼CEO

Demis Hassabis是两年达到A级的国际象棋神童,17岁写出百万销量Theme Park的游戏编程天才。

剑桥大学计算机学士,曾创立游戏公司Elixir Studios,为Vivendi Universal等全球发行商制作出了屡获荣誉的游戏。

随后,重返学术界,攻读UCL认知神经科学博士,并先后在MIT和哈佛开展博士后研究。

2010年,Hassabis和Shane Legg、Mustafa Suleyman三人共同在伦敦创建了DeepMind。虽然在2014年被谷歌收购,但公司多数部门仍是总部位于伦敦的独立实体。

DQN、AlphaGo、AlphaFold,以及前段时间达到IMO银牌水平的AI模型AlphaProof和AlphaGeometry 2,都是出自DeepMind的知名成果。

王小川,百川智能创始人兼CEO

王小川是清华大学计算机博士,2023年创立百川智能,半年便带领公司跻身科技独角兽行列,创下国内大模型初创企业最快记录。

他认为立志打造「中国版OpenAI」,以「理想上慢一步,落地上快三步」的主张推动LLM的进程 。

梁汝波,字节跳动联合创始人兼CEO

梁汝波2005年毕业于南开大学微电子专业。2012年,和同为大学同学的张一鸣共同创办字节跳动。

2021年接替张一鸣担任字节跳动的CEO。在他的领导下,字节跳动在人工智能方面取得了巨大进步。

创新者(Innovators)

苏姿丰,AMD CEO

苏姿丰是MIT电子工程博士,曾在IBM工作长达13年之久,期间先后被任命为IBM纽约半导体研发中心的副主管、研发部门主管和CEO特别助理。

自2014年担任AMD CEO以来,让AMD的股价上涨了30倍,被称为「这个时代最成功的半导体CEO」,仅次于黄仁勋。

近期,还领导AMD推出最新AI芯片——MI300X系列,直接叫板英伟达。

2022年5月14日,MIT还正式将MIT.nano所在的12号楼,命名为苏姿丰(Lisa T. Su)大楼。

参考阅读:

  • 挑战英伟达,AMD官宣年更芯片!新款MI325X重磅发布,比H200快1.3倍
  • 今天,MIT有了一座「苏妈楼」!

Aravind Srinivas,Perplexity CEO

Aravind Srinivas是加州大学伯克利分校计算机博士,先后在OpenAI、谷歌DeepMind担任研究科学家,现任Perplexity CEO。

2022年创立了对话式「答案引擎」Perplexity,今年6月推出了「Perplexity Pages」功能,但随后陷入「剽窃」风波,被多家电子出版商「声讨」。

在近期访谈中,针对这场风波,他借用爱因斯坦的名言回应:「重要的是不要停止疑问,好奇心有其存在的理由」,表达了自己对构建高级AI交互的愿景。

Arthur Mensch,Mistral联合创始人兼CEO

Arthur Mensch毕业于法国顶级的数学和机器学习院校——巴黎综合理工学院和巴黎高等师范学院。

2018年,ENS Ulm应用数学系博士后,开展算法优化研究。2020年加入DeepMind,从事语言模型研究,2022年发表了著名的「Chinchilla论文」。2023年创立Mistral AI,现任Mistral AI CEO。

公司创立之初,成立4周,6人团队,7页PPT,达成8亿融资,当前估值已超60亿美元。

近期,在与微软的交易中,被欧盟立法者指控「违反竞争规则」,他本人声明,赞同《欧盟人工智能法案》所提议的,Mistral未来应更多地关注AI模型的使用监管。

Mustafa Suleyman,微软AI CEO

Mustafa Suleyman是微软AI的CEO,也是DeepMind的联合创始人、前应用人工智能负责人。

2022年创立Inflection AI,致力于重塑人机交互,试图创建首款「情商」聊天机器人。

著作《即将到来的浪潮:技术、权力和二十一世纪最大的困境》被多家媒体列为「年度最佳书籍」,被比尔盖茨称为「驾驭前所未有的时代的优秀指南」。

参考阅读:

  • 微软一夜吞噬估值40亿美金AI初创!2位联创加盟重点打造Copilot,还带走多数员工

Mira Murati,OpenAI CTO

Mira Murati是OpenAI CTO,被称为「ChatGPT背后的女人」、「硅谷颜值最高CTO」,推动了ChatGPT和DALL-E等主流模型的上线。

去年11月,奥特曼被董事会短暂炒鱿鱼期间,她被推选为CEO,从幕后走向幕前;还在今年5月主持发布会,推出了支持实时语音交互的GPT-4o。

但她也引发过很多争议,如回避有关「Sora训练数据是否侵权」的问题,发表「被AI取代的工作一开始就不应该存在」等观点。这些也导致过去,公众对OpenAI产生了不少的「负面印象」。

当前,她正在带领团队研发号称能在一年内上线的,在特定任务中可能会超越博士生的新一代文本生成模型GPT-5。

参考阅读:

  • 一夜淘汰700人!ChatGPT之母:AI自动化取代人类,创意性工作可能消失

John Jumper,AlphaFold团队负责人、DeepMind总监

John Jumper是剑桥大学凝聚态物理硕士,芝加哥大学理论化学博士,师从对冲基金大佬D.E. Shaw。博后期间,致力于机器学习辅助的蛋白动力学研究。

2020年,他带领DeepMind团队开发并开源了AlphaFold 2算法,被评为「将彻底改变现代生物学」的工具。AlphaFold2对一代模型底层神经网络进行了彻底改革,可以提供更可靠的预测。

今年5月,他领导的团队又推出了AlphaFold3,新增了对DNA和RNA等其他分子的预测功能。

此外,Jumpe本人称,希望在明年能公布高达1.3亿数据量的已知蛋白的结构。

思想者(Thinker)

姚期智,清华大学交叉信息研究院院长

姚期智是2000年的图灵奖得主,也是目前唯一一位获得此奖项的华人。

他是现任清华大学人工智能学院院长、清华大学交叉信息研究院院长、清华大学理论计算机科学研究中心主任兼教授。

过去数年间,他为中国学术界和工业界培养了一批AI杰出领军人物,被认为是当代中国最具影响力的计算机科学家之一,以他命名的清华「姚班」已经成为中国AI界的「黄埔军校」。

2018年以来,他在参与建立了四个人工智能研究院,专注于基础理论研究。

此外,他还关注AI安全性议题,曾为未来可能自主攻击网络或协助制造大规模杀伤性武器的AI系统所带来的潜在灾难性风险发声。

Yoshua Bengio,Mila研究所创始人兼科学总监

Yoshua Bengio是蒙特利尔大学长聘教授、Mila研究所创始人,AI「教父」之一,AI领域被引用次数最多的研究者之一。

他对AI系统的潜在危险担忧,也一直致力于加深对高级AI风险的认识并深入研究如何遏制风险。去年11月,被任命为高级人工智能安全国际科学报告的主席,召集了75名AI专家,包括一个由30个国家、欧盟和联合国提名的顾问小组。

今年5月,在首尔人工智能峰会上提交了中期报告,全面综合了先进AI能力和风险的现有科学研究,涵盖了偏见和虚假信息、国家安全等多个方面,以及对社会失去对技术控制的担忧。

7月中旬,TIME也曾与他围绕AI风险、政策制定者的作用,以及改进高级AI模型的道德规范等方面进行了对话。

Ilya Sutskever,安全超级智能联合创始人

Ilya Sutskever是多伦多大学CS博士,师从「图灵三杰」之一Geoffrey Hinton,曾先后就职于斯坦福大学和Google Brain,从事机器学习与深度学习的相关研究。

2015年,与Greg Brockman等人联合创建了OpenAI,主导了GPT-1/2/3以及DALLE系列模型的研发。

去年11月,因对公司模型的安全性有所担忧,他参与了「驱逐奥特曼」行动。

行动失败后,今年5月,他发推文称,自己决定离开待了近十年的OpenAI。随后,Jan Leike也宣布离职,至此OpenAI「超级对齐」团队解散。

6月,他宣布创立SSI(Safe Superintelligence),致力于在更安全地构建先进AI系统,以避免「陷入激烈竞争」。几天前,SSI已完成10亿美元首轮融资,当前估值高达50亿美金。

参考阅读:

  • Ilya三个月肝出50亿美金独角兽!SSI 10人团队不走OpenAI老路
  • 跨越AGI,Ilya官宣创业!我要的是「核安全」,SSI剑指安全超级智能
  • 起底OpenAI「国王」Ilya:师从Hinton,为了他,马斯克与谷歌创始人彻底决裂

Jan Leike,Anthropic对齐科学团队联合负责人

Jan Leike曾经是OpenAI「超级对齐」团队的一员,专注于确保AI不会「失去控制」。

今年5月,官宣退出OpenAI,并指控其将「闪亮的产品」置于安全之上。

如今,已加入OpenAI的对家Anthropic,依旧致力于解决对齐问题。

他强调自己当前专研可扩展监督领域,致力于使人类能够在复杂任务中为AI模型提供更好的反馈。

同时,他也坚信,随着对齐科学变得「越来越成熟」,更大的系统将由更小的可信模型来驱动。

参考阅读:

  • OpenAI超级对齐团队再发「绝唱」!首提「证明者-验证者」博弈,训练GPT说人话
  • GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开
  • 一年心血被毁,OpenAI超级对齐负责人愤而出走Anthropic!Ilya去向依旧成谜

Andrej Karpathy,Eureka Labs创始人

Andrej Karpathy是OpenAI联合创始人兼研究科学家,2017年被Elon Musk亲自聘请为特斯拉AI总监,领导计算机视觉方面的研究。2023年他重返OpenAI,致力于改进GPT-4。

除了研究本身,他本身也是一位久负盛名的神经网络「讲师」。

2015年,他与李飞飞一起设计了斯坦福大学首门深度学习课程。该讲座视频累计观看量超80万次,他也一跃成为互联网上最受欢迎的AI讲师之一。

物理背景出身的他,非常擅长将复杂的问题简单化,近年来,已经向数百万YouTube观众普及了GPT背后的复杂机制。

今年,Karpathy从OpenAI离职后创办了AI+教育公司Eureka Labs。

参考阅读:

  • ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!
  • LLM智能「参差不齐」!AI大牛Karpathy用表情包解释「9.9<9.11」
  • AI大神Karpathy官宣创业,打造80亿人AI原生学校!首款课程GitHub斩获17k星

Helen Toner,OpenAI前董事会成员

今年,Helen Toner曾在播客中提及「奥特曼对董事会隐瞒自己的投资」,且主导了去年11月的「驱逐奥特曼」行动。

同时,她也曾是乔治城大学的AI治理专家,奥特曼风波过后,她表示,自己能更自在地谈论AI政策的具体细节,以及它对政治和国家安全的意义,让AI治理被更多人所知。

她致力于与立法者协商,推动AI政策的发展,但她本人并不赞成当前任何具体的AI立法。相反,她更希望政府保持开放态度,多去尝试。

Ray Kurzweil,作家、谷歌首席研究员、AI远见者

Ray Kurzweil是美国计算机科学家和技术乐观主义者,成名作《奇点临近》。在今年他又出版了新作《奇点更近:当我们与人工智能融合》。

他曾在前作《奇点临近》中做出大胆预言:「AI将在2029年通过图灵测试,2045年奇点来临,人工智能完全超越人类智能,人类历史将彻底改变」。

这本神著激励着当前许多AI业界「大佬」,如DeepMind联合创始人Shane Legg和Anthropic首席研究员Jan Leike。

比尔·盖茨将他称为「我认识的预测人工智能未来的最佳人选」。

参考阅读:

  • 《奇点临近》续作来了!雷·库兹韦尔预言人类「永生」,活120岁太短

Albert Gu,CMU助理教授、Cartesia联合创始人

Albert Gu是卡内基梅隆大学(CMU)CS和数学双学士,斯坦福大学CS博士,目前在CMU担任助理教授。

他曾先后在Facebook和DeepMind实习,长期致力于研究机器学习的结构化表示,同时,他也是人工智能初创公司Cartesia的联合创始人。

Albert Gu的成名作就是爆火的Mamba架构,去年12月与Tri Dao合作首次发表,今年7月两人又推出了改进版的Mamba-2。

参考阅读:

  • 颠覆Transformer霸权!CMU普林斯顿推Mamba新架构,解决致命bug推理速度暴增5倍
  • DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
  • Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解

Ben Zhao,芝加哥大学教授

芝加哥大学CS教授,以开发对抗性工具来对抗技术过度扩张而闻名。他曾开发过防止智能音箱监视人的手环,以及帮助欺骗人脸识别的工具。

塑造者(Shaper)

Dario Amodei,Anthropic联合创始人兼CEO

Dario Amodei是普林斯顿物理学博士,斯坦福大学医学院博士后。

曾先后在谷歌、OpenAI任职,担任OpenAI研究副总裁期间,领导了GPT-2和GPT-3的构建,是Scaling Law的论文作者之一。

2021年,因安全观念与OpenAI不合,携手OpenAI政策负责人Jack Clark出走,随后创建了Anthropic,致力于构建可靠、可解释和可指导的AI系统。

作为加州SB 1047法案的支持者,他在近期致州长的信中表示,尽管还不确定法案中「看起来令人担忧或模棱两可」的方面,但最初对该法案阻碍创新的担忧已大大减少。

参考阅读:

  • 超越GPT-4o,Claude 3.5一夜封王!10倍编码速度逆天,全网最全实测来了

Eric Schmidt,Schmidt Futures创始人

Eric Schmidt的谷歌前CEO,美国人工智能安全委员会主席,华盛顿AI政策方面最具影响力的人物之一,一直致力于加强AI企业和政府间的联系。

这个月他受邀在斯坦福大学演讲,结果发表的许多尖锐言论引发了众怒,演讲的YouTube视频也被骂到下架。

比如他出言批评「work life balance」以及允许员工远程工作的做法,认为这正是谷歌打不过初创公司的原因。

参考阅读:

  • 谷歌前CEO言论惹众怒,硅谷打工人硬刚公司,「在家办公」成大势所趋

Nat Friedman,投资人、企业家

Nat Friedman毕业于MIT计算机科学和数学专业,2016-2018年担任微软开发者服务方面的公司副总裁,2018-2021年担任GitHub CEO。

作为硅谷最有声望的投资人之一,他领投了超过100家初创公司的种子轮和A轮融资,包括Perplexity、Eleven Labs、Pika、Suno、Character.ai、Scale AI、WandB等。

他目前和Daniel Gross运营着世界上最强大的GPU集群之一gpulist.ai,旨在支持开发者和初创公司。

Vinod Khosla,Khosla风投创始人

69岁的Vinod Khosla是硅谷最著名的人物之一,他的公司为绿色科技、医疗保健等领域,以及世界各地的AI初创公司投入了大量资金。

他最为人称道的投资,当属2019年对OpenAI的5000万早期投资,并在去年11月的「宫斗」风波中力挺奥特曼。

Scarlett Johansson,演员

在复仇者联盟中,Scarlett Johansson是和AI斗争的黑寡妇;在现实中,寡姐硬刚OpenAI「偷声音」的行为,掀起了GPT-4o发布后的巨大舆论风波,导致OpenAI不得不紧急下架。

参考资料:

https://time.com/7017829/time-reveals-the-2024-time100-ai-list/

https://time.com/collection/time100-ai-2024/




#在超级AI「毁灭」人类之前,我们可以做这些准备

2023 年,Anthropic 发布了负责任扩展策略(Responsible Scaling Policy,RSP),这是一系列技术和组织协议,Anthropic 将采用这些协议来帮助他们管理开发功能日益强大的 AI 系统。

Anthropic 认为,AI 模型一方面变得越来越强大,创造巨大的经济和社会价值,另一方面也带来了严重的风险。RSP 将专注于灾难性风险 —— 即人工智能模型直接造成大规模破坏的风险。此类风险可能来自故意滥用模型(例如恐怖分子用它来制造生物武器),也可能来自模型以违背其设计者意图的方式自主行动而造成破坏。

RSP 还定义了一个称为 AI 安全等级 (ASL,AI Safety Levels) 的框架,ASL 等级越高,其安全性证明就越严格。

51c大模型~合集48_大模型_19

  • ASL-1 指的是不构成重大灾难风险的系统,例如 2018 年的 LLM 或只会下棋的 AI 系统。
  • ASL-2 指的是显示出危险能力早期迹象的系统(例如能够给出如何制造生物武器的指令),但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。包括 Claude 在内的当前 LLM 似乎是 ASL-2。
  • ASL-3 指的是与非 AI 基线(例如搜索引擎或教科书)相比,大大增加了灾难性滥用风险的系统或显示出低级自主能力的系统。
  • ASL-4 及更高版本(ASL-5+)尚未定义,因为它与现有系统相差太远,但可能会涉及灾难性滥用潜力和自主性的质的升级。

一直以来,Anthropic 在为 AI 安全做着各种努力,「要做哪些技术工作才能使非常强大的人工智能的开发顺利进行?」近日,Anthropic 安全研究部门的负责人 Sam Bowman 在一篇博客中分享了他的观点。

对于这篇博客,机器之心做了不改变原义的翻译与整理。

在开始讨论超级人工智能的风险之前,我有一些前提需要声明:

人工智能有望达到与人类相当的水平。这个阶段,我称之为变革性人工智能(TAI)。TAI 将有能力在所有适合远程工作的职业中替代人类,包括 AI 研发。

TAI 并不是人工智能能力的上限,未来可能会出现远超人类能力的系统,它们将对世界产生深远影响。在未来十年内,我们很有可能见证 TAI 的诞生,而那时的商业、政策和文化背景预计与当前相比不会有太大变化。

TAI 一旦实现,它将极大地加速人工智能的研发进程,可能在 TAI 出现后的几个月或几年内,我们就能看到远超人类能力的系统被开发出来。

如果部署不当,超级人工智能系统可能会极具破坏性。它可能带来新风险,也可能使现有矛盾变得更加尖锐,比如武器滥用,以及破坏道路监控或网络安全等。

想要让 TAI 以及更强大的 AI 系统在现实世界中「三观正常」地正确行事,这对人工智能安全提出了更高要求。确保人工智能系统的行为与开发者的意图一致,即所谓的「对齐」,需要我们投入巨大的努力。而且随着 AI 系统的能力越来越强,这一任务也变得更加艰巨。

我将从三个阶段展开。

第一阶段:准备 

此时,AI 还未进阶成 TAI,以 Anthropic 的 RSP 评级(风险敏感性评估)来看,他们处于安全等级 2(ASL-2)、ASL-3,或者可能是 ASL-4 的早期阶段。我们大部分的干预和准备工作将在这一时期进行,为尚未完全出现的高风险问题做准备。

密切关注技术前沿

AI 有多安全,很大程度上取决于我们的工作能力,而这又与我们获取前沿技术的能力紧密相关。如果我们无法获得充足的计算资源,或者在关键的预训练阶段出现重大失误,或者错过了带来变革的范式转变(哪怕是方法中的一些小改进),我们就会丧失大量做贡献的机会。而负责 AI 安全工作,需要遵守严格的规定和限制。因此,持续跟进新技术,是在此阶段的首要任务。

在初始阶段基本解决 TAI 的对齐微调问题

当 AI 系统已经智能到可以自主做研究,特别是 AI 安全研究时,我们需要寻找一种方法,让 AI 系统在帮助我们完成大量工作的同时,避免出现偏差。同时,我们必须确保 AI 的能力至少与人类专家相当,甚至更优,以确保它们能有效地协助我们。

此时,AI 并不需要完全「对齐」—— 我们可以接受一定程度的风险。因为人类不会将最关键的决策权交给 AI。同时,我们也有信心能在 AI 的对齐问题演变成全球性灾难之前,及时发现并纠正。

我们的目标是构建高效且通用的 AI 系统。构建能完全「对齐」的 AI 助理,仅供公司内部使用,并进行严格的专家监控,这种方法可行,但问题是,有过多限制或需要专家持续监督的 AI 系统很难大规模推广,这样一来,Anthropic 的业务也难以持续发展。

在我看来,解决问题的关键在于可拓展的监督,这要求我们训练出能胜任完成复杂的开放式任务的负责任的 AI 智能体。为此,需要解决的主要挑战包括:「Reward hacking」、应对人类注意力的有限性,以及识别和抵御各种欺诈行为。

确保初始形态的 TAI 安全无害

如果「对齐」问题能完美解决,我们只需下达命令,模型就能不做坏事。但这似乎不可能做到。因此,我们必须构建额外的防御措施,比如对模型输出自动进行监控、抽查、红队测试,压力测试等。

51c大模型~合集48_大模型_20

苹果给 Apple Intelligence 下达的系统提示词:「不要产生幻觉!」

我们还特意构建了「邪恶」的未对齐版本,试图来攻击我们的安全系统,这和传统的「对齐」工作一样重要。

在长远来看,由于现有方法依赖于精确、召回率极高的内容分类器,这阶段的主要挑战是围绕对抗性鲁棒性的一系列机器学习问题。

对于有多款变体的模型家族,我们也可以综合考虑,而不是逐个击破。这种方法不仅有助于识别在初步安全规划阶段可能未被察觉的风险,还能有效防御那些在单一数据样本中不明显,却可能在多样本模式分析中暴露的系统性风险,例如潜在的滥用或错位问题。

制定合适的 RSP(负责任扩展策略)

什么是一个合格的 RSP?可以参考 LeCun 提出的测试:即使是完全不重视 AI 安全问题的敌方公司,也能放心使用。一份好的 RSP 能研究人员操作安全,一旦出现意外也能显而易见且可追责。

这个标准与其他领域的标准和类似。例如,如果一个组织希望避免受到网络上的攻击。尽管他们心存疑虑,但只要遵循 SOC 2 等通用网络安全标准,他们可以获得真正意义上的保护。

关键挑战是预测哪些风险足够重要,值得纳入其中。到目前为止,我们在威胁建模中反复出现的一个具体未解决的问题是,ASL-3 和 ASL-4 的风险在多大程度上是通过直接滥用、错位或通过双重用途研发等渠道而流动的。

ASL-4 的评估和部署案例

ASL-4 涵盖了近乎人类水平的自主性和可能灾难性的直接滥用风险,我们没有提前制定详细的标准。相反,我们将致力于整理一个安全案例 —— 一份提供系统在某些情况下是安全的证据的报告 —— 并制定安全案例需要满足的高级标准才能获得批准。许多技术安全工作最终将通过纳入这些安全案例产生影响,这些安全案例是我们在 到达 ASL-4 之前的关键目标。

Anthropic 把宝押在对可解释性的深入研究,希望它能够成为 AI 系统安全的证据来源。

 对于大多数部署的安全案例(即任何可能用于高风险任务的模型部署),都需要包含证据表明我们的安全措施具有很高的稳健性。也就是说,应该清楚的是,无论是模型还是它的监测系统,都不会在罕见但重要的输入上以令人惊讶的方式失败 

除非可解释性出现不太可能的最佳结果,否则我们预计一个强有力的安全案例将需要依靠基于其他方法的额外新发现。这些新发现应当能让我们定量评估模型的安全性,预测它们可能带来的风险。

保护算法的秘密

如果我们的研究能力远远领先于该领域的平均水平,那么保护该研究的关键发现对于公司保持领先地位将非常重要。这与不公布模型权重有本质不同,保护起来也要困难得多:因为这些发现通常可以用几句话或几段话来表达,离职的员工很自然地就能记住。因此保护算法秘密至关重要。

为 ASL-4 和 ASL-5 建立清晰的评估

一旦达到 ASL-3 级别,安全评估就变得更难了。在 ASL-4 或 ASL-5 级别下部署预防措施,时间和金钱成本可能会空前高昂,过早启动评估和过晚启动高风险等级都会产生巨大成本。

这些评估分级应该既清晰又容易理解。如果我们发现某个模型需要 ASL-N 级别的保护,我们就得向第三方解释,为什么这个模型需要这样的保护,以及为什么其他类似的模型可能也需要。如果我们在评估中发现某些风险因素,我们需要有明确的证据来证明这些风险因素确实值得立即关注。

建立对危险能力、缓解措施和诱导的精确预测

如果我们能够准确预测哪些风险会在何时出现,以及哪些缓解措施可以在何时准备就绪,那么将能够更好地进行规划和协调。这些预测将在我们的 RSP 评估规划中发挥特别直接的作用:在 RSP 的当前设计下,我们的评估体系需要留出缓冲空间,以便在风险实际出现之前安全地触发,从而避免模型是在中等安全性下训练的,但事后又确定需要更高安全级别的情况。

这些预测也可能影响我们安全案例结构。如果我们有能够对新风险的出现做出精确预测的方法,这些预测可以帮助识别更广泛安全案例中最需要关注的特定风险因素。

构建高度自适应的研究基础设施

在 TAI 早期开发的某个阶段,我们可能会获得有关许多风险的新的具体证据。并且我们可能不会信任具有完全高带宽访问权限的模型来修改我们的基础设施和代码库,因此工程师时间仍将是我们做许多工作的约束。此时我们需要能够快速行动,并从新的自动化机会中尽可能多地受益。这可能需要在第二阶段中进行大量的组织和基础设施准备。

在 TAI 出现前,我们可能会发现许多具体的风险。但由于工作进度需要工程师配合。为了能更快地推进,在这个阶段,可能需要公司组织调整和基础设施的建设。

压力测试安全案例

我们的合规团队(负责安全)和对齐压力测试团队(负责其他技术安全措施)构成了三道防线世界观中的第二道安全防线,他们负责确保我们了解自己正在缓解的风险,并确保没有遗漏任何重要信息。在我们的宏观安全计划中,这表现为对组织准备做出的任何有关安全和保障的承载声明进行怀疑评估,并对任何重要的自由裁量决策进行二次签字。

这一职能的直接重要性并不像这里列出的许多其他职能,因为原则上我们的一线安全团队一次就能把事情做好。但在实践中,我预计这将对我们把事情做好的能力产生重大影响,并清楚地表明我们已经做到了这一点。

特别地,对齐压力测试团队的主要挑战是要足够接近我们的日常执行工作,脚踏实地,但又不成为这项工作的主要直接贡献者,以免损害他们评估这项工作的能力。

审查安全案例

董事会在长期利益信任(LTBT)和外部合作伙伴的支持下,为模型构筑了三道防线世界观中的第三道安全防线,对任何关键安全决策提出独立观点,而这些观点的提出者从未参与公司计划的执行或执行。这些人最终负责签署高风险决策,比如全新前沿模型的部署等。

我希望董事会能够在需要时找到相关外部专家,并做出合理决策。更大的挑战是做决策的过程要让其他参与者易懂并值得信赖。最显而易见的方法是当相关组织上线并拥有足够的技术实力来裁决这些决定时,遵从这些特定第三方组织关于决策的意见。如果没有这一点,很难想象 RSP 及附属结构如何通过 LeCun 提出的测试。

因此,我认为 Anthropic 无法直接解决的最紧迫安全问题便是找到一个或理想情况下几个有威望的第三方组织来胜任裁决角色。这些组织要有很高的知名度并受到广泛的信任,以至于如果前沿 AI 开发者不与它们中的任何一个合作都会被视为高度可疑。

为新兴风险因素开发明确的确凿证据演示

当前的 TAI 安全工作通常至少涉及一定程度的推测或推断,原因很简单,我们往往无法验证那些构成风险的系统。如果可以找到过渡到具体实证工作的方法,则应该这样做,既是为了巩固我们对威胁模型的信心,也为其他相关方(尤其包括决策制定者)提供更具说服力的证据

当我们看到明显的证据表明真实模型中开始出现某种风险或风险因素时,则值得进行大量额外工作将它们转化为简单、严格的演示,使风险立即清晰明了,理想情况下要让技术水平较低的受众也能理解。我们过去工作中有过这样的例子,比如「Sleeper Agents」(沉睡的智能体)和「Sycophancy」(拍马屁)。

准备暂停或重新部署

为了使 RSP 承诺在最坏的情况下(确保 TAI 系统的安全极其困难)发挥作用,我们需要能够暂停开发和部署新的前沿模型,直到制定出足够的保障措施。但是不能保证这在任何特定的时间线上都能实现,这可能会导致我们取消或大幅修改主要部署。

第二阶段:TAI(变革性人工智能)

在这个阶段,性能最好的模型开始符合 TAI 的标准,但在大多数领域还没有远远超过人类。根据 RSP,它们的定级为 ASL-4。AI 研发还没有自动化到 AI 可以自主进步的程度。

AI 开展研究的能力逐渐变强,这将为 AI 安全带来显著进步。这个阶段可能会逐渐到来,但如果 AI 的研发能力强到「逃逸速度」时,TAI 阶段可能会突然结束,直接进入第 3 阶段。

第 1 阶段的许多任务在此时还不会完成,其中许多任务在第 2 阶段中只会变得更具挑战性和紧迫性。此外,如果人工智能增强研发达到「逃逸速度」,这一阶段可能会突然结束,我们将需要为第 3 阶段做好比当时看起来更直观的准备。

开发方法来调整实质上超人的人工智能

在第 3 阶段中,我们可能会遇到一些系统,如果它们失调,就足以迅速而果断地破坏安全。因此,在第 2 阶段结束之前,我们需要要么完全、完美地解决对齐的核心挑战,要么完全、完美地解决一些相关的(并且几乎同样困难的)目标,例如可纠正性。

不断、仔细地评估

我们预计人工智能在微调和启发方面的进展速度将大幅加快。虽然在早期的 ASL 中,前沿风险评估可以包含一些缓冲,如果人工智能系统未能触发缓冲,我们可以在需要再次评估之前进行一些进一步的研究和扩展,但这些缓冲可能会变得不可持续,每一项重要进展都应该进行仔细评估。快速且在很大程度上自动化的评估至关重要。

部署以支持高风险决策制定

在从第 2 阶段过渡到第 3 阶段的过程中,经济相关大量领域的自动化将变得清晰合理,灾难性风险近在眼前,全球大多数机构都面临前所未有的威胁和机遇。除了成为所有这些不确定性和变化的根源之外,人工智能系统还可以提供即时工具来帮助应对这些不确定性和变化。

此时,最有价值的一点是部署能够有效提高我们做出高风险决策能力的工具,可能包括针对个人决策、建立共识、教育和 / 或预测的工作。这里很大一部分工作将是产品设计,而不是核心人工智能研究,因此其中大部分工作可能通过以公共利益为导向的合作伙伴而不是内部完成。

第三阶段:当 TAI 来临之后该怎么办

当进入这个阶段时,最强的 AI 模型已经在广义上超越了人类,这将需要 ASL-5 级别的预防措施。如果到了这个时候,我们还没有在重大的核心安全挑战上取得决定性的成功,那么届时 AI 行动的速度太快,风险太高,我们不太可能从重大失误中恢复过来。

监管机构很可能会在 AI 方面投入巨资,在很大程度上使公司不再需要独自做出重大决策。在这个阶段,我没有列出任何「待做事项」,因为我希望最好的情况就是「无事发生」。

当超高智慧的人工智能出现时,作为负责开发的组织,之前的决策将承担巨大风险,早期部署 AI 系统的方式可能以难以预测迅速改变或破坏社会结构和功能。同时,我们需要仔细考虑治理和安全机制,因为这些高级 AI 系统届时将不仅是简单的工具,更可能像一个完整的独立文明一样运作。

当然,AI 做出什么样的行为才算无害,是一个非常棘手的问题,相比于由一个公司内部来权衡,更希望有更广泛的力量来达成共识。

原文链接:https://sleepinyourhat.github.io/checklist/