#支小宝

支付宝突然推出新App,竟想用AI让日常生活开挂


只是装了一个 App,整个生活就 AI 了 。


家人们,支付宝已经这么「炸场」了吗?

输入「买一张周日的高铁票,从北京到武汉, 下午出发,行程时间最短的一趟」, 点击三次,等待数秒,购票成功!以前跳转几个页面、点击十几下才能搞定,感觉像是一个段子。

,时长00:13

随着国内各大互联网平台纷纷推出专门的 AI 原生应用,国民级应用支付宝也向等待已久的市场交出答卷——一个全新的 AI 原生应用「支小宝」。

不少 AI 原生应用像一个全能助手,你可以问任何开放性问题,TA 都能回答,尽管也不那么笃定。

但「支小宝」不同,作内首款办事型 AI 生活管家,TA 生动展示了大语言模型的应用如何从理解( Chat )转向采取实际行动( Act )。

支付宝已经诞生 20 年,每天都有数亿人用它支付、出行、理财、就医、办事。做普通人的「生活百宝箱」,也一直是它的底色。而今,进入 AI 时代,「支小宝」正接力支付宝,希望人工智能也能像二维码服务一样,未来惠及每一个普通人。

一、只要一句话,生活就 AI

乍一看, AI 原生应用就和移动互联网原生应用(支付宝)很不同。

单一蓝色的配色方案,配以极简的界面设计,让人倍儿感清爽。「此刻」、「对话」 分别对应「支小宝」两个核心能力,主动陪伴和跑腿办事。「智能体」示意「支小宝」未来要交很多朋友。

一个对话框「包打天下」:只要你一句话,叫车、订票、充话费服务立刻直达。

体验一番后发现,日常就这样被大模型给摆平了。

早上叫醒打工人的不是梦想,而是咖啡,只用说句「点杯瑞幸咖啡的生耶拿铁,到店取」,搞掂!

,时长00:08

「支小宝」会将取餐码,连同天气和要闻「写到」便利贴上,贴到「此刻」公告栏。

车站附近扫码取咖啡。发现车快来了,点开「随身口令」,「我要坐公交」,乘车码立刻弹出来。

本着「能动手就不要动口」的精神,召唤刚需服务的「口令」已经进化成模版。

,时长00:18

早会完毕,接到下周出差的任务,只需在对话框说清要求,如出发地、目的地、时间、甚至票价高低,就能一键搞定,身份证号都能帮你填好。

午饭时间,「此刻」自动更新到中午状态,前几天网购的包裹已经到了。

天气太热,上个月电费花了多少?打开一看,不出所料,充值缴费多半都是电费支出。

充话费、给闺蜜转账,啥都不用自己填, 「支小宝」直接搞定。

晚上,依旧咳嗽不止,白天还发烧,该挂什么科?「支小宝」请来健康医生作答,确认科室后,直接将医院挂号入口找了出来。

,时长00:08

过去多次点击才能完成的事儿,现在只需一句话,AI 就能帮你办好。很多生活百科问题,「支小宝」也能整合网络内容回答你。

通过「对话」,你可以享受一句调动日常服务的快感。进入「此刻」,因为拥有场景感知系统,「支小宝」会基于你的日常习惯、空间位置主动给到陪伴。

TA 就像一个聪明的公告栏,实时将 To-do list 事项更新至此。除了实时更新的天气和新闻,快到地铁站了,乘车码会自动冒出来;快递到了,取件码会被贴在首页。如果你在黄山,请出「智能体」里的「黄小松」就能获得更地道的本地服务。

,时长00:14

用得越多,TA 越懂你。经常打车去某个地方,「打车去XX」就会出现在「随身口令」中。

二、 用硬科技狠活儿满足最接地气的需求

「支小宝」有点迷惑性。

当产品体验丝滑到「无感」后,人们反而容易忽视沉淀在下面的深刻技术,甚至会有「这也不难做到」的错觉。

没有底层的模型和算法能力创新,就不可能有产品上的「一键上翻支付宝百万级小程序」、「让 8000 万数字生活服务『触手可得』」。

和大模型理解用户意图后直接调用商家接口的做法不同,「支小宝」使用了一个名为 ACT(Transformer for actions )的智能服务技术,让智能助理具备屏幕感知与仿真执行能力,就像让 AI 有了「眼睛」和「手脚」,模拟人类交互(如点击、滚动和输入)下单、订票。

ACT 会先利用大语言模型来理解用户的自然语言需求,然后将其转化为一系列具体的操作指令。这使得用户无需手动操作多个界面,只需用语言表达他们想要的东西即可。为了实现这一目标,支付宝在多个方面进行了探索和创新。

首先,支付宝实现了多模态数据采集,除了行为数据,还有页面的图片、数字、按钮、输入框等各种元素,使系统能够「看到」并理解当前的用户界面。这就像给机器人装上了眼睛,让它能够准确地在界面上操作。

有了「眼睛」还不够,跑腿办事还得有「四肢」,围绕支付宝框架和容器能力,他们自建了一套仿真执行能力,针对性地解决了在支付宝 App 上做仿真执行的问题。

为了提供更好的用户体验,ACT 采用了「离屏」方案,将整个操作过程隐藏在用户视线之外。这样,用户就不会看到中间的操作过程,体验更加流畅。

除了这些会见诸媒体报道的底层创新,更多技术和能力沉淀在了超级应用里。

为了提升大模型的行动力,支付宝还优化了 Function Call(函数调用)。通过采用函数表达和显式推理等高级 Prompt 技术,显著提升了大模型理解和调用合适工具的能力。更值得一提的是,他们还利用实际业务场景的复杂数据来训练模型,这大大增强了模型的「实操」能力。

作为一个泛生活服务数字平台,支付宝的服务生态非常丰富。现在,借由 AI 将平台 8000+ 数字生活服务、400万+ 小程序重新连接起来,这一举措堪比支付宝当初通过一张张二维码构建起移动支付网络,对工程化落地能力提出了极高要求。

而系统工程能力正是中国这些日活过亿超级应用的强项。「亚运数字火炬手」活动吸引了超过 1 亿人参与,「五福节」活动更是支持了 6 亿人次的 AI 互动,这些成功案例不仅证明了支付宝在处理海量用户请求方面的卓越能力,更展示了其在解决大模型应用规模化落地中的关键问题,如算力支撑和成本控制等方面的领先实力。

ACT 正在从端侧渲染向端云协同渲染过渡。这种转变虽然工程复杂度很高,但对于「支小宝」这类对响应速度要求极高的产品来说至关重要。特别是 ACT 技术所需的容器级别云渲染,比起「五福节」中使用的单纯界面渲染要复杂得多,对工程能力的要求也更高。

三、支付宝的「内生」:

不止于 All in AI,而是 AI in All

二十年来,中国人的购物方式和日常生活发生了翻天覆地的变化。人们可以使用二维码移动支付,而不必再使用信用卡。手机上不仅能买机票、电影票,还能打车、缴费、挂号甚至领结婚证。支付宝成了「生活百宝箱」,但从「百宝箱」立刻翻出你要的东西,也是不易。

今年4月,支付宝将 AI 引入整个平台。在首页开启测试全新 AI 产品支付宝智能助理(「支小宝」前身),同时在多个场景接入了智能助理:搜索、出行频道、市民中心。

拉下支付宝 App 首页,就能唤起,起到「App 智能导航」的作用。后因探索 AI 原生应用,为用户提供更极致的体验,又有了独立 App「支小宝」。

由此可见,ChatGPT 和 LLMs 大热 ,每个公司都会选择最合适自己的方式跟进。

OpenAI、Anthropic、Mistral 等将聊天机器人作为一个神奇的通用界面,追逐一个可以提问任何开放性问题的全能助手。而支付宝给出了另一种选择,转向更加务实的应用层,看看能帮助用户解决什么问题。

选择利用其现有的产品生态和经过市场验证的刚需(衣食住行)落地新技术,支付宝降低了试错成本,还能更快地获得市场反馈。即便某些产品可能失败,也能获得宝贵经验,尝试越多越有利。

因此,支付宝选择的第一个方向是「内生」,用 AI 焕新整个平台,不止于All in AI,而是 AI in All。他们并不声称,新的基础模型在所有方面都是最好的,但对于他们想要焕新的功能来说,一定要足够好。

其实,找到一个合适场景,把先进技术变成一个普惠服务,一直是支付宝最擅长的。蚂蚁集团 CTO 何征宇说过,「支付宝过去和今天的技术发展思路是一样的。」

这款国民应用今日之大成,不是基于「上帝视角」的预先设计,无非是见山修路,见河搭桥,虽然也在激烈的竞争中走过弯路,但有一点始终没变:我能为用户解决什么问题?如何让服务更简单、更敏捷?围绕核心业务体验,把硬核技术吃透。

当然,因为内核是智能体(AI Agent),「支小宝」的未来并不像它带来的体验那么「简单」。

「支小宝」能以多种形式承载并服务用户,透过专业智能体的深度连接,用户会感受到服务体验的代际升级。但,这也需要千行百业和无数 ISV 一起来「种草」。

今天的外滩大会上,支付宝面向行业正式启动智能体生态开放计划,并推出了一站式智能体开发平台「百宝箱」,依托智能体构建能力,商家机构可 0 代码、最快 1 分钟创建专属服务智能体,并一键发布到支付宝生态圈。

今天的外滩大会上,支付宝面向行业正式启动智能体生态开放计划。

此前,支付宝已经开始打样。

他们携手安徽黄山风景区,打造了国内首个「全程 AI 伴游」景区。外地游客抵达黄山后,打开「支小宝」就能快速进入黄山智能体,开启 AI 伴游。

支付宝和浙江卫健委联合推出的数字健康管家「安诊儿」,背后也是一个连接多个医院与机构的智能体生态。

二十年前,支付宝发明了快捷支付,它对整个中国移动支付发展的贡献要在很多年后才会显现出来。二十年后,支付宝设想了一种新生活,演化的进度条开始读取中。 




#把Llama训成Mamba

性能不降,推理更快!

近日,Mamba方面又搞出了有意思的研究:来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。

先来看一张其乐融融的图片(一眼AI):

右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。

至于到底能不能其乐融融,咱就不管了,之所以有此场景,是因为Mamba方面又搞出了有意思的研究:

——如何把Llama变成Mamba?

论文地址:https://arxiv.org/pdf/2408.15237

代码地址:https://github.com/jxiw/MambaInLlama

近日,来自康奈尔、普林斯顿等机构的研究人员推出了上面这篇工作,将Llama这样的大型Transformer提炼成了Mamba模型,

并且成功在Mamba架构上应用了带有硬件感知的推测解码算法,提高了整个模型的推理速度。

为什么要把Llama变成Mamba?

因为从头开始训练一个大模型太贵了。

Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。

目前比较有名的是AI21的Jamba(进化到了1.5版本,最大398B,MoE),以及NVIDIA的Hybrid Mamba2模型(8B)。

不过世界上有那么多成功的Transformer大模型,而知识就包含在这些模型参数里。

如果能够锁住知识,同时把Transformer微调成Mamba,不就解决问题了?

在本文中,研究人员结合渐进式蒸馏、监督微调(SFT)和定向偏好优化(DPO)等方法达成了这一目标。

光是变大还不够,

在性能匹配Transformer的前提下,速度也要够快才行。

Mamba凭借固定的推理开销,在长序列中的优势明显,但Transformer这边也是有推理加速方案的,比如推测解码。

而由于Mamba本身的结构特性,不能直接应用这种方案,所以作者设计了全新的算法,并结合硬件的性质来实现基于Mamba的推测解码。

最终,研究人员将Zephyr-7B、Llama-3 8B提炼为了线性RNN模型(混合Mamba和Mamba2),且性能与蒸馏之前的标准模型相当。

整个训练过程只使用了20B的token,效果却能够与使用1.2T个token从头开始训练的Mamba 7B模型,以及使用3.5T个token训练的NVIDIA Hybrid Mamba2模型相媲美。

从 Transformer 到 Mamba

在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。

所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。

额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数初始化。

之后就是SSM的运算过程,再通过投影和累加得到输出。

模型架构和训练

下图给出了模型的架构,因为Transformer的知识存在于MLP层,所以冻结这部分参数。

除了用线性RNN层(Mamba)替换掉注意力头,还有一些组件需要处理,比如跨头共享键和值的分组查询注意力(GQA)。

知识蒸馏(Knowledge distillation,KD)是一种常用的压缩技术,用来训练模仿较大模型(teacher)行为的较小网络(student)。

根据经验,这里采用逐步替换Attention层的策略,先是每2层进行蒸馏,然后每4层继续蒸馏......

监督微调

有两种常见的蒸馏方法。一种方法是使用word-level的KL散度,此时训练student模型去匹配teacher模型输出的完整概率分布。

第二种方法是序列级知识蒸馏(SeqKD),直接使用teacher模型的输出作为ground truth来训练student模型(也称为伪标签)。

51c大模型~合集47_大模型

这里θ是student模型的可训练参数,α和β分别控制序列和词的loss项的权重。

偏好优化

LLM指令调优的第二阶段是使其符合用户偏好。这个阶段,使用一组期望的偏好对来改进模型的输出。

优化的目标是使奖励模型最大化,同时保持产生的输出接近参考模型。

通常,参考模型使用上一步监督微调后的模型。这里因为是蒸馏,直接可以用teacher模型:

51c大模型~合集47_大模型_02

偏好模型的奖励函数定义取决于所使用的方法,本文采用直接偏好优化(DPO),通过直接梯度更新有效地到达优化目标。

DPO表明,对于给定的提示x ,如果我们能够获得preferred和dispreferred两种输出,就可以将这个优化问题重新表述为:

51c大模型~合集47_大模型_03

这种优化可以在序列级别上执行,让teacher模型和student模型一起对preferred和dispreferred输出进行评分,然后反向传播给student模型。

推测解码

经过上面的一套小连招,模型转换就搞定了,下面开始想办法应用Transformer那边的推测解码。

推测解码(Speculative Decoding)可以简单理解为下面这张图。

Transformer做推理的时候,除了要处理不断变长的KV cache之外,计算效率也是个问题。

因为显卡的设计是计算高于访存的,具体到计算单元就是做矩阵乘法。

而推理的时候每次只能进入一个词向量,显卡的很多计算就被浪费了。

推测解码给出的解决方案是,使用一个小模型做生成,然后拿显卡多余的计算做验证。

小模型跑得快,可以一口气生成很多输出向量,但是可能效果差一点。这时候用大模型作为验证,一次计算之前生成的很多个向量。

所以小模型串行跑得快,大模型可以并行计算跑得也快,遇到验证不通过的就直接回滚,整体上提高了推理的速度。

Transformer可以方便地回滚,因为KV cache跟时间是一一对应的,但Mamba这边只有一个当前的中间状态ht,你总不能把所有中间状态都存起来吧。

为了解决这个问题,研究人员设计了下面的算法:

简单来说就是每次使用小模型(draft model)生成一组输出,然后大模型(verification model)验证这一组输出,根据验证匹配的位置来更新需要保存的中间状态。

我们可以从下面的伪代码了解详细的过程:

每次生成K个草稿输出,验证模型通过MultiStep函数返回K个真正的输出,以及上一次校验成功位置的cache(中间状态hj)和本次最后位置的cache(hk)。

Multi-Step内核的性能特征

通过FirstConflict函数找到最后匹配(校验成功)的位置,如果所有都匹配,则cache可以更新到最后的hk,否则就只更新到上一次的hj。

兵马后动,粮草先行,不耽误输出和校验,同时只需要多存储一个中间状态。

当然,如果草稿模型也用Mamba的话,算法的推测部分会变得复杂一些,因为草稿模型需要重新计算上一次迭代中验证成功位置的状态。

硬件特定优化

下面使用Mamba 7B和 Mamba 2.8B作为目标模型进行推测实验。

最初,作者搞了一版简单的算法实现,结果在Ampere架构的GPU(3090)上面效果显著,Mamba 2.8B获得了1.5倍的推理加速, 同时有60%的接受率。

但是这种实现方式在H100 GPU上不太好使,主要是因为GEMM操作的速度更快了,使得缓存和重新计算产生的开销更加明显。

所以,作者通过融合内核以及调整实现方式来优化算法。

对于验证模型,首先从缓存中重新计算之前的步骤,然后对新的草稿token序列进行多步解码,最后在单个内核中进行缓存。

对于草稿模型,重新计算、解码和缓存也融合在单个内核中。最终实现了上表中的加速效果。

实验

研究人员使用两个LLM聊天模型进行实验:Zephyr-7B和Llama-3 Instruct 8B。

采用三阶段蒸馏。在第一阶段,使用UltraChat和UltraFeedback作为种子提示,并使用teacher模型生成伪标签。

使用AdamW优化器训练模型,β=(0.9,0.98) ,批量大小64。先使用线性学习率预热,然后进行余弦退火。

第二阶段,在一个epoch中使用SFT在GenQA、InfinityInstruct和OpenHermes 2.5数据集上对模型进行监督微调,采用与Zephyr相同的超参数。

最后一个阶段,对于从Zephyr中提取的模型,在UltraFeedback数据集上使用DPO与标准模型进行蒸馏对齐。

过程中只在第一阶段冻结MLP层,后两个阶段所有参数都进行训练。

作者表示,通常只需要在8卡80G A100上运行3到4天,即可重现本文的结果。

参考资料:

https://arxiv.org/abs/2408.15237




#多智能体强化学习

论文第一作者是北京大学人工智能研究院博士生马成栋,通讯作者为人工智能研究院杨耀东助理教授。人工智能研究院多智能体中心李阿明研究员和伦敦国王大学杜雅丽教授为共同第一作者。这一成果首次在大规模多智能体系统中实现了高效的去中心化协同训练和决策,显著提升了人工智能决策模型在大规模多智能体系统中的扩展性和适用性。

论文链接:https://www.nature.com/articles/s42256-024-00879-7

在大规模多智能体系统中实现高效的可扩展决策是人工智能领域发展的重要目标之一。多智能系统主要以庞大的智能体交互数据为基础,利用大量计算资源驱动每个智能体学习如何与其他智能体合作执行复杂任务,其核心范式是多智能体强化学习。近年来,这一领域取得了显著的进展,诞生了以游戏人工智能为代表的一系列应用。现阶段两种主要的学习范式是中心化学习和独立学习,中心化学习要求每个智能体都具有全局观察能力,这大幅度增加了算法复杂性和通信成本,降低了在大规模系统中的可扩展性,而独立学习虽然降低了系统和算法的复杂性,但学习过程往往不稳定,导致决策性能较差。

值得注意的是,在游戏以外的更加真实的场景中,都存在一些客观的交互限制和不得不考虑成本因素,这使得现有方法难以扩展到大规模真实世界多智能体系统中。一个简单的例子是,当在城市交通系统中控制交通信号灯时,频繁的大规模通信操作容易增加功率损失和被信号干扰的概率,并且计算复杂性将随着交通灯数量的增多而指数级增加。因此,有必要设计能够在有限数据和客观通信约束下,将决策能力扩展到包含大量智能体的复杂真实系统中的多智能体强化学习方法。

这项研究正是以此出发点,降低了现有多智能体学习方法对于全局通信和大量交互数据的依赖性,实现了强化学习算法在复杂的大规模系统中的广泛部署与高效扩展,朝着可扩展到大规模系统的决策范式迈出了重要一步。

51c大模型~合集47_大模型_04

图 1,中心化学习和独立学习的区别及该研究的出发点和所涉及到的网络化系统类型

在这项研究中,研究团队对大规模多智能体系统进行了以智能体为单位的动力学特性的解耦,将智能体之间的关系描述为一种拓扑连接结构下的网络化关系,其中包括线状,环状,网状等各种同构 / 异构节点,降低了系统处理的复杂性。在此之前,也有一些研究者以网络化的形式建模智能体之间的关系从而提升算法扩展性。但这种对于系统的分解具有较强的假设,不一定符合真实世界系统的特性。因此团队进一步提出了一种更通用的网络化系统模型用来刻画解耦后多智能体系统的动力学和真实系统动力学之间的关系,其优势在于它能够处理更广泛的合作多智能体任务。该概念弥合了标准网络系统和一般多代理系统之间的差距,为去中心化多智能体系统的研究提供了必要的理论框架和分析工具。

51c大模型~合集47_大模型_05

进一步,基于这种更一般化的网络系统,研究团队将单智能体学习中的模型学习理论扩展到多智能体系统中,使智能体能够独立学习局部状态转移、邻域信息价值和去中心化策略,将复杂的大规模决策难题转化为更容易求解的优化问题。这样,大型人工智能系统即使在样本数据和信息交互受限的情况下,也能实现令人满意的决策性能。早在上世纪 90 年代,强化学习教父 Richard Sutton 就提出了基于模型的方法来学习系统内在的动态特性来辅助策略学习,提升样本效率。在这项工作中,研究团队将本地化模型学习与去中心化策略优化相耦合,提出了一个基于模型的去中心化策略优化方法。该方法是高效且可扩展的,在较小的本地信息大小(当单个智能体与其他智能体之间的信息交互受到限制)下就能近似单调的提升智能体策略。具体而言,智能体能够使用经过充分训练得到的本地化模型来预测未来状态,并使用本地通信来传递该预测。

51c大模型~合集47_大模型_06

图 2,网络系统结构关系及多智能体模型学习过程

为了缓解模型预测的误差问题,研究团队采用了分支推出策略,用许多短时间线推出替换了少数长时间线推出,以减少模型学习和预测中的复合误差,促进了策略学习过程中的近似单调提升能力:

51c大模型~合集47_大模型_07

研究团队从理论上进一步证明了系统解耦后所产生的扩展值函数和策略梯度是接近真实梯度的近似值,这在去中心化模型学习和单调策略提升之间建立了重要的理论桥梁。

51c大模型~合集47_大模型_08

51c大模型~合集47_大模型_09

多项测试结果表明,该方法能够扩展到具有数百个智能体的大规模电网和交通等网络化系统中,在较低的通信成本下实现较高的决策性能。

51c大模型~合集47_大模型_10

图 3,研究方法在智能交通控制场景中的效果

使用了该方法控制的信号灯能够仅通过接收相邻路口的车流信息调控复杂的交通流。这是因为在网络化结构的设计下,整体交通状况已经通过城市路网间接地传递并汇总到相邻路口,通过分析这些相邻路口的观测信息,就能推断和预测整个城市的车流变化,从而做出最优决策。在智能电网上的效果也验证了方法的可扩展性,能够在具有上百个节点的电力网络中实现较低的电能损耗。

51c大模型~合集47_大模型_11

图 4,研究方法在智能电网控制场景中的效果

研究团队负责人杨耀东表示:「未来我们将继续深入推进多智能体学习理论与方法的研究,并赋能具身智能和世界模型等前沿人工智能领域,显著提升更广泛的智能系统在协作、预测和决策方面的能力,使其在复杂动态环境中更加灵活高效的执行任务。同时,我们还将推动这些研究成果在智能交通、智慧电网等领域的应用,促进科技成果的快速转化,为社会创造更大价值。」




#Claude Enterprise(Claude 企业版)

原生集成GitHub,让AI成为协作者,Claude企业版馋哭个人开发者


聊天机器人的 game changer?


刚刚,只有 Claude 聊天机器人一款产品的 Anthropic 更新了其产品线,推出了 Claude Enterprise(Claude 企业版)。虽然严格来说,企业版依然是 Claude 聊天机器人,但它却具有一些明显的优势,其中最大的两个亮点是原生集成 GitHub 以及长达 500K 的上下文长度。

原生集成 GitHub 是企业版的一大核心亮点,可让用户将 GitHub 代码库同步到 Claude,从而可以在 Claude 的帮助下测试代码、调试以及培训新人。Anthropic 表示 GitHub 是 Claude 首个原生整合的服务,但目前只有参与 beta 测试的早期企业版用户可用。今年晚些时候才会向更多企业版用户开放。

51c大模型~合集47_大模型_12

DAIR.AI 创始人 Elvis Saravia 表示,这个功能是 game changer。他说:「GitHub 集成对上下文整合来说意义重大,但更激动人心的是将其整合进 Artifacts,利用 AI 实现更快的开发周期。这就是集成该有的样子。Anthropic 明白这一点。」但他也遗憾地说,目前只有企业版有这个功能,他们应该快些向所有人开发。

他还表示:「我多年来在 GitHub 上投入的一切将开始带来回报。我几年前就在设想这样的集成,但没想到它会来得如此之快。」

畅想一下,该功能如果与 Cursor 整合,那会带来怎样的可能性?用户完全可以基于 GitHub 上大量开放软件库生成新代码,甚至帮助很多早已不再更新的开源软件生成新版本、加入新功能……

有不嫌事大的用户表示 Claude 将是 OpenAI 的掘墓人并 @ 了它。

甚至已经有用户打算使用该功能开发自己的 FPS 游戏了:

这项功能让不少 Pro 版用户眼红,纷纷表示也想要。

另外,Claude 企业版的上下文长度增至 500K,并且支持上传相关文档。Anthropic 表示,这个上下文长度相当于 100 组 30 分钟长度的销售对话转录文本、10 万行代码或 15 份完整的财务报道。其还表示,通过将 Projects 和 Artifacts 整合进上下文窗口,Claude 可以成为一个端到端的解决方案,让团队可以将新生的想法变成高质量的成果。

51c大模型~合集47_大模型_13

顺带一提,Artifacts 是指用户可让 Claude 生成文本文档或代码并在一个专门窗口打开。也就是说,这相当于一个工作窗口。这个功能是在今年 6 月 Claude 3.5 Sonnet 发布时推出的,让用户可以实时地查阅和编辑 Claude 输出的结果并基于其进行构建。比如,这个功能可让用户创建营销日历、销售数据流、制作业务仪表盘、生成特定功能的代码、编写法律文件、总结复杂合同等。该功能于前些天已向所有用户开放。

比如下图给出了一个示例,用户只需上传用户参与度数据,剩下的操作就可以交给 Claude 完成,比如绘制散点图和执行统计分析。

51c大模型~合集47_大模型_14

最后,Claude 企业版也有更高的可使用量以及企业级的安全特性,比如 SSO、权限控制、管理工具等。不用说,企业版 Claude 肯定比常规版好一些。此外,Anthropic 还承诺保护用户数据:「我们不会使用您的对话和内容训练 Claude。」

据报道,目前 GitLab、Midjourney 和 Menlo Ventures 等多家公司已经是 Claude 企业版的早期客户,一直都在为 Claude 企业版提供 beta 测试。比如 GitLab 已经在使用这款产品来进行内容创作以及更自动化地响应请求。

Anthropic 一位产品经理 Scott White 表示:「未来这些模型将更像是虚拟合作者,而不仅仅是虚拟助手。」

至于价格,Anthropic 并未明确说明,只是表示可以谈 —— 客户可以根据自身需求(包括用户和查询量、特定的功能需求等)购买使用量。

据 CNBC 报道,自 5 月份 Instagram 的联合创始人和前 CEO Mike Krieger 以及 OpenAI 前安全技术负责人 Jan Leike 加入 Anthropic 以来,该公司的发展迅速。而据彭博社预计,生成式 AI 市场收入将在 2032 年前达到 1.3 万亿美元。在 OpenAI、Meta、微软和谷歌等企业竞相争夺这块巨大市场的当下,我们有望看到更多企业级 AI 服务诞生。

参考链接:

https://www.anthropic.com/enterprise

https://x.com/alexalbert__/status/1831349257497895345




#VideoAgent

比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而,当这些模型处理较长的视频时,内存消耗可能会显著增加,甚至变得难以承受,并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。

为解决这一问题,北京通用人工智能研究院联合北京大学的研究人员提出了首个基于记忆和工具使用的视频理解智能体VideoAgent,在视频理解任务上媲美Gemini 1.5 Pro。该论文已被ECCV 2024接收。

论文链接:https://arxiv.org/abs/2403.11481

项目主页:https://videoagent.github.io/

代码链接:https://github.com/YueFan1014/VideoAgent

模型介绍

VideoAgent 的主要思想是将视频表示为结构化的记忆,并运用大语言模型的强大推理能力和工具使用能力从记忆中抽取关键信息,实现对视频的理解以及对视频问题的回答。

51c大模型~合集47_大模型_15

图 1:VideoAgent 流程图。

VideoAgent 的记忆设计遵循简约原则:作者发现视频中发生的事件以及视频中出现的人和物体能够涵盖最常见的视频问题。因此,作者设计了如图 1 所示的两个记忆组件:1)时间记忆,用于存储每2秒视频片段所发生的事件;2)物体记忆,用于存储视频中出现的人和物体的信息。给定一个视频,VideoAgent会首先构建该视频的时间记忆和物体记忆。在推理阶段,对于该视频的一个问题,VideoAgent会调用一系列工具,从记忆中抽取与问题有关的信息来回答该问题。

,时长01:55

视频 1:VideoAgent 运用思维链和工具回答视频问题。

记忆构建

对于时间记忆,作者使用预训练的视频文本模型 LaViLa [7] 为每 2 秒的视频片段生成描述文本,反映了视频片段中发生的事件。除了描述片段的文本外,时间记忆还存储了每个视频片段的特征,片段特征包括:1)文本特征,通过使用文本编码器 text-embedding-3-large [8] 得到片段的描述文本的嵌入向量;2)视觉特征,通过使用视频语言模型 ViCLIP [9]对视频片段进行视觉编码获得的嵌入向量。这些片段特征在推理阶段时可被 VideoAgent 用于定位关键片段。

物体记忆的核心是跟踪 (tracking) 并且重识别 (re-identification) 视频中的所有物体和人物。作者首先使用 RT-DETR [10] 和 Byte-track [11] 对视频进行物体检测和跟踪。然而,仅仅使用物体跟踪算法无法解决同一物体由于在视频中多次出现而被识别成多个物体的情况。因此,作者提出一种基于 CLIP 特征 [12] 和 DINO-v2 特征 [13] 的物体重识别算法,将物体跟踪结果中相同的物体赋予同一物体 ID。

,时长00:37

视频2:物体重识别效果展示。杯子和牛奶瓶能够在不同位姿下被重识别。

值得一提的是,记忆构建阶段所涉及的所有模型都满足实时性的要求,这使得VideoAgent也能够接受视频流输入,并且实时地构建记忆。最后,物体记忆中存储的内容有:1)包括物体 ID、物体类别和物体所出现的视频片段三个字段的物体数据库;2)物体ID所对应的 CLIP 特征,用以支持在推理阶段的开放词表物体检索。

视频问答

为了回答一个视频问题,大型语言模型(LLM)会将其分解为多个子任务,并调用工具来解决。这些工具围绕统一的记忆库运作,主要包括以下几个工具:

  1. 片段描述召回:给定两个时刻,返回两个查询时刻之间所有片段的文本描述。

  2. 片段定位:给定一个文本描述,通过将该文本特征与所有片段特征进行比较,检索与之最相关的 5 个片段。

  3. 视觉问答:给定一个视频片段和问题,利用 VideoLLaVA [1] 工具,根据视频片段回答该问题。

  4. 物体记忆查询:给定一个有关视频中物体的问题,结合 SQL 查询功能和基于 CLIP 特征的开放词表物体检索,从物体记忆中进行复杂的物体信息查询。

最后,LLM 会整合这些工具的使用结果,生成对视频问题的回答。

图 2 展示了 VideoAgent 的一个推理示例。VideoAgent 首先通过片段定位得到了视频中小男孩与成年人同时出现的 5 个时刻;接着在其中两个时刻上调用视觉问答工具,得到了小男孩与成年人之间的关系,并最终准确回答出了视频中的成年人是小男孩的监护者。

51c大模型~合集47_大模型_16

图 2:VideoAgent 回答视频问题的示例。

在关于视频中有几艘船的问题上,端到端的多模态大语言模型由于其视觉特征的缺陷,无法准确回答出视频中船的数量。但 VideoAgent 能借助视觉基础模型的能力以及物体重识别算法得到精确的物体细节并存放到物体记忆中,因此能够准确回答出视频中有 6 艘船。

51c大模型~合集47_大模型_17

图 3:VideoAgent 与多模态大语言模型的对比。

实验分析

作者在 EgoSchema [14], WorldQA [15], NExT-QA [16] 三个长视频理解数据集上测试了 VideoAgent 的性能。实验表明 VideoAgent 能够取得比目前开源的多模态大语言模型更好的表现,并且能够与目前最好的闭源模型相媲美。

在 EgoSchema 长视频多选题数据集上(见表1),VideoAgent 的 60.2% 的准确率相比基准的多模态大语言模型高出了近 30 个百分点,接近 Gemini 1.5 Pro 的 63.2% 的准确率。在 WorldQA 数据集上(见表2),VideoAgent 在选择题和开放问题上都取得了不错的性能,这归功于 VideoAgent 能够结合大语言模型中的常识知识、推理能力以及视频记忆共同实现对于长视频的理解。

51c大模型~合集47_大模型_18

表1:在EgoSchema数据集上的实验结果。

51c大模型~合集47_大模型_19

表2: 在WorldQA数据集上的实验结果。

在 NExT-QA 数据集上(见表3),VideoAgent 在时序、因果、描述三类问题上相比基线模型都有显著提升,其在因果类问题上的提升最大。

51c大模型~合集47_大模型_20

表3: 在NExT-QA上的实验结果。

在 NExT-QA 上,作者对于 VideoAgent 中的 4 种不同工具进行了消融实验(见表4)。实验表明片段描述召回对于 VideoAgent 理解视频是十分必要的。物体记忆对于 VideoAgent 在时序、因果、描述三类问题的回答准确率都有提升。片段定位和视觉问答这两个工具对于 VideoAgent 正确回答问题的贡献最大。

51c大模型~合集47_大模型_21

表4: 在NExT-QA上对不同工具的消融实验。

总结

本文提出的 VideoAgent 是一种多模态智能体,通过一种新颖的记忆机制结合了多个基础模型,用于视频理解。与端到端的多模态大语言模型(LLM)和其他工具使用智能体相比,VideoAgent 采用了极简的工具使用流程,不需要昂贵的训练,同时在 EgoSchema、WorldQA 和 NExT-QA 等具有挑战性的长视频理解基准上,产生了相当或更好的表现。未来的研究方向可能包括在具身智能、制造业和增强现实领域的实际应用。




#Reflection 70B

开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集

开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。

新模型名为Reflection 70B,使用一种全新训练技术,让AI学会在推理过程中纠正自己的错误和幻觉。

比如最近流行的数r测试中,一开始它犯了和大多数模型一样的错误,但主动在<反思>标签中纠正了自己。

在官方评测中,70B模型全面超越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准GSM8K上直接刷爆,得分99.2%。

这个结果也让OpenAI科学家、德扑AI之父Noam Brown激情开麦:

GSM8K得分99%!是不是可以正式淘汰这个基准了?

模型刚刚上线网友就把试玩挤爆了,对此Meta还主动支援了更多算力。

在网友测试中,Reflection 70B能回答对GSM8K数据集中本身答案错误的问题:

我向模型提供了GSM8K中存在的5个“ground_truth”本身就不正确的问题。

模型没有重复数据集中的错误答案,而是全部回答对了,这很令人印象深刻,表明那99.2%的准确率并非来自于记忆测试集!

数各种r都不在话下,连生造词“drirrrngrrrrrnnn”中有几个r也能被正确数对。

网友纷纷对小团队做出的开源超越顶流闭源感到惊讶,现在最强开源模型可以在本地运行了。

关键70B还只是个开始,官方表示下周还会发布更大的Reflection 405B。

预计405B性能将大幅优于Sonnet和GPT-4o。

Reflection 70B权重已公开,API访问将于今天晚些时候由Hyperbolic Labs提供。

模型能自我反思纠正错误

目前关于Reflection 70B的更多细节如下。

Reflection 70B能力提升的关键,是采用了一种名为Reflection-Tuning的训练方法,它能够让模型反思自己生成的文本,在最终确定回应前检测并纠正自身推理中的错误。

训练中的数据来自使用GlaiveAI平台生成的合成数据。

Reflection 70B基于Llama 3.1 70B Instruct,可以使用与其它Llama模型相同的代码、pipeline等从Reflection Llama-3.1 70B进行采样。

它甚至使用了标准的Llama 3.1聊天格式。

不过,Reflection 70B引入了一些特殊tokens,结构化输出过程。

如下面这个例子所展示的,规划过程分为一个独立的步骤,这样做可以提高CoT效果,并保持输出精炼:

51c大模型~合集47_大模型_22

模型将从在<thinking>和</thinking>标签内输出推理开始,一旦对其推理感到满意,就会在<output>和</output>标签内输出最终答案。

所以它能够将其内部思考和推理与最终答案分离。

在<thinking>部分,模型可能会输出一个或多个<reflection>标签,这表明模型发现了其推理中的错误,并将在提供最终答案之前尝试纠正该错误。

系统提示如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.(你是一个世界级人工智能系统,能够进行复杂的推理和反思。在标签内对查询进行推理,然后在标签内提供你的最终回应。如果你发现自己在任何时候推理出错,请在标签内纠正自己。)

此外值得一提的是,基准测试中,所有基准都已通过LMSys的LLM Decontaminator检查污染,隔离了<output>部分,并单独对这一部分进行测试。

使用Reflection 70B的时候,官方还分享了小tips:

初步建议参数temperature为.7 , top_p为.95

为提高准确性,最好附加“Think carefully.”在Prompt末尾

官方还表示,下周会发布一份报告,详细介绍模型训练过程和发现。

Agent创业团队打造

Reflection 70B的背后是一支小团队,由HyperWriteAI的CEO Mutt Shumer带领。

领英显示,Mutt Shumer是一位连续创业者,毕业于美国锡拉丘兹大学,现任OthersideAI的联合创始人兼CEO。

OthersideAI是一家AI应用公司,致力于通过大规模AI系统开发全球最先进的自动补全工具,也是HyperWrite的幕后公司。

HyperWrite是一个浏览器操作agent,可以像人一样操作谷歌浏览器来完成一系列任务,比如订披萨:

51c大模型~合集47_大模型_23

和gpt-llm-trainer一样,你只需要用文字描述目标,它就会一边列步骤,一边执行。

刚推出时号称“比AutoGPT强”。

HyperWrite还可以在谷歌扩展程序中安装。

另外,Mutt Shumer高中时期就创立了Visos,致力于开发用于医疗用途的下一代虚拟现实软件。

还创立了FURI,这是一家旨在通过创造高性能产品并以公平的价格销售它们来颠覆体育用品行业的公司。

虽然有Meta支持,但目前打开试玩,还是:暂时无法访问。

感兴趣的童鞋可以先码住了~

https://reflection-playground-production.up.railway.app/ 

参考链接:

[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[2]https://x.com/mattshumer_/status/1831767014341538166

[3]https://x.com/polynoamial/status/1831798985528635806

[4]https://x.com/degeneratoor/status/1831809610451448196

[5]https://x.com/kimmonismus/status/1831772661296345333




#4800个大模型团队竞逐「产业真题」

这场金融科技大赛火出圈了

今年 7 月,一份《全球数字经济白皮书 (2024)》统计显示,全球目前已有 1300 多个基础大模型,美国的数量最多,中国紧随其后排在第二。

这一数字对比说明,在大模型这张「牌桌」上,中美是最具实力的两个玩家。曾经,中国奋力追赶「OpenAI 们」,两年之后我们可以看到,国产大模型在技术层面已抵达全球第一梯队。

而在这个过程中,圈内玩家逐渐分化出两条路线:一派继续卷性能,一派专注搞应用。

国内的优势恰恰在于产业场景极其丰富,落地空间极其广阔。面向大模型的下半场战事,业界普遍认为,中国将在应用层展现出更强的后劲。

目前的核心问题是,如何让大模型技术尽快与更多真实的产业场景连接起来。

从何处入手?一是精准定位最需要大模型的产业场景,二是找到能解决这些真实场景问题的人才。

一场直面「产业真命题」的技术赛事

我们熟悉的大模型落地案例更多发生在对话、作画、视频等方向,但其价值远不止于此,大模型同样可以深刻改变城市发展、金融科技、生物医药、工业制造、科学研究等领域。

已连续举办两届的 AFAC 金融智能创新大赛,正在成为国内大模型人才竞逐金融产业真命题的赛场。

AFAC2024 金融智能创新大赛(以下简称 AFAC2024 大赛)以金融行业内真实案例及海量真实数据为牵引,鼓励参赛者直面金融产业真命题,探索最具挑战的创新模型和算法。在去年赛制的基础上,AFAC2024 大赛对比赛形式进一步升级,在「挑战组」之外新增了「初创组」和「企业组」,形成了涵盖算法赛、应用赛和创业赛的综合赛制架构。

蚂蚁集团副总裁、蚂蚁金融技术委员会主席王晓航表示,举办 AFAC2024 大赛的出发点之一就是集聚、培养优秀科技人才、开展高水平合作交流。

同时,大赛设立了丰厚的奖金池,并为选手提供了配套的技术支持,吸引了数千个极具潜力的大模型团队参与。值得注意的是,选手们可以基于蚂蚁开源的 agentUniverse 多智能体框架,对多智能体协作模型进行开发定制,轻松构建智能体应用,节省更多精力以专注于破解产业命题。

3 个月,4882 支队伍的技术探索,让这场比赛「卷」出了新的高度。中国最顶尖的一批大模型人才围绕金融场景下的众多产业真题,贡献了众多前沿解决方案。

「我们始终相信通过科技的力量可以带来更多微小而美好的变化,我们期待 AI 能让高质量的金融服务惠及每一个人,让更好的金融产品进入千家万户,成为人们生活中的一部分。」王晓航表示,「人工智能技术的作用和价值不应仅限于研究和模型能力,更应产生更大的应用价值,就像扫码支付一样能够进入千家万户,进入每一个行业。」

接下来,让我们来看看三个代表团队的技术创新故事。

什么样的金融研报生成应用

能从六百多支队伍脱颖而出?

「拥抱 AIGC」团队的三位成员有很多共同点:都就读于浙江大学软件工程专业,都是硕士二年级的研究生,甚至住在同一个寝室。除了研究方向不太相同:三人分别选择了计算机视觉、数据治理与大语言模型、时空数据作为主攻方向。

队长高天弘曾参加过首届 AFAC 大赛,关注到 AFAC2024 大赛启动之后,他决定拉上室友再挑战,尽管「金融智能」对于三人来说是有些陌生的领域。

一番深思熟虑之后,他们选择了「AIGC 金融多模态研究报告智能生成」这个赛题。团队需要将大模型技术和金融数据深度融合,提出有创新价值的金融研报生成智能体解决方案,并应用于实际场景。

大模型的通用能力在不断进化,但要想解决高水平问题,还要靠行业知识的进一步积累。纵观当前的各类对话式 AI 应用,生成真实、有用、高水平的研究报告仍然是一项极具挑战性的任务。特别是对于金融这种专业门槛极高的领域,数据时效性、长文本总结、图表生成等都是其中存在的挑战。

如何有效攻克?特别是在赛题发布后,留给团队完成方案设计的时间并不算多。

针对上述问题,他们设计了一个面向金融研报生成的多智能体协同框架。具体来说,这个框架包含三层:多元数据来源、金融研报生成智能体 Agent、多源大语言模型。

与传统的对话系统不同,协同的智能体具备任务规划和执行能力,能够在无需人类干预的情况下自动处理复杂问题,包括生成研报:

51c大模型~合集47_大模型_24

其中,团队以 FinGPT-Forecaster 为基础,结合 LoRA 微调,训练了一个用于投资评级分析的股价预测大模型,克服了 ChatGPT 预测含糊和数据隐私问题,提供了可解释的预测结果。

51c大模型~合集47_大模型_25

为了更高效地筛选金融数据,同时保证实时性和专业性,团队设计了一套多源检索增强方案。在检索获得行情、研报、股价等信息之后,首先针对走势图、PDF 研报等多模态数据进行预处理,突破单模态分析的局限性,使市场波动更直观呈现。然后从相关性、市场敏感性、可靠性、时效性多个维度出发,使用基于 LLM 的重排器进行排序优化。在这个过程中,作为赛事主办方之一,蚂蚁集团提供了新闻信息助手 API ,保证了数据收集的实时性,也大大减少了数据处理的工作量。

51c大模型~合集47_大模型_26

最终,这一方案在同赛道的六百多支队伍中脱颖而出,夺得冠军。获奖之外,三位成员通过这次比赛也学会了如何理解现实中的产业需求,又如何面向真实产业场景制定具备可行性的方案。

他们更加深刻地体会到大模型与传统 AI 研究的巨大差异。此前的 AI 模型基本面向具体任务而设计,仅用少量数据训练就可达到目标性能。相比之下,从底层训练的角度说,大模型对数据、算力的要求已经实现了指数级增长,对训练大模型的人的创新能力要求显然也更上一层楼。

用大模型打造「一对一」旅行智能助理

在「初创组」的赛场上,「智游幻境 Odyssey Agent」团队的成果让评委们印象十分深刻。

这个团队由五位热爱旅行的年轻人组成。众所周知,旅行的回忆是美好的,但旅行前的规划是千头万绪的。出行的人常常花费大量时间辗转于各个平台之间,获取信息、制定行程、预定服务,如果涉及出境游难度更甚。

以 Gemini、ChatGPT 为代表的对话式 AI 应用,也具备提供旅行信息推荐的能力,但往往只有「第一次可用」。很多时候,如果我们继续追问,后续对话可能很难与前面所谈行程保持一致。而且这些基本只能集成单个平台的信息,无法做到有效整合旅行过程中全部所需信息。

能不能做一款提供一站式定制旅行服务的大模型应用呢?五个人一拍即合,决定打造一个「旅行规划智能助理」。尽管团队中有几位成员在大厂的工作非常忙碌,但他们还是利用业余时间快速打造出了这个项目的雏形。

具体来说,他们参考 agentUniverse 多智能体框架的交互模型设计思路,针对旅行场景搭建了一套多 Agent 协作体系:「CHaTS」(Consult,Hotel and Transportation,Spots)。

生成一个七日行程平均要调用大语言模型 50 余次,能在 3 到 5 分钟内返回一个城市的旅行规划和游记 Vlog。对于用户来说,最大的体验提升就是推荐的攻略细节真的更丰富了。

51c大模型~合集47_大模型_27

由于涉及到多个大语言模型生成机制,为了避免前后行程矛盾、关键信息的遗忘以及 token 长度和整体成本问题,团队引入了共享记忆和 tool memory 机制。具体来说,他们将相关工具的执行结果(比如机票 / 酒店查询结果、每日景点推荐),在简单地预处理后进行本地存储,或者通过 Qwen 模型的 File 编码的形式存储在云端,降低了频繁调用工具造成的时间和经济成本,也避免了模型在重新推荐时产生幻觉或者矛盾冲突。

尽管目前的「智游幻境」还处于早期版本,却恰好展示了大模型在旅行类应用赛道的想象空间。团队表示,未来的「智游幻境」可以引入更强的大模型、更多的模态、更丰富的场景。比如通过 VR/AR 设备、无线耳机、摄像头等设备的联动,这款应用可以变为一个能看、能听、能说的「导游」,带来更沉浸的旅行体验。

从观光推荐到实时翻译服务,这样一款应用真的有可能彻底改变旅行者与世界互动的方式。

让大模型融入科技金融业务的「系统工程」

相比于挑战组和初创组,大赛的「企业组」赛道主要着眼于科技金融行业的新兴方向,鼓励科技金融行业的中小型企业提报有亮点、有新意的新技术、新产品落地项目。

深擎科技是一家成立六年的公司,多年来利用 AI 与大数据分析技术,为券商银行提供智能投顾助手和个性化内容生成相关产品,也见证了大模型技术的兴起和爆发。

在数十家参赛企业中,深擎科技提交的方案受到了较多的关注。简单来说,他们围绕 AI Agent 的基座,打造了一整套行业「刚需」的应用产品体系。

对于那些想用大模型变革自身业务的金融机构来说,在实践中往往会遇到一些挑战:如何快速响应业务需求,让业务参与到大模型应用场景的打磨中来?投入的大量配套研发,如何沉淀,算子化、可复用的最佳实践?如何量化评价场景效果,上线后如何持续优化迭代?

核心的问题就是,技术的快速迭代与金融业务所需的确定性之间,如何平衡?

深擎科技给出的解决方案是 AI Agent 平台「乾坤圈」,将大模型能力融入到金融业务的「系统工程」之中。

51c大模型~合集47_大模型_28

在不同基础模型各有所长的今天,「乾坤圈」的一大亮点是支持多个基座大模型协作完成业务交付,且支持本地化、SaaS 大模型服务接入,兼容主流的开源和闭源模型。

此外,「乾坤圈」还提供了敏捷的 AI 场景构建模板和工具,让机构以低代码甚至无代码的方式迅速构建业务场景应用,解决了大模型落地中容易产生的「重复造轮子」问题。

基于「乾坤圈」,以往业界存在的金融领域大模型幻觉控制、业务数据和知识接入、生成结果合规安全性、产研运营端到端效率和生成结果质量评测问题,都得到了有效解决。

实际上,「乾坤圈」平台的技术探索也代表了当前大模型落地的整体趋势,对于很多专业门槛较高的领域来说,只有面向真实的产业场景设计垂直解决方案,才能实现以技术解决真问题的初衷。

目前,深擎科技的产品已经实现 PMF(Product Market Fit),覆盖了 80% 的大中型券商和 50% 的大型银行,近几年的主营收入年复合增长率超过 80%。

接下来的阶段,大模型技术与金融业务场景的结合也会越来越紧密,深擎团队希望持续完善「乾坤圈」,在大模型和金融行业的交叉领域做更多从 0 到 1 的创新,为金融机构实现「数字化、集约化、精细化」客户经营提供动力。

期待大赛能诞生出中国的「OpenAI」

在有关大模型的讨论中,「人才」始终被认为是非常关键的竞争要素。

以 AFAC2024 大赛为代表的技术赛事之所以备受瞩目和火爆出圈,因为它既能提供一方培养 AI 人才的土壤,也切实给到了这些高潜力 AI 人才需要的扶持资源。

比如,对于「拥抱 AIGC」团队来说,这是一次走出校园、直面产业真题的宝贵机会;对于「智游幻境」团队,这是一次走上广阔舞台、验证自身设想的契机;对于「深擎科技」团队,这是一次与业内最顶级同行比拼、促进自我提升的精彩旅程。

纵览 AFAC2024 大赛的 4800 多支队伍,「年轻化」和「多元化」也是本次参赛群体的一大特质。但这些年轻的队伍却做到了对前沿技术的极致追求,以长远的眼光去看,未来中国的「山姆奥特曼」和「OpenAI」,很可能就诞生在这些充满技术热情的队伍中。

AFAC 组委会相关人士表示,希望大赛里涌现的出来各种优秀人才,能成为国内大模型领域的中坚力量,最终造福于整个行业的发展和创新。


#Transformer将超越人脑

Andrej Karpathy最新激进观点

还说 AI 可能会与人类融合……

前些天,OpenAI 前首席科学家 Ilya Sutskever 创立的新公司获得 10 亿美元投资的新闻刷遍了各大新闻头条,而 OpenAI 的另一位早期成员和著名 AI 研究者 Andrej Karpathy 则正在「AI+教育」赛道耕耘,其创立的 Eureka Labs 公司正在积极打造其第一款产品。

近日,播客节目 No Priors 发布了对这位著名 AI 研究者的专访视频。

来自:No Priors

Andrej Karpathy 曾是 OpenAI 的早期成员之一,之后加入特斯拉领导其自动驾驶的计算机视觉团队。之后他又回到过 OpenAI,领导着一个专注提升 ChatGPT 的GPT-4 的小团队。今年 7 月,他宣布创立了一家名为 Eureka Labs 的 AI+教育公司。在这个节目中,Andrej Karpathy 分享了有关研究、新公司以及对 AI 未来的期待,其中不乏颇为激进的观点,比如他认为 Transformer 很快就将在性能上超越人类大脑、我们已经在特定的领域实现了有限的 AGI、AI 会成为人类新的大脑皮层……这些观点已经在网上引起了不少的讨论和争议。

自动驾驶是 AGI 以及 Waymo vs 特斯拉

首先,Andrej Karpathy 谈到了完全自动驾驶汽车。他说自己在自动驾驶领域工作了 5 年时间,也经常将 AGI 与自动驾驶放在一起类比。他说:「我确实认为我们已经在自动驾驶领域实现了 AGI。」因为现在在旧金山等城市已经有了一些付钱就能乘坐的自动驾驶汽车。这实际上已经成为了一种服务产品。他还分享了自己十年前乘坐 Waymo 自动驾驶的经历:「十年前一位在那里工作的朋友给我展示了一个 demo,它带我在街区绕了一圈。而十年前它几乎就已经是完美的了,但它还是用了十年时间才从 demo 变成可付费使用的产品。」他表示,之所以用了这么长时间,一方面是技术原因:demo 和产品之间确实存在巨大差距;另一方面则是监管方面的原因。不过要实现自动驾驶的全球化,还有很长的路要走。至于 Waymo 和特斯拉哪家强?Karpathy 表示:「人们认为 Waymo 比特斯拉领先,但我认为特斯拉领先于 Waymo。」他表示非常看好特斯拉的自动驾驶项目。而对于这两家公司的问题,他认为特斯拉的问题在于软件,而 Waymo 的问题是硬件。对比之下,软件问题其实更好解决。特斯拉的汽车已经在全世界销售,因此当技术成熟时,特斯拉能更好地实际部署它们。Karpathy 说自己昨天才驾驶过最新的版本,体验非常好,感觉很神奇(miraculous driving)。他说 Waymo 目前在自动驾驶方面看起来领先,但如果以 10 年为尺度长远来看,特斯拉更可能领先。

51c大模型~合集47_大模型_29

特斯拉自动驾驶功能演示

我们知道,Waymo 和特斯拉采用了不同的技术方法论:

  • Waymo 的自动驾驶汽车采用了大量昂贵的激光雷达和各式各样的传感器,从而为其软件系统提供全方面的信息支持。
  • 特斯拉则是使用相机,从而能极大地降低系统的复杂性和成本。

对此,Karpathy 表示其实特拉斯也会使用大量昂贵的传感器,但只是在训练时这样做——系统可以借此完成地图测绘等工作。然后再将其蒸馏成一个测试包,并将其部署到只使用视觉信号的系统中。「我认为这是一个睿智的策略。我认为这种策略的效果能得到证明,因为像素具备足够信息,其网络也有足够能力。」之后他提到了神经网络的重要性。一开始的时候,特斯拉的系统中包含大量人工编写的 C++ 代码,之后神经网络的比重越来越大——先是执行图像检测,然后进行预测,之后更是能发出转向等指令。他表示,特斯拉最终的自动驾驶系统(比如十年之后)就是一个端到端的神经网络。也就是说,向其输入视频,它就直接给出命令。

人形机器人以及机器人公司特斯拉

Andrej Karpathy 在离开特斯拉之前也参与研究过特斯拉的人形机器人。他认为这是将能改变一切的研究方向。他说:「汽车其实就是机器人。我认为特斯拉不是一家汽车公司。这有误导性。这是一家机器人公司,大规模机器人公司,因为规模也像一个完全独立的变量。他们不是在制造东西,而是在制造制造东西的机器。」实际上,人形机器人 Optimus 的早期版本与特斯拉的汽车区别不大——它们有完全一样的计算机和摄像头。在其中运行的网络也是汽车的网络,当然其中需要做一些微调,使其适应步行空间。

51c大模型~合集47_大模型_30

当伊隆·马斯克决定做人形机器人时,各种 CAD 模型和供应链等等都是现成的,可以从汽车生产线直接拿过来重新配置,就像是电影《变形金刚》中那样——从汽车变成了机器人。至于人形机器人的第一个应用领域,Karpathy 说:「我认为 B2C 并不是一个正确的起点。」他表示特斯拉的人形机器人最好的客户就是特斯拉自己。这能避免很多麻烦,同时还能检验成果。等产品孵化成熟之后,再进入 B2B 市场,为那些拥有巨大仓库或需要处理材料的公司提供服务。最后才是面向消费者的 B2C 市场。当被问到为什么要做人形机器人时(因为人形可能并不是完成任务的最佳形态),他说:「我认为人们可能低估了进入任何单一平台的固定成本和复杂性。我认为任何单一平台都有很大的固定成本,因此我认为集中化,拥有一个可以做所有事情的单一平台是非常有意义的。」而人形是我们熟悉的形态,可以帮助研究者更好地判断操作和采集数据,毕竟我们人类自身就已经证明了人形形态的有效性。另外,人类社会也是为人类设计的,人形平台可以更好地适应这一点。当然,他并不否认这些形态未来可能发生变化。他强调了迁移学习的重要性。不管形态如何,如果能有一个能迁移到不同形态的神经网络,从而继承原有的智慧和能力,必定会大有用途。

Transformer 可能超越人脑

Andrej Karpathy 称赞了 Transformer 的独特之处:「它不仅仅是另一个神经网络,而是一个惊人的神经网络。」正是因为 Transformer,规模扩展律(scaling laws)才真正得以体现。Transformer 就像是通用型训练计算机,也就是可微分的计算机。「我认为这实际上是我们在算法领域偶然发现的神奇事物。」当然其中也有个人的创新,包括残差连接、注意力模块、层归一化等等。这些东西加起来变成了 Transformer,然后我们发现它是可训练的,也能具有规模扩展律。Karpathy 表示 Transformer 还远没到自己的极限。现在神经网络架构已经不是阻碍我们发展的瓶颈了,新的改进都是基于 Transformer 的微小变化。现在的创新主要集中在数据集方面。互联网数据很多,但 Karpathy 表示这并不是适合 Transformer 的数据。不过互联网上也确实有足够的推理轨迹和大量知识。现在很多的研究活动都是为了将这些数据重构成类似内心独白的格式。使用合成数据也能大有助益。所以很有趣的一点是:现在的大模型正在帮助我们创造下一代大模型。不过他也警告了合成数据的风险。合成数据往往多样性和丰富度不足。为此人们想出了一些办法,比如有人发布了一个个性数据集,其中包含 10 亿个不同背景的人物个性。在生成合成数据时,可以让这些不同个性去探索更多空间,从而提升合成数据的熵。接下来,Karpathy 说虽然 Transformer 和人脑应当谨慎类比,但他认为 Transformer 在很多方面已经超过了人脑。他说:「我认为它们实际上是更高效的系统。它们不如人脑工作的原因主要是数据问题。」比如在记忆力方面,Transformer 可以轻松记住输入的序列,而人脑的工作记忆很小,记忆力表现差得多。虽然人脑的工作机制还没被完全揭示,但可以说它是一种非常随机的动态系统。「我确实认为我们可能会拥有比人脑更好的(Transformer),只是目前还没有实现。」

AI 增强人类以及与人类的融合

AI 能提升人类的生产力和效率,但 Andrej Karpathy 认为 AI 的成就将远不止此。他引用了乔布斯的名言:「计算机是人类心智的自行车。」他表示,计算机与人类实际上已经有一点融合了。比如我们随身携带的智能手机,现在许多人完全无法离开手机,否则甚至会感觉自己智力都下降了。另一个例子是导航软件让许多人失去了记忆道路的能力,甚至在自家附近也要导航。他表示翻译软件也正渐渐让人们失去直接使用外语沟通的能力。他说,自己曾看过一个小孩子在杂志进行滑动操作的视频。我们觉得很自然的技术可能在新一代人眼中并不自然。但如果要实现更高级的融合,还有一些 I/O 问题有待解决。实际上,NeuraLink 就正在做这方面的研究。他说:「我不知道这种融合会是什么样子。可能会像是在我们的大脑皮层上再构建额外一层皮层。」不过这个皮层可能在云端。当然,这又会引发对生态系统的担忧。想象一下,如果你的「新皮层」 是寡头垄断的封闭平台,你肯定不会放心。好在我们也有 Llama 等开放平台。与加密货币社区的「不是你的密钥就不是你的币」类似,Karpathy 表示,「不是你的权重就不是你的大脑」。

现在的大模型参数过剩

当被问到蒸馏小模型方面的问题,Karpathy 认为当前的模型浪费了大量容量来记忆无关紧要的事情,原因是数据集没有经过精细化的调整(curation)。而真正用于思考的认知核心(cognitive core)可以非常小,如果它需要查找信息,它会知道如何使用不同的工具。至于具体的大小,Karpathy 认为会是数十亿的参数量,这可以通过对大模型执行蒸馏来获得。这就类似于互联网数据。互联网数据本身可能是由 0.001% 的认知数据和 99.999% 的相似或无用信息构成的。当这些模型发挥作用时,它们并不会孤军奋战,而是会协同合作,各自处理自己擅长的任务。这就像是一家公司,他打了个比方,LLM 们会有不同的分工,有程序员和产品经理等。

Karpathy 的教育事业

Andrej Karpathy 离开 OpenAI 后一头扎进了「AI+教育」领域。他说:「我一直是一名教育工作者,我热爱学习和教学。」他谈到了自己的愿景。他认为 AI 领域现在很多工作的目的是取代人,但他更感兴趣的是以 AI 赋能人类。

Karpathy 宣布成立「AI+教育」公司 Eureka Labs 的推文

他说:「我正在努力打造一门单一课程。如果你想了解 AI,你只需要看这个课程。」

GitHub 链接:https://github.com/karpathy/LLM101n

(但请注意,课程还没上线。)

他谈到自己曾经在斯坦福大学教过二三十门课程,那是最早的深度学习课程,也很成功。但问题是如何将这些课程普及化,让地球上说不同语言、有不同知识体系的 80 亿人都能理解。对于这样的任务,单一的教师不可能办到,而 AI 却能很好地做到这一点,实现真正的一对一教学。这时候人类教师就不必接触学生了,只需在后端设计课程;AI 会成为教学的前端——它可以说不同的语言,针对学生的具体情况进行教学。Karpathy 认为这是目前可以做到的事情,只是目前还没人把它做出来。这是一个已经成熟正待摘取的果实。目前在 AI+教育这一赛道上,AI 已经在翻译方面卓有成效,而且已经有能力实现实时现场翻译。他认为,AI 有望帮助实现教育的普及或者说知识的民主化。在被问到这门课程大概什么时候上线时,Karpathy 说大概会在今年晚些时候。但他也说现在让他分心的事情很多,所以也可能会在明年初。对于现在的孩子们该学习什么,他也给出了自己的建议:数学、物理学和计算机科学等学科。他说这些有助于提高思维技能。「在这个前 AGI 时代,这些会很有用。」

参考链接:

https://www.youtube.com/watch?v=hM_h0UA7upI

#DeepSeek分享沉淀多年的高性能深度学习架构

用60%成本干80%的事

硬件发展速度跟不上 AI 需求,就需要精妙的架构和算法。

根据摩尔定律,计算机的速度平均每两年就会翻一倍,但深度学习的发展速度还要更快,如图 1 和 2 所示。

51c大模型~合集47_大模型_31

51c大模型~合集47_大模型_32

可以看到,AI 对算力的需求每年都以 10 倍幅度增长,而硬件速度每两年增长 3 倍、DRAM 带宽增长 1.6 倍、互连带宽则仅有 1.4 倍。

而大模型是大数据 + 大计算的产物,其参数量可达千亿乃至万亿规模,需要成千上万台 GPU 才能有效完成训练。

这些实际情况提升了人们对高性能计算(HPC)的需求。

为了获得更多计算资源,人们不得不扩展更多计算节点。这就导致构建 AI 基础设施的成本不断激增。降低这些成本具有很大的好处,构建成本和能耗高效型计算机集群也就自然成了一个热门的研究方向。

近日,DeepSeek(深度求索)发布了一份基于硬件发展的实际情况及其多年实践经验的研究成果,其中提出了一些用于构建用于深度学习和 LLM 的 AI-HPC 系统的成本高效型策略。

51c大模型~合集47_大模型_33

  • 论文标题:Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning
  • 论文地址:https://arxiv.org/pdf/2408.14158

具体来说,该团队基于 Fire-Flyer AI-HPC 架构部署了一个包含 1 万台 PCIe A100 GPU 的计算集群。下表比较了该集群与英伟达的 DGX-A100 的硬件参数。

51c大模型~合集47_大模型_34

Fire-Flyer 2:支持深度学习和早期 LLM 训练

如图 3 所示,LLM 的内存需求量通常比较大。相较之下,其它模型的需求就小多了。ResNet、Mask-RCNN、BERT、MAE 等常用模型的参数量均少于 1B,这说明其内存需求较低。因此,在设计用于深度学习模型训练的集群时,使用 PCIe A100 GPU 可能就已经足够了。

51c大模型~合集47_大模型_35

Fire-Flyer 2:PCIe A100 GPU 架构

基于该团队的训练工作负载,使用单个 200Gbps 的 NVIDIA Mellanox ConnectX-6 (CX6) InfiniBand (IB) 网卡就能满足 8 台英伟达 PCIe A100 GPU 的存储 IO 和计算通信的带宽需求。他们使用了如图 4 所示的计算节点架构:

51c大模型~合集47_大模型_36

之后,随着 LLM 时代的到来,该团队也在 PCIe 卡之间添加了 NVLink Bridge。

网络拓扑:整合了存储和计算的两层 Fat-Tree

他们选择的拓扑结构是 Fat-Tree,原因是它具有极高的对分带宽。网络连接解决方案则是 InfiniBand。具体来说,他们使用了 Mellanox QM8700 InfiniBand 交换机,其提供了 40 个速度 200 Gbps 的端口。整体而言,该集群由 1 万台 A100 GPU 构成,包括约 1250 个 GPU 计算节点和近 200 个存储服务器,尽管双层 Fat-Tree 最多可以容纳 800 个节点(配置 20 个脊交换机和 40 个叶交换机)。

为了降低成本,他们选择了两区网络配置而不是三层 Fat-Tree 解决方案,如图 5 所示。

51c大模型~合集47_大模型_37

每个计算区都包含一个 800 端口的 Fat-Tree,并连接到了大约 600 个 GPU 计算节点。每台存储服务器配备两个 IB 网卡,分别连接到不同的区,因此所有 GPU 计算节点可以共享一组存储服务。

此外,这两个区会通过有限数量的链路互连。他们的 HAI Platform 调度策略确保跨区计算任务最多限制为一个。无论是使用 NCCL 还是 DeepSeek 内部开发的通信库 HFReduce,都可以通过使用双二叉树算法跨区运行。其调度器可确保在此拓扑中,只有一对节点跨区通信因此,即使有任务需要用到所有节点,也能在 Fire-Flyer 2 AI-HPC 上高效运行。

该架构的成本性能

在 TF32 和 FP16 GEMM 基准上,相比于英伟达 DGX-A100 架构,DeepSeek 设计的这套架构的计算性能为前者的 83%。但是,其成本和能耗的下降幅度要大得多,仅为前者的 60%,如表 2 所示。

51c大模型~合集47_大模型_38

DGX-A100 集群使用了三层 Fat-Tree,其中包含 320 台核心交换机、500 台脊交换机和 500 台叶交换机,总共 1320 台交换机(如表 3 所示),而 DeepSeek 的这个架构只需要 122 台交换机。这样的设计具有更高的成本效益。

此外,通过使用 800 个端口的 Frame 交换机,还能进一步降低光模块和线缆的成本。虽然由于 PCIe 卡规格和 SXM 之间的固有差异而存在性能差距,但 DeepSeek 的这一架构通常能以仅 60% 的成本实现 80% 的 DGX-A100 性能!此外,他们还将能耗降低了 40%,也由此降低了二氧化碳排放。从这些指标看,这一架构设计无疑是成功的。

HFReduce:软硬件协同设计

有了高效的硬件,也自然需要适配的软件。该团队开发了一个用于高效 allreduce 运算的软件库:HFReduce。HFReduce 的核心策略见图 6,其包括节点内(算法 1)和节点间(算法 2)的 reduce。

51c大模型~合集47_大模型_39

51c大模型~合集47_大模型_40

HFReduce 相较于 NCCL 的优势有两项:

1. 降低 PCIe 的带宽消耗

2. 没有 GPU 核开销

如图 7a 所示,在 Fire-Flyer 2 AI-HPC 上执行数据大小为 186 MiB 的 allreduce 时,HFReduce 可以达到 6.3-8.1GB/s 的节点间带宽,而 NCCL 的节点间带宽仅为 1.6-4.8GB/s。

51c大模型~合集47_大模型_41

另外,还能使用 NVLink 提升 HFReduce 的性能。

通过安装 NVLink Bridge,可通过速度 600 GB/s 的 NVLink 实现成对 GPU 间的高效通信。为了缓解原 HFReduce 的内存限制问题,他们还实现了另一种 allreduce 模式,称为 HFReduce with NVLink。其核心概念是先在通过 NVLink 互连的 GPU 之间执行 reduce 操作,再将梯度传递给 CPU。随后,当 CPU 返回结果时,它会拆分结果数据并将它们分别返回给通过 NVLink 连接的配对的 GPU,然后通过 NVLink 执行 allgather。如图 7b 所示,HFReduce with NVLink 实 现了超过 10 GB/s 的节点间带宽。

有关 HFReduce 的策略和瓶颈的更多深度分析请参阅原论文。

HaiScale:针对深度学习模型训练进行特别的优化

HaiScale 分布式数据并行(DDP)是一种以 HFReduce 为通信后端的训练工具。这类似于 Python 的以 NCCL 为后端的 DDP。在反向传播阶段,HaiScale DDP 会对计算出的梯度执行异步 allreduce 操作,允许此通信与反向传播中涉及的计算重叠。

如图 8a 所示,相较于使用 Torch DDP 的 NCCL 后端,使用 HFReduce 训练 VGG16 模型所需的时间仅为前者的一半,当 GPU 数量从 32 增至 512 时可实现近 88% 的并行可扩展性。

51c大模型~合集47_大模型_42

为了训练大型语言模型(LLM),HaiScale 框架采用了多种并行策略,类似于 Megagron 和 DeepSpeed。他们针对 PCIe 架构在数据并行(DP)、管道并行(PP)、张量并行(TP)、专家并行(EP)等方面进行了特定的工程优化。

1. 使用 NVLink Bridge 实现 PCIe GPU 之间的张量并行

2. 在 PCIe 架构中优化管道并行

3. 完全分片式数据并行(FSDP)

图 8 和 9 展示了这些优化策略的一些实验结果。可以看到,随着 GPU 数量增长,这些策略能带来非常好的可扩展性。

51c大模型~合集47_大模型_43

此外,该团队还在论文中分享了更高级的成本效率和联合设计优化方法,其中包括一些降低计算 - 存储整合网络中信息拥堵的方法、高吞吐量分布式文件系统 3FS 以及一个时间共享式调度平台 HAI Platform。

最后,他们验证了这整套设计的稳定性和稳健性。下图总结了他们在 2023-2024 年遇到的内存和网络故障趋势。

51c大模型~合集47_大模型_44

总体而言,Fire-Flyer 2 AI-HPC 在成本性能上表现优秀 —— 能以 60% 的能源消耗达到英伟达 DGX-A100 计算性能的 80%。当进行大规模训练时,其能带来的整体成本效益将非常可观。如果你也打算构建自己的大规模训练集群,不妨考虑一下这套架构。