51c大模型~合集38

原创

qq6669490e54384 2024-08-20 12:27:29 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#ScanFormer

浙大李玺团队：指代表达理解新方法，ScanFormer粗到细迭代消除视觉冗余

该论文作者均来自于浙江大学李玺教授团队，论文第一作者为博士生苏伟同学，通讯作者为李玺教授（IET Fellow，国家杰青）。李玺教授团队近年来在国际权威期刊（如 TPAMI、IJCV 等）和国际顶级学术会议（ICCV、CVPR、ECCV 等）上发表 180 余篇 CV/AIGC 相关的研究工作，和国内外知名高校、科研机构广泛开展合作。

作为基础的视觉语言任务，指代表达理解（referring expression comprehension, REC）根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成：视觉编码器、文本编码器和跨模态交互，分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。

目前的研究大多集中在设计高效的跨模态交互模块以提升任务精度，缺少对视觉编码器探索。常见做法是利用在分类、检测任务上预训练的特征提取器，如 ResNet、DarkNet、Swin Transformer 或 ViT 等。这些模型以滑动窗口或划分 patch 的方式遍历图像所有的空间位置来提取特征，其计算复杂度会随图像分辨率快速增长，在基于 Transformer 的模型中更加明显。

由于图像的空间冗余特性，图像中存在大量低信息量的背景区域以及与指代表达无关的区域，以相同的方式在这些区域提取特征会增加计算量但对有效特征提取没有任何帮助。更加高效的方式是提前预测图像区域的文本相关性和内容的丰富程度，对文本相关的前景区域充分提取特征，对背景区域粗略提取特征。对于区域预测，一个较为直观的方式是通过图像金字塔来实现，在金字塔顶层的粗粒度图像中提前辨识背景区域，之后逐步加入高分辨率的细粒度前景区域。

基于以上分析，我们提出了 coarse-to-fine 的迭代感知框架 ScanFormer，在图像金字塔中逐层 scan，从低分辨率的粗尺度图像开始，逐步过滤掉指代表达无关 / 背景区域来降低计算浪费，使模型更多地关注前景 / 任务相关区域。

论文标题：ScanFormer: Referring Expression Comprehension by Iteratively Scanning
论文链接：https://arxiv.org/pdf/2406.18048

方法介绍

1、Coarse-to-fine 迭代感知框架

为简化结构，我们采用统一文本和视觉模态的 ViLT [1] 模型，并将其沿深度维度分为 Encoder1 和 Encoder2 两部分以用于不同的任务。

首先，提取文本特征并将其存入 KV Cache；然后构造图像金字塔并从金字塔顶层依次往下迭代，在每次迭代中，输入当前尺度被选择的 patch，Encoder1 用于预测每个 patch 对应的下一个尺度的细粒度 patch 的选择情况，特别地，顶层图像的 patch 全部被选上，以保证模型能获得粗粒度的全图信息。Encoder2 进一步提取特征并基于当前尺度的 [cls] token 来预测该尺度的 bounding box。

与此同时，Encoder1 和 Encoder2 的中间特征会被存入 KV Cache 以方便被后续的尺度利用。随着尺度的增加，细粒度特征被引入，位置预测会更加准确，同时大部分无关的 patch 被丢弃以节省大量计算。

此外，每个尺度内部的 patch 具有双向注意力，同时会关注前序尺度所有的 patch 和文本特征。这种尺度间的因果注意力可以进一步降低计算需求。

51c大模型~合集38_大模型

2、动态 patch 选择

每个 patch 的选择情况由前一尺度生成的选择因子决定，对于应用的位置有两种方案，其一是用于 Encoder 每层 MHSA 的所有 head 中，然而，对于 N 层 H 头的 Encoder，很难获得有效的的梯度信息来更新，因此学到的选择因子不太理想；其二是直接用于 Encoder 的输入，即 patch embedding 上，由于只用在这一个位置，因此更容易学习，本文最终也采用了此方案。

另外，需要注意的是，即使输入 patch embedding 被置 0，由于 MHSA 和 FFN 的存在，该 patch 在后续层的特征仍然会变为非 0 并影响其余 patch 的特征。幸运的是，当 token 序列中存在许多相同 token 时，可以简化 MHSA 的计算，实现实际的推理加速。此外，为了增强模型的灵活性，本文并没有直接将 patch embedding 置 0，而是将其替换为一个可学习的常量 token。

因此，patch 的选择问题被转换成 patch 的替换问题。patch 选择的过程可以分解为常量 token 替换和 token 合并两步。未被选择的 patch 会被替换为同一个常量 token。由于这些未被选择的 token 是相同的，根据 scaled dot product attention 的计算方式，这些 token 可以被合并为一个 token 并乘上总数，等价于将加到维度上，因此点积注意力的计算方式不变，常见的加速方法依旧可用。

51c大模型~合集38_大模型_02

实验结果

本文方法在 RefCOCO、RefCOCO+、RefCOCOg 和 ReferItGame 四个数据集上取得了和 state-of-the-art 相近的性能。通过在大规模数据集上预训练并在具体数据集上微调，模型的性能可以进一步大幅提升，并达到和预训练模型如 MDETR [2] 和 OFA [3] 等相近的结果。

51c大模型~合集38_大模型_03

51c大模型~合集38_大模型_04

在推理速度上，提出的方法达到了实时的推理速度，同时能保证较高的任务精度。

51c大模型~合集38_大模型_05

此外，实验部分也对模型的 patch 选择情况以及每个尺度（scale1 和 scale2）定位精度的分布做了统计。

如左图所示，随着尺度的增加，细粒度的图像特征被加入，模型精度逐步提升。因此可以尝试加入早退机制，在定位精度满足要求时及时退出，避免进一步在高分辨率图像上计算，实现根据样本自适应选择合适的分辨率的效果。本文也进行了一些初步的尝试，包括加入 IoU、GIoU 和不确定性等预测分支，回归 early exit 的指标，但发现效果不太理想，如何设计合适且准确的 early exit 指标有待继续探索。

右图展示了不同尺度的 patch 选择情况，在所有的尺度上，被选择的 patch 占均比较小，大部分的 patch 都可以被剔除，因此可以有效地节省计算资源。对于每个样本（图像 + 指代表达），实际选择的 patch 数量相对较少，大概占总数的 65%。

51c大模型~合集38_大模型_06

最后，实验部分展示了一些可视化结果，随着尺度的增加（红→绿→蓝），模型的定位精度逐步提高。另外，根据由被选择的 patch 重建的图像，可以看出模型对于背景区域只关注了粗尺度的信息，对于相关的前景区域，模型能够关注细粒度的细节信息。开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用whaosoft aiot

51c大模型~合集38_大模型_07

#训练人形机器人Optimus

特斯拉聘请「动捕师」训练人形机器人Optimus，时薪最高48美元

具身智能的数据从这里来。

明天，一年一度的世界机器人大会又将拉开序幕！最近，国内很多机器人公司都发布了新产品，比如稚晖君「智元机器人」公司的第二代人形机器人、星尘智能发布的新一代 AI 机器人助理 Astribot S1。

在国外，特斯拉在其人形机器人 Optimus 训练方面也有了新的消息。该公司正在招募人员穿上动作捕捉服来模仿预期动作，以获得所需的大量机器人训练数据。

特斯拉在其招聘网站上将此类人员定义为「数据采集操作员」，主要目标是采集数据、协助处理工程请求以及报告设备反馈。据了解，该职位的时薪最高可达 48 美元，还有现金、股票奖励和其他福利。

链接：https://www.tesla.com/careers/search/job/-data-collection-operator-tesla-bot-night-shift-223213

数据采集操作员的职位要求怎样的呢？不得不说，对体力、耐力的要求蛮高，具体包括如下：

必须每天行走 7 小时以上，同时携带最多 30 磅（13.6 公斤）的重物；
身高在 5'7"到 5'11"（约 170 到 180cm）之间，而 Optimus 的身高是 5'8"（约 173cm）；
长时间佩戴和操作动捕服和 VR 头显；
持续的手 / 眼协调和精细操作、身体协调、动觉意识和上下楼梯；
全天站立、坐下、行走、弯腰、弯曲、伸展、蹲下和扭动；
灵活安排工作时间：白班 / 夜班（8:00AM-4:30PM 或 4:00PM-12:30AM 或 12:00AM-8:30AM）和 1 个周末 + 必要时加班。

同时，数据采集操作员的主要工作内容包括如下：

每天走预定的测试路线进行数据采集；
穿着动捕服和 VR 头显，根据项目要求执行指定的动作和操作；
启动 / 停止记录设备并执行小型设备和软件调试；
提供有关设备性能的反馈；
分析和报告轮班期间采集的数据；
上传采集的数据并撰写每日报告，详细说明观察结果和问题；
确保分配的设备处于正确和安全的工作状态并安全运输到各个采集地点。

特斯拉官方 Optimus X 账号在 2023 年 5 月曾预告过该职位的性质。而据外媒 Business Insider 报道，过去一年特斯拉已经招募了 50 多名相关员工。

特斯拉 Optimus 人形机器人让我们看到了动作捕捉这一数据采集思路的应用潜力。动作捕捉是一种常见且往往经济高效的训练机器人执行类人动作的方法，特斯拉是首批大规模使用动作捕捉技术的公司之一。

不过，为了使得机器人更自然、高效地执行各项任务，所需要的训练数据量异常得庞大。NVIDIA Research 的高级研究员 Animesh Garg 表示，Optimus 人形机器人可能需要数百万小时的数据才能为其在特斯拉工厂工作完全做好准备。

这就造成了非常高的成本，正如 Animesh Garg 所言，「你在数据采集方面就很可能花费上亿美元，但真正的问题是，即使你这样做了，最后能成功吗？」

对于特斯拉而言，显然也要考虑这个问题。马斯克此前在社媒上透露，特斯拉将在明年小批量生产真正有用的人形机器人，供给特斯拉内部使用；同时有望在 2026 年进行大批量出货，向其他公司销售。

但自从 2023 年 12 月上线二代 Optimus 以来，特斯拉迄今还没有大的版本更新。而随着今年波士顿动力新一代人形机器人 Atlas、Figure 新一代人形机器人 Figure 02 的陆续发布，特斯拉显然要加把劲了。

参考链接：

https://www.businessinsider.com/tesla-job-training-optimus-robot-motion-capture-suit-2024-8

https://www.theverge.com/2024/8/19/24223626/tesla-optimus-humanoid-robot-motion-capture-training

#谷歌想创造第二个Transformer，还想把AlphaGo和Gemini强强联合

「当一家人工智能公司的首席执行官更像是计算机科学家而不是推销员时，我感觉更舒服」。

对于 DeepMind 来说，2023 是充满变化的一年。这年的 4 月份，谷歌宣布将 Google Brain 和 DeepMind 进行合并，成立名为 Google DeepMind 的新部门。新部门将在保持道德标准的同时，引领突破性的 AI 产品研究和进步。

Google Brain 和 DeepMind——一个创造了 Transformer，一个创造了 AlphaGo、AlphaFold…… 两个部门强强联合，在 2023 年底打造出了对标 ChatGPT 的 Gemini。如今，在大模型排行榜 LMSYS Chatbot Arena 上，Gemini 经常名列前三。可见，二者的合并是有一定成效的。

那么，Google DeepMind 今后的路要怎么走？在与伦敦大学学院高级空间分析中心城市数学副教授 Hannah Fry（汉娜・弗莱）最近的一次对谈中，Google DeepMind 首席执行官兼联合创始人 Demis Hassabis（戴密斯・哈萨比斯）透露了公司的一些规划，同时也就当前 AI 领域的一些问题发表了自己的看法。

哈萨比斯的核心观点如下：

从短期来看，AI 被过度炒作了，但从长期来看，它是被低估的。至于如何分辨 AI 领域哪些是炒作，哪些是可以实现的，哈萨比斯表示，除了做调研，你还得看看发表言论的人是什么背景，有多懂技术，是不是去年才从别的方向转到 AI 的。如果发表言论的人只是跟风，那 ta 贡献好点子的概率就会像彩票开奖一样。
DeepMind 和 Google Brain 的合并带来了很多创新机会，他们的目标是发明下一个能够推动 AI 前沿的架构，就像 Google Brain 发明了 Transformer 架构一样。
现有的学术基准测试已经趋于饱和，无法区分顶尖模型之间的细微差异。哈萨比斯认为，AI 领域需要更好的基准测试，特别是在多模态理解、长期记忆和推理能力等方面。
现在很多模型都是从五、六年前发明的技术中产生的。所以，这些模型仍然缺少很多东西，会产生幻觉、不擅长长期规划，无法主动完成复杂任务。针对这些问题，谷歌打算通过结合其在游戏智能体和大语言模型方面的专业知识，比如将 AlphaGo 在规划和决策上的优势与 Gemini 等多模态模型结合，开发具备更强智能体行为的系统。
在谈到开源时，哈萨比斯表示他们已经开源了很多技术，如 Transformer、AlphaFold。但他认为前沿模型需要经过更多的审核，在发布一到两年后才能开源，这种模式也是谷歌正在遵循的。谷歌会开源模型，但这些模型会比最先进的模型落后大约一年。哈萨比斯进一步谈到，开源的主要问题在于它就像是走过一扇单向门，一旦发布，就无法撤回。因此在开源之前需要非常谨慎。
AI 可能会在一些复杂的数学问题上取得突破，例如帮助解决著名的数学猜想或在国际数学竞赛中表现出色。然而，目前的 AI 系统还无法自行提出新的数学假设或原创性理论。哈萨比斯认为，AGI 的一个重要测试标准将是其是否能够自主生成像广义相对论那样的全新假设和理论。
关于如何确保 AGI 能够使每个人都受益，哈萨比斯认为不可能将所有偏好都包含在一个系统中，但是可以构建一套安全的架构，然后人们根据自己的偏好、使用目的、部署目的，决定 AI 系统可以用来做什么，不能用来做什么。

在看了这个采访后，有人评价说，这个采访让他感觉很舒服，因为哈萨比斯听起来更像是一个计算机科学家，而不是推销员。还有人说，收购 DeepMind 并让他们自由发展是谷歌做出的最好的人工智能决策，希望谷歌能让他们继续自己的工作，尽可能不要打扰。

AI 的发展出乎意料

弗莱：回想起来，当我们在 2017 年开始策划这个播客时，DeepMind 还是一个相对较小、专注的 AI 研究实验室，它刚被 Google 收购，并被赋予了在伦敦安全距离内进行自己独特研究项目的自由。但自那以后，情况发生了巨大变化。自去年以来，Google 已经重新梳理了其整个架构，将 AI 和 DeepMind 团队置于其战略核心。

Google DeepMind 继续追求赋予 AI 人类级别的智能，即所谓的通用人工智能（AGI）。它推出了一系列强大的新 AI 模型，称为 Gemini，以及一个名为 Project Astra 的 AI 智能体，能够处理音频、视频、图像和代码。该实验室还在将 AI 应用于包括人类体内所有分子结构预测在内的多个科学领域中取得了巨大飞跃，不仅仅是蛋白质。2021 年，他们还分拆出一家新公司 Isomorphic Labs，致力于发现治疗疾病的新药。Google DeepMind 还在研究能够通过强化学习自行学习执行任务的强大 AI 智能体，并继续着 Alpha Go 在围棋游戏中战胜人类的传奇。

我们今天请来了 DeepMind 联合创始人、CEO Demis Hassabis。

我想知道，自从公众对 AI 的兴趣激增以来，你的工作是变得更容易还是更困难了？

哈萨比斯：我认为这是双刃剑。困难之处在于，现在有太多的审查、关注，整个领域有很多噪音。我更喜欢人少一些的时候，我们可以更专注于科学。但从好的方面来看，这表明技术已经准备好以许多不同的方式影响现实世界，并以积极的方式影响人们的日常生活，所以我认为这也很令人兴奋。

弗莱：你有没有对公众的想象力被迅速吸引感到惊讶？我想你预料到最终会是这个样子，是吗？

哈萨比斯：确实如此。我们这些人已经研究这个领域几十年了，最终在某个时间点，公众会意识 AI 将会变得多么重要。但看到这一切真正实现，并且以这种方式发生，感觉还是有点超现实。我想，这确实是因为聊天机器人的出现和语言模型的发展，因为每个人都使用语言，每个人都能理解语言，所以这是公众理解和衡量 AI 发展水平的简单方式。

弗莱：我听说你形容这些聊天机器人是「超乎寻常得有效」，这是什么意思？

哈萨比斯：我的意思是，如果回顾 5 到 10 年前，当时人们可能会认为要实现 AI 的发展，需要构建一些令人惊叹的架构，并在此基础上进行扩展，而不必特别去解决像抽象概念这样的具体问题。在 5 到 10 年前的许多讨论中，人们认为需要一种特别的方式来处理抽象概念，因为大脑显然就是这样工作的。但是，如果给 AI 系统足够的数据，例如整个互联网上的数据，它们似乎确实能够从中学习并泛化出一些模式，不仅仅是死记硬背，而是实际上在某种程度上理解它们正在处理的内容。这有点「超乎寻常得有效」，因为我认为 5 年前没有人会想到它会像现在这样有效。

弗莱：所以，这是一个惊喜……

哈萨比斯：是的，我们之前讨论了概念和 grounding—— 将语言置于真实世界体验中，可能在模拟或机器人具身智能中。当然，这些系统还没有达到那个水平，它们犯了很多错误，它们还没有一个真正的世界模型。但是仅仅通过从语言中学习，他们已经走得比预期中远了。

弗莱：我觉得我们需要解释一下 grounding 这个概念。

哈萨比斯：Grounding 问题是 80 年代和 90 年代在像麻省理工学院这样的地方构建的经典 AI 系统中遇到的一个问题。你可以把这些系统想象成巨大的逻辑数据库，单词之间互有联系。问题在于，你可以说「狗有腿」，这会在数据库中，但当你给系统看一张狗的图片时，它并不知道那一堆像素点与那个符号有什么关系。这就是 grounding 问题 —— 你有这种符号性的、抽象的表示，但它们在现实世界中，特别是在混乱的现实世界中真正意味着什么呢？他们试图解决这个问题，但从未完全成功。

而今天的系统，它们直接从数据中学习，所以从某种意义上说，它们从一开始就在形成那种联系，但有趣的是，如果它只是从语言中学习，理论上应该缺少很多你需要的 grounding，但结果却是，很多 grounding 信息不知怎么地是可以推断出来的。

弗莱：为什么这么说？

哈萨比斯：理论上讲，因为这些最初的大型语言模型并不存在于现实世界中，它们没有连接到模拟器，没有连接到机器人，甚至最初也不是多模态的 —— 它们没有接触到视觉或其他任何东西，它们仅仅存在于语言空间中。所以，它们是在抽象领域中学习的。因此，它们能够从那个领域推断出关于现实世界的一些事情是很令人惊讶的。

弗莱：如果说 grounding 是通过人们与这个系统的互动而获得的，这很有道理……

哈萨比斯：确实。所以可以肯定的是，如果它们在回答某些问题时出了错，比如早期版本由于 grounding 缺失，在处理现实世界中狗的叫声这样的问题时回答错误。人们会通过反馈来纠正它们。这种反馈部分源自我们自己的现实知识。因此，一些 grounding 就是这样逐渐渗透进来的。

弗莱：我记得我看到过一个非常生动的例子，关于「穿越（cross）英吉利海峡」与「步行穿越（walking across）英吉利海峡」的区别。

哈萨比斯：这个例子确实可以。如果它回答错误，你会告诉它这是错误的，然后它就不得不弄清楚 —— 你不能步行穿越英吉利海峡。

AI 是被过度炒作还是低估了？

弗莱：我要问你一点关于炒作的问题，你认为就现在来说，AI 是被过度炒作了，还是被低估了，或者只是在错误的方向上炒作？

哈萨比斯：一方面，从短期来看，AI 被过度炒作了。人们声称它能做很多事情，但实际上它不能，有很多创业公司和风险投资追逐一些疯狂的想法，但其实这些想法还不够成熟。

另一方面，我认为 AI 仍然被低估了。或许人们还没有完全理解当我们达到 AGI 之后会发生什么，责任是多么大。

弗莱：你在这个领域已经几十年了，对于这些创业公司和风险投资所追逐的东西，你很容易发现哪些是现实的目标，哪些不是。但其他人要怎么分辨？

哈萨比斯：显然你得做一些技术尽职调查，对技术和最新的趋势有一些了解。同时，你也得看看发表言论的人的背景，他们有多懂技术，是不是去年才从别的方向转到 AI 的？他们去年是不是在做加密货币？这些可能是一些线索，表明他们可能是在跟风，这并不意味着他们会有一些好点子，即使有也可能会像彩票一样。

我认为，当一个领域突然受到大量关注时，这种情况总是会发生，然后资金就会随之而来，每个人都觉得他们不能错过。

这就创造了一种我们可以说是机会主义的环境，这与那些几十年来一直致力于深度科技、深度科学的人有点相反，我认为后者才是我们接近 AGI 时应该继续坚持的方式。

Gemini：谷歌大脑与 DeepMind 合并后的首个灯塔项目

弗莱：接下来谈谈 Gemini 吧。Gemini 在哪些方面不同于其他实验室发布的其他大型语言模型？

哈萨比斯：从一开始，我们就希望 Gemini 能够处理多种模态，所以它不仅能处理语言，还能处理音频、视频、图像、代码等各种模态。我们之所以想要这样做，首先是因为，我认为这是让这些系统真正理解周围世界并构建更好的世界模型的方法，这又回到了之前的 grounding 问题上。

我们也有一个愿景，即拥有一个通用助手。我们做了一个叫 Astra 的原型，它不仅理解你正在输入的内容，实际上还理解你所处的环境。这样的智能助手会更有用。所以我们从一开始就内置了多模态。这是另一件在那个时候只有我们的模型在做的事情，现在其他模型正在追赶。

我们在记忆方面的其他重大创新，比如长上下文，实际上可以记住大约一百万个或两百万个 token。所以你可以给它《战争与和平》或者整个电影，然后让它回答问题或在视频流中找到东西。

弗莱：在 Google I/O 上，你用了一个例子，说明 Astra 如何帮助你记住你把眼镜放在哪里了，对吧？但我怀疑这是否只是那些旧的 Google Glasses 的高级版本。

哈萨比斯：当然，谷歌在开发眼镜设备方面有着悠久的历史，实际上可以追溯到 2012 年左右，远远领先于时代。但它们也许只是缺少这种技术，而智能体或智能助手可以真正理解你在说什么。所以，我们对数字助理感到非常兴奋，它可以随时陪伴着你，了解你周围的世界。当你使用它时，它似乎真的是一个很自然的用例。

弗莱：接下来我想稍微回顾一下 Gemini 的起源，毕竟它来自谷歌的两个不同的研究部门。

哈萨比斯：是的，去年我们将 Alphabet 的两个研究部门合并，即将 Google Brain 和 DeepMind 整合为了 Google DeepMind。我们称它为超级部门（super unit），将整个公司的优秀人才聚集到了一个部门中。这意味着，我们将所有研究中获得的最佳知识结合起来，尤其是在语言模型方面。

所以，我们推出了 Chinchilla、Gopher 等模型，并构建了 PaLM、LaMDA 以及其他早期模型。这些模型各有优缺点，所以我们将它们整合到了 Gemini 中，成为了部门合并后推出的首个灯塔项目（Lighthouse Project）。然后，另一件重要的事情是将所有计算资源整合起来，这样就可以进行超大规模的训练运行。我觉得这些很棒。

弗莱：从很多方面来讲，Google Brain 和 DeepMind 的重点略有不同。我可以这样说吗？

哈萨比斯：谷歌各个部门显然都专注于人工智能的前沿，而且在个体研究层面已经有很多合作，但在战略层面有所不同。随着 Google DeepMind 的合并，我想把它描述成谷歌的引擎室（Engine Room），它运行得非常好。我认为，我们工作方式的相似之处要比差异多得多，我们将继续保持并加强自身在基础研究等方面的优势。

比如说，下一个 Transformer 架构从何而来？我们想发明它。Google Brain 研究人员发明了如今流行的 Transformer 架构。我们将该架构与自己开创的深度强化学习相结合。我认为仍然需要更多创新。我支持这样做，就像过去 10 年 Google Brain 和 DeepMind 团队所做的那样。这很令人兴奋。

未来方向：将 AlphaGo 与 Gemini 相结合

弗莱：我想讨论一下 Gemini，它的表现怎么样？与其他模型相比如何？

哈萨比斯：这个问题涉及到了基准，我认为整个领域都需要更好的基准。目前存在一些众所周知的学术基准，但现在它们已经饱和了，而且并没有真正区分不同顶级模型之间的细微差别。

在我看来，目前有三类模型处于顶端和前沿，我们的 Gemini、OpenAI 的 GPT 和 Anthropic 的 Claude。此外还有很多表现不错的模型，比如 Meta、Mistral 等推出的 Llama 系列、Mistral 系列模型，它们擅长的任务各有不同。这取决于你要执行什么类型的任务，编码选择 Claude、推理选择 GPT，记忆、长上下文和多模态理解选择 Gemini。

当然，各家公司还会继续不断改进模型。比如，Gemini 只是一个推出不到一年的模型。我认为我们的发展轨迹非常好，希望我们下次交谈时，Gemini 可以站在最前沿。

弗莱：是的，大模型还有很长的路要走。这是否也意味着，这些模型在某些方面还不是很好。

哈萨比斯：当然。实际上，这是目前最大的争论。现在很多模型都是从五、六年前发明的技术中产生的。所以，这些模型仍然缺少很多东西，会产生幻觉、不擅长规划。

弗莱：哪方面的规划呢？

哈萨比斯：比如一些长期规划，模型无法长期解决问题。你给它一个目标，它们无法真正为你采取行动。所以，模型很像被动问答系统。你提出问题，然后它们会给你某种回应，但却无法为你解决问题。比如你想要一个数字助理帮你全程预订意大利的假期，以及预定所有的餐馆、博物馆等事项。遗憾的是，它却做不到这些事情。

我认为这是下一个时代的研究主题，我们称它们为（更大程度上）基于智能体的系统或者拥有类似智能体行为的智能系统。当然，这是谷歌所擅长的。谷歌过去构建了游戏智能体 AlphaGo 以及其他智能体。所以，我们在做的很多事情是将成名的项目与新的大规模多模态模型结合起来，并成为下一代系统，比如 AlphaGo 与 Gemini 的结合。

弗莱：我觉得 AlphaGo 非常擅长规划。

哈萨比斯：是的，AlphaGo 非常擅长规划。当然，它只在游戏领域。所以，我们需要将它泛化到日常工作和语言等通用领域。

弗莱：你刚才提到 Google DeepMind 现在已经成为谷歌的引擎室。这是一个相当大的转变。那么，谷歌是否在 AI 领域下了很大的赌注？

哈萨比斯：我想是的。我认为谷歌一直都明白 AI 的重要性。当 Sundar 接任首席执行官时，他就说过谷歌是一家 AI 优先的公司。我们在他任职初期就讨论过这个问题，他认为 AI 有潜力成为继移动互联网之后的下一个重大范式转变，并且比以往发展潜力更大。

也许在过去一两年里，我们真的开始体验到这意味着什么，不仅仅是从研究的角度，而且在产品和其他方面也是如此。这非常令人兴奋，因此我认为我们把所有人才协调起来，然后尽最大努力推动 AI 进展是正确的选择。

弗莱：我们知道，Google DeepMind 非常重视研究和科学层面的东西。但随着它成为谷歌的引擎室，是否意味着必须更加关心商业利益，而不再是那种最纯粹的东西。

哈萨比斯：是的，我们肯定更加关心在职权范围内的商业利益。但实际上，我有以下几件事要说。首先，我们将继续 AlphaFold 相关的科学工作，几个月前发布了 AlphaFold 3。我们也在加倍投资于此。我认为这是 Google DeepMind 所做的独特的工作。

你知道，甚至连我们的竞争对手都认为这会是通用 AI 产品。我们成立了一个新公司 Isomorphic Labs 来进行药物研发。这些都非常令人兴奋，一切都进展顺利。所以我们会继续这样做。同时，我们在气候预测和其他方面也做了很多工作。

我们拥有一支庞大的团队，所以可以同时做多项工作。我们在构建我们的大型模型 Gemini 等。我们正在组建一支产品团队，将所有这些惊人的技术带到谷歌所在的所有领域。所以在某种程度上，这是我们的一个优势，可以随时插入我们所有的技术。我们发明的东西可以立即让十亿人用上，这真的很激励人心。

另一件事是，现在我们需要为产品开发的 AI 技术与为纯 AGI 研究目的所做工作之间的融合程度大大提高。五年前，你必须为一个产品构建一些特殊的 AI。现在你可以将主要研究分离出来，当然仍然需要做一些特定于产品的工作，但这可能只占所有工作的 10%。

因此，实际上在开发 AI 产品和构建 AGI 之间不再存在矛盾。我想说，90% 是相同的研究计划。所以，如果你推出产品并将它们推向世界，你会从中学到很多东西。人们也会使用它，这样你会了解到很多信息，比如你的内部指标与人们所说的不太相符，然后你可以进行更新。这对你的研究非常有帮助。

如何测试 GenAI 技术

弗莱：我想知道，将 AI 应用于科学所带来的突破与向公众发布这些东西的正确时机之间是否存在矛盾。在 Google DeepMind 内部，大语言模型等工具被用于研究，而不是被视为潜在的商业产品。

哈萨比斯：我们从一开始就非常重视责任和安全。早在 2010 年以前，谷歌就将一些基本道德规范纳入了其 AI 准则之中。我们一直与整个谷歌保持一致，并希望作为这个领域的领导者之一负责任地进行部署。

所以，现在开始推出具有 GenAI 能力的真实产品很有趣。实际上还有很多需要学习的地方，而且我们学得很快，这很好。对于当前技术而言，我们的风险相对较低，毕竟这些技术还没有那么强大。但随着技术变得越来越强大，我们必须更加小心。

产品团队以及其他团队正在学习如何测试 GenAI 技术。这些技术不同于普通的技术，因为它并不总是做同样的事情。这几乎就像测试一个开放世界的游戏，你可以尝试用它做的事情几乎是无限的。所以，弄清楚如何对它进行红队测试（Red Teaming）是很有趣的。

弗莱：所以，这里的红队测试是你们相互之间进行对抗竞争？

哈萨比斯：是的。红队测试是指你从开发技术团队中抽出一个专门的团队来对技术进行压力测试，并尝试以任何可能的方式破解。你实际上需要使用工具来自动化测试，即使有成千上万的人在做这件事，但与数十亿用户相比，这还不够。

此外，我认为我们必须分阶段进行，包括了实验阶段、封闭测试阶段以及再次发布，就像我们过去发布游戏一样。所以你在每一步中都在学习。我认为我们需要做的更多的是，使用 AI 本身来帮助我们内部进行红队测试，实际上可以自动发现一些错误或进行三重筛选。这样我们的开发人员和测试人员就可以真正专注于那些棘手的情况。

弗莱：这里有一些非常有趣的事情，你处在一个概率更大的空间。所以，即使某件事情发生的可能性很小，但如果尝试得足够多，最终就会出错。我想已经出现过一些公开的错误。

哈萨比斯：正如我提到的，我认为产品团队已经习惯了各种测试。他们知道自己测试过这些东西，但具有随机性和概率性。事实上，在很多情况下，如果只是一个普通的软件，你可以说自己已经测试了 99.999% 的东西。然后推断，这样就足够了。

但是，生成式系统并非如此。它们可以做各种各样的事情，这些事情有点超出常规，有点超出你以前见过的范畴。如果某些聪明人或对手决定以某种方式来测试这些系统，就像黑客一样。

这些系统可能以组合的方式存在，里面包含了你之前对它说过的所有事情。然后它处于某种特殊状态，或者记忆中充满了特殊的东西，这就是它们需要输出一些东西的原因。这里很复杂，而且并不是无限的。所以有办法解决这个问题，但又与推出普通技术存在很多细微差异。

弗莱：我记得你曾经说过，我想那应该是我第一次采访你的时候，你提到实际上我们必须认识到这是一种完全不同的计算方式。你得从我们完全理解的确定性事物中抽身，转向更加混乱的东西，比如概率性的。你觉得公众是否也需要稍微改变他们对计算类型的看法呢？

哈萨比斯：是的，我同意。也许这也是我们需要考虑的另一件事，有趣的是，在你发布某个系统之前，实际上可以发布一份原则性文件或类似的东西，来明确展示这个系统的预期用途，它设计用来做什么？它有什么用？它不能做什么？我认为这里确实需要某种认知，比如，如果你按这些方法使用它，你会发现它很有用，但不要尝试用它来做其他事情，因为根本不会起作用。

我认为这是我们在某些领域需要做的事情，用户可能也需要在这方面的经验。实际上这很有趣，这可能是为什么聊天机器人本身有些出人意料，甚至对于 OpenAI 来说，包括 ChatGPT 在内，他们也感到惊讶。我们也有自己的聊天机器人，我们也注意到这些机器人仍然存在缺陷，比如会产生幻觉等问题。

但我们没有意识到的是，尽管存在这些缺陷，实际上聊天机器人仍然有很多非常好的使用场景。现在人们发现一些非常有价值的用途，比如总结文件和长文档，写邮件，填写表格等。由于使用场景广泛，即使存在一些小错误，实际上人们并不介意，人类可以轻松修正这些错误，并且能节省大量的时间。我猜这就是人们发现的令人惊讶的事情，当使用时，人们发现了这些有价值的使用场景，尽管这些系统以我们所知的各种方式存在缺陷。

关于开源：一旦发布，就无法撤回

弗莱：这又引出了我想问的下一个问题，即关于开源的问题。正如你提到的，当事物掌握在人们手中时，就会发生真正非凡的事情。据我了解 DeepMind 在过去已经开源了许多项目，但随着时间的推移，这种情况似乎有所改变。

哈萨比斯：是的，我们非常支持开源和开放科学。正如你所知道的，我们几乎公开了我们所做的所有事情，比如 Transformer，又比如 AlphaGo 和 AlphaFold 这些研究都发表在《自然》和其他期刊上，并且 AlphaFold 也是开源的。通过分享信息，使得技术和科学得以快速地进步。所以我们几乎总是这么做，我们认为这是非常有益的事情，这是科学的工作方式。

唯一的例外是，AI、AGI 和强大的 AI 具有双面性。问题在于谁在使用，真正本着好意行事的科学家和技术人员，可以提出建设和批评性建议，这是社会进步最快的方式。但问题是，你如何同时限制不怀好意的人的访问权限，这些人可能会将相同的系统用于不良目的，误用它们，比如武器系统，但这些我们不能提前预知。而且，通用系统本身可以被这样重新利用。今天我们还能把握住，因为我认为这些系统还没有那么强大。

在接下来的两到四年时间里，尤其是当我们开始开发具有智能体行为的系统时，如果这些系统被某些人误用，可能会造成严重的危害。虽然我们没有具体的解决方案，但作为一个社区，我们需要思考这对开源意味着什么。

也许前沿模型需要经过更多的审核，然后在发布一年或两年后才能开源。这种模式是我们正在遵循的，因为我们有自己的开源模型，称为 Gemma。这些模型较小，不属于前沿模型，因此它们的功能对开发者来说仍然非常有用，也易于在笔记本电脑上运行，且参数较少。这些功能目前已被很好地理解。不过，这些模型的性能不如最新的前沿模型，如 Gemini 1.5。我们最终可能采取的方法是，我们会有开源模型，但这些模型会比最先进的模型落后大约一年，这样我们可以在公开场合真正评估用户使用这些模型的情况，了解前沿模型的能力。

开源的主要问题在于，一旦发布，就无法撤回。如果使用者以不当方式使用开源模型，与专有模型不同，开发者不能简单地关闭它。一旦开源，就像是走过了一扇单向门，因此在开源之前需要非常谨慎。

弗莱：是否能够将通用人工智能（AGI）限制在某个组织内部的护城河之内。

哈萨比斯：这还是一个未解的问题。我们目前还不知道如何做到这一点，因为这是当我们开始讨论高级别、类似人类水平的 AI 时需要考虑的问题。

弗莱：那中间层呢？

哈萨比斯：在中间层，我们有一些较好的想法来处理这些问题。例如，可以通过安全沙箱环境来测试。这意味着在游戏环境或部分连接的互联网版本中测试智能体的行为。在这个领域以及金融科技等其他领域，已经进行了大量的安全工作。我们可能会借鉴这些想法，然后构建相应的系统，这就是我们测试早期原型系统的方式。但我们也知道，这些措施可能不足以限制 AGI，一个可能比我们更聪明的系统。因此，我们需要更好地理解这些系统，以便为 AGI 设计协议。到那时，我们将有更好的方法来控制它，可能还会利用 AI 系统和工具来监控 AI 系统的下一代。

如何监管 AI

弗莱：关于安全性的话题，许多人似乎认为监管这个词就能解决所有问题。你认为监管应该如何构建？

哈萨比斯：政府正在加快对 AI 技术的了解和介入，这是一个积极的现象。我认为国际合作是必需的，特别是在监管、安全措施和部署规范等方面。

随着我们接近 AGI，我们需要认识到，由于技术发展迅速，我们的监管方式也需要灵活且迅速适应最新的技术发展。如果你在五年前对 AI 进行了监管，那么你监管的将是一种完全不同的东西。今天我们看到的是生成式 AI，但五年后可能又会有所不同。

目前，基于智能体的系统可能带来最高风险。因此，我建议加强已经有监管的领域（如健康、交通等）的现有规定，使其适应 AI 时代，就像之前为移动和互联网更新过监管一样。

首先我会做的是保持关注，确保我们理解并测试前沿系统。随着情况变得更加明朗，需要围绕这些情况开始制定规定，可能在几年后进行会更有意义。我们目前缺失的是基准测试，正确的能力测试，包括整个行业都想知道的，我们的能力在什么点上可能构成重大风险。目前没有对此的答案，我刚才说的基于智能体的能力可能是下一个阈值，但目前还没有公认的测试方法。

一个可能的测试是检测系统是否具有欺骗性能力。系统中如果存在欺骗性，那么它报告的其他内容都无法被信任。因此，测试欺骗性应该是首要考虑的新兴能力。此外，还有许多其他能力值得测试，如实现特定目标的能力、复制能力等，目前已有不少相关工作正在进行。我认为这些基本上是政府机构正在发挥作用的地方。我认为对他们来说，大力推动这方面的工作会非常好，当然，实验室也应该贡献他们所知道的信息。

弗莱：在你描述的这个世界中，机构处于什么位置？即使我们达到了拥有能够支持所有科学研究的 AGI 的阶段，机构是否还能保留一席之地？

哈萨比斯：我认为有。在达到 AGI 的过程中，我认为这将是社区、学术界、政府和工业实验室之间的合作。我真的相信这是我们达到这个最终阶段的唯一方式。

哈萨比斯对 AGI 的测试标准

哈萨比斯：如果你问的是 AGI 出现之后的情况，我一直想构建 AGI 的原因之一是我们可以利用它开始回答一些关于自然、现实、物理和意识等方面的最大、最根本的问题。这取决于它采取何种形式，可能是人类专家与 AI 的结合。我认为在探索下一个前沿领域方面，这种情况还会持续一段时间。

目前这些系统还不能自己提出猜想或假设。目前来看，它们可以帮助你证明某些问题，能够在国际数学奥林匹克竞赛中获得金牌，甚至可能解决著名的数学猜想，但它们还没有能力提出像黎曼假设或广义相对论这样的假设。这一直是我对真正的通用人工智能的测试标准 —— 它将能够做到这些，甚至发明新的理论。我们还没有任何系统，我们甚至可能不知道如何理论上设计能做到这些的系统。

弗莱：计算机科学家斯图尔特・罗素曾向我表达了他的担忧，他担心一旦我们达到了 AGI 的发展阶段，我们所有人可能会变得只会享受无拘无束的奢华生活，并且没有任何生活目的。这种生活虽然充满了物质享受，但缺乏深层次的意义和目标。

哈萨比斯：这确实是一个有趣的问题。这可能超越了 AGI，更像是人们有时所说的 ASI。届时我们应该拥有极大的资源，假设我们能确保公平、均等地分配这些资源，那么我们将处于一个可以自由选择如何行动的位置，而「意义」将成为一个重大的哲学问题。我认为我们将需要哲学家，甚至可能是神学家，以及社会科学家现在就开始思考这个问题。什么能带来意义？我仍然认为自我实现是重要的，我不认为我们所有人都只会沉浸在冥想中，也许我们会玩电脑游戏。但即便如此，这真的是坏事吗？这是一个值得探讨的问题。

尽管 AGI 将带来巨大的变革，例如治愈众多疾病甚至所有疾病，解决能源和气候问题，但它也可能让我们面对一个更深层次的问题：生活的意义何在？就像人们攀登珠穆朗玛峰或参与极限运动一样，这些活动表面看似无意义，但实际上是人们对挑战自我的追求。随着 AGI 的发展，我们可能会在物质层面拥有一切，但随之而来的是对生活意义的再思考。这个问题在科技发展的早期和晚期阶段都被低估了，我们需要重新评估所谓的炒作以及它对我们未来的真正影响。

弗莱：让我们回到关于 AGI 的问题。我知道你们的重大使命是构建能够造福所有人的 AI。但你如何确保它确实使每个人受益？如何考虑所有人的偏好而不仅仅是设计师的偏好？

哈萨比斯：我认为不可能将所有偏好都包含在一个系统中，因为人们对很多问题无法达成一致。我想我们可能将拥有一套安全的架构，可以在其上构建个性化的人工智能，然后人们根据自己的偏好、使用目的、部署目的，决定 AI 系统可以用来做什么，不能用来做什么。总的来说，架构需要确保安全，然后人们可以在架构的基础上做一些变体、增量。

所以我认为，当我们接近通用人工智能时，我们可能必须在国际上进行更理想的合作，然后确保我们在安全的环境中构建通用人工智能。

一旦我们完成了这个任务，每个人都可以拥有自己的个性化袖珍 API（如果他们愿意）。

弗莱：好的。但我的意思是 AI 可能会出现一些不良行为。

哈萨比斯：是的，不良的新兴行为、能力。欺骗就是一个例子。我们必须更好地理解所有这些问题。

有两种情况需要担心：一种是人类可能会滥用 AI；一种是人工智能本身（随着它越来越接近 AGI，它的表现却偏离了轨道）。我认为这两个问题需要不同的解决方案。是的，这就是当我们越来越接近构建 AGI 时，我们必须应对的问题。

回到你让每个人受益的观点，以 AlphaFold 为例，我认为如果 AI 药物设计有效的话，我们可以在未来一两年内治愈大多数疾病。然后它们可以转化成个性化药物，以最大限度地减少对个人的副作用，这与人的个人疾病和个人新陈代谢等相关。所以这些都是令人惊奇的事情，你知道，清洁能源、可再生能源，技术将会带来巨大的好处，但我们也必须降低风险。

弗莱：你说你想要减轻风险的一种方式是，有一天你基本上会做科学版的「复仇者集结」？

哈萨比斯：当然。

弗莱：那么，你怎么知道什么时候是合适的时间？

哈萨比斯：好吧，这是一个大问题。你不能太早这样做，因为你永远无法获得一些反对者的支持。如今，你会看到一些非常有名的人说 AI 没有风险。然后像 Geoffrey Hinton 这样的人说存在很多风险。

弗莱：我想和你多谈谈神经科学。它对你正在做的事情还有多大启发？因为我注意到前几天 DeepMind 揭开了一只具有人工大脑的虚拟老鼠的面纱，这有助于改变我们对大脑如何控制运动的理解。我记得我们曾谈论了很多关于如何从生物系统中直接获得灵感的话题，这仍然是您方法的核心吗？

哈萨比斯：不，它现在已经发展起来，我认为我们已经进入了工程阶段，例如大型系统、大规模的训练架构。神经科学对此影响有点小。神经科学是思路来源之一，但当工程量大时，神经科学处于次要地位。因此，现在可能更多地是将人工智能应用于神经科学。我认为，随着我们越来越接近 AGI，理解大脑将是 AGI 最酷的用例之一。

弗莱：我想知道你是否也在设想将会有一些超出人类理解范围的事情，而 AGI 将帮助我们发现、理解？

哈萨比斯：我认为 AGI 系统有可能比我们更能理解更高层次的抽象。我认为人工智能系统可以有效地拥有任意类型的前额叶皮质，所以可以想象更高层次的抽象和模式，它能够看到我们无法立即真正理解或记住的宇宙。

然后我认为，从可解释性的角度来看，我们不能无限扩展我们自己的大脑，但理论上只要有足够的时间、SPE 和内存，AGI 就能理解任何可计算的东西。

弗莱：你说 DeepMind 是一个为期 20 年的项目。您距离步入正轨还有多远？

哈萨比斯：我们已经步入正轨。

弗莱：2030 年会实现 AGI 吗？

哈萨比斯：如果它在未来十年内出现，我不会感到惊讶。

#LONGVILA

支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。

现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活的输入信号，以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型处理的信息更多，例如长文档、长视频，这种能力同样为更多现实世界的应用程序提供了所需的功能。

然而，目前面临的问题是一些工作已经启用了长上下文视觉语言模型（VLM），但通常是采用简化的方法，而不是提供一个全面的解决方案。

全栈设计对于长上下文视觉语言模型至关重要。训练大型模型通常是一项复杂而系统的工作，需要数据工程和系统软件协同设计。与纯文本 LLM 不同，VLM（例如 LLaVA）通常需要独特的模型架构和灵活的分布式训练策略。

此外，长上下文建模不仅需要长上下文数据，还需要能够支持内存密集型长上下文训练的基础设施。因此，对于长上下文 VLM 来说，精心规划的全栈设计（涵盖系统、数据和 pipeline）是必不可少的。

本文，来自英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校的研究者引入了 LongVILA，这是一种用于训练和部署长上下文视觉语言模型的全栈解决方案，包括系统设计、模型训练策略和数据集构建。

论文地址：https://arxiv.org/pdf/2408.10188
代码地址：https://github.com/NVlabs/VILA/blob/main/LongVILA.md
论文标题：LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE MODELS FOR LONG VIDEOS

对于训练基础设施，该研究建立了一个高效且用户友好的框架，即多模态序列并行 (MM-SP)，它支持训练记忆 - 密集型长上下文 VLM。

对于训练 pipeline，研究者实施了一个五阶段训练流程，如图 1 所示：即 (1) 多模态对齐，(2) 大规模预训练，(3) 短监督微调，(4) LLM 的上下文扩展，以及 (5) 长监督微调。

对于推理，MM-SP 解决了 KV 缓存内存使用率的挑战，这在处理非常长的序列时会成为瓶颈。

通过使用 LongVILA 增加视频帧数，实验结果表明该研究在 VideoMME 和长视频字幕任务上的性能持续提高（图 2）。在 1024 帧上训练的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率，相当于 274k 个 token 的上下文长度。此外， MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点，与环形序列并行（ring sequence parallelism）相比实现了 2.1 倍至 5.7 倍的加速，与 Megatron 上下文并行 + 张量并行相比实现了 1.1 倍至 1.4 倍的加速。

51c大模型~合集38_大模型_08

下图为 LongVILA 技术在处理长视频字幕时的示例：在字幕开头，8 帧的基线模型仅描述了静态图像和两辆车。相比之下，256 帧的 LongVILA 描述了雪地上的汽车，包括车辆的前、后和侧面视图。在细节上，256 帧的 LongVILA 还描述了点火按钮、变速杆和仪表盘的特写，这些在 8 帧的基线模型中是缺失的。

51c大模型~合集38_大模型_09

多模态序列并行

训练长上下文视觉语言模型（VLM）会产生大量内存需求。例如下图 1 中 Stage 5 的长视频训练，单个序列包含了产生 1024 个视频帧的 200K tokens，这超出了单个 GPU 的内存容量。

研究者开发了一个基于序列并行的定制系统。序列并行是当前基础模型系统中常用的一种技术，用于优化仅文本的 LLM 训练。不过，研究者发现现有系统既不高效，扩展性也不足以处理长上下文 VLM 工作负载。

51c大模型~合集38_大模型_10

在确定现有系统的局限性之后，研究者得出结论，一个理想的多模态序列并行方法应该通过解决模态和网络异构性来优先实现效率和可扩展性，并且扩展性不应受到注意力头数量的限制。

MM-SP 工作流。为了应对模态异构性的挑战，研究者提出了一种两阶段式分片策略，以优化图像编码和语言建模阶段的计算工作负载。

具体如下图 4 所示，第一阶段首先在序列并行进程组内的设备之间均匀地分布图像（比如视频帧），从而在图像编码阶段实现负载平衡。第二阶段，研究者聚合全局视觉和文本输入以进行 token 级分片。

51c大模型~合集38_大模型_11

2D 注意力并行。为了解决网络异构性并实现可扩展性，研究者结合环形（Ring）序列并行和 Ulysses 序列并行的优势。

具体来讲，他们将跨序列维或注意力头维的并行视为「1D SP」。该方法通过跨注意力头和序列维的并行计算来实现扩展，将 1D SP 转换为由独立的 Ring（P2P）和 Ulysses（A2A）进程组组成的 2D 网格。

以下图 3 左所示，为了实现跨 2 个节点的 8-degree 序列并行，研究者使用 2D-SP 构建了一个 4×2 通信网格。

51c大模型~合集38_大模型_12

此外，在下图 5 中，为了进一步解释 ZIGZAG-RINGATTN 如何平衡计算以及 2D-Attention 机制如何运作，研究者解释了使用不同方法的注意力计算计划。

51c大模型~合集38_大模型_13

与 HuggingFace 的原生 pipeline 并行策略相比，本文的推理模式更加高效，原因在于所有设备同时参与计算，从而与机器数量呈正比地加速进程，具体如下图 6 所示。同时，该推理模式是可扩展的，内存均匀地分布给各个设备，以使用更多机器来支持更长的序列。

51c大模型~合集38_大模型_14

LongVILA 训练流程

上文提到，LongVILA 的训练流程分为 5 个阶段完成。各个阶段的主要任务分别如下：

在 Stage 1，只有多模态映射器可以训练，其他映射器被冻结。

在 Stage 2，研究者冻结了视觉编码器，并训练了 LLM 和多模态映射器。

在 Stage 3，研究者针对短数据指令遵循任务对模型全面进行微调，比如使用图像和短视频数据集。

在 Stage 4，研究者以持续预训练的方式，使用仅文本的数据集来扩展 LLM 的上下文长度。

在 Stage 5，研究者通过长视频监督微调来增强指令遵循能力。值得注意的是，所有参数在该阶段是可训练的。

实验结果

研究者从系统和建模两个方面对本文全栈解决方案进行评估。他们首先展示了训练和推理结果，从而说明了可支持长上下文训练和推理的系统实现了效率和可扩展性。接着评估了长上下文模型在字幕和指令遵循任务上的表现。

训练与推理系统

该研究对训练系统的吞吐量、推理系统的延迟以及支持的最大序列长度进行了定量评估。

表 2 显示了吞吐量结果。与 ZIGZAG-RINGATTN 相比，本文系统实现了 2.1 倍至 5.7 倍的加速，性能与 DeepSpeed-Ulysses 相当。与 Megatron-LM CP 中更优化的环形序列并行实现相比，实现了 3.1 倍至 4.3 倍的加速。

51c大模型~合集38_大模型_15

该研究通过逐步将序列长度从 1k 增加到 10k 来评估固定数量 GPU 支持的最大序列长度，直到发生内存不足错误。结果总结在图 9 中。

当扩展到 256 个 GPU 时，本文方法可以支持大约 8 倍的上下文长度。此外，所提系统实现了与 ZIGZAG-RINGATTN 类似的上下文长度扩展，在 256 个 GPU 上支持超过 200 万的上下文长度。

51c大模型~合集38_大模型_16

表 3 比较了支持的最大序列长度，该研究提出的方法支持的序列比 HuggingFace Pipeline 支持的序列长 2.9 倍。

51c大模型~合集38_大模型_17

图 11 展示了长视频大海捞针实验的结果。相比之下，LongVILA 模型（右）在一系列帧数和深度上都表现出了增强的性能。

51c大模型~合集38_大模型_18

表 5 列出了各种模型在 Video MME 基准上的表现，比较了它们在短视频、中视频和长视频长度上的有效性以及整体性能。LongVILA-8B 采用 256 帧，总分为 50.5。

51c大模型~合集38_大模型_19

研究者还在表 6 对第 3 阶段和第 4 阶段的影响进行了消融研究。

51c大模型~合集38_大模型_20

表 7 显示了在不同帧数（8、128 和 256）上训练和评估的 LongVILA 模型的性能指标。随着帧数的增加，模型的性能显著提高。具体来说，平均分数从 2.00 上升到 3.26，突显了模型在更多帧数下生成准确丰富字幕的能力。

#英伟达首个AI NPC入驻游戏

国产大作，4B模型只需2G显存

玩家都在问：游戏什么时候上线？

大模型驱动的游戏 NPC 终于落地了。

今天凌晨，英伟达放出一段游戏 demo。

现在打游戏，你可以用语音对话的方式和 NPC 交流，了解关卡目标、优化装备配置，随后调整武器配色开始战斗。

备受期待的 AI NPC 引擎在多人机甲战斗游戏《解限机》Mecha BREAK 中首次亮相了。全球首次，是国产游戏。

作为一款重 PVP 游戏，解限机目标成为全球级电竞产品。它在 8 月份刚刚结束先行测试，不少人表示「封测结束得太早」。目前该游戏在 Steam 平台上愿望单收藏量已超过百万，国内外也出现了不少游戏视频。

据说 2025 年才公测，大家还有的等。

游戏看起来挺好玩，背后使用的技术也够先进。今天亮相的这款 AI NPC 背后的技术是英伟达 Avatar Cloud Engine（ACE），该引擎最早是在去年 5 月的 COMPUTEX 2023 亮相的。

NVIDIA ACE 是一个允许开发者通过生成式 AI 创建智能游戏 NPC 的平台。在 ACE 上，英伟达使用多种不同的工具实现来实现次世代的智能游戏体验，动态渲染个性化角色，使其融入到游戏场景中。该工具也能够将玩家语音转录为文本，将其提供给 NPC 人物理解，并通过单独的文本转语音工具输出响应。

简而言之，ACE 可以创建出前所未有的全语音、全动态视频游戏角色。

51c大模型~合集38_大模型_21

英伟达也在持续更新 ACE 的能力，今年提出的生产级微服务（Production Microservices）允许游戏、工具和应用程序开发人员将 AI 大模型能力无缝集成到数字人或游戏 NPC 中，构建出下一代游戏和应用的体验。

对游戏开发商而言，大模型的工具已经到手，而作为游戏的玩家，你就得需要一块 RTX 显卡。

解限机的新 demo 显示，如果你有任何型号的 RTX GPU，AI 处理都是可以在本地完成的 —— 这包括从入门级的 RTX 2060 到目前最强大的 RTX 4090 等所有型号。为了适应配置不同的显卡，解限机使用了为 RPG 游戏设计的 Nemotron-4 4B Instruct 模型，它只需要 2GB 的 VRAM。英伟达表示，它可以在全球超过 1 亿台笔记本或台式机上运行。

Minitron 4B 模型基于英伟达自研的通用大模型 Nemotron 系列。看起来 Minitron 4B 与原始型号相比非常轻巧，原版 Nemotron 可能需要至少 160GB 的 VRAM。

尽管解限机是第一款使用 Nvidia ACE 技术的游戏，但它看起来更像是一个概念验证项目，因为 AI NPC 目前只应用在了「机械师」这一个 NPC 上。此外，它也不如使用 Nemotron 模型的基于云的 AI 模型那样高智商。然而，考虑到是本地运行的大模型，它的响应速度比基于云的 AI 快得多，只有约 300 毫秒，后者通常会需要几秒钟才能回答一个问题。

目前我们还无法确定，如果你的游戏电脑上没有 Nvidia RTX GPU，AI 驱动的 NPC 应该如何工作。或许有基于云的 ACE，或者它也可能有一个非 AI 版本，如果你是 A 卡或是基于英特尔的 GPU，甚至是这两家的集显，游戏显然也是必须可以运行的。

不过考虑到光追、DLSS 等更多新技术应用，这个 N 卡可能还是不买不行的。

借助 Nvidia ACE，解限机中的 AI NPC 可以理解玩家的语音输入，这意味着他们不再局限于传统 NPC 那样预先编写好流程的响应列表。然而，很多玩家在看完演示内容后表示，目前 AI NPC 的反应仍然感觉像是一个普通的游戏 NPC，而不是一个真正的人。这可能是由于它使用的是大幅优化性能的轻量级端侧模型，也可能是因为 NPC 被严格限定了工作范围。

不论如何，这是 Nvidia ACE 在「真实」游戏世界中的首次部署。在游戏画面精细程度不断提高的现在，人们比以往更加期待游戏玩法能有大幅度的更新。很多玩家或许都愿意尝试使用 AI，在虚拟世界里寻找一点真实感。

随着这项技术获得更多关注，我们可以期待在更多游戏中看到 AI NPC 的身影。

今年初，英伟达曾宣布将通过 ACE 与各个游戏厂商、创业公司的开发者合作，已公布的名单包括育碧、腾讯、UneeQ、掌趣科技、网易游戏、米哈游、Convai、Charisma AI 及 Inworld 等。

参考内容：

https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidias-first-ai-npc-debuts-in-mecha-break-minitron-4b-model-only-requires-2gb-of-vram

https://www.nvidia.cn/geforce/news/mecha-break-nvidia-ace-nims-rtx-pc-laptop-games-apps/

#lmms-eval

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，零污染

随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。

在这个「亩产八万斤」，「10 天一个 SoTA」的时代，简单易用、标准透明、可复现的多模态评估框架变得越来越重要，而这并非易事。

为解决以上问题，来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval，这是一个专为多模态大型模型设计的评估框架，为多模态模型（LMMs）的评测提供了一站式、高效的解决方案。

代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval
官方主页: https://lmms-lab.github.io/
论文地址: https://arxiv.org/abs/2407.12772
榜单地址：https://huggingface.co/spaces/lmms-lab/LiveBench

自 2024 年 3 月发布以来， LMMs-Eval 框架已经收到了来自开源社区、公司和高校等多方的协作贡献。现已在 Github 上获得 1.1K Stars，超过 30+ contributors，总计包含 80 多个数据集和 10 多个模型，并且还在持续增加中。

标准化测评框架

为了提供一个标准化的测评平台，LMMs-Eval 包含了以下特性：

统一接口: LMMs-Eval 在文本测评框架 lm-evaluation-harness 的基础上进行了改进和扩展，通过定义模型、数据集和评估指标的统一接口，方便了使用者自行添加新的多模态模型和数据集。
一键式启动：LMMs-Eval 在 HuggingFace 上托管了 80 多个（且数量不断增加）数据集，这些数据集精心从原始来源转换而来，包括所有变体、版本和分割。用户无需进行任何准备，只需一条命令，多个数据集和模型将被自动下载并测试，等待几分钟时间即可获得结果。
透明可复现：LMMs-Eval 内置了统一的 logging 工具，模型回答的每一题以及正确与否都会被记录下来，保证了可复现性和透明性。同时也方便比较不同模型的优势与缺陷。

LMMs-Eval 的愿景是未来的多模态模型不再需要自行编写数据处理、推理以及提交代码。在当今多模态测试集高度集中的环境下，这种做法既不现实，测得的分数也难以与其他模型直接对比。通过接入 LMMs-Eval，模型训练者可以将更多精力集中在模型本身的改进和优化上，而不是在评测和对齐结果上耗费时间。

评测的「不可能三角」

LMMs-Eval 的最终目标是找到一种 1. 覆盖广 2. 成本低 3. 零数据泄露的方法来评估 LMMs。然而，即使有了 LMMs-Eval，作者团队发现想同时做到这三点困难重重，甚至是不可能的。

如下图所示，当他们将评估数据集扩展到 50 多个时，执行这些数据集的全面评估变得非常耗时。此外，这些基准在训练期间也容易受到污染的影响。为此， LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。

51c大模型~合集38_大模型_22

LMMs-Eval-Lite: 广覆盖轻量级评估

51c大模型~合集38_大模型_23

在评测大模型时，往往庞大的参数量和测试任务会使得评测任务的时间和成本急剧上升，因此大家往往会选择使用较小的数据集或是使用特定的数据集进行评测。然而，有限的评测往往会使得对于模型能力的理解有所缺失，为了同时兼顾评测的多样性和评测的成本，LMMs-Eval 推出了 LMMs-Eval-Lite

51c大模型~合集38_大模型_24

LMMs-Eval-Lite 旨在构建一个简化的基准测试集，以在模型开发过程中提供有用且快速的信号，从而避免现在测试的臃肿问题。如果我们能够找到现有测试集的一个子集，在这上面的模型之间的绝对分数和相对排名与全集保持相似，那么我们可以认为修剪这些数据集是安全的。

为了找到数据集中的数据显著点，LMMs-Eval 首先使用 CLIP 和 BGE 模型将多模态评测数据集转换为向量嵌入的形式并使用 k-greedy 聚类的方法找到了数据显著点。在测试中，这些规模较小的数据集仍然展现出与全集相似的评测能力。

51c大模型~合集38_大模型_25

随后 LMMs-Eval 使用了相同的方法制作了涵盖更多数据集的 Lite 版本，这些数据集旨在帮助人们节省开发中的评测成本，以便快速判断模型性能

51c大模型~合集38_大模型_26

LiveBench: LMMs 动态测试

传统基准侧重于使用固定问题和答案的静态评估。随着多模态研究的进展，开源模型在分数比较往往优于商用模型，如 GPT-4V，但在实际用户体验中却有所不及。动态的、用户导向的 Chatbot Arenas 和 WildVision 在模型评估中越来越受欢迎，但是它们需要收集成千上万的用户偏好，评估成本极高。

LiveBench 的核心思想是在一个不断更新的数据集上评估模型的性能，以实现零污染且保持低成本。作者团队从网络上收集评估数据，并构建了一条 pipeline，自动从新闻和社区论坛等网站收集最新的全球信息。为了确保信息的及时性和真实性，作者团队从包括 CNN、BBC、日本朝日新闻和中国新华社等 60 多个新闻媒体，以及 Reddit 等论坛中选择来源。具体步骤如下：

捕捉主页截图并去除广告和非新闻元素。
使用当前最强大的多模态模型（如 GPT4-V、Claude-3-Opus 和 Gemini-1.5-Pro）设计问题和答案集。由另一模型审查和修订
问题，确保准确性和相关性。
人工审查最终的问答集，每月收集约 500 个问题，保留 100-300 个作为最终的 \livebench 问题集。
采用 LLaVA-Wilder 和 Vibe-Eval 的评分标准 -- 评分模型根据提供的标准答案评分，得分范围为 [1, 10]。默认评分模型为 GPT-4o，还包括 Claude-3-Opus 和 Gemini 1.5 Pro 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。

51c大模型~合集38_大模型_27