51c大模型~合集19

原创

qq6669490e54384 2024-07-31 16:36:05 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#用苹果Vision Pro隔空操控机器人

黄仁勋表示：「AI 的下一波浪潮是机器人，其中最令人兴奋的发展之一是人形机器人。」如今，Project GR00T 又迈出了重要的一步。

昨日，英伟达创始人黄仁勋在 SIGGRAPH 2024 Keynote 演讲中讲到了其人形机器人通用基础模型「Project GR00T」。该模型在功能上迎来了一系列更新。

德克萨斯大学奥斯汀分校助理教授、英伟达高级研究科学家朱玉可发推，在视频中演示了英伟达如何将通用家务机器人大规模仿真训练框架 RoboCasa 和 MimicGen 系统整合到英伟达 Omniverse 平台和 Isaac 机器人开发平台。

图源：https://x.com/yukez/status/1818092679936299373

视频中涵盖了英伟达自己的三个计算平台，包括 AI、Omniverse 和 Jetson Thor，利用它们简化和加速开发者工作流程。通过这些计算平台的共同赋能，我们有望进入由物理 AI 驱动的人形机器人时代。

51c大模型~合集19_3D

其中最大的亮点，开发人员能够使用苹果 Vision Pro 来远程操控人形机器人来执行任务。

51c大模型~合集19_人形机器人_02

51c大模型~合集19_人形机器人_03

与此同时，另一位英伟达高级研究科学家 Jim Fan 表示，Project GR00T 的更新令人振奋。英伟达利用系统化的方法来扩展机器人数据，解决了机器人领域最棘手的难题。

思路也很简单：人类在真实机器人身上收集演示数据，而英伟达在仿真中将这些数据扩展千倍及以上。通过 GPU 加速仿真，人们现在可以用算力来换取耗时耗力耗资金的人类收集数据了。

他谈到自己不久前还认为远程操控在根本上不可扩展，这是因为在原子世界中，我们总是受到 24 小时 / 机器人 / 天数的限制。英伟达在 GR00T 上采用的新的合成数据 pipeline 在比特世界打破了这一局限。

图源：https://x.com/DrJimFan/status/1818302152982343983

对于英伟达在人形机器人领域的最新进展，有网友表示，苹果 Vision Pro 找到了最酷的用例。

英伟达开始引领下一波浪潮：物理 AI

英伟达也在一篇博客中详述了加速人形机器人的技术流程，完整内容如下：

为了加速全球范围内人形机器人的发展，英伟达宣布为全球领先的机器人制造商、AI 模型开发商和软件制造商提供一套服务、模型和计算平台，以开发、训练和构建下一代人形机器人。

51c大模型~合集19_3D_04

这套产品包括用于机器人仿真和学习的全新 NVIDIA NIM 微服务和框架、用于运行多阶段机器人工作负载的 NVIDIA OSMO 编排服务，以及支持 AI 和仿真的远程操作工作流，该工作流允许开发者使用少量人类演示数据来训练机器人。

黄仁勋表示：「AI 的下一波浪潮是机器人，其中最令人兴奋的发展之一是人形机器人。我们正在推进整个 NVIDIA 机器人堆栈的发展，面向全球人形机器人开发者和公司开放访问，让他们能够使用最符合其需求的平台、加速库和 AI 模型。」

51c大模型~合集19_Layout_05

借助 NVIDIA NIM 和 OSMO 加速开发

NIM 微服务提供了由英伟达推理软件提供支持的预构建容器，使开发人员能够将部署时间从几周缩短到几分钟。

两个新的 AI 微服务将允许机器人专家在 NVIDIA Isaac Sim 中增强生成物理人工智能仿真工作流程。

MimicGen NIM 微服务根据来自空间计算设备（如 Apple Vision Pro）记录的远程数据生成合成运动数据。Robocasa NIM 微服务可在 OpenUSD 中生成机器人任务和仿真环境。

云原生托管服务 NVIDIA OSMO 现已推出，允许用户在分布式计算资源（无论是在本地还是在云中）中协调和扩展复杂的机器人开发工作流程。OSMO 的出现大大简化了机器人训练和仿真工作流程，将部署和开发周期从数月缩短至不到一周。

为人形机器人开发者提供先进的数据捕获工作流

训练人形机器人背后的基础模型需要大量的数据。获取人类演示数据的一种方法是使用远程操作，但这种方式正变得越来越昂贵和漫长。

通过在 SIGGRAPH 计算机图形大会上展示的 NVIDIA AI 和 Omniverse 远程操作参考工作流，研究者和 AI 开发者能够从极少量远程捕捉的人类演示中生成大量合成运动和感知数据。

51c大模型~合集19_3D_06

首先，开发人员使用 Apple Vision Pro 捕捉少量远程演示。然后，他们在 NVIDIA Isaac Sim 中仿真录音，并使用 MimicGen NIM 微服务从录音中生成合成数据集。

开发人员使用真实数据和合成数据来训练 Project GR00T 人形机器人基础模型，从而节省了大量的时间并降低了成本。然后，他们使用 Isaac Lab 中的 Robocasa NIM 微服务（一种机器人学习框架）来生成经验以重新训练机器人模型。在整个工作流中，NVIDIA OSMO 将计算任务无缝地分配给不同的资源，为开发者减少了数周的管理工作量。

扩大对 NVIDIA 人形机器人开发者技术的访问权限

NVIDIA 提供了三个计算平台来简化人形机器人的开发：用于训练模型的 NVIDIA AI 超级计算机；基于 Omniverse 构建的 NVIDIA Isaac Sim，机器人可以在仿真世界中学习和完善技能；以及用于运行模型的 NVIDIA Jetson Thor 人形机器人计算机。开发人员可以根据自己的特定需求访问和使用全部或部分平台。

通过新的 NVIDIA 人形机器人开发者计划，开发者可以提前使用新产品以及 NVIDIA Isaac Sim、NVIDIA Isaac Lab、Jetson Thor 和 Project GR00T 通用人形机器人基础模型的最新版本。

1x、波士顿动力、字节跳动、Field AI、Figure、Fourier、Galbot、LimX Dynamics、Mentee、Neura Robotics、RobotEra 和 Skild AI 是首批加入早期访问计划的公司。

开发人员现在可以加入 NVIDIA 人形机器人开发人员计划，以访问 NVIDIA OSMO 和 Isaac Lab，并且很快将获得 NVIDIA NIM 微服务的访问权限。

博客链接：

https://nvidianews.nvidia.com/news/nvidia-accelerates-worldwide-humanoid-robotics-development

#GALA3D

复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG (Visual Data Interpreting and Generation) 实验室，第一作者为博士生周啸宇，通讯作者为博士生导师王勇涛。VDIG 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项代表性成果发表，多次荣获国内外 CV 领域重量级竞赛的冠亚军奖项，和国内外知名高校、科研机构广泛开展合作。

近年来，针对单个物体的 Text-to-3D 方法取得了一系列突破性进展，但是从文本生成可控的、高质量的复杂多物体 3D 场景仍然面临巨大挑战。之前的方法在生成场景的复杂度、几何质量、纹理一致性、多物体交互关系、可控性和编辑性等方面均存在较大缺陷。

最近，来自北京大学王选计算机研究所的 VDIG 研究团队与其合作者公布了最新研究成果 GALA3D。针对多物体复杂 3D 场景生成，该工作提出了 LLM 引导的复杂三维场景可控生成框架 GALA3D，能够生成高质量、高一致性、具有多物体和复杂交互关系的 3D 场景，支持对话式交互的可控编辑，论文已被 ICML 2024 录用。

论文标题：GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting
论文链接：https://arxiv.org/pdf/2402.07207
论文代码：https://github.com/VDIGPKU/GALA3D
项目网站：https://gala3d.github.io/

51c大模型~合集19_人形机器人_07

GALA3D 是一个高质量的 Text-to-3D 复杂组合场景生成与可控编辑框架。用户输入一段描述文本，GALA3D 能够 zero-shot 地生成相应的具有多物体和复杂交互关系的三维场景。GALA3D 在保证生成 3D 场景与文本高度对齐的同时，展现了其在生成场景质量、多物体复杂交互、场景几何一致性等方面的卓越性能。此外，GALA3D 还支持用户友好的端到端生成和可控编辑，使得普通用户能够在对话式的交谈中轻松定制和编辑 3D 场景。在与用户的交流中，GALA3D 可以精准地实现复杂三维场景对话式的可控编辑，并根据用户的对话实现复杂三维场景的布局变换、数字资产嵌入、装修风格改变等多样化的可控编辑需求。

方法介绍

GALA3D 的整体架构如下图所示：

51c大模型~合集19_Layout_08

GALA3D 利用大型语言模型（LLMs）生成初始布局，并提出布局引导的生成式 3D 高斯表示构建复杂 3D 场景。GALA3D 设计通过自适应几何控制优化 3D 高斯的形状和分布，以生成具有一致几何、纹理、比例和精确交互的 3D 场景。此外，GALA3D 还提出了一种组合优化机制，结合条件扩散先验和文生图模型，协作生成具有一致风格的 3D 多物体场景，同时迭代优化从 LLMs 提取的初始布局先验，以获得更加逼真准确的真实场景空间布局。广泛的定量实验和定性研究表明 GALA3D 在文本到复杂三维场景生成方面取得了显著效果，超越现有文生 3D 场景方法。

a、基于 LLMs 的场景布局先验

大语言模型展现了优异的自然语言理解和推理能力，本文进一步探索了 LLMs 大语言模型在 3D 复杂场景的推理和布局生成能力。如何在没有人工设计的情况下获得相对合理的布局先验有助于减少场景建模和生成的代价。对此，我们使用 LLMs (例如 GPT-3.5) 对文本输入的实例及其空间关系进行抽取，并生成相应的 Layout 布局先验。然而，通过 LLMs 解读的场景 3D 空间布局和 Layout 先验与实际场景存在一定差距，通常表现生成悬浮 / 穿模的物体，比例差异过大的物体组合等。进一步地，我们提出了 Layout Refinement 模块，通过基于视觉的 Diffusion 先验和 Layout 引导的生成式 3D 高斯对上述生成的粗糙布局先验进行调整和优化。

b、Layout Refinement

GALA3D 使用基于 Diffusion 先验的 Layout 布局优化模块对上述 LLMs 生成的布局先验进行优化。具体地，我们将 Layout 引导的 3D 高斯空间布局的梯度优化加入 3D 生成过程，通过 ControlNet 对 LLM-generated Layouts 进行空间位置、旋转角度和尺寸比例的调整，如图展示了优化前后 3D 场景和 Layout 的对应关系。经过优化的 Layout 具有更加准确的空间位置和比例尺度，并且使得 3D 场景中多物体的交互关系更加合理。

51c大模型~合集19_3D_09

c、布局引导的生成式 3D 高斯表示

我们首次将 3D-Layout 约束引入 3D 高斯表示，提出了布局引导的生成式 3D 高斯，用于复杂文生 3D 场景。Layout-guided 3D 高斯表示包含多个语义抽取的实例物体，其中每个实例物体的 Layout 先验可以参数化为：

51c大模型~合集19_3D_10

其中，N 代表场景中实例物体的总数。具体地，每一个实例 3D 高斯通过自适应几何控制进行优化，得到实例级的物体 3D 高斯表示。进一步地，我们将多个物体高斯根据相对位置关系组合到全场景中，生成布局引导的全局 3D 高斯并通过全局 Gaussian Splatting 渲染整个场景。

d、自适应几何控制

为了更好地控制 3D 高斯在生成过程中的空间分布和几何形状，我们提出了针对生成式 3D 高斯的自适应几何控制方法。首先给定一组初始高斯，为了将 3D 高斯约束在 Layout 范围内，GALA3D 使用一组密度分布函数来约束高斯椭球的空间位置。我们接着对 Layout 表面附近的高斯进行采样来拟合分布函数。之后，我们提出使用形状正则化控制 3D 高斯的几何形状。在 3D 生成的过程中，自适应几何控制不断优化高斯的分布和几何，从而生成更具纹理细节和规范几何的 3D 多物体与场景。自适应几何控制还保证了布局引导的生成式 3D 高斯具有更高的可控性和一致性。

实验结果

与现有 Text-to-3D 生成方法相比，GALA3D 展现了更加优异的 3D 场景生成质量和一致性，定量实验结果如下表所示：

我们还进行了广泛且有效的用户调研，邀请 125 位参与者（其中 39.2% 为相关领域的专家和从业人员）对本文方法和现有方法的生成场景进行多角度评估，结果如下表所示：

实验结果表明 GALA3D 在生成场景质量、几何保真度、文本一致性、场景一致性等多维度的测评指标中均超越现有方法，取得了最优的生成质量。

如下图定性实验结果所示，GALA3D 能够 zero-shot 地生成复杂多物体组合 3D 场景，并且具有良好的一致性：

51c大模型~合集19_Layout_11

下图展示了 GALA3D 能够支持用户友好的、对话式的可控生成和编辑：

51c大模型~合集19_3D_12

更多研究细节，可参考原论文。

#Gemma 2

谷歌开源最强端侧小模型：2B参数越级跑赢GPT-3.5-Turbo，苹果15Pro运行飞快

谷歌也来卷「小」模型了，一出手就是王炸，胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型

今年 6 月底，谷歌开源了 9B、27B 版 Gemma 2 模型系列，并且自亮相以来，27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最高的开放模型之一，在真实对话任务中比其两倍规模以上的模型表现还要好。

如今，仅仅过去了一个多月，谷歌在追求负责任 AI 的基础上，更加地考虑该系列模型的安全性和可访问性，并有了一系列新成果。

此次，Gemma 2 不仅有了更轻量级「Gemma 2 2B」版本，还构建一个安全内容分类器模型「ShieldGemma」和一个模型可解释性工具「Gemma Scope」。具体如下：

Gemma 2 2B 具有内置安全改进功能，实现了性能与效率的强大平衡；
ShieldGemma 基于 Gemma 2 构建，用于过滤 AI 模型的输入和输出，确保用户安全；
Gemma Scope 提供对模型内部工作原理的无与伦比的洞察力。

其中，Gemma 2 2B 无疑是「最耀眼的仔」，它在大模型竞技场 LMSYS Chatbot Arena 中的结果令人眼前一亮：仅凭 20 亿参数就跑出了 1130 分，这一数值要高于 GPT-3.5-Turbo（0613）和 Mixtral-8x7b。

这也意味着，Gemma 2 2B 将成为端侧模型的最佳选择。

苹果机器学习研究（MLR）团队研究科学家 Awni Hannun 展示了 Gemma 2 2B 跑在 iPhone 15 pro 上的情况，使用了 4bit 量化版本，结果显示速度是相当快。

视频来源：https://x.com/awnihannun/status/1818709510485389563

此外，对于前段时间很多大模型都翻了车的「9.9 和 9.11 谁大」的问题，Gemma 2 2B 也能轻松拿捏。

图源：https://x.com/tuturetom/status/1818823253634564134

与此同时，从谷歌 Gemma 2 2B 的强大性能也可以看到一种趋势，即「小」模型逐渐拥有了与更大尺寸模型匹敌的底气和效能优势。

这种趋势也引起了一些业内人士的关注，比如知名人工智能科学家、Lepton AI 创始人贾扬清提出了一种观点：大语言模型（LLM）的模型大小是否正在走 CNN 的老路呢？

在 ImageNet 时代，我们看到参数大小快速增长，然后我们转向了更小、更高效的模型。这是在 LLM 时代之前，我们中的许多人可能已经忘记了。

大型模型的曙光：我们以 AlexNet（2012）作为基线开始，然后经历了大约 3 年的模型大小增长。VGGNet（2014）在性能和尺寸方面都可称为强大的模型。
缩小模型：GoogLeNet（2015）将模型大小从 GB 级缩小到 MB 级，缩小了 100 倍，同时保持了良好的性能。类似工作如 SqueezeNet（2015）和其他工作也遵循类似的趋势。
合理的平衡：后来的工作如 ResNet（2015）、ResNeXT（2016）等，都保持了适中的模型大小。请注意，我们实际上很乐意使用更多的算力，但参数高效同样重要。
设备端学习？MobileNet（2017）是谷歌的一项特别有趣的工作，占用空间很小，但性能却非常出色。上周，我的一个朋友告诉我「哇，我们仍然在使用 MobileNet，因为它在设备端具有出色的特征嵌入通用性」。是的，嵌入式嵌入是实实在在很好用。

最后，贾扬清发出灵魂一问，「LLM 会遵循同样的趋势吗？」

图像出自 Ghimire 等人论文《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》。

Gemma 2 2B 越级超越 GPT-3.5 Turbo

Gemma 2 家族新增 Gemma 2 2B 模型，备受大家期待。谷歌使用先进的 TPU v5e 硬件在庞大的 2 万亿个 token 上训练而成。

这个轻量级模型是从更大的模型中蒸馏而来，产生了非常好的结果。由于其占用空间小，特别适合设备应用程序，可能会对移动 AI 和边缘计算产生重大影响。

事实上，谷歌的 Gemma 2 2B 模型在 Chatbot Arena Elo Score 排名中胜过大型 AI 聊天机器人，展示了小型、更高效的语言模型的潜力。下图表显示了 Gemma 2 2B 与 GPT-3.5 和 Llama 2 等知名模型相比的卓越性能，挑战了「模型越大越好」的观念。

Gemma 2 2B 提供了：

性能卓越：在同等规模下提供同类最佳性能，超越同类其他开源模型；
部署灵活且经济高效：可在各种硬件上高效运行，从边缘设备和笔记本电脑到使用云部署如 Vertex AI 和 Google Kubernetes Engine (GKE) 。为了进一步提高速度，该模型使用了 NVIDIA TensorRT-LLM 库进行优化，并可作为 NVIDIA NIM 使用。此外，Gemma 2 2B 可与 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp 以及即将推出的 MediaPipe 无缝集成，以简化开发；
开源且易于访问：可用于研究和商业应用，由于它足够小，甚至可以在 Google Colab 的 T4 GPU 免费层上运行，使实验和开发比以往更加简单。

从今天开始，用户可以从 Kaggle、Hugging Face、Vertex AI Model Garden 下载模型权重。用户还可以在 Google AI Studio 中试用其功能。

下载权重地址：https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

Gemma 2 2B 的出现挑战了人工智能开发领域的主流观点，即模型越大，性能自然就越好。Gemma 2 2B 的成功表明，复杂的训练技术、高效的架构和高质量的数据集可以弥补原始参数数量的不足。这一突破可能对该领域产生深远的影响，有可能将焦点从争夺越来越大的模型转移到改进更小、更高效的模型。

Gemma 2 2B 的开发也凸显了模型压缩和蒸馏技术日益增长的重要性。通过有效地将较大模型中的知识提炼成较小的模型，研究人员可以在不牺牲性能的情况下创建更易于访问的 AI 工具。这种方法不仅降低了计算要求，还解决了训练和运行大型 AI 模型对环境影响的担忧。

ShieldGemma：最先进的安全分类器

技术报告：https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf

ShieldGemma 是一套先进的安全分类器，旨在检测和缓解 AI 模型输入和输出中的有害内容，帮助开发者负责任地部署模型。

ShieldGemma 专门针对四个关键危害领域进行设计：

仇恨言论
骚扰
色情内容
危险内容

这些开放分类器是对负责任 AI 工具包（Responsible AI Toolkit）中现有安全分类器套件的补充。

借助 ShieldGemma，用户可以创建更加安全、更好的 AI 应用

SOTA 性能：作为安全分类器，ShieldGemma 已经达到行业领先水平；

规模不同：ShieldGemma 提供各种型号以满足不同的需求。2B 模型非常适合在线分类任务，而 9B 和 27B 版本则为不太关心延迟的离线应用程序提供了更高的性能。

如下表所示，ShieldGemma (SG) 模型（2B、9B 和 27B）的表现均优于所有基线模型，包括 GPT-4。

Gemma Scope：让模型更加透明

Gemma Scope 旨在帮助 AI 研究界探索如何构建更易于理解、更可靠的 AI 系统。其为研究人员和开发人员提供了前所未有的透明度，让他们能够了解 Gemma 2 模型的决策过程。Gemma Scope 就像一台强大的显微镜，它使用稀疏自编码器 (SAE) 放大模型的内部工作原理，使其更易于解释。

Gemma Scope 技术报告：https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

SAE 可以帮助用户解析 Gemma 2 处理的那些复杂信息，将其扩展为更易于分析和理解的形式，因而研究人员可以获得有关 Gemma 2 如何识别模式、处理信息并最终做出预测的宝贵见解。

以下是 Gemma Scope 具有开创性的原因：

开放的 SAE：超过 400 个免费 SAE，涵盖 Gemma 2 2B 和 9B 的所有层；
交互式演示：无需在 Neuronpedia 上编写代码即可探索 SAE 功能并分析模型行为；
易于使用的存储库：提供了 SAE 和 Gemma 2 交互的代码和示例。

参考链接：

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

#arXiv

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞

当论文讨论细致到词句，是什么体验？

最近，斯坦福大学的学生针对 arXiv 论文创建了一个开放讨论论坛 ——alphaXiv，可以直接在任何 arXiv 论文之上发布问题和评论。

网站链接：https://alphaxiv.org/

其实不需要专门访问这个网站，只需将任何 URL 中的 arXiv 更改为 alphaXiv 就可以直接在 alphaXiv 论坛上打开相应论文：

可以精准定位到论文中的段落、句子：

右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：

也可以针对论文内容发表评论，例如：「给出至少一个数学问题及其解决方案作为示例会具有启发性。」

用户还可以回应、点赞、反对某条评论：

对此，图灵奖得主 Yann LeCun 也觉得非常 Nice。

我们发现很多论文作者纷纷称赞 alphaXiv 论坛，例如最近发表的一篇论文《KAN or MLP: A Fairer Comparison》，在 alphaXiv 上收获了一些讨论，论文一作 Runpeng Yu 发推表示将在 alphaXiv 上回答大家的问题。

如网友所说：「AlphaXiv 使研究变得易于协作」，推进了学术交流。

如此方便的论文交流平台，感兴趣的读者快去试试吧。

参考链接：

https://twitter.com/StanfordAILab/status/1818669016325800216

#MindSearch

还没排上SearchGPT？比Perplexity更好用的国产开源平替了解一下？

来自上海人工智能实验室。

有 AI 在的科技圈，似乎没有中场休息。除了大模型发布不断，各家科技大厂也在寻找着第一个「杀手级」AI 应用的落脚之地。

OpenAI 首先瞄准的是谷歌 1750 亿美元的搜索业务市场。7 月 25 日，OpenAI 带着 AI 搜索引擎——SearchGPT 高调入场。在演示 demo 中，搜索引擎的使用体验不再像以往一样，需要我们逐个点开网页链接，判断信息有没有用。SearchGPT 像端上了一桌精美的套餐，所有答案都帮你总结好了。

在演示 demo 中，SearchGPT 分析了在应季最适合种植哪种品种的番茄。

不过，鉴于年初发布的 Sora 到目前都还未正式开放，估计很多人排上 SearchGPT 的体验名额也遥遥无期。

然而，有一款国产的开源平替，在和能联网的 ChatGPT 和专攻 AI 搜索引擎的 Perplexity.ai 的 PK 中，它的回答在深度、广度和准确度方面都都秒了这两款明星产品。

它甚至可以在不到 3 分钟内收集并整合 300 多页相关信息。这换成人类专家，需要大约 3 小时才能做完。

这款「国货」就是多智能体框架 MindSearch（思・索），由来自中科大和上海人工智能实验室的研究团队联合研发。正如其名，MindSearch 是一个会「思索」的系统，面对你输入的问题，它将先调用负责充分「思」考问题的智能体，再启用全面搜「索」的智能体，这些智能体分工合作，理解你的需求，并为你呈上从互联网的五湖四海搜罗来的新鲜信息。

论文链接：https://arxiv.org/abs/2407.20183
项目主页：https://mindsearch.netlify.app/

MindSearch 演示 demo

那么，MindSearch 是凭什么打败 ChatGPT 和 Perplexity.ai 的呢？和别的 AI 搜索引擎相比，MindSearch 有什么独到之处吗？

答案还得从它的名字说起。MindSearch 的核心竞争力在于采用了多智能体框架模拟人的思维过程。

如果向 Perplexity.ai 提问「王者荣耀当前赛季哪个射手最强？」它会直接搜索这个问题，并总结网上已有的回复。把这个问题交给 MindSearch，它会把这个问题拆解成一个逻辑链：「当前赛季是哪个赛季？」，「从哪些指标可以衡量王者荣耀的射手的强度？」，再汇总所能查询到的答案。

技术实现

WebPlanner：基于图结构进行规划

仅依靠向大型语言模型输入提示词的方式并不能胜任智能搜索引擎。首先，LLM 不能充分理解复杂问题中的拓扑关系，比如前一段挂在热搜上的大模型无法理解 9.9 和 9.11 谁大的问题，就是这个问题的生动注脚。字与字之间的关系，LLM 都很难在简单对话中理解，那么「这个季节种哪个品种的番茄最合适？」这种需要深入思考，分解成多个角度来回答的问题，对于 LLM 就更难了。换句话说，LLM 很难将用户的意图逐步转化为搜索任务，并提供准确的响应，因此它总是提供一些模版式的知识和套话。

基于此，研究团队设计了高级规划器 WebPlanner，它通过构建有向无环图（DAG）来捕捉从提问到解答之间的最优执行路径。对于用户提出的每个问题 Q，WebPlanner 将其解决方案的轨迹表示为 G (Q) = ⟨V, E⟩。在这个图中，V 代表节点的集合，每个节点 v 代表一个独立的网页搜索任务，包括一个辅助的起始节点（代表初始问题）和一个结束节点（代表最终答案）。E 代表有向边，指示节点之间的逻辑和推理关系。

研究团队进一步利用 LLM 优越的代码能力，引导模型编写代码与 DAG 图交互。为了实现这一点，研究团队预定义了原子代码函数，让模型可以在图中添加节点或边。在解答用户问题的过程中，LLM 先阅读整个对话，还有它在网上搜索到的信息。阅读完这些信息后，LLM 会根据这些信息产生一些思考和新的代码，这些代码将通过 Python 解释器添加在用于推理的图结构中。

一旦有新节点加入图中，WebPlanner 将启动 WebSearcher 来执行搜索任务，并整理搜索到的信息。由于新节点只依赖于之前步骤中生成的节点，所以这些节点可以并行处理，大大提高了信息收集的速度。当所有的信息收集完毕，WebPlanner 将添加结束节点，输出最终答案。

WebSearcher：分层检索网页

由于互联网上的信息实在太多，就算是 LLM 也不能一下子处理完所有的页面。针对这个问题，研究团队选择了先广泛搜索再精确选择的策略，设计了一个 RAG 智能体 ——WebSearcher。

首先，LLM 将根据 WebPlanner 分配的问题，生成几个类似的搜索问题，扩大搜索的范围。接下来，系统将调用不同搜索引擎的 API 查询问题，例如分别在 Google、Bing 和 DuckDuckGo 查一下，得到网页的链接、标题和摘要等关键信息。接着，LLM 将从这些搜索结果中选出最重要的网页来仔细阅读，汇总得出最终答案。

MindSearch 中，LLM 如何管理上下文

作为一个多智能体框架，MindSearch 为如何管理长上下文提供了全新尝试。当需要快速阅读大量网页时，由于最终答案只依赖 WebSearcher 的搜索结果，WebPlanner 将专注于分析用户提出的问题，不会被过长的网页信息分心。

这种明确的分工也大大减少了上下文计算量。如何在多个智能体之间高效共享信息和上下文并非易事，研究团队在实证中发现，如果只依靠 WebPlanner 的分析，有可能会在信息收集阶段由于 WebSearcher 内部的局部感知场丢失有用的信息。为了解决这个问题，他们利用有向图边构建的拓扑关系来简化上下文如何在不同智能体间传递。

具体来说，在 WebSearcher 执行搜索任务时，它的父节点以及根节点的回答将作为前缀添加在其回答中。因此，每个 WebSearcher 可以有效地专注于其子任务，同时不会丢失之前的相关上下文或者忘记最终的查询目标。

本地部署

7 月初，上海人工智能实验室已经开源了搭载 MindSearch 架构的 InternLM2.5-7B-Chat 模型。

除了直接点击链接，跳转到体验 Demo 试玩。研究团队还公开了 MindSearch 的完整前后端实现，基于智能体框架 Lagent，感兴趣的朋友可以在本地部署模型。

在线 Demo：https://mindsearch.openxlab.org.cn/
开源代码：https://github.com/InternLM/mindsearch

在 GitHub 下载 MindSearch 仓库后，输入如下命令就可以打造属于自己的 MindSearch 了：

# 启动服务
python -m mindsearch.app --lang en --model_format internlm_server

## 一键启动多种前端

# Install Node.js and npm
# for Ubuntu
sudo apt install nodejs npm
# for windows
# download from https://nodejs.org/zh-cn/download/prebuilt-installer
# Install dependencies
cd frontend/React
npm install
npm start

#SELF-GUIDE

CMU&清华新作：让LLM自己合成数据来学习，特定任务性能同样大幅提升

本文主要作者来自清华大学和卡内基梅隆大学（CMU）。共同一作为清华大学计算机系本科毕业生赵晨阳，卡内基梅隆大学硕士生贾雪莹。

虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖于高质量的人工标注数据。这类数据的收集过程既耗时又费力，对于数据稀缺的任务尤为困难。

为了解决这个问题，一些研究尝试通过强大的 Teacher Model 生成训练数据，来增强 Student Model 在特定任务上的性能。然而，这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。在无法持续获得高质量人类监督信号的情况下，如何持续迭代模型的能力，成为了亟待解决的问题。

来自卡内基梅隆大学和清华大学的研究团队提出了 SELF-GUIDE 方法。该方法通过语言模型自身生成任务特定的数据集，并在该数据集上进行微调，从而显著提升模型在特定任务上的能力，无需依赖大量外部高质量数据或更强大的 Teacher Model。具体来说，在外部输入大约 3 个样例的情况下，SELF-GUIDE 采用多阶段的生成和过滤机制，利用模型生成的合成数据进行微调，使模型在特定任务上的表现更加出色。

论文地址：https://arxiv.org/abs/2407.12874
代码仓库:https://github.com/zhaochenyang20/Prompt2Model- SELF-GUIDE

图 1：SELF-GUIDE 利用模型自主合成数据的能力提升模型执行特定任务的能力。

方法

具体来说，研究团队将 SELF-GUIDE 方法分解为三个主要阶段：输入数据生成、输出数据生成和质量优化。

输入数据生成

在 SELF-GUIDE 框架的设计和实现过程中，研究者首先根据任务类型（生成型任务或分类型任务）指定不同的提示模板。对于生成型任务， SELF-GUIDE 框架使用一个相对简单的提示模板。而对于分类型任务， SELF-GUIDE 框架则采用了另一种策略。对于分类任务， SELF-GUIDE 框架首先从全部标签空间中随机选择一个标签，将其作为条件生成的伪标签，指导输入数据的生成。选定伪标签后， SELF-GUIDE 框架使用较为复杂的条件生成模板，引导模型生成与所选伪标签相对应的输入内容。

图 2：SELF-GUIDE 的核心在于一个高效的多阶段生成机制，其中语言模型逐步生成输入数据输出数据组合。经过生成和过滤后，自生成的数据进一步用于微调语言模型本身。此图描述了 SELF-GUIDE 针对生成任务的流程。

选定模板并填充示例（few-shot examples）后，完整的提示被传递给 LLM，以生成输入数据。每轮提示后，新生成的输入会被添加到输入库中。从这个库中随机抽取一部分输入，并与初始示例中的输入合并，形成新的提示，逐步扩展 LLM 生成的输入集并且减少重复。SELF-GUIDE 仅进行一轮输入生成，随后在质量优化阶段，应用基于规则的过滤器来去除低质量的输入。

图 3：此图描述了 SELF-GUIDE 完成分类任务的过程。对于分类任务的数据，SELF-GUIDE 首先生成伪标签，然后生成对应的输入，最后重新生成真实标签。

输出数据生成

输出数据生成阶段采用了典型的上下文学习方法：研究者向模型提供任务指令和原始示例，使模型对输入生成阶段产生的每一个输入进行标注。在获取所有输出后，再进行一轮基于规则的过滤，以选择最终的合成数据集。

质量优化

生成数据的质量对于下游训练的成功至关重要。SELF-GUIDE 采用了两种策略来提高质量：调整生成参数以提高生成质量并基于规则过滤掉低质量样本。

调整温度：调整温度是一种平衡多样性和质量的常见策略。SELF-GUIDE 框架在输入生成阶段使用较高的温度以鼓励多样性，在其他阶段通过使用较低的温度确保得到概率最高的输出，从而保证整体数据质量。然而，仅依靠温度调整不足以实现所需的平衡。因此， SELF-GUIDE 还在输入生成后和输出注释后分别进行了两轮基于规则的数据过滤。

噪声过滤（Noise Filter）：研究者手动整理了一份噪声术语列表，包括常见的问候语和噪声字符（例如，生成内容中的”\\”）。如果生成示例的输入或输出中出现了任何来自这份列表的噪声术语， SELF-GUIDE 将丢弃整个示例。

长度过滤（Length Filter）：虽然示例的长度可能存在偏差，但是研究者认为这些示例在特定任务的长度分布方面仍然具有代表性。SELF-GUIDE 假设示例的长度遵循正态分布，并计算出输入样例的均值 μ 和标准差 σ，研究者假定生成示例的输入和输出长度应符合同一正态分布，并要求长度在 (μ − 2σ, μ + 2σ) 范围内。

整体参数微调（One Parameter Fits All）：为了使 SELF-GUIDE 生成符合指令和示例指定目标分布的训练数据，需要在标注数据点上优化各种超参数，包括生成输入输出的个数、输入数据生成的温度、输出数据生成的温度、微调参数等。研究者将实验测试任务分为两部分：一部分可以利用所有数据进行验证以调整生成参数，称为验证任务；另一部分的数据仅用于测试而不可用于调整参数，称为测试任务。研究者在验证任务上搜索 “最大化最差任务性能” 的参数，并将其固定用于测评 SELF-GUIDE 在测试任务上的表现。

实验结果

为了评估 SELF-GUIDE 的有效性，研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索，剩余的一半用于评估。在模型方面，研究者选择了 Vicuna-7b-1.5 作为输入生成、输出生成和微调的基础模型。在评估指标方面，研究者采用了与 Super-NaturalInstructions 基准相同的评估指标，即分类任务的 Exact Match 和生成任务的 ROUGE-L。

为了体现 SELF-GUIDE 的效果，研究者将 SELF-GUIDE 与其他指令跟随和上下文学习方法进行了比较：

1.Few-Shot ICL：作为主要基准，研究者与直接提示语言模型进行了比较。这种方法直接依赖于模型固有的指令跟随能力。

2.Self-ICL：Self-ICL 使用自生成的示例来提高零样本指令跟随。研究者在 Self-ICL 工作的基础上进行了修改，通过自生成尽可能多的示例（而不是固定个数的示例）填充提示词，从而增加参考样本数目。

3.Few-Shot Finetuning：直接利用输入的少量示例进行微调。

SELF-GUIDE 原文主要实验结果如下所示。在基准的评估指标上，分类任务的绝对提升达到了 14.5%，而生成任务的绝对提升则达到了 17.9%。这些结果表明， SELF-GUIDE 在指导 LLM 向任务特定专业化方向发展方面具有显著效果，即使在数据极其有限的情况下。这突显了自我生成数据在大规模适应 LLM 到特定任务中的潜力。更多实验结果和消融实验请参考论文原文。

图 4：对于每类任务（分类和生成任务），研究者将任务随机分成两半，一半用于调试 “One Parameter Fits All” 策略的参数，另一半用于使用这些调试好的参数测试 SELF-GUIDE 的性能。我们使用相同的解码参数和提示模板来评估模型在 SELF-GUIDE 前后的表现。

总结

SELF-GUIDE 框架鼓励模型自主生成训练数据并在此数据上进行微调。实验结果表明，这种方法在提升大规模语言模型特定任务的专业能力方面具有巨大潜力，尤其是在数据有限的情况下，SELF-GUIDE 可以有效解决缺少训练数据的问题。同时，这也为探索自主模型适应和持续学习的技术提供了参考。研究者希望这一工作能够推动 AI 系统在自主对齐和改进机制方面的发展，使其更加符合人类的意图。