51c大模型~合集29

原创

qq6669490e54384 2024-08-10 14:32:22 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#MoMa

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

混合专家，也得术业有专攻。

对于目前的混合模态基础模型，常用的架构设计是融合特定模态的编码器或解码器，但这种方法存在局限：无法整合不同模态的信息，也难以输出包含多种模态的内容。

为了克服这一局限，Meta FAIR 的 Chameleon 团队在近期的论文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一种新的单一 Transformer 架构，它可以根据下一个 token 的预测目标，对由离散图像和文本 token 组成的混合模态序列进行建模，从而在不同模态之间进行无缝推理和生成。

在约 10 万亿混合模态 token 上完成预训练之后，Chameleon 表现出了适应广泛的视觉和语言能力，能很好地处理多种不同的下游任务。Chameleon 在生成混合模态长回答任务的表现尤其亮眼，它甚至打败了 Gemini 1.0 Pro 和 GPT-4V 等商用模型。然而对于 Chameleon 这样各种模态会在模型训练的早期混合起来的模型，想要拓展它的能力，需要投入大量算力。

基于以上问题，Meta FAIR 的团队对路由式稀疏架构（routed sparse architecture）进行了一番研究探索，提出了 MoMa：模态感知型专家混合架构。

论文标题：MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
论文地址：https://arxiv.org/pdf/2407.21770

之前已有研究表明，这类架构可以有效地扩展单模态的基础模型的能力，也可以增强多模态对比学习模型的性能。但是，将其用于较早将各种模态融合的模型训练还是一个机遇与挑战并存的课题，还少有人研究。

该团队的研究基于这一洞见：不同模态具有固有的异构性 —— 文本和图像 token 具有不同的信息密度和冗余模式。

在将这些 token 整合成统一的融合架构的同时，该团队也提出通过整合针对具体模态的模块来进一步优化该框架。该团队将这一概念称为模态感知型稀疏性（modality-aware sparsity），简称 MaS；其能让模型更好地捕获每个模态的特征，同时还能通过部分参数共享和注意力机制维持强大的跨模态整合性能。

之前的 VLMo、BEiT-3 和 VL-MoE 等研究已经采用了混合模态专家（MoME/mixture-of-modality-experts）方法来训练视觉 - 语言编码器和掩码式语言建模，来自 FAIR 的研究团队更进一步将 MoE 的可用范围又推进了一步。

模型架构

早期融合

本文提出的新模型基于 Chameleon 的早期融合架构，其做法是在一个统一 Transformer 中，将图像和文本表示成一系列离散 token。Chameleon 的核心是一个基于 Transformer 的模型，其会在图像和文本 token 的组合序列上应用自注意力机制。这能让该模型捕获模态内和模态间的复杂关联。该模型的训练使用的目标是下一 token 预测目标，以自回归方式生成文本和图像 token。

在 Chameleon 中，图像的 token 化方案采用了一个学习型图像分词器，它将基于大小为 8192 的 codebook 将 512 × 512 的图像编码成 1024 个离散 token。对于文本的分词将使用一个词表大小为 65,536 的 BPE 分词器，其中包含图像 token。这种统一的分词方法可以让模型无缝处理图像和文本 token 交织错杂的任意序列。

借助这种方法，新模型继承了表征统一、灵活性好、可扩展性高、支持端到端学习这些优点。

在此基础上（图 1a），为了进一步提升早融合模型的效率和性能，该团队还引入了模态感知型稀疏性技术。

51c大模型~合集29_大模型

宽度扩展：模态感知型混合专家

该团队提出了一种宽度扩展方法：将模态感知型模块稀疏性集成到前向模块中，从而扩展标准混合专家（MoE）架构。

该方法基于这一洞见：不同模态的 token 有各自不同的特征和信息密度。

通过为每个模态构建不同的专家分组，可让模型开发出专门的处理路径，同时维持跨模态的信息整合能力。

图 1b 展示了这种模态感知型专家混合（MoMa）的关键组件。简单来说，先是对各个特定模态的专家进行分组，然后实现分层路由（分为模态感知型路由和模态内路由），最后选择专家。详细过程参见原论文。

总体来说，对于一个输入 token x，MoMa 模块的形式化定义为：

51c大模型~合集29_大模型_02

在 MoMa 计算之后，该团队又进一步使用了残差连接和 Swin Transformer 归一化。

Mixture-of-Depths（MoD）

之前也有研究者探索将稀疏性引入深度维度，他们的做法要么是随机丢弃某些层，要么就是使用可学习的路由器。

具体而言，如下图所示，该团队的做法是在每个 MoD 层中，在混合专家（MoE）路由之前都集成 MoD，从而确保在模态分离之前，整批数据都能应用 MoD。

51c大模型~合集29_大模型_03

推理

在推理阶段，我们不能直接使用 MoE 的专家选择路由或 MoD 的层选择路由，因为在一批数据中进行 top-k（选择前 k 个）选择会破坏因果关系。

为了保证推理的因果关系，受上述 MoD 论文的启发，研究团队引入了辅助路由器（auxiliary router），其作用是仅基于 token 的隐藏表征预测该 token 被某个专家或层选中的可能性。

升级改造（Upcycling）

在优化表征空间和路由机制方面，对于一个从头开始训练 MoE 架构，存在一个独特的难题。该团队发现：MoE 路由器负责为每个专家划分表征空间。但是，在模型训练的早期阶段，这个表征空间并非最优，这就会导致训练得到的路由函数也是次优的。

为了克服这一局限，他们基于 Komatsuzaki 等人的论文《Sparse upcycling: Training mixture-of-experts from dense checkpoints》提出了一种升级改造方法。

具体来说，首先训练一个每个模态都有一个 FFN 专家的架构。经过一些预先设定的步数之后，再对该模型进行升级改造，具体做法是：将每个特定模态的 FFN 转换成一个专家选择式 MoE 模块，并将每个专家初始化为第一阶段训练的专家。这里会在保留前一阶段的数据加载器状态的同时重置学习率调度器，以确保第二阶段的训练能使用已刷新的数据。

为了促进专家更加专业，该团队还使用了 Gumbel 噪声来增强 MoE 路由函数，从而使得新的路由器能以可微分的方式对专家进行采样。

这种升级改造方法加上 Gumbel-Sigmoid 技术，可克服学习到的路由器的局限性，从而提升新提出的模态感知型稀疏架构的性能。

效率优化

为促进 MoMa 的分布式训练，该团队采用了完全分片式数据并行（FSDP/Fully Sharded Data Parallel）。但是，相比于常规 MoE，该方法存在一些特有的效率难题，包括负载平衡问题和专家执行的效率问题。

对于负载平衡问题，该团队开发了一种平衡的数据混合方法，可让每台 GPU 上的文本 - 图像数据比例与专家比例保持一致。

对于专家执行的效率问题，该团队探索了一些策略，可帮助提升不同模态的专家的执行效率：

将各个模态的专家限制为同构的专家，并禁止将文本 token 路由到图像专家，反之亦然；
使用模块稀疏性（block sparsity）来提升执行效率；
当模态的数量有限时，按顺序运行不同模态的专家。

由于实验中每台 GPU 处理的 token 都足够多，因此即使使用多个分批次矩阵乘法，硬件利用率也不算大问题。因此，该团队认为对于当前规模的实验环境而言，按顺序执行的方法是比较好的选择。

其它优化

为了进一步提升吞吐量，该团队还采用了其它一些优化技术。

其中包括降低梯度通信量、自动化的 GPU 核融合等一般优化操作，研究团队还通过 torch.compile 实现了图优化。

此外，他们还针对 MoMa 开发了一些优化技术，包括跨不同层复用模态 token 索引，以最高效地同步 CPU 和 GPU 之间的设备。

实验

设置

实验中使用的预训练数据集和预处理过程与 Chameleon 一样。为了评估扩展性能，他们训练模型使用的 token 数量超过 1 万亿。

51c大模型~合集29_大模型_04

表 1 给出了密集和稀疏模型的详细配置情况。

不同计算层级的扩展性能

该团队分析了不同模型在不同计算层级上的扩展性能，这些计算层级（FLOPs）相当于三种大小的密集模型：90M、435M 和 1.4B。

实验结果表明，一个稀疏模型仅使用总 FLOPs 的 1/η 就能比肩同等 FLOPs 的密集模型的预训练损失（η 表示预训练加速因子）。

模态解绑

引入特定模态的专家分组可提高不同规模模型的预训练效率，这对图像模态尤其有益。如图 3 所示，使用 1 个图像专家和 1 个文本专家的 moe_1t1i 配置显著优于相应的密集模型。

51c大模型~合集29_大模型_05

扩展每个模态分组的专家数量还能进一步提升模型性能。

混合深度与专家

该团队观察到，当采用 MoE 和 MoD 以及它们的组合形式时，训练损失的收敛速度会得到提升。如图 4 所示，向 moe_1t1i 架构添加 MoD（mod_moe_1t1i）可大幅提升不同模型大小的模型性能。

51c大模型~合集29_大模型_06

此外，在不同的模型大小和模态上，mod_moe_1t1i 能媲美甚至超过 moe_4t4i，这表明在深度维度上引入稀疏性也能有效提升训练效率。

另一方面，还能看到堆叠 MoD 和 MoE 的收益会逐步下降。

扩展专家的数量

为了研究扩展专家数量的影响，该团队进行了进一步的消融实验。他们探索了两种场景：为每种模态分配同等数量的专家（平衡）以及为每种模态分配不同数量的专家（不平衡）。结果见图 5。

51c大模型~合集29_大模型_07

对于平衡的设置，从图 5a 可以看到，随着专家数量提升，训练损失会明显下降。但文本和图像损失表现出了不同的扩展模式。这表明每种模态的固有特性会导致出现不同的稀疏建模行为。

对于不平衡的设置，图 5b 比较了同等专家总数（8）的三种不同配置。可以看到，一个模态的专家越多，模型在该模态上的表现通常就越好。

升级改造

该团队自然也验证了前述的升级改造的效果。图 6 比较了不同模型变体的训练曲线。

51c大模型~合集29_大模型_08

结果表明，升级改造确实能进一步改善模型训练：当第一个阶段有 10k 步时，升级改造能带来 1.2 倍的 FLOPs 收益；而当这个步数为 20k 时，也有 1.16 倍的 FLOPs 收益。

此外，还能观察到，随着训练推进，经过升级改造的模型与从头开始训练的模型之间的性能差距会不断增大。

吞吐量分析

稀疏模型通常不能立即带来性能增益，因为稀疏模型会增加动态性和相关的数据平衡问题。为了量化新提出的方法对训练效率的影响，该团队通常控制变量实验比较了不同架构的训练吞吐量。结果见表 2。

51c大模型~合集29_大模型_09

可以看到，相比于密集模型，基于模态的稀疏性能实现更好的质量 - 吞吐量权衡，并且能随专家数量增长展现出合理的可扩展性。另一方面，尽管 MoD 变体取得了最好的绝对损失，但由于额外的动态性和不平衡性，它们的计算成本往往也更高。

推理时间性能

该团队也评估了模型在留存的语言建模数据和下游任务上的表现。结果见表 3 和 4。

51c大模型~合集29_大模型_10

如表 3 所示，通过使用多个图像专家，1.4B MoMa 1t1i 模型在大多数指标上都优于相应的密集模型，只有在 COCO 和 Flickr 上的图像到文本条件困惑度指标例外。进一步扩展专家数量也能提升性能，其中 1.4B MoE 8x 在图像到文本性能上达到了最佳。

此外，如表 4 所示，1.4B MoE 8x 这个模型还非常擅长文本到文本任务。1.4B MoMa 4t4i 在所有条件图像困惑度指标上表现最佳，而其在大多数基准上的文本困惑度也非常接近 1.4B MoE 8x。

总体而言，在混合文本和图像两种模态的数据上，1.4B MoMa 4t4i 模型的建模结果最好。开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用~

#Tell Me More!

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

本文第一作者为清华大学计算机系本科生钱成，何秉翔。两人均为 THUNLP 成员。钱成主要研究兴趣为工具学习，大模型驱动智能体，即将就读 UIUC 博士。何秉翔主要研究兴趣为大模型对齐与安全，即将就读清华大学博士。本文通讯作者为从鑫与林衍凯，指导教师为刘知远副教授。

在人工智能迅猛发展的今天，我们不断探索着机器的智能化，但却往往忽视了这些智能体如何深层地理解我们 —— 它们的创造者。我们人类在生活中的每一次互动，每一句话语，每一个行为，都充斥着意图和情感。但真正的挑战在于：这些隐式的意图如何被智能体捕捉、解析并作出反应？传统的智能体对明确的命令反应迅速，然而在理解复杂的人类隐式意图上，它们往往显得力不从心。

近年来，GPT 和 LLaMA 等语言模型展示了在解决复杂任务上的惊人能力。然而，尽管以它们作为核心的智能体擅长制定策略、执行任务，却很少兼顾鲁棒的用户交互策略。用户给出的任务通常是模糊和简短的，这就需要智能体不仅能理解我们的字面请求，更要能透视我们的隐式意图。

因此，让新一代的智能体落地并为大众所用，需要以人为中心，不仅仅关注于任务执行的精确度，更关注于如何与人类建立起一种更加自然、流畅而富有洞察力的沟通方式。

为了弥补这一缺失，近期来自清华大学、人民大学、以及腾讯的联合团队提出了一种全新的智能体交互设计方案。该工作首先引入了 Intention-in-Interaction（IN3）这一全新的基准测试，旨在通过与用户明确的交互来理解用户的隐式意图。

以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后，文章对完全态的智能体系统进行了全面评估。

结果显示，这套方案在识别模糊用户任务、恢复和总结关键缺失信息、设定精确且必要的智能体执行目标、以及减少冗余工具使用等诸多方面有着突出表现。这一创新的方法，不仅填补了智能体与用户交互的空白，将人类真正置于智能体设计的中心，同时意味着我们正在向着设计更加符合人类意图的智能体的目标迈进一步。

论文标题：Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
论文链接：https://arxiv.org/abs/2402.09205
代码仓库：https://github.com/HBX-hbx/Mistral-Interact
开源模型：https://huggingface.co/hbx/Mistral-Interact
开源数据集：https://huggingface.co/datasets/hbx/IN3

51c大模型~合集29_大模型_11

智能体系统对于模糊任务和清晰任务执行的对比

Intention-in-Interaction 基准测试

当前的智能体基准测试通常假设给定的任务是清晰的，并没有把用户意图理解当作评估的重要方面。鉴于评估指标的不完备性，该工作制定了 Intention-in-Interaction（IN3）基准测试，旨在通过明确的任务模糊性判断和用户意图理解来评测智能体的交互能力。

51c大模型~合集29_大模型_12

IN3 基准数据的构造过程

如上图所示，基于人类编写的种子任务为 Step 1，模型迭代生成新任务以增强数据集，同时从数据集中采样以作为下一轮生成的新示例（Step 2）。在这种 Self-Instruct 的生成方式后，再对每个任务的模糊度、缺失细节以及每个细节的重要程度和潜在的选项进行人工标注（Step 3）。

Mistral-Interact 训练过程

由于大语言模型处于智能体设计的核心位置，该工作首先进行了一项初步研究，评估当前开源和闭源模型在交互过程中的隐式意图理解能力。

具体地，文章从 IN3 中随机抽取了十个任务，将它们应用于测试 LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2 和 GPT-4 并指示这些模型 i）判断任务的模糊度，ii）在任务模糊时询问用户缺失的细节，iii）总结详细的用户任务。

51c大模型~合集29_大模型_13

隐式意图理解初步研究中各个模型的定量与定性结果展示

由结果可见，Mistral 在一定程度上表现更好，但仍然存在对人类意图理解不足的问题。相比之下，GPT-4 在任务模糊度和重要缺失细节方面与人类意图最为接近。同时，初步探索也表明，为了进一步提升智能体在交互中的隐式意图理解能力，单纯的提示工程（prompt engineering）是不够的，有必要以当前开源模型为基础，进一步训练，以达到可以在智能体落地应用的程度。

51c大模型~合集29_大模型_14

训练数据（IN3 对话记录）的构造过程

参照上图，根据 IN3 关于任务模糊度、缺失细节和潜在选项的标注，文章在构建对话记录过程中应用了若干策略（橙色框），其中包括：清晰初始推理链的构造、带有建议选项的询问构造、不同用户回答语气的构造、以及清晰总结推理链的构造。这几种对话构造策略将更好地激发目标模型的询问以及推理能力。

智能体交互能力全面评估

智能体的隐式意图理解能力既可以通过用户交互来直接评估，也可以通过智能体执行下游任务来间接评估。其中，用户交互关注意图理解本身，而任务执行关注意图理解的最终目的，即增强智能体处理任务的能力。

因此，为了全面评估可交互智能体设计，文章将实验分为两个部分：i）指令理解：评估智能体在用户交互期间的意图理解能力；ii）指令执行：评估集成了交互模型后智能体的任务执行表现。

指令理解并不涉及任何实时的智能体执行，因此文章直接评估了不同语言模型在交互过程中的表现，以判断其作为智能体设计中的上游模块的交互能力，结果如下表所示：

51c大模型~合集29_大模型_15

指令理解测试结果，其中箭头代表得分越高 / 越低则能力更强

结果表明，Mistral-Interact 能够更好地理解用户的意图，在判断任务模糊度以及缺失细节的覆盖率等指标上表现最佳，而且能够基于详细的用户意图进行明确而全面的总结。相较于其他开源模型，Mistral-Interact 在询问模糊任务中的缺失细节方面能提供更加合理的选项，询问方式更加友好，并与 GPT-4 的表现不相上下。

在指令执行方面，为了评估隐式意图理解对于智能体任务执行有效性，文章将 Mistral-Interact 作为上游交互模块整合到 XAgent 框架中进行测试。其中，XAgent 可以在诸如网络搜索、代码执行、命令行和文件系统等环境中进行交互。

51c大模型~合集29_大模型_16

指令执行测试结果 (ST 代表 subtask，MS 代表 milestone)

上表呈现了智能体任务执行的定量评估结果，结果表明整合 Mistral-Interact 有助于：i）在执行过程中避免设定不必要的目标，ii）使智能体的执行过程更加符合详细的用户意图，以及 iii）减少不必要的工具调用，促进智能体工具使用效率。

智能体交互案例分析

在指令理解方面，为了进一步展示 Mistral-Interact 在不同对话场景下的鲁棒性，文章还提供了三个案例分析。

51c大模型~合集29_大模型_17

Mistral-Interact 与用户在不同场景下的案例分析

案例 A 展示了不同用户语气和对话风格对 Mistral-Interact 的影响。文章发现，无论用户的回答是简短还是详细，热情还是冷漠，甚至包含拼写错误，Mistral-Interact 都能准确理解并提供适当的回应，证明了其鲁棒性。

在案例 B 测试了当用户表现出不合作的态度时，Mistral-Interact 是否能够继续追问并引导对话回到正轨。结果显示，即使用户回避问题，其仍然能够有效地重新引导对话。

在案例 C 中可以观察到 Mistral-Interact 可以将用户提供的额外信息纳入总结，而这些信息并没有被交互模型明确询问。这表明，当模型的询问无法完全覆盖缺失细节或用户有特定要求时，模型仍然能够合理而全面地总结所有用户意图，从而使其更加用户友好。

在指令执行方面，为了更清晰阐明 Mistral-Interact 的作用，下图中提供了一个比较的案例研究。

51c大模型~合集29_大模型_18

智能体与 Mistral-Interact 交互前后的执行过程的案例研究

根据上图中标记为浅红色的文本，可以发现当用户的目标模糊时，XAgent 无法准确设定精确反映用户需求的子任务。根据标记为紫色的文本，可以发现 XAgent 时常会设置一些不必要的子任务。这些均因为用户的任务过于模糊而无法执行，智能体倾向于虚构一些不必要的细节，从而与用户的真实意图不符。

相比之下，在与 Mistral-Interact 进行积极交互后，明确的任务目标能够让 XAgent 制定更具体的子任务。图中标记为绿色的文本展示了这种一致性。同时，智能体执行流程变得更加简单，工具调用次数也有所减少。所有这些都反映了一个更加高效的智能体执行过程。

结语

我们正站在一个全新的起点，准备见证一个人机协同、相互理解与学习的新篇章。智能体即将不再是冰冷的信息处理器，而是充满同理心的伙伴，它们能够通过细腻的交互体验，深刻理解我们背后可能并没有最初明确表达的需求和愿望。这场以人为中心的智能体设计革命，将揭示出交互中的无限可能性，进而让智能体真正成为我们生活中不可或缺的助力。

#基于欧几里得Transformer的新计算方法

2.5天完成1年的MD计算？DeepMind团队基于欧几里得Transformer的新计算方法

近年来，基于从头算参考计算的机器学习力场 (MLFF) 的开发取得了巨大进展。虽然实现了较低的测试误差，但由于担心在较长的模拟时间范围内会出现不稳定性，MLFF 在分子动力学 (MD) 模拟中的可靠性正面临越来越多的审查。

研究表明，对累积不准确性的稳健性与 MLFF 中使用等变表示之间存在潜在联系，但与这些表示相关的计算成本可能会在实践中限制这种优势。

为了解决这个问题，Google DeepMind、柏林工业大学（TU Berlin）的研究人员提出了一种名为 SO3krates 的 transformer 架构，它将稀疏等变表示（欧几里得变量）与分离不变和等变信息的自注意力机制相结合，从而无需昂贵的张量积。

SO3krates 实现了精确度、稳定性和速度的独特组合，能够对长时间和系统尺度上的物质量子特性进行深入分析。

该研究以「A Euclidean transformer for fast and stable machine learned force fields」为题，于 2024 年 8 月 6 日发布在《Nature Communications》。

背景与挑战性

分子动力学（MD）模拟通过长时间尺度的模拟，可以揭示系统从微观相互作用到宏观性质的演变，其预测精度取决于驱动模拟的原子间力的精确度。传统上，这些力来源于近似的力场（FF）或计算复杂的从头计算电子结构方法。

近年来，机器学习（ML）势能模型通过利用分子系统的统计依赖性，提供了更灵活的预测手段。

然而，研究表明，ML模型在基准数据集上的测试误差与长时间尺度MD模拟中的表现相关性较弱。

为改善外推性能，消息传递神经网络（MPNNs）等复杂架构被开发，特别是等变MPNNs，通过引入张量积捕捉原子间的方向信息，提高了数据的可转移性。

在 SO(3) 等变架构中，卷积是在球谐函数基础上对 SO(3) 旋转群进行的。通过固定架构中球谐函数的最大次数

51c大模型~合集29_大模型_19

，可以避免相关函数空间的指数增长。

科学家已证明最大阶数与准确度、数据效率密切相关，并与 MD 模拟中模型的可靠性相关。然而，SO(3) 卷积的规模为

51c大模型~合集29_大模型_20

，与不变模型相比，这可以将每个构象的预测时间增加多达两个数量级。

这导致了一种必须在准确性、稳定性和速度之间做出妥协的情况，还可能会带来重大的实际问题。必须先解决这些问题，这些模型才能在高通量或广泛的探索任务中发挥作用。

性能强劲的新方法

Google DeepMind、柏林工业大学的研究团队以此为动机，提出了一种欧几里得自注意力（Euclidean self-attention）机制，用原子邻域相对方向的过滤器代替 SO(3) 卷积，从而无需昂贵的张量积即可表示原子相互作用；该方法称为称为 SO3krates。

51c大模型~合集29_大模型_21

图示：SO3krates架构和构建块。（来源：论文）

该解决方案建立在神经网络架构设计和几何深度学习领域的最新进展之上。SO3krates 使用稀疏表示来表示分子几何形状，并将所有卷积响应的投影限制在等变基函数中最相关的不变分量上。

51c大模型~合集29_大模型_22

图示：学习不变量。（来源：论文）

由于球谐函数的正交性，这种投影对应于乘积张量的迹，可以用线性缩放内积来表示。这可以高效地扩展到高阶等变表示，而不会牺牲计算速度和内存成本。

力预测是根据所得的不变能量模型的梯度得出的，该模型代表自然等变的分段线性化。整个过程中，自注意力机制用于分离模型中的不变和等变基础元素。

该团队比较了 SO3krates 模型的与当前最先进的 ML 模型的稳定性和速度，发现该解决方案克服了当前等变 MLFF 的局限性，同时又不损害它们的优势。

研究人员提出的数学公式可以实现高效的等变架构，从而实现可靠稳定的 MD 模拟；与具有相当稳定性和准确性的等变 MPNN 相比，其速度可提高约 30 倍。

为了证明这一点，研究人员仅在几个小时内就对超分子结构运行了精确的纳秒级 MD 模拟，这使他们能够计算出从具有 42 个原子的小肽到具有 370 个原子的纳米结构的结构的收敛速度自相关函数的傅里叶变换。

51c大模型~合集29_大模型_23

图示：结果概述。（来源：论文）

研究人员进一步应用该模型，通过使用最小值跳跃算法研究 10k 最小值，探索二十二碳六烯酸 (DHA) 和 Ac-Ala3-NHMe 的 PES 拓扑结构。

这样的研究需要大约 30M FF 评估，这些评估在几百 K 到 1200 K 之间的温度下进行。使用 DFT 方法，这种分析需要一年以上的计算时间。现有的具有类似预测精度的等变 MLFF 需要运行一个多月才能完成此类分析。

相比之下，该团队仅用 2.5 天就能完成模拟，从而有可能在实际时间尺度上探索数十万个 PES 最小值。

此外，SO3krates 能够检测训练数据中未包含的物理有效最小构象。外推到 PES 未知部分的能力对于将 MLFF 扩展到大型结构至关重要，因为可用的从头算参考数据只能覆盖构象丰富的结构的子区域。

该团队还研究了在网络架构中禁用等方差属性的影响，以更深入地了解其对模型特性及其在 MD 模拟中的可靠性的影响。

研究人员发现，等变性与所得 MD 模拟的稳定性以及更高温度的外推行为有关。能够证明，即使测试误差估计平均相同，等变性也会降低误差分布的扩散。

51c大模型~合集29_大模型_24

图示：计算效率和 MD 稳定性。（来源：论文）

因此，通过等变表示使用方向信息在精神上与经典 ML 理论类似，其中映射到更高的维度可以产生更丰富的特征空间，这些特征空间更容易参数化。

未来的研究

在最近的一系列研究中，提出了旨在降低 SO(3) 卷积计算复杂度的方法。它们可以作为完整 SO(3) 卷积的替代品，而本文介绍的方法可以在消息传递范式中完全避免使用昂贵的 SO(3) 卷积。

这些结果都表明，等变相互作用的优化是一个尚未完全成熟的活跃研究领域，可能提供进一步改进的途径。

51c大模型~合集29_大模型_25

图示：稳定、长时间尺度的 MD 模拟和对更大生物分子的外推。（来源：论文）

虽然该团队的工作，使得使用现代 MLFF 建模范式可以实现稳定的扩展模拟时间尺度，但未来仍需进行优化，以使 MLFF 的适用性更接近传统的经典 FF。

目前，该方向出现了各种有潜力的途径：在当前设计中，EV 仅根据二体相互作用进行定义。通过将原子簇扩展纳入 MP 步骤，可以进一步提高准确性。同时，这可能有助于减少 MP 步骤的数量，从而降低模型的计算复杂度。

另一个尚未讨论的问题是全局效应的适当处理。通过使用低秩近似、可训练的 Ewald 求和或通过以物理启发的方式学习长程校正。当需要外推到更大的系统时，后一种类型的方法尤为重要。

虽然等变模型可以提高局部相互作用的外推能力，但对于超出训练数据中存在的长度尺度或超出模型有效截止值的相互作用，这并不适用。

由于上述方法依赖于局部属性，例如部分电荷、电负性或赫什菲尔德体积，因此可以通过学习 SO3krates 架构的不变特征分支中的相应局部描述符，将它们无缝集成到该团队的方法中。

因此，未来的工作将集中于将多体展开、全局效应和长程相互作用纳入 EV 形式，并旨在进一步提高计算效率，最终以高精度跨越 MD 时间尺度。

论文链接：https://www.nature.com/articles/s41467-024-50620-6

#我们离真正的多模态思维链推理还有多远

该文章的第一作者陈麒光，目前就读于哈工大赛尔实验室。他的主要研究方向包括大模型思维链、跨语言大模型等。

在过去的几年中，大型语言模型（Large Language Models, LLMs）在自然语言处理（NLP）领域取得了突破性的进展。这些模型不仅能够理解复杂的语境，还能够生成连贯且逻辑严谨的文本。

然而，随着科技的发展和应用场景的多样化，单一文本模态的能力显然已经不能满足现代需求。人们日益期待能够处理和理解多种模态信息（如图像、视频、音频等）的智能系统，以应对更复杂的任务和场景。研究者们开始尝试将文本 CoT 的能力扩展到多模态思维链推理领域，以应对更加复杂和多样化的任务需求。

最早的多模态思维链研究之一是由 Lu 等人 [1] 引入的 ScienceQA 基准，该基准结合了视觉和语言信息，推动了多模态思维链（Multi-modal Chain of Thought, MCoT）的研究。ScienceQA 数据集的出现，使得研究者们能够在一个统一的框架下评估多模态模型的思维链推理能力。

进一步地，Zhang 等人 [2] 的研究更是将 MCoT 的性能推向了一个新高，使得模型在 ScienceQA 数据集上的表现超过了人类的水平 (93%>88%)。然而，当前的多模态思维链研究是否真正解决了所有挑战？随着 ScienceQA 等基准测试的成绩不断刷新，我们是否可以认为多模态推理问题已经迎刃而解？

研究者们通过深入分析发现，当前的多模态思维链基准仍然存在严重的问题，导致对模型实际能力的高估。当前的多模态思维链基准仍面临以下三个严重的问题：视觉模态推理缺失、仅有单步视觉模态推理以及领域覆盖不足。

这些问题严重制约了多模态思维链领域的发展。因此，研究者提出了一个新的基准

51c大模型~合集29_大模型_26

（Multi-Domain Multi-step Multi-modal Chain-of-Thought），旨在解决上述问题，并推动多领域、多步和多模态思维链的进步。研究者们还进行了全面的评估，涉及丰富的多模态推理设置与方法。

研究者们还发现当前的多模态大模型在

51c大模型~合集29_大模型_27

上的表现存在巨大的性能缺陷，尽管它们在以前的传统多模态思维链基准上表现优异。最后，研究团队希望

51c大模型~合集29_大模型_28

能够成为一个有价值的资源，为多领域、多步和多模态思维链的研究提供开创性的基础。

榜单地址：https://lightchen233.github.io/M3CoT.github.io/leaderboard.html
论文地址：https://arxiv.org/abs/2405.16473
代码地址：https://github.com/LightChen233/M3CoT

动机

尽管在 MCoT 研究领域取得了显著进展，但现有基准仍然存在诸多不足：

1. 视觉模态推理缺失：模型往往可以仅基于文本模态生成推理和答案，这并不能真实反映多模态 CoT 模型的能力。

2. 单步视觉模态推理：比如说，只需要看到单次图片中的 “羽毛” 便可直接获得答案。而在实际应用中，多步推理更为常见和必要，要求模型在推理的过程中动态的多次结合多模态信息进行综合推理。

3. 领域缺失：对于思维链来说，常识推理和数学推理是该领域的重要组成部分，而现有基准缺乏对常识和数学等重要领域的覆盖，限制了多模态 CoT 能力的综合评估。

51c大模型~合集29_大模型_29

针对以上问题，研究者们开发了一个新基准

51c大模型~合集29_大模型_30

，并希望推动多领域、多步和多模态思维链的研究与发展。

51c大模型~合集29_大模型_31

数据构建过程

51c大模型~合集29_大模型_32

51c大模型~合集29_大模型_33

的构建涉及如下四个关键阶段：

视觉模态推理缺失样本移除

：首先，为解决视觉模态推理缺失的问题，

51c大模型~合集29_大模型_34

多步多模态样本构建

：这一阶段中，为了保证基准满足多步多模态的要求，

51c大模型~合集29_大模型_35

多模态 CoT 领域增强

：此外，

51c大模型~合集29_大模型_36

质量检查

：为了保证数据集的质量，

51c大模型~合集29_大模型_37

主流多模态大语言模型评测结果

研究者们在多个大型视觉语言模型（VLLMs）上进行了广泛的实验，包括 Kosmos-2、InstructBLIP、LLaVA-V1.5、CogVLM、Gemini 和 GPT4V 等。研究者们还探索了一些提示策略，如直接提交样本、思维链提示（CoT）[3] 以及描述性提示（Desp-CoT）[4] 和场景图思维链提示策略（CCoT）[5]。

实验结果与结论如下所示：

开源模型与 GPT4V 仍有差距

：尽管这些模型在现有基准测试中表现优异，但在

51c大模型~合集29_大模型_38

GPT4V 与人类仍有差距

：此外，尽管 GPT4V 在

51c大模型~合集29_大模型_39

多模态思维链涌现现象：视觉大模型在参数级别超过 100 亿（≥13B）时表现出思维链涌现现象。

51c大模型~合集29_大模型_40

分析

此外，为了回答如何能够在

51c大模型~合集29_大模型_41

上获得更好的表现。研究者们提供了更全面的分析，从而揭示了当前 VLLMs 在多步多模态推理方面的显著不足，为未来的优化提供了方向。

单步推理任务的表现远优于多步推理任务。模型在解决多步多模态推理时性能与单步多模态推理有接近 30% 的差距，且随步骤数增加，性能递减。这表明模型在处理复杂多步骤推理时仍存在困难。
提高模型生成的推理过程质量对于提升
通过评估多维度的推理质量，研究者们观察到推理质量的提升与
的性能呈现指数级相关关系。提升多模态推理的逻辑质量是解决

51c大模型~合集29_大模型_46

多模态信息交互的增加能够显著提升模型的推理性能。由于
要求推理时动态的包含多个跨模态推理步骤，则至少有 2 步跨模态推理，而现有模型推理过程中，平均的跨模态推理步骤数小于 1。这说明未来的研究应注重提高推理过程的质量和多模态信息的交互，以解决当前模型在

51c大模型~合集29_大模型_49

探索

在此基础上，研究者们进一步探究了当前各种常用的多模态方法与设置，探究是否能够有效的解决

51c大模型~合集29_大模型_50

中的问题。

工具使用探索

在多模态推理中，工具使用被认为是提高模型性能的一种有效策略。研究者们在实验中评估了多种工具使用方法，包括 HuggingGPT、VisualChatGPT、IdealGPT 和 Chameleon 等模型。

文本大模型使用多模态工具在

51c大模型~合集29_大模型_51

上表现不佳：实验结果表明，尽管这些工具在单模态任务中表现良好，但在

51c大模型~合集29_大模型_52

基准上的表现仍存在显著差距。例如，HuggingGPT 在处理复杂的多步推理任务时，由于缺乏对视觉信息的有效利用，表现较为逊色。此外，VisualChatGPT 和 IdealGPT 在处理需要多模态交互的任务时，表现也未能达到预期。这些结果表明，当前的工具使用框架需要进一步改进，以更好地整合和利用多模态信息。

51c大模型~合集29_大模型_53

上下文学习探索

在上下文学习方面，研究者们探索了不同的示例策略对模型性能的影响。具体而言，研究者们评估了纯文本示例以检测模型在多模态推理时是否会进行文本形式的学习，同时还评估了多模态示例以检测模型在多模态推理时是否会利用多模态示例进行上下文学习。

纯文本示例无法提高

51c大模型~合集29_大模型_54

上的性能：实验结果显示，对于纯文本示例来说，这些样本数量对模型性能影响几乎可以忽略不计，这说明，纯粹的文本形式的模仿并不足以解决

51c大模型~合集29_大模型_55

问题。

图像和文本交错的多模态示例甚至可能会损害

51c大模型~合集29_大模型_56

上的性能：对于多模态示例来说，上下文学习仅仅能够提高较大模型的能力。然而，对于一些训练过多模态交互数据的模型来说，甚至会随着样本数量增加而出现性能下降。因此，研究者们认为，未来需要将包含逻辑的更高质量的图像和文本交错示例用于上下文学习的训练，并增强多模态大模型的多模态交互能力，才能够在一定程度上改善模型的表现。

51c大模型~合集29_大模型_57

指令微调探索

为了进一步提高模型在

51c大模型~合集29_大模型_58

上的表现，研究者们进行了微调实验。

指令微调能够显著增强传统视觉语言模型（VLMs）的性能：指令微调使传统视觉语言模型超越零样本视觉大模型，这就是我们的数据集在提高 VLM 有效性方面的价值。经过微调的 VLM（最低为 44.85%）优于大多数具有零样本提示的开源 VLLM（最高为 38.86%）。

指令微调能够进一步地增强大型视觉语言模型的性能：通过在

51c大模型~合集29_大模型_59

数据集上进行微调，LLaVA-V1.5-13B 模型的整体准确率提高了近 20%，并接近了 GPT4V 的水平。

因此，研究者们建议未来的研究可以更多地关注指令微调技术，以进一步提升多模态推理模型的表现。

51c大模型~合集29_大模型_60

结论及展望

研究者们引入了一个新的基准

51c大模型~合集29_大模型_61

，旨在推动多领域、多步和多模态思维链的研究。研究者们的实验和分析表明，尽管现有的 VLLMs 在某些任务上表现优异，但在更复杂的多模态推理任务上仍有很大改进空间。通过提出

51c大模型~合集29_大模型_62

，研究者们希望能够重新评估现有的进展，并通过指出新的挑战和机会，激发未来的研究。研究者们期待

51c大模型~合集29_大模型_63

能够成为一个有价值的资源，为多领域、多步和多模态思维链的研究提供开创性的基础。

#PhAI

数百万晶体数据训练、解决晶体学相位问题，深度学习方法PhAI登Science

时至今日，晶体学所测定的结构细节和精度，从简单的金属到大型膜蛋白，是任何其他方法都无法比拟的。然而，最大的挑战——所谓的相位问题，仍然是从实验确定的振幅中检索相位信息。

丹麦哥本哈根大学研究人员，开发了一种解决晶体相问题的深度学习方法 PhAI，利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络，可以生成准确的电子密度图。

研究表明，这种基于深度学习的从头算结构解决方案方法，可以以仅 2 埃的分辨率解决相位问题，该分辨率仅相当于原子分辨率可用数据的 10% 到 20%，而传统的从头算方法通常需要原子分辨率。

相关研究以《PhAI: A deep-learning approach to solve the crystallographic phase problem》为题，于 8 月 1 日发布在《Science》上。

论文链接：https://www.science.org/doi/10.1126/science.adn2777

晶体学是自然科学中的核心分析技术之一。X 射线晶体学为晶体的三维结构提供了独特的视角。为了重建电子密度图，必须知道足够多的衍射反射的复杂结构因子 F。在传统实验中，只能获得振幅 |F|，而相位 ϕ 会丢失。这是晶体学相位问题。

51c大模型~合集29_大模型_64

图示：标准晶体结构测定流程图。（来源：论文）

20 世纪 50 年代和 60 年代取得了重大突破，Karle 和 Hauptmann 开发了用于解决相位问题的所谓直接方法。但直接法需要原子分辨率的衍射数据。然而，原子分辨率的要求是一种经验观察。

近年来，传统的直接方法已被对偶空间方法所补充。目前可用的从头算方法似乎已达到极限。相位问题的普遍解决方案仍然未知。

从数学上讲，结构因子振幅与相位的任何组合都可以进行逆傅里叶变换。然而，物理和化学要求（例如具有原子状电子密度分布）对与一组振幅一致的相位的可能组合施加了规则。深度学习的进步使得人们能够探索这种关系，也许比目前的从头算方法更深入。

在此，哥本哈根大学的研究人员采用了数据驱动的方法，使用数百万个人造晶体结构及其相应的衍射数据，旨在解决晶体学中的相位问题。

研究表明，这种基于深度学习的从头算结构解决方案方法，可以在仅最小晶格平面距离（dmin）= 2.0 Å 的分辨率下执行，只需要使用直接方法所需数据的 10% 到 20%。

神经网络的设计与训练

构建的人神经网络称之为 PhAI，接受结构因子振幅 |F| 并输出相应的相位值 ϕ 。PhAI 的架构如下图所示。

51c大模型~合集29_大模型_65

图示：PhAI 神经网络方法解决相位问题。（来源：论文）

晶体结构的结构因子数量取决于晶胞大小。根据计算资源，对输入数据的大小设置了限制。输入结构因子振幅是根据 Miller 指数 (h、k、l) 服从

51c大模型~合集29_大模型_66

的反射来选择的。

也就是，限制在原子分辨率下晶胞尺寸约为 10 Å 的结构。此外，选择了最常见的中心对称空间群 P21/c。中心对称性将可能的相位值限制为零或 π rad。

研究使用主要包含有机分子的人工晶体结构训练神经网络。创建了大约 49,000,000 个结构，其中有机晶体结构占 94.29%，金属有机晶体结构占 5.66%，无机晶体结构占 0.05%。

神经网络的输入由振幅和相位组成，它们由卷积输入块处理，添加并输入到一系列卷积块（Conv3D）中，然后是一系列多层感知器（MLP）块。来自线性分类器（相位分类器）的预测相位通过网络循环 Nc 次。训练数据是通过将 GDB-13 数据库中的金属原子和有机分子插入到晶胞中生成的。生成的结构被组织成训练数据，从中可以计算出在采样温度因子、分辨率和完整性时的真实相位和结构因子振幅。

解决真实结构问题

经过训练的神经网络在标准计算机上运行，计算需求适中。它接受 hkl 索引列表和相应的结构因子振幅作为输入。不需要其他输入信息，甚至不需要结构的晶胞参数。这与所有其他现代从头算方法有着根本区别。网络可以即时预测并输出相位值。

研究人员使用计算得出的真实晶体结构的衍射数据测试了神经网络的性能。共获得 2387 个测试用例。对于所有收集的结构，考虑了多个数据分辨率值，范围从 1.0 到 2.0 Å。为了进行比较，还使用了电荷翻转方法来检索相位信息。

51c大模型~合集29_大模型_67

图示：相位和真实电子密度图之间的相关系数 r 的直方图。（来源：论文）

经过训练的神经网络表现出色；如果相应的衍射数据分辨率良好，它可以解决所有测试结构（N = 2387），并且在从低分辨率数据中解决结构方面表现出色。尽管神经网络几乎没有针对无机结构进行训练，但它可以完美地解决此类结构。

电荷翻转法在处理高分辨率数据时表现优异，但随着数据分辨率的降低，其产生合理正确解的能力逐渐下降；然而，它仍然以 1.6Å 的分辨率解决了大约 32% 的结构。通过进一步试验和更改输入参数（例如翻转阈值），可以改善通过电荷翻转确定的结构数量。

在 PhAI 方法中，这种元优化是在训练期间执行的，不需要由用户执行。这些结果表明，在晶体学中必须有原子分辨率数据才能从头算相位的普遍观念可能被打破。PhAI 仅需要 10% 至 20% 的原子分辨率数据。

这一结果清楚地表明，原子分辨率对于从头算方法来说不是必需的，并为基于深度学习的结构测定开辟了新途径。

这种深度学习方法的挑战是扩展神经网络，也就是说，较大晶胞的衍射数据将需要大量的输入和输出数据以及训练期间的计算成本。未来，需要进一步研究，将该方法扩展到一般情况。

上一篇：51c自动驾驶~合集14

下一篇：51c大模型~合集30

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯