51c大模型~合集7

原创

qq6669490e54384 2024-07-21 00:15:45 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#MTMamba

王座易位？香港科技大学MTMamba，超越 ViT与CNN！

本文作者提出了MTMamba，一种新型的多任务架构，具有基于Mamba的解码器，在多任务场景理解中表现出卓越的性能。

多任务密集场景理解，它学习一个用于多个密集预测任务的模型，具有广泛的应用场景。建模长距离依赖和增强跨任务交互对于多任务密集预测至关重要。
在本文中，作者提出了MTMamba，一个基于Mamba的新型多任务场景理解架构。它包含两种核心块：自任务Mamba（STM）块和跨任务Mamba（CTM）块。STM通过利用Mamba处理长距离依赖，而CTM显式地建模任务交互以促进跨任务的信息交换。在NYUDv2和PASCAL-Context数据集上的实验表明，MTMamba在基于Transformer和基于CNN的方法上取得了优越的性能。
特别值得一提的是，在PASCAL-Context数据集上，MTMamba在语义分割、人体解析和物体边界检测任务上分别比之前最佳方法提高了+2.08、+5.01和+4.90。
代码可在https://github.com/EnVision-Research/MTMamba。

1 Introduction

多任务密集场景理解是计算机视觉中的一个重要问题[36]，并在各种实际应用中具有广泛用途，如自动驾驶[20, 23]、医疗保健[19]和机器人技术[48]。它旨在训练一个模型，能够同时处理多个密集预测任务，如语义分割、单目深度估计、表面法线估计和目标边界检测。

普遍的多任务架构遵循编码器-解码器框架，包括一个用于特征提取的任务共享编码器和用于预测的任务特定解码器[36]。这个框架非常通用，许多变体[42, 43, 37, 46]被提出以改进其在多任务场景理解中的性能。一种有前景的方法是关注解码器的方法[36]，其目标是通过精心设计的融合模块增强任务特定解码器中的跨任务交互。例如，源自卷积神经网络（CNN）的PAD-Net[42]和MTI-Net[37]在解码器中引入了多模态蒸馏模块，以促进不同任务之间的信息融合，性能优于编码器-解码器框架。由于卷积操作主要关注局部特征[2]，最近的方法[43, 46]提出了基于Transformer的解码器以及基于注意力的融合模块。这些方法利用注意力机制捕捉全局上下文信息，性能优于基于CNN的方法。先前的工作表明，增强跨任务相关性以及建模长距离空间关系对于多任务密集预测至关重要。

最近，源自状态空间模型（SSMs）[14, 15]的Mamba[13]这种新型架构，在包括语言建模[12, 13, 39]、图推理[1, 38]、医学图像分析[30, 41]和点云分析[49, 22]在内的各个领域，展示了比Transformer模型更好的长距离依赖建模能力和性能。然而，所有这些工作都关注单一任务学习，而如何采用Mamba进行多任务训练仍有待研究。此外，如何在Mamba中实现跨任务相关性，对于多任务场景理解是至关重要的，这尚未被探索。

为了填补这些空白，在本文中，作者提出了MTMamba，一种新型的多任务架构，具有基于Mamba的解码器，在多任务场景理解中表现出卓越的性能。整体框架如图1所示。MTMamba是一个关注解码器的方法，包括两种核心块：自任务Mamba（STM）块和跨任务Mamba（CTM）块，如图2所示。具体来说，受Mamba启发的STM能够有效地捕捉全局上下文信息。CTM被设计用来通过促进不同任务之间的知识交换，增强每个任务的特征。因此，通过在解码器中STM和CTM块的协作，MTMamba不仅增强了跨任务交互，而且有效地处理了长距离依赖。

51c大模型~合集7_多任务

51c大模型~合集7_多任务_02

作者在两个标准的 multi-task 密集预测基准数据集 NYUDv2[35] 和 PASCAL-Context[6] 上评估了MTMamba。定量结果表明，MTMamba在多任务密集预测上大大超过了基于CNN和Transformer的方法。特别是，在PASCAL-Context数据集上，MTMamba在语义分割、人体解析和目标边界检测任务上分别比之前最佳的性能提高了+2.08、+5.01和+4.90。定性研究表明，MTMamba比最先进的基于Transformer的方法生成了更好的视觉效果，具有更准确的细节。

作者的主要贡献总结如下：

作者提出了MTMamba，一种新型的多任务架构，用于多任务场景理解。它包含一个基于Mamba的新型解码器，有效地建模长距离空间关系并实现跨任务相关性；
作者设计了一种新型的CTM块，以增强多任务密集预测中的跨任务交互；
在两个基准数据集上的实验证明了MTMamba在多任务密集预测上优于先前的基于CNN和Transformer的方法；
定性评估显示，MTMamba捕捉到了具有判别性的特征并生成了精确的预测。

2 Related WorksMulti-Task Learning

多任务学习（MTL）是一种学习范式，旨在在单个模型中同时学习多个任务[50]。最近的多任务学习研究主要关注多目标优化和网络架构设计。在多任务密集场景理解中，现有的大部分工作集中在设计架构[36]，尤其是设计解码器中的特定模块以实现更好的跨任务交互。例如，基于CNN，Xu等人[42]引入了PAD-Net，在解码器中结合了一个有效的多模态蒸馏模块，以促进不同任务之间的信息融合。MTI-Net[37]是一个复杂的多尺度和多任务CNN架构，具有跨不同特征尺度的信息蒸馏。由于卷积操作主要捕捉局部特征[2]，最近的方法[43, 46]利用注意力机制来捕捉全局上下文，并为多任务场景理解开发基于Transformer的解码器。例如，Ye和Xu[46]引入了InvPT，这是一个基于Transformer的多任务架构，使用有效的UPT-Transformer块在不同特征尺度上进行多任务特征交互。MQTransformer[43]设计了一个跨任务 Query 注意力模块，以在解码器中实现有效的任务关联和信息交换。

先前的工作表明，长距离依赖建模和增强跨任务相关性对于多任务密集预测至关重要。与现有方法不同，作者提出了一种源自Mamba的新型多任务架构，以更好地捕捉全局信息并促进跨任务交互。

State Space Models

状态空间模型（SSM）是对动态系统的数学表示，它通过隐藏状态来建模输入输出关系。SSM具有普遍性，在强化学习[16]、计算神经科学[10]和线性动态系统[18]等广泛的应用中取得了巨大成功。最近，SSM被提出作为建模长距离依赖的替代网络架构。与旨在捕捉局部依赖的基于CNN的网络[17, 21]相比，SSM对长序列更为强大；与需要序列长度的二次复杂度的基于Transformer的网络[8, 40]相比，SSM在计算和内存效率方面更高。

最近提出了许多不同的结构来提高SSM的表达能力和效率。Gu等人[14]提出结构化状态空间模型（S4）以提高计算效率，其中状态矩阵是低秩矩阵和正常矩阵的和。许多后续工作试图提高S4的有效性。例如，Fu等人[11]设计了一个新的SSM层H3，以缩小SSM和Transformer在语言建模中的性能差距。Mehta等人[32]引入了一种使用门控单元的门控状态空间层，以提高表达能力。

最近，Gu & Dao[13]进一步提出了Mamba，其核心操作为S6，这是S4的输入相关选择机制，它实现了序列长度的线性扩展，并在各种基准测试中展示了超越Transformers的优越性能。Mamba已成功应用于图像分类[53, 27]、图像分割[41]和图预测[38]。与它们在单任务设置中使用Mamba不同，作者考虑了一个更具挑战性的多任务设置，并提出了新的自任务和跨任务Mamba模块来捕捉任务内和任务间的依赖。

3 Methodology

在本节中，作者首先在3.1节介绍了状态空间模型和Mamba的背景知识。然后在3.2节介绍了所提出的多任务Mamba（MTMamba）的整体架构。随后，作者详细探讨了MTMamba的每个部分，包括3.3节中的编码器，3.4节中基于Mamba的解码器以及3.5节中的输出头。

Preliminaries

状态空间模型（SSMs）[13, 14, 15]起源于线性系统理论 , 它通过一个隐藏状态 , 将输入序列映射到输出序列 , 通过以下线性常微分方程:

51c大模型~合集7_编码器_03

其中是状态矩阵, 是输入矩阵, 是输出矩阵, 是跳跃连接。方程(1)定义了隐藏状态的演变, 而方程(2)确定输出是由隐藏状态的线性变换和从的跳跃连接组成。在本文的其余部分, 为了解释起见, 省略了（即）。

由于连续时间系统不适合数字计算机和通常为离散的实际世界数据, 引入了一个离散化过程来近似它到一个离散时间系统。令

51c大模型~合集7_数据集_04

其中 , 以及

51c大模型~合集7_数据集_05

在S4 [14]中, 是通过梯度下降学习的可训练参数, 并且不显式依赖于输入序列, 这导致了对上下文信息提取的弱化。为了克服这一点, Mamba [13] 提出了 S6, 它引入了一个依赖于输入的选择机制, 允许系统根据输入序列选择相关信息。这是通过将 B、C 和作为输入的函数来实现的。更正式地说, 给定一个输入序列 , 其中是批大小, 是序列长度, 是特征维度, 输入相关参数

51c大模型~合集7_编码器_06

其中是一个可学习的参数, SoftPlus( 是SoftPlus函数, Linear 是线性层。是一个像在中那样的可训练参数。计算出后, 通过方程（5）进行离散化，然后输出序列

Overall Architecture

MTMamba的概览如图1所示。它包含三个组件：一个现成的编码器，一个基于Mamba的解码器，以及特定任务的 Head 。

具体来说，编码器在所有任务中共享，负责从输入图像中提取多尺度的通用视觉表示。解码器由三个阶段组成。每个阶段都包含特定任务的STM块，以捕捉每个任务的长距离空间关系，以及一个共享的CTM块，通过跨任务交换知识来增强每个任务的特征。最后，使用一个输出 Head 来生成每个任务的最终预测。以下作者介绍每个部分的细节。

Encoder

作者以Swin Transformer [28]为例。考虑一个输入的RGB图像 , 其中和分别是图像的高度和宽度。编码器使用一个 Patch 分割模块将输入图像分割成非重叠的 Patch 。每个 Patch 被视为一个标记（token）, 其特征表示是对原始RGB像素值的拼接。在实验中,作者使用标准的 Patch 大小。因此, 每个 Patch 的特征维度是。在 Patch 分割之后, 一个线性层被用于将原始标记投影到一个维度的特征嵌入。经过转换后的 Patch 标记顺序地通过多个Swin Transformer块和 Patch 合并层, 它们共同生成层次化的特征表示。具体来说, Patch 合并层[28]用于将空间维度（即和

51c大模型~合集7_数据集_07

其中和的大小分别为和

Mamba-based Decoder

将SSMs扩展到2D图像中. 与1D语言序列不同，2D空间信息在视觉任务中至关重要。因此，第3.1节中引入的SSMs不能直接应用于2D图像。受到[27]的启发，作者引入了2D选择扫描（SS2D）操作来解决这个问题。该方法包括沿着四个方向扩展图像块，生成四个独特的特征序列。然后，每个特征序列被送入一个SSM（如S6）。最后，处理过的特征被组合起来构建全面的2D特征图。正式地, 给定输入特征的输出特征

51c大模型~合集7_多任务_08

其中是四个不同的扫描方向, expand 是沿着方向扩展2D特征图是第3.1节中引入的S6操作, 而

基于Mamba的特征提取器（MFE）. 作者引入了一个基于Mamba的特征提取器来学习2D图像的表示。它是所提出基于Mamba的解码器中的一个关键模块。如图2(a)所示, 受到[13]的启发, MFE由一个线性层用于通过可控扩展因子扩展特征维度, 一个带有激活函数的卷积层用于提取局部特征, 一个SS2D操作用于建模长距离依赖, 以及一个层归一化来规范化学习到的特征。更正式地说, 给定输入特征 , MFE的输出

51c大模型~合集7_数据集_09

其中是层归一化，是激活函数, 在作者的实验中使用函数,

自任务Mamba（STM）块。作者基于MFE引入了一个自任务Mamba块，用于学习基于特定任务的特征, 如图2(a)所示。受到[13]的启发, 作者使用一个输入依赖的门来自适应地选择从 MFE中学到的有用表示。之后, 使用线性层减少在MFE中扩展的特征维度。具体来说, 对于输入特征 , STM块中的计算如下:

51c大模型~合集7_多任务_10

其中

跨任务玛玛（CTM）块尽管STM块可以有效学习每个单独任务的表征, 但它缺乏任务间的连接以共享对MTL性能至关重要的信息。为了解决这个问题, 作者设计了一个新颖的跨任务玛玛块（如图2(b)所示）, 通过修改STM块以实现不同任务间的知识交换。具体来说, 给定所有任务的特征 , 其中是任务的数量, 作者首先将所有任务特征进行拼接, 然后通过MFE学习一个全局表征。每个任务也通过其自己的MFE学习相应的特征。然后, 作者使用一个输入依赖的门来聚合任务特定表征和全局表征

51c大模型~合集7_多任务_11

其中公式部分按照要求保持原始输出。

其中 concat 是拼接操作, 是激活函数, 与STM块中使用的SiLU不同, 作者使用更适合生成门控因子

阶段设计。如图1所示, 基于Mamba的解码器包含三个阶段。每个阶段都有类似的设计, 包括 Patch 扩展层、STM块和CTM块。Patch 扩展层用于将特征分辨率上采样2倍, 并将特征维度减少2倍。对于每个任务, 其特征将通过一个 Patch 扩展层进行扩展, 并通过跳跃连接与编码器中的多尺度特征融合, 以补充因下采样而造成的空间信息损失。然后, 使用线性层减少特征维度, 两个STM块负责学习任务特定的表示。最后, 应用CTM块通过跨任务的知识交换来增强每个任务的特征。除了CTM块, 其他模块是特定于任务的。更正式地说, -阶段的前向过程可以表示为

51c大模型~合集7_数据集_12

其中 , PatchExpand 是 Patch 扩展层, 和

Output Head

在从解码器获取每个任务的特征后, 每个任务都有自己的输出头以生成其最终预测。受的启发, 每个输出头包含一个 Patch 扩展层和一个线性层, 这非常轻量级。具体来说, 对于解码器输出的第个任务特征 , 其大小为 , Patch 扩展层执行上采样以将特征图的分辨率恢复到输入分辨率 , 然后使用线性层输出最终的像素级预测。

4 Experiments

在本节中，作者进行了大量的实验来证明所提出的MTMamba在多任务密集场景理解中的有效性。

Experimental Setups

数据集。继[43, 46]之后，作者在带有多任务标签的两个广泛使用的基准数据集上进行了实验：NYUDv2 [35] 和 PASCAL-Context [6]。NYUDv2 数据集包含了各种室内场景，分别有795和654张RGB图像用于训练和测试。它包括四个任务：40类语义分割（Semseg）、单目深度估计（Depth）、表面法线估计（Normal）和物体边界检测（Boundary）。PASCAL-Context 数据集源自 PASCAL 数据集 [9]，包括室内和室外场景，并提供像素级的标签，用于诸如语义分割、人体解析（Parsing）和物体边界检测等任务，以及由 [31] 生成的表面法线估计和显著性检测任务的附加标签。它包含4,998张训练图像和5,105张测试图像。

实现细节。作者使用在 ImageNet-22K 数据集 [7] 上预训练的 Swin-Large Transformer [28] 作为编码器。所有模型均以 8 的批量大小训练 50,000 次迭代。采用 AdamW 优化器 [29], 学习率为 , 权重衰减为。在训练过程中使用多项式学习率调度器。MFE 中的扩展因子设置为2。继[46]之后, 作者将 NYUDv2 和 PASCAL-Context 的输入图像分别调整为和 , 并使用相同的数据增强, 包括随机颜色抖动、随机裁剪、随机缩放和随机水平翻转。作者使用

评估指标。继[46]之后, 作者对语义分割和人体解析任务使用平均交并比 (mloU), 单目深度估计任务使用均方根误差（RMSE）, 表面法线估计任务使用平均误差（mErr），显著性检测任务使用最大 F-measure (maxF) , 物体边界检测任务使用最优数据集尺度 F-measure (odsF) 。此外, 作者使用平均相对多任务学习性能

Comparison with State-of-the-art Methods

作者对比了所提出的MTMamba方法与两类多任务学习（MTL）方法：基于卷积神经网络（CNN）的方法，包括Cross-Stitch ，PAP ，PSD ，PAD-Net ，MTI-Net ，ATRC [3]和ASTMT ，以及基于Transformer的方法，即InvPT [46]和MQTransformer [43]。

表1展示了在NYUDv2数据集上的对比结果。可以看出，提出的MTMamba方法在所有四个任务上均表现出色。例如，在语义分割任务上的性能显著优于基于Transformer的方法（即InvPT和MQTransformer），分别提高了+2.26和+0.98，这证明了MTMamba的有效性。与InvPT的定性比较展示在图5中，可以看出MTMamba生成了更准确的预测。

51c大模型~合集7_编码器_13

51c大模型~合集7_多任务_14

表2提供了在PASCAL-Context数据集上的对比结果。这些结果显示了所提出的MTMamba方法的明显优势。特别是，MTMamba在语义分割、人体解析和目标边界检测任务上分别显著提高了先前的最佳性能+2.08，+5.01和+4.90，再次证明了MTMamba的有效性。同时，与InvPT的定性比较展示在图4中，显示MTMamba提供了更精确的预测和细节。

51c大模型~合集7_数据集_15

51c大模型~合集7_数据集_16

Model Analysis

STM和CTM块的有效性。所提出的MTMamba包含两种核心块：STM和CTM块。作者在NYUDv2数据集上进行实验，研究在每个解码阶段使用Swin-Large Transformer编码器的每个块的有效性。结果如表3所示。"Swin only"（分别是"STM only"）表示每个任务只使用每个解码阶段中的两个特定的Swin Transformer（分别是STM）块。"Single-task"是"Swin only"的单任务对应物，表示每个任务都有其特定任务的模型。"STM+CTM"是MTMamba的默认方法，即与"STM only"相比，在每个解码阶段添加了一个共享的CTM块。

51c大模型~合集7_编码器_17

根据表3，"STM only"在很大程度上超过了"Swin only"，这表明STM块比Swin Transformer块更有效。此外，"STM only"的参数数量和FLOPs比"Swin only"少，这显示了STM块的效率。与"STM only"相比，"STM+CTM"表现更好，证实了CTM块的益处。此外，默认配置（即"STM+CTM"）在所有任务上的表现显著优于"Single-task"，这证明了MTMamba的有效性。MFE模块的有效性。如图2所示，MFE模块基于SSM，并且是STM和CTM块的核心。作者通过在NYUDv2数据集上用注意力模块替换MTMamba中的所有MFE模块来进行实验。如表4所示，MFE比注意力更有效且高效。

51c大模型~合集7_多任务_18

表4：MTMamba中MFE模块在NYUDv2数据集上的有效性。本实验使用了Swin-Large编码器。"W-MSA"是Swin Transformer中的基于窗口的多头自注意力模块。"MFE"表示STM和CTM块中的所有MFE模块。

线性门的有效性。如图2所示，在STM和CTM块中，作者使用一个输入依赖的门来自适应地从MFE模块中选择有用的表示。线性层是门函数的一个简单但有效的选项。作者通过在NYUDv2数据集上用基于注意力的门替换MTMamba中的所有线性门来进行实验。如表5所示，线性门（即MTMamba）在方面与注意力门表现相当，而线性门更高效。

51c大模型~合集7_编码器_19

CTM块中跨任务交互的有效性。CTM块的核心是跨任务交互, 即方程（23），作者通过一个特定任务的门将特定任务表示和共享表示融合在一起。在这个实验中, 作者通过将其与和的情况进行比较来研究其有效性。实验是在NYUDv2数据集上使用SwinLarge Transformer编码器进行的。结果如表6所示。可以看出, 使用特定的 (即的情况）或共享的（即

51c大模型~合集7_多任务_20

不同编码器的性能。在这个实验中，作者研究在NYUDv2数据集上，提出MTMamba与不同规模的Swin Transformer编码器的性能。结果如表7所示。可以看出，随着模型容量的增加，所有任务的表现相应地更好。

51c大模型~合集7_编码器_21

Qualitative Evaluations

在本研究中，作者提出了MTMamba，一个具有基于Mamba解码器的新型多任务架构，用于多任务密集场景理解。通过两个新型块（STM和CTM块），MTMamba能够有效地建模长距离依赖并实现跨任务交互。在两个基准数据集上的实验表明，所提出的MTMamba比先前的基于CNN和基于Transformer的方法取得了更好的性能。

图3展示了在语义分割任务中，所提出的MTMamba与基于 Transformer 的方法InvPT [46]在最终解码器特征上的比较。如图所示，作者的方法高度激活了具有上下文和语义信息的区域，这意味着它

51c大模型~合集7_多任务_22

#国产异构原生AI算力工具问世

不知道是不是又是吹b

打破生态孤岛，国产异构原生AI算力工具问世，来自中科加禾

「通过系统优化软件的帮助，开发的门槛会被降低，各种不同硬件会得到统一，让技术生态得到发展。这对于当前智能生态的进步有重要的意义，」中国工程院院士、中科院计算所学术委员会主任、CCF 理事长孙凝晖在发布会上致辞表示。「除了智能芯片、AI 行业应用以外，我们需要系统软件优化的一方参与进来共同努力，这样才能把国内生态做得更好。」

孙凝晖院士在发布会上

面对算力「卡脖子」问题，我们终于迎来了系统级的解决方案。

7 月 20 日，AI 基础设施创业公司中科加禾正式发布了第一代异构原生 AI 算力工具。开发板商城天皓智联

面向当前国产算力大规模落地的趋势，中科加禾提出的方法可以让不同种类的芯片大规模并行，同时发挥最大效率，并让算力的使用者无需关注不同芯片生态，做到直接拿来就用。

中科加禾创始人兼 CEO 崔慧敏发布并介绍，「加禾异构原生 AI 算力工具」已经在国产算力的 AI 基础设施上发挥一定作用。它兼容多种国产 AI 芯片，为屏蔽芯片差异提供了高性能的统一接口。在异构原生平台的基础上，AI 算力集群在大模型推理上的时延可以降低 3-74 倍，吞吐率提升 1.4-2.1 倍，能效比提升 1.46 倍，可支持 340B 参数量的稠密大模型，以及 640B 的 MoE 大模型。

与此同时，中科加禾已实现对超过 10 家包括芯片、集成商、服务商等客户提供高性能推理支持，其架构支持国内外主流大模型，并可以进行多样化并行推理。

发布会现场宣布签约及达成合作的算力提供、应用方伙伴包括：AMD、宝德、华为、杭州人工智能计算中心、开放传神、摩尔线程、青云科技、Rise VAST、燧原科技、无问芯穹、云西算力、新华三等（按拼音首字母顺序排序）。

中科加禾创始人、CEO 崔慧敏在发布会上

异构原生 AI 算力，目标实现「三零一高」

中科加禾提出的方案，目标是让 AI 大模型应用在不同芯片上实现零成本迁移，零损耗使用，零延迟部署的高效使用。

这套软件工具包含异构原生大模型推理引擎「SigInfer」、异构原生微调引擎「SigFT」以及算子自动生成、转译工具「SigTrans」三款产品。

其中，昨天发布的 SigInfer 是一款跨平台、高性能的异构原生推理引擎，不但支持服务器级的 AI 加速卡，还支持消费级 GPU。因此，它既可以部署于数据中心，也可以为各种端侧设备实现加速。

作为异构计算的技术底座，通过 SigInfer 接入的不同 AI 算力，可以做到调用接口统一，平滑迁移业务应用。SigInfer 会在调用多种不同算力的同时进行多层次深度优化，充分挖掘芯片算力的潜能。

它具备现代大模型推理引擎所具备的各种特征，如支持 API Serving、请求调度、Batch 管理、KV Cache 优化、张量并行、流水线并行、专家并行、甚至多机流水并行等能力。

中科加禾表示，SigInfer 已经支持了业界大部分的大模型结构。

目前，SigInfer 已经可以实现完备的推理引擎能力。其支持的异构加速卡集群可以灵活调度英伟达 AI 加速卡 + 国产 AI 加速卡进行混合推理，最高可扩展至万亿级的大模型。

51c大模型~合集7_编码器_23

使用 SigInfer 帮助 AI 芯片部署可以在业务访问需求提升时，让大模型服务保持较高的吞吐率和较低的时延，对于生成式 AI 的大规模应用来说，这些指标至关重要。

在同样使用英伟达显卡的情况下，我们可以看到 SigInfer 能提供较明显的加速效果：

51c大模型~合集7_数据集_24

再进一步，使用国产芯片完成同类任务时，SigInfer 可以同样提升并行计算时 AI 加速卡的吞吐率，同时大幅降低输出 Token 的延迟。

异构原生 AI 算力工具可以根据大模型任务处理的不同阶段、算子特征、优化目标自适应优化等方式调整 AI 加速器的计算频率，从而实现高效率。中科加禾给我们算了一笔账，数据中心运营的过程中，使用 A800 加 SigInfer，相比 vllm 能效比可以提升 46%。

除了对云基础设施实施优化以外，中科加禾还展示了对于端侧推理的性能优化。SigInfer 可以加速基于英特尔、高通、AMD 等大厂的芯片设备，相比业界主流部署方案，SigInfer 在端侧推理的效率最高可以提升 5 倍。

在异构计算和效率提升的背后，是一系列前沿技术和工程的应用与优化。

为了提升并行计算的效率，中科加禾引入了一系列优化。例如深入解码阶段的访存优化，让 KV Cache 可以得到寄存器级别的复用，相比从 L2 加载，延迟和带宽都得到了优化。

同时，为了缓解并行度的减少，中科加禾的研究人员在数据的 sequence 维度上也进行了并行划分。结合 KV Cache 的复用优化，既节约了访存，又增加了并行度，让整个注意力机制的核心计算提高了执行效率。

中科加禾也探索了异构算力的高性能算子生成方法。通过与算力厂商合作，中科加禾把 cutlass 迁移到了国产芯片架构上，大幅提升了矩阵乘法的运行效率。在这其中，该公司通过结合编译技术的优化实现了超过 20% 的性能提升。

在一系列技术的加持下，加禾异构原生 AI 算力工具实现了卓越的能效优化。

从编译技术出发：中科加禾的技术路线

与以往一些 AI 算力基础设施公司提供的能力不同，中科加禾提供的异构计算与加速，是围绕编译技术展开的。

对于计算机而言，编译层所做的工作是「翻译」，它负责把人类编写的高级编程语言内容转化成机器理解并能执行的语言。

在这个过程中，编译还需要进行优化，即提高生成出来的机器代码的运行效率。对于芯片性能而言，编译发挥作用的范围很大，但时常被人忽略。

在目前业内最流行的英伟达芯片上，CUDA 计算平台发挥了重要作用。它包含编程语言、编译器、各种高性能加速库及 AI 框架，可以在计算机执行任务时充当分配者的角色，充分利用不同硬件的算力资源，让复杂的代码模型跑得更快。可以说如今的 AI 生态，很大程度上就是建立在 CUDA 之上的。

对于国产算力而言，为了实现大规模应用，就需要构建其需要的生态和能力。

在生成式 AI 时代，人们对于算力的需求推动了芯片技术的发展，然而新的挑战也已显现：

从芯片公司的角度来看，生态也呈现多元碎片化发展，这会带来开发成本增加以及落地效率和兼容性等问题。
从行业发展的角度来看，AI 技术正快速发展，其覆盖越来越多的场景，意味着更多种类的算力将会参与其中，这就进一步推动了异构计算的需求。

因此，业界迫切需要一套能够支持多种国产芯片的高效工具链。如果能够出现一套通用化、低成本、高性能的基础软件，并可以帮助生态伙伴快速移植基于英伟达生态开发的应用程序，就可以充分发挥出国产芯片的潜力，带动技术研发的步伐，从而逐步构建立起 AI 算力生态的正循环。

这就是中科加禾一直在做的事。

中科加禾提供的基础软件平台层，定位于算子、编译、框架层几个位置，在硬件和软件之间架设了一座桥梁。其提供的异构原生 AI 算力工具可以帮助用户平稳迁移 AI 模型和芯片架构，这就给 AI 应用带来了极大的便利性。

51c大模型~合集7_多任务_25

这些层面的能力都涉及了编译技术。AI 编译覆盖的范围既包含图层，也包含算子层，相对传统编译器在语义转换上的跨度更大。例如，AI 编译器一般要考虑计算图划分、子图融合、并行计算、数据分块等。这些都是较难解决的问题。

在这方面，中科加禾完成了大量研究，如在 Tensor 表达式层级做全局数据流分析，构建精确的计算图和数据依赖图，进而打破算子边界进行算子融合，取得了很好的效果。在一些网络上，其方法取得了相对于业界先进水平多达 3.7 倍的加速比。相关工作成果发表在今年的计算机领域顶级会议上。

构建端到端的算力使能解决方案，助力繁荣国产 AI 生态

中科加禾成立于 2023 年 7 月，团队主要来自于中科院计算所。创始人崔慧敏毕业于清华大学计算机系，是中科院计算所编译团队负责人。该公司的核心团队具备超过 20 年的编译器研发经验，曾作为核心成员主持或参与过多款国产芯片的编译器研发工作。

自成立以来，该公司聚焦于芯片编译与优化技术，致力于提供通用化、低成本、高性能的算力资源，以「聚芯片之合力，筑国产之生态」为使命。目前，中科加禾已收获了多轮共计近亿元融资。

51c大模型~合集7_数据集_26

中科加禾正在围绕三条路线打造系列产品，包括支持异构算力的 AI 大模型推理引擎、大模型微调框架、以及 AI 编译工具套件。它们既可以帮助算力使用方快速使用多元化的 AI 算力，也可以帮助算力供应方完善软件生态以及提升竞争力，补齐了国产 AI 算力生态的一块重要拼图。

更重要的是，中科加禾希望能成为一个「沟通」的桥梁，连接数量庞大的算力使用方和算力提供方，使双方能愉快的双向奔赴，从而推动异构原生 AI 算力的大规模应用和国产 AI 生态的蓬勃发展贡献力量。

#中国的人形机器人研究斩获最佳论文

中国的论文都是水货~~

近日，机器人领域著名会议 RSS（Robotics: Science and Systems） 2024 在荷兰代尔夫特理工大学圆满落幕。

尽管会议规模与 NeurIPS、CVPR 等 AI 顶会无法比肩，但 RSS 在过去几年中取得了长足的发展，今年的参会人数接近 900 人。

在大会的最后一天，最佳论文、最佳学生论文、最佳系统论文、最佳 Demo 论文等多个奖项同时出炉。此外，大会还评选出了「早期职业 Spotlight 奖」和「时间检验奖」。

值得注意的是，来自清华大学和北京星动纪元科技有限公司的人形机器人研究获得了最佳论文奖，华人学者 Ji Zhang 获得了本次时间检验奖。

以下是获奖论文信息介绍：

最佳 Demo 论文奖

论文标题：Demonstrating CropFollow++: Robust Under-Canopy Navigation with Keypoints
作者：Arun Narenthiran Sivakumar, Mateus Valverde Gasparino, Michael McGuire, Vitor Akihiro Hisano Higuti, M. Ugur Akcal, Girish Chowdhary
机构：UIUC、Earth Sense
论文链接：https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p023.pdf

在这篇论文中，研究者提出了一种基于经验的鲁棒性视觉导航系统，用于使用语义关键点的作物冠下农业机器人。

由于作物行间距较小（∼ 0.75 米）、多径误差导致 RTK-GPS 精度下降以及杂波过多导致激光雷达测量产生噪声，作物冠下的自主导航具有挑战性。早期名为 CropFollow 的工作通过提出一种基于学习的端到端感知视觉导航系统来应对这些挑战。然而，这种方法存在以下局限性：缺乏可解释的表征，以及由于置信度不够缺乏在遮挡期间对离群预测的敏感性。

本文系统 CropFollow++ 引入了模块化感知架构和学习的语义关键点表示法。与 CropFollow 相比，CropFollow++ 的模块化程度更高、可解释性更强，并提供了检测闭塞的置信度。CropFollow++ 在具有挑战性的晚季田间测试中的表现明显优于 CropFollow，每个田间测试跨度达 1.9 千米，所需的碰撞次数为 13 次对 33 次。研究者还在不同的田间条件下，将 CropFollow++ 大规模部署在多个作物冠下覆盖作物种植机器人中（总长 25 公里），并讨论了从中汲取的主要经验教训。

论文标题：Demonstrating Agile Flight from Pixels without State Estimation
作者：smail Geles, Leonard Bauersfeld, Angel Romero, Jiaxu Xing, Davide Scaramuzza
论文链接：https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p082.pdf

四旋翼无人机是最敏捷的飞行机器人之一。尽管最近的一些研究在基于学习的控制和计算机视觉方面取得了进步，但自主无人机仍然依赖于明确的状态估计。另一方面，人类飞行员只能依靠无人机机载摄像头提供的第一人称视角的视频流将平台推向极限，并在看不见的环境中稳健飞行。

本文展示了首个基于视觉的四旋翼无人机系统，该系统可在直接将像素映射到控制指令的同时，自主高速通过一连串门。与专业的无人机赛车手一样，该系统不使用明确的状态估计，而是利用与人类相同的控制指令（集体推力和身体速率）。研究者展示了速度高达 40km/h 且加速度高达 2g 的敏捷飞行。这是通过强化学习（RL）训练基于视觉的策略实现的。使用非对称的 Actor-Critic 可以获取特权信息，为训练提供便利。为了克服基于图像的 RL 训练过程中的计算复杂性，研究者使用门的内边缘作为传感器抽象。在训练过程中，无需渲染图像就能模拟这种简单而强大的任务相关表示法。在部署过程中，研究者使用了基于 Swin Transformer 的门检测器。

本文方法可以利用标准的、现成的硬件实现自主敏捷飞行。虽然演示侧重于无人机竞赛，但该方法的影响已经超出了竞赛范围，可以作为未来研究结构化环境中真实世界应用的基础。

最佳系统论文奖

论文标题：Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots
Cheng Chi, Zhenjia Xu, Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song
机构：斯坦福大学、哥伦比亚大学、丰田研究院
论文链接：https://arxiv.org/pdf/2402.10329

本文介绍了通用操纵界面（UMI），一种数据收集和策略学习框架，可将野外人类演示的技能直接转移到可部署的机器人策略中。UMI 采用手持式抓手和精心的界面设计，可为具有挑战性的双臂和动态操纵演示提供便携式、低成本和信息丰富的数据收集。为了促进可部署的策略学习，UMI 采用了精心设计的策略界面，具有推理时间延迟匹配和相对轨迹动作表示功能。学习到的策略与硬件无关，可在多个机器人平台上部署。有了这些功能，UMI 框架就能释放新的机器人操纵能力，只需改变每个任务的训练数据，就能实现零样本泛化动态、双臂、精确和长视野行为。研究者通过全面的真实世界实验证明了 UMI 的多功能性和有效性，在这些实验中，通过 UMI 零射频学习到的策略在不同的人类演示训练中可泛化到新的环境和物体。

51c大模型~合集7_多任务_27

论文标题：Khronos: A Unified Approach for Spatio-Temporal Metric-Semantic SLAM in Dynamic Environments
作者：Lukas Schmid, Marcus Abate, Yun Chang, Luca Carlone
论文链接：https://arxiv.org/pdf/2402.13817

感知和理解高度动态和不断变化的环境是机器人自主性的关键能力。虽然在开发能准确估计机器人姿态的动态 SLAM 方法方面取得了长足进步，但在构建密集的机器人环境时空表征方面却重视不够。详细了解场景及其随时间的演变对于机器人的长期自主性至关重要，对于需要长期推理的任务也至关重要，例如在与人类和其他 Agent 共享的环境中有效运行，因此会受到短期和长期动态变化的影响。

为了应对这一挑战，这项研究定义了时空度量 - 语义 SLAM（SMS）问题，并提出了一个有效分解和解决该问题的框架。研究表明，所提出的因子化建议了一种时空感知系统的自然组织形式，其中一个快速进程跟踪活动时间窗口中的短期动态，而另一个慢速进程则利用因子图表述对环境中的长期变化进行推理。研究者提供了一种高效的时空感知方法 Khronos，并证明它统一了对短期和长期动态的现有解释，能够实时构建密集的时空地图。

论文提供的模拟和实际结果表明，Khronos 构建的时空地图能够准确反映三维场景的时间变化，而且 Khronos 在多个指标上都优于基线。

最佳学生论文奖

论文标题：Dynamic On-Palm Manipulation via Controlled Sliding
作者：William Yang, Michael Posa
机构：宾夕法尼亚大学
论文链接：https://arxiv.org/pdf/2405.08731

当前，对机器人执行非抓取性动作的研究主要集中在静态接触上，以规避滑动可能带来的问题。但是，如果根本上消除了「手滑」的问题，即能控制接触时的滑动，这将为机器人能做的动作开辟新领域。

在这篇论文中，研究者提出了一项挑战性的动态非抓取操作任务，该任务需要综合考虑各种混合接触模式。研究者采用了最新的隐式接触模型预测控制（MPC）技术，帮助机器人进行多模式规划，以完成各项任务。论文详细探讨了如何将用于 MPC 的简化模型与低级跟踪控制器相整合，以及如何使隐式接触 MPC 适应于动态任务的需求。

51c大模型~合集7_多任务_28

令人印象深刻的是，尽管众所周知，摩擦和刚性接触模型往往不准确，但这篇论文的方法能够对这些不准确性做出灵敏反应，同时快速完成任务。而且，研究者没有使用于常见的辅助工具，例如参考轨迹或运动基元辅助机器人完成任务，这进一步凸显了该方法的通用性。这是隐式接触 MPC 技术首次被应用于三维空间中的动态操作任务。

论文标题：Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion
作者：Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi
机构：CMU、瑞士苏黎世联邦理工学院
论文链接：https://arxiv.org/pdf/2401.17583

四足机器人在杂乱的环境中穿行时，需要同时具备灵活性和安全性。它们需要既能够敏捷地完成任务，又要避免与人或障碍物相撞。不过，现有的研究往往只注重其中一方面：要么是为了安全而设计速度不超过 1.0 米 / 秒的保守控制器，要么是追求灵活性却忽视了可能致命的碰撞问题。

这篇论文提出了一种名为「既敏捷又安全」的控制框架。这个框架让四足机器人在保持灵活性的同时，也能安全地避开障碍物和人，实现无碰撞的行走。

ABS 包括两套策略：一套是教机器人如何在障碍物之间灵活敏捷地穿梭，另一套则是万一遇到问题，如何快速恢复，保证机器人不会摔倒或者撞到东西。两套策略互相配合。

在 ABS 系统中，策略的切换由一个基于学习型控制理论的避碰价值网络来控制。这个网络不仅决定了何时切换策略，还为恢复策略提供了一个目标函数，确保机器人在闭环控制系统中始终保持安全。通过这种方式，机器人能够在复杂环境中灵活应对各种情况。

为了训练这些策略和网络，研究者们在模拟环境中进行了大量训练，包括敏捷策略、避碰价值网络、恢复策略，以及外部感知表示网络等等。这些经过训练的模块可以直接应用到现实世界中，配合机器人自身的感知和计算能力，无论机器人是在室内还是受限的室外空间，无论是面对不会动的还是能动的障碍物，都能在 ABS 框架下快速、安全地行动。

论文标题：ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection
作者：Arpit Bahety, Priyanka Mandikal, Ben Abbatematteo, Roberto Martín-Martín
机构：得克萨斯大学奥斯汀分校
论文链接：https://arxiv.org/pdf/2405.03666

如果要教一个机器人如何用两只手同时做某件事情，比如同时打开一个盒子，实际上很困难。因为机器人需要同时控制很多关节，还要确保两只手的动作协调一致。对于人类，人们会通过观察别人，学会新的动作，再自己尝试并不断改进。在这篇论文中，研究者参考人类学习的方法，让机器人也能通过看视频学习新技能，并且在实践中提高。

研究者们从心理学和生物力学的研究中得到灵感，他们把两只手的动作想象成一种特殊的链条，这种链条可以像螺丝一样旋转，称之为「螺旋动作」。基于此，他们开发了一个名为 ScrewMimic 的系统。这个系统可以帮助机器人更好地理解人类的演示，并通过自我监督来改进动作。通过实验，研究者们发现 ScrewMimic 系统能帮助机器人从一段视频中学习到复杂的双手操作技能，并在性能上超越了那些直接在原始动作空间中进行学习和改进的系统。

51c大模型~合集7_多任务_29

ScrewMimic 的方法示意图

最佳论文奖

论文标题：Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning
作者：Xinyang Gu, Yen-Jen Wang, Xiang Zhu, Chengming Shi, Yanjiang Guo, Yichen Liu, Jianyu Chen
机构：北京星动纪元科技有限公司、清华大学
论文链接：https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p058.pdf

当前技术只能让人形机器人在平坦地面，此类简单的地形上行走。然而，让它们在复杂环境，如真实的户外场景中自如行动，仍很困难。在这篇论文中，研究者们提出了一种名为去噪世界模型学习（DWL）的新方法。

DWL 是一个用于人形机器人的运动控制的端到端的强化学习框架。这一框架使机器人能够适应各种不平坦且具有挑战性的地形，例如雪地、斜坡和楼梯。值得一提的是，这些机器人仅需一次学习过程，无需额外的特别训练，便能在现实世界中自如应对多样化的地形挑战。

51c大模型~合集7_多任务_30

这项研究由北京星动纪元科技有限公司和清华大学联合完成。星动纪元成立于 2023 年，是一家由清华大学交叉信息研究院孵化，研发具身智能以及通用人形机器人技术和产品的科技公司，创始人为清华大学交叉信息研究院助理教授、博导陈建宇，聚焦于通用人工智能 (AGI) 前沿应用，致力于研发适应宽领域、多情景、高智能的通用人形机器人。

论文标题：Real-Time Anomaly Detection and Reactive Planning with Large Language Models
作者：Rohan Sinha, Amine Elhafsi, Christopher Agia, Matt Foutter, Edward Schmerling, Marco Pavone
机构：斯坦福大学
论文链接：https://arxiv.org/pdf/2407.08735

大型语言模型（LLM），具有零样本的泛化能力，这使得它们有希望成为检测和排除机器人系统分布外故障的技术。然而，想让大型语言模型真正发挥作用，需要解决两个难题：首先，LLM 需要很多计算资源才能在线应用；其次，需要让 LLM 的判断能够融入到机器人的安全控制系统中。

在这篇论文中，研究者提出了一个两阶段的推理框架：对于第一阶段，他们设计了一个快速的异常检测器，它能在 LLM 的理解空间里迅速分析对机器人的观察结果；如果发现问题，就会进入下一个备选选择阶段。在这个阶段，将采用 LLM 的推理能力，进行更深入的分析。

进入哪个阶段对应于模型预测控制策略中的分支点，这个策略能够同时跟踪并评估不同的备选计划，以解决慢速推理器的延迟问题。一旦系统检测到任何异常或问题，这个策略会立即启动，确保机器人的行动是安全的。

这篇论文中的快速异常分类器在性能上超越了使用最先进的 GPT 模型的自回归推理，即使在使用相对较小的语言模型时也是如此。这使得论文中提出的实时监控器能够在有限的资源和时间下，例如四旋翼无人机和无人驾驶汽车中，提高动态机器人的可靠性。

论文题目：Configuration Space Distance Fields for Manipulation Planning
作者：Yiming Li, Xuemin Chi, Amirreza Razmjoo, Sylvain Calinon
机构：瑞士 IDIAP 研究所、瑞士洛桑联邦理工学院、浙江大学
论文链接：https://arxiv.org/pdf/2406.01137

符号距离场（SDF）是机器人学中一种流行的隐式形状表示，它提供了关于物体和障碍物的几何信息，并且可以很容易地与控制、优化和学习技术结合起来。SDF 一般被用于表示任务空间中的距离，这与人类在 3D 世界中感知的距离概念相对应。

在机器人领域中，SDF 往往用来表示机器人每个关节的角度。研究者通常知道在机器人的关节角度空间中，哪些区域是安全的，也就是说，机器人的各个关节可以转动到这些区域而不会发生碰撞。但是，他们不经常用距离场的形式来表达这些安全区域。

在这篇论文中，研究者们提出了用 SDF 优化机器人配置空间的潜力，他们称之为配置空间距离场（简称为 CDF）。与使用 SDF 类似，CDF 提供了高效的关节角度距离查询和直接访问导数（关节角速度）。通常，机器人规划会分成两步：先在任务空间里看看动作离目标有多远，再用逆运动学算出关节怎么转。但 CDF 让这两步合成一步，直接在机器人的关节空间里解决问题，这样更简单，效率也更高。研究者在论文中提出了一种高效的算法来计算和融合 CDF，可以推广到任意场景。

他们还提出了一种使用多层感知器（MLPs）的相应神经 CDF 表示，用以获得紧凑且连续的表示，提高了计算效率。论文中提供了一些具体示例来展示 CDF 的效果，比如让机器人避开平面上的障碍物，一级让一个 7 轴的机器人 Franka 完成一些动作规划任务。这些示例都说明了 CDF 的有效性。

51c大模型~合集7_编码器_31

应用 CDF 方法的机械臂做抬盒子任务

早期职业 Spotlight

大会还评选出了早期职业 Spotlight 奖，本次获奖者为 Stefan Leutenegger，他的研究重点是机器人在潜在未知环境中的导航。

Stefan Leutenegger 是慕尼黑工业大学（TUM）计算、信息与技术学院（CIT）助理教授（终身教职），并与慕尼黑机器人与机器智能研究所（MIRMI）、慕尼黑数据科学研究所（MDSI）和慕尼黑机器学习中心（MCML）有所关联，曾是戴森机器人实验室的成员。他领导的智能机器人实验室（SRL）致力于感知、移动机器人、无人机和机器学习的交叉研究。此外，Stefan 还是伦敦帝国理工学院计算机系的客座讲师。

他参与创办了 SLAMcore 公司，这是一家以机器人和无人机的定位和绘图解决方案的商业化为目标的衍生公司。Stefan 获得了苏黎世联邦理工学院机械工程学士学位和硕士学位，并在 2014 年获得了博士学位，学位论文主题为《无人太阳能飞机：高效稳健自主运行的设计与算法》。

时间检验奖

RSS 时间考验奖授予至少十年前在 RSS 上发表的影响力最大的论文（也可能是其期刊版本）。影响力可以从三个方面理解：比如改变了人们对问题或机器人设计的思考方式，使新问题引起了社区的注意，或者是开创了机器人设计或问题解决的新方法。

通过这个奖项，RSS 希望促进对本领域长期发展的讨论。今年的时间检验奖颁给了 Ji Zhang 和 Sanjiv Singh 的研究《LOAM：激光雷达测距和实时测绘》。

论文链接：https://www.ri.cmu.edu/pub_files/2014/7/Ji_LidarMapping_RSS2014_v8.pdf

这篇十年前的论文提出了一种利用以 6-DOF 运动的双轴激光雷达的测距数据进行里程测量和绘图的实时方法。这个问题难以解决的原因是测距数据是在不同时间接收到的，而运动估计中的误差会导致所得到的点云的错误配准。相干的三维地图可以通过离线批处理方法建立，通常使用闭环来校正随时间的漂移。而本文方法无需高精度测距或惯性测量，即可实现低漂移和低计算复杂度。

获得这种性能水平的关键在于将复杂的同步定位和测绘问题分为两种算法，以同时优化大量变量。一种算法以高频率但低保真的方式进行测距，以估算激光雷达的速度；另一种算法以低一个数量级的频率运行，用于点云的精细匹配和注册。这两种算法的结合使该方法能够实时绘图。研究者通过大量实验以及 KITTI 测速基准进行了评估，结果表明该方法可以达到离线批量方法的 SOTA 精度水平。

更多大会及奖项信息，可参考官网内容：https://roboticsconference.org/

#Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

吴翼，清华大学交叉信息院助理教授，曾任 OpenAI 全职研究员，研究领域为强化学习，大模型对齐，人机交互，机器人学习等。2019 年在美国加州大学伯克利分校获得博士学位，师从 Stuart Russell 教授；2014 年本科毕业于清华大学交叉信息院（姚班）。其代表作包括：NIPS2016 最佳论文，Value Iteration Network；多智能体深度强化学习领域最高引用论文，MADDPG 算法；OpenAI hide-and-seek 项目等。

如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型对齐技术（Alignment）所要攻克的难题。

对齐技术中，最重要的算法框架就是根据人类反馈的强化学习（RLHF, Reinforcement Learning from Human Feedback）。RLHF 根据人类对大模型输出的偏好反馈，来学习基于人类反馈的奖励函数（Reward Model），并进一步对大模型进行强化学习训练，让大模型在反复迭代中学会辨别回复的好坏，并实现模型能力提升。目前世界上最强的语言模型，比如 OpenAI 的 GPT 模型和 Anthropic 的 Claude 模型，都极其强调 RLHF 训练的重要性。OpenAI 和 Anthropic 内部也都开发了基于大规模 PPO 算法的 RLHF 训练系统进行大模型对齐。

然而，由于 PPO 算法流程复杂，算力消耗大，美国 AI 公司的大规模 RLHF 训练系统也从不开源，所以尽管 PPO 算法非常强大，学术界的对齐工作却一直很少采用复杂的 PPO 算法进行 RLHF 研究，转而普遍使用 SFT（监督微调）或者 DPO（Direct Policy Optimization）等更简化、更直接、对训练系统要求更低的对齐算法。

那么，简单的对齐算法一定效果更好吗？吴翼团队发表在 ICML 2024 的工作 “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study” 仔细探讨了 DPO 与 PPO 算法的特点，并指出提升 RLHF 算法效果的关键点。在该工作中，吴翼团队基于自研的大规模 RLHF 训练系统，首次采用 PPO 算法及参数量更少的开源模型，在公认最困难的挑战 —— 代码生成任务 CodeContest—— 上超过闭源大模型 AlphaCode 41B。

51c大模型~合集7_多任务_32

相关成果被 ICML 2024 录用为 Oral Presentation，并将在 7 月 23 日于 ICML 2024 第一个 Oral session Alignment-1 上和 OpenAI、Anthropic 等知名机构的工作一起进行公开汇报。

51c大模型~合集7_数据集_33

接下来让我们对比一下 GPT-4 和经过 PPO 算法训练的 CodeLlama 34B 模型在代码生成上的效果，在例子 1 中，经过 PPO 算法训练的 CodeLlama 34B 模型与 GPT-4 模型生成了质量相当的代码。

51c大模型~合集7_多任务_34

在示例 2 中，可以看到经过 PPO 算法训练的 CodeLlama 34B 模型与 GPT-4 模型都能生成完整并且可运行的 python 代码。然而，在这个例子下，GPT-4 生成了错误的代码，在测试数据上无法正确输出。而经过 PPO 算法训练的 CodeLlama 34B 模型生成的代码可以通过测试。

51c大模型~合集7_编码器_35

51c大模型~合集7_数据集_36

在 ICML 2024 的这篇论文中，研究团队详细探讨了 DPO 与 PPO 算法的特点，并指出提升 DPO 和 PPO 能力的关键点。

论文标题：Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
论文地址：https://arxiv.org/pdf/2404.10719

DPO 算法的局限性

相比于 PPO，DPO 使用离线数据而非在线采样数据训练。经分析，DPO 算法会导致训练出的模型对训练数据分布之外的输出产生偏好，在某些情况下产生不可预料的回复。

于是，为了提升 DPO 算法的能力，研究团队总结了两个关键技术：在 RLHF 训练前进行额外的 SFT 训练，以及使用在线采样数据而非离线数据。

51c大模型~合集7_多任务_37

实验表明，使用额外的 SFT 训练可以使 base 模型以及 reference 模型更偏向于数据集内的分布，大大提升 DPO 算法效果；另一方面，使用在线采样数据进行迭代训练的 DPO 算法可以得到稳步提升，表现远远优于基础的 DPO 算法。

PPO 算法的关键点

除去 DPO，论文中也总结了发挥 PPO 最大能力的三个关键点：

使用大的批大小（large batch size）
优势归一化（advantage normalization）
以及对 reference model 使用指数移动平均进行更新（exponential moving average for the reference model）。

51c大模型~合集7_多任务_38

研究团队成功使用 PPO 算法在对话任务 Safe-RLHF/HH-RLHF 以及代码生成任务 APPS/CodeContest 上达到了 SOTA 的效果。

51c大模型~合集7_编码器_39

在对话任务上，研究团队发现综合了三个关键点的 PPO 算法显著优于 DPO 算法以及在线采样的 DPO 算法 DPO-Iter。

51c大模型~合集7_多任务_40

在代码生成任务 APPS 和 CodeContest 上，基于开源模型 Code Llama 34B，PPO 算法也达到了最强的水平，在 CodeContest 上超越了之前的 SOTA，AlphaCode 41B。

想要实现效果较好的大模型对齐，高效率的训练系统是不可缺少的，在实现大规模强化学习训练上，吴翼团队有长期的积累，从 2021 年开始就搭建了专属的分布式强化学习框架。

51c大模型~合集7_数据集_41

NeurIPS 2022 The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games [1]：提出并开源了用于多智能体的强化学习并行训练框架 MAPPO，支持合作场景下的多智能体训练，该工作被大量多智能体领域工作采用，目前论文引用量已超过 1k。
ICLR 2024 Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [2]: 提出了用于强化学习的分布式训练框架，可轻松扩展至上万个核心，加速比超越 OpenAI 的大规模强化学习系统 Rapid。
ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation [3]: 最近，吴翼团队进一步实现了分布式 RLHF 训练框架 ReaLHF。吴翼团队的 ICML Oral 论文正是基于 ReaLHF 系统产出的。ReaLHF 系统经过长时间的开发，经历大量的细节打磨，达到最优性能。相比于之前的开源工作，ReaLHF 可以在 RLHF 这个比预训练更复杂的场景下达到近乎线性的拓展性，同时具有更高的资源利用率，在 128 块 A100 GPU 上也能稳定快速地进行 RLHF 训练，相关工作已开源：https://github.com/openpsi-project/ReaLHF

除了提升大语言模型代码能力之外，吴翼团队还采用多种将强化学习算法和大模型结合的方式，实现了多种复杂 LLM Agent，并可以和人类进行复杂交互。

在 MiniRTS 中使用强化学习既能听从人类指令也能做出最优决策的语言智能体 [4]。

51c大模型~合集7_多任务_42

在狼人杀中训练策略多样化的强化学习策略以提升大模型的决策能力 [5]。

51c大模型~合集7_多任务_43

在 Overcooked 游戏中结合小模型与大模型实现能进行实时反馈的合作 Language Agent [6]。

51c大模型~合集7_数据集_44

结合强化学习训练的机器人控制策略与大语言模型推理能力让机器人能够执行一系列复杂任务 [7]。

51c大模型~合集7_数据集_45

为了使大模型能真正走进千家万户，对齐技术是至关重要的，对于学术界和大模型从业者来说，好的开源工作和论文无疑会大大降低实验成本和开发难度，也期待随着技术发展，会有更多服务于人类的大模型出现。

#VLPTransferAttack

让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

本文作者分别来自南开大学、南洋理工大学和新加坡科技局。第一作者高森森为南开大学大四学生，此工作为其在新加坡科技局实习期间完成，实习导师为本文通讯作者郭青研究员（主页：https://tsingqguo.github.io）。本文的共同第一作者和共同通讯作者是南洋理工大学的加小俊博后研究员（主页：https://jiaxiaojunqaq.github.io）。

针对视觉-语言预训练（Vision-Language Pretraining, VLP）模型的对抗攻击，现有的研究往往仅关注对抗轨迹中对抗样本周围的多样性，但这些对抗样本高度依赖于代理模型生成，存在代理模型过拟合的风险。

为了解决这一问题，我们引入了对抗轨迹交集区域的概念。这个区域由干净样本、当前对抗样本以及上一步对抗样本所构成的三角形区域。通过利用这一区域的多样性，我们不仅考虑了更加多样化的扰动方向，还关注了干净样本周围的对抗多样性，从而提升了对抗样本的迁移性。

本篇工作的论文和代码均已开源。

论文题目：Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
论文链接：https://arxiv.org/pdf/2403.12445
代码链接：https://github.com/SensenGao/VLPTransferAttack

研究背景

近年来，ChatGPT-4等视觉 - 语言预训练模型（VLP）展示了强大的多模态理解和生成能力，在图像识别、文本生成等任务中表现出色。然而，这些模型的强大性能也伴随着一个显著的安全隐患：对抗攻击（Adversarial Attacks）。对抗攻击是指通过对输入数据进行微小且难以察觉的扰动，诱使模型产生错误输出。这种攻击方式不仅可以影响模型的预测准确性，甚至可能导致严重的安全问题。

由于 ChatGPT-4 等商业模型通常是闭源的，攻击者无法直接访问其内部参数和结构信息，这使得直接攻击这些模型变得困难。然而，攻击者可以通过对类似的开源或已知结构的 VLP 模型（如 CLIP）进行研究，生成对抗样本并将其应用于闭源商业模型。这种方法被称为对抗攻击的迁移攻击（Transfer Attack）。

对抗攻击的迁移性研究具有重要意义。一方面，了解对抗攻击在不同模型间的迁移性，可以提高对这些商业闭源模型的攻击成功率，从而帮助我们更好地评估和提升闭源模型的安全性，防止潜在的安全漏洞。另一方面，通过研究对抗样本在不同模型上的表现，可以进一步优化对抗训练方法，提高模型的鲁棒性和抗攻击能力。

动机

51c大模型~合集7_多任务_46