51c自动驾驶~合集19

原创

qq6669490e54384 2024-08-20 11:42:52 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#DRAMA

首个基于Mamba的端到端运动规划器

运动规划是一项具有挑战性的任务，在高度动态和复杂的环境中生成安全可行的轨迹，形成自动驾驶汽车的核心能力。在本文中，我们提出了DRAMA，这是第一个基于Mamba的自动驾驶端到端运动规划器。DRAMA融合了相机、特征空间中的LiDAR鸟瞰图图像以及自我状态信息，以生成一系列未来的自我轨迹。与传统的基于变换器的方法不同，DRAMA能够实现计算强度较低的注意力复杂度，从而显示出处理日益复杂的场景的潜力。DRAMA利用我们的Mamba融合模块，高效地融合了相机和激光雷达的功能。此外，我们引入了一个Mamba Transformer解码器，可以提高整体规划性能。该模块普遍适用于任何基于Transformer的模型，特别是对于具有长序列输入的任务。我们还引入了一种新的特征状态丢弃，在不增加训练和推理时间的情况下提高了规划器的鲁棒性。大量的实验结果表明，与基线Transfuser相比，DRAMA在NAVSIM数据集上实现了更高的精度，参数少，计算成本低。

51c自动驾驶~合集19_自动驾驶

总结来说，本文的主要贡献如下：

我们介绍了一种名为DRAMA的Mamba嵌入式编码器-解码器架构，其中包括一个编码器，该编码器通过Mamba Fusion模块有效地融合了相机和LiDAR BEV图像的特征，解码器通过Mamba Transformer解码器生成确定性轨迹，该解码器普遍适用于任何基于Transformer的模型。
我们在DRAMA中引入了多尺度卷积和特征状态丢弃模块，并采用了差异化的丢弃策略。这些模块通过在多个尺度上提取场景信息并减轻噪声传感器输入和缺失自我状态的影响，提高了模型的有效性和鲁棒性。
使用NAVSIM规划基准对提出的模块和总体架构进行了评估。实验结果表明，与基线相比，我们的模型在使用较少的模型参数和较低的训练成本的情况下实现了显著的性能提升。

相关工作回顾Motion Planning for Autonomous Driving

自动驾驶的运动规划一直是机器人领域的一个长期研究课题。从传统的角度来看，运动规划是行为规划或决策的下游任务，它负责生成可驾驶和舒适的轨迹，保证安全。传统的运动规划通常依赖于几何和优化，可大致分为基于图、基于采样和基于优化的方法。基于图的方法，如A*和Hybrid A*，在离散化车辆配置空间后搜索最小成本路径。基于采样的方法在状态或动作空间内创建轨迹样本，以发现可行的路径。相比之下，基于优化的方法采用EM算法和凸优化等技术来确定满足指定约束的最佳轨迹。这些方法通常涉及大量的手动设计和优化，并且通常在动态或变化的环境中具有通用性。

随着专门用于运动规划的公共驾驶数据集和基准的发布，基于学习的轨迹规划得到了显著加速。目前，nuPlan是运动规划中最大的带注释规划数据集和基准。基于nuPlan和OpenScene数据集，最近开发了一个名为NAVSIM的数据集，以解决开环和闭环评估指标之间的不一致问题，并作为这些评估范式之间的中间地带。

基于这些开源数据集，[7]分析了数据驱动的运动规划方法中的误解，并提出了一种简单而高效的规划器，该规划器在nuPlan排行榜上排名第一。然而该规划器针对nuPlan指标进行了高度优化，当转移到其他场景时，其性能会下降。这些现有的基于学习的方法往往过度强调度量性能，往往以牺牲计算效率为代价。由于复杂的架构设计或用于轨迹评分和细化的在线模拟，其中许多方法由于无法实现的计算负担而变得枯燥乏味。为了提高计算强度和性能，我们提出了DRAMA，这是一种Mamba嵌入式编解码器流水线，旨在实现高效和卓越的规划性能。

State Space Models

为了减轻状态空间模型（SSM）在建模长期依赖关系时的大量计算和内存需求，[10]提出了结构化状态空间序列模型（S4），该模型将SSM中的A矩阵修改为具有低秩校正的条件矩阵。这种增强的模型Mamba在图像处理、语言处理和其他领域显示出巨大的应用潜力。[6] 从理论上证明了SSM与半可分矩阵的等价性。此外，引入了状态空间二元性（SSD）来增强原始的Mamba，该设计将多头注意力（MHA）融入SSM以优化框架，从而使改进版本（Mamba-2）表现出更大的稳定性和更高的性能。受到Mamba家族先前成功的启发，我们将最新的架构Mamba-2应用于端到端的运动规划。据我们所知，这是Mamba-2在自动驾驶领域的首次应用。为清楚和简洁起见，除非另有说明，否则所有后续提及曼巴的内容均适用于Mamba-2。

DRAMA方法详解

我们介绍了基于Mamba的端到端运动规划框架DRAMA，该框架使用卷积神经网络（CNN）和Mamba对相机和LiDAR BEV图像的特征进行编码和融合。解码器采用我们提出的Mamba Transformer解码器层对最终轨迹进行解码。在接下来的部分中，我们将详细探讨我们设计的四个模块：Mamba融合块、Mamba Transformer解码器层、多尺度卷积和特征状态dropout。

Mamba Fusion Block and Mamba-Transformer

Mamba Preliminaries：从连续系统导出的结构化状态空间序列模型（S4）利用1-D输入序列或函数x（t）和中间隐藏状态h（t）来产生最终输出y（t）。中间隐藏状态h（t）和输入x（t）用于通过投影矩阵A、B和C计算y（t）。

51c自动驾驶~合集19_自动驾驶_02

该系统应用可学习步长和零阶保持将连续系统转换为离散系统。因此，方程式（1）可以重新表述如下：

51c自动驾驶~合集19_自动驾驶_03

通过数学归纳，方程式（2）的最终输出可以改写如下：

51c自动驾驶~合集19_自动驾驶_04

矩阵M定义如下：

51c自动驾驶~合集19_自动驾驶_05

如方程（4）所述，下三角SSM变换矩阵M也满足N-顺序半可分（SSS）表示的定义。因此，SSM和SSS表示是等效的。

因此，SSS的结构化矩阵乘法可以有效地用于涉及SSM的计算。为了实现这种方法，分别使用结构化掩蔽注意力（SMA）方形模式算法和SMA线性模式算法将参数矩阵M分解为对角块和低秩块。此外，采用多头注意力（MHA）来提高模型性能。

曼巴融合：为了捕捉不同模态的多尺度背景，之前的基线在Transformer中实现了自我关注层，以融合和利用激光雷达和相机的特征。首先，对两种模态的特征进行转换和连接，生成组合特征I。然后，I将三个不同的投影矩阵、和相乘，得到Q、K和V。融合模块的最终输出可以通过以下方式计算：

51c自动驾驶~合集19_自动驾驶_06

计算复杂度的总体训练由以下公式给出：

51c自动驾驶~合集19_自动驾驶_07

我们建议使用Mamba作为特征融合的自我关注的替代方案，因为它具有高效的矩阵计算能力。我们坚持实施融合方法，如图2所示。与[4]不同，我们使用Mamba-2而不是Transformer来处理融合的特征。由于传统变压器自关注中没有复杂的计算，Mamba的计算成本大大降低。假设head维度P等于状态维度D，即P=D，则训练成本由下式给出：

51c自动驾驶~合集19_自动驾驶_08

51c自动驾驶~合集19_自动驾驶_09

在我们的曼巴融合模块中，我们设置了T E320和P E16，理论上与自我关注相比，在融合过程中训练成本降低了约20倍。

Mamba Transformer解码器：如图（3）所示，我们将Mamba和Transformer架构相结合，开发了新颖的Mamba Transformers（MT）解码器。最初，可学习的查询被传递到机器翻译的Mamba组件中，该组件的功能类似于self-att。由于与Mamba的交叉注意力仍在探索中，我们采用Transformer交叉注意力机制来处理来自Mamba的查询以及来自FSD模块的键和值。

51c自动驾驶~合集19_自动驾驶_10

Multi-scale Convolution

51c自动驾驶~合集19_自动驾驶_11

为了捕获多尺度图像特征，我们采用了多卷积设计，如图（4）所示，其中图像通过三个不同核大小的卷积层进行处理，分别为-5、7和9。这些卷积层的输出被组合在一起，并由多层感知器（MLP）层进一步编码，以增强模型的感知能力。

Feature State Dropout

由于硬件限制和机载传感器中的噪声，对周围环境的观察和感知（例如位置或速度）可能不准确，可能无法完全反映真实情况。此外，当导航模块的驾驶命令缺失时，或者在复杂的交通条件下导航时，即使在没有明确指导的情况下，模型也必须深入理解和推理场景和周围的代理，这一点至关重要。先前的研究表明，屏蔽某些图像和车辆状态特征可以提高自我监督任务和运动规划的整体性能。为了解决这些问题并基于这些见解，我们从两种模态和自我状态实现了图像特征融合的特征状态丢弃，如图5所示。最初，要编码的特征被添加了一个可学习的位置嵌入，然后是差异化的dropout来掩盖一些特征。

51c自动驾驶~合集19_自动驾驶_12

我们在DRAMA中采用了一种差异化的辍学策略，该策略对融合和自我状态特征应用了不同的辍学率。为融合特征分配相对较低的丢失率，以保持其完整性。该措施旨在避免融合感知信息的过度丢失，从而降低整体性能。

实验结果

定量结果

如表1所示，根据Transfuser（T）基线对拟议模块的评估显示，各种指标都有显著改善。整合多尺度卷积（MSC）可以提高PDM得分，从0.835增加到0.843，突出了其在捕获多尺度特征以提高整体模型性能方面的有效性。曼巴融合（MF）的加入进一步将PDM评分提高到0.848，自我进步（EP）从0.782显著提高到0.798，表明融合方式优越。特征状态丢失（FSD）显示了EP的最高单个模块增强，达到0.802，PDM得分为0.848，证明了其在减轻传感器输入不良方面的作用。此外，Mamba Transformer（MT）模块的PDM得分为0.844，碰撞时间（TTC）有了显著改善，突显了其强大的自我关注机制。在没有MSC的DRAMA中，这些模块的组合，即T+MF+FSD+MT，导致PDM得分为0.853，在所有指标上都有持续的改进，整个DRAMA模型达到了最高的PDM得分0.855，证实了综合方法的有效性。

51c自动驾驶~合集19_自动驾驶_13

表2显示了不同特征状态丢失率对模型性能的影响，表明改变状态和融合特征的丢失率可以提高模型的鲁棒性和准确性。基线Transfuser（T）得分为0.835。引入融合丢失率为0.1的FSD将得分提高到0.842，状态丢失率为0.5的FSD得分更高，为0.844，这表明该模型受益于处理缺失的状态特征。状态丢失率为0.5和融合丢失率为0.1的组合达到了最高得分0.848，表明这两种特征类型之间的平衡丢失率优化了模型性能。

51c自动驾驶~合集19_自动驾驶_14

表3全面比较了各种方法的培训和验证性能，强调了拟议模块的效率。基线Transfuser（T）的总参数大小为56 MB，训练和验证速度分别为每秒4.61次迭代（it/s）和9.73次迭代/秒。引入多尺度卷积（MSC）模块将训练速度略微降低到3.77it/s，同时保持类似的验证速度，这表明在增强的特征提取和计算成本之间进行了权衡。相反，Mamba Fusion（MF）模块将总参数大小显著减小到49.9 MB，并将训练速度提高到4.92 it/s，验证速度提高到9.94 it/s，展示了其在模态融合方面的卓越效率。

51c自动驾驶~合集19_自动驾驶_15

特征状态dropout（FSD）的集成保持了与基线相当的速度，在不增加计算开销的情况下证明了其效率。这一发现突显了FSD模块的通用性和轻质性，可以有效地将其整合到各种型号中以提高其性能。

Mamba Transformer（MT）模块在性能和速度方面实现了平衡的提高，尽管它将训练速度略微降低到4.51it/s。这是由于我们的输入长度T31小于状态维度D128，从而将训练成本从Ω（）增加到Ω（）。没有MSC的DRAMA组合架构通过将总参数减少到50.4MB，训练和验证速度分别为4.84it/s和9.91it/s，进一步提高了效率。最后，包含所有模块的完整DRAMA模型保持了50.6 MB的参数大小，但训练速度略有下降，降至3.86 it/s。尽管如此，它还是获得了最高的PDM分数，验证了集成方法的整体有效性和效率。

定性结果

我们展示了图6所示的8个代表性场景，其中我们的DRAMA模型展示了安全准确的端到端规划结果。在子图（a）和（e）中，我们的规划师准确地发出命令，保持静止，为过街的行人让路，而不考虑是否存在明确的交通灯控制。在子图（a）中，行人在没有红绿灯的弯道过马路，而在子图中（e），行人在有红绿灯和人行横道的情况下过马路。这些场景表明，我们的规划师能够识别交通信号灯和潜在危险，做出安全的规划决策。在子图（b）和（c）中，我们的规划师根据前方车辆的低速发出变道命令。这表明我们的规划师能够生成快速复杂的规划操作，以提高驾驶效率。子图（d）和（f）展示了我们的规划师在低速场景中的熟练程度，特别是在进出停车位方面。这些例子突出了规划师的精确控制和决策能力，确保了平稳高效的停车操作。最后，子图（g）和（h）展示了我们的模型在执行右转和左转时的规划能力。这些例子突出了规划者在精确和安全地处理各种交通场景方面的适应性，展示了其对复杂驾驶操作的全面理解。

51c自动驾驶~合集19_自动驾驶_16

讨论和未来工作

由于NAVSIM排行榜的临时关闭和比较解决方案的可用性有限，我们采用了公共测试数据集来评估基线和我们提出的方法。基线在NAVSIM排行榜上的PDM得分为0.8483；然而，当在公共数据集上进行测试时，它下降到0.8347。我们表现最佳的方法获得了0.8548的PDM得分，这在公共测试数据集上的基线中令人惊讶。所提出的多尺度卷积有助于DRAMA的性能，尽管不影响验证速度，但牺牲了训练效率。开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用 whaosoft aiot自动驾驶也可以哦

鉴于所提出的多尺度卷积训练速度的降低，我们将探索其他强大而高效的视觉编码器。此外，我们还将考虑在现实场景中测试我们提出的计划器。

结论

这项工作提出了一种名为DRAMA的基于Mamba的端到端运动规划器，这是Mamba在自动驾驶运动规划方面的第一项研究。我们提出的Mamba融合和Mamba Transformer解码器有效地提高了整体规划性能，Mamba Transformers为传统Transformer解码器提供了一种可行的替代方案，特别是在处理长序列时。此外，我们引入的特征状态丢弃提高了规划器的鲁棒性，可以集成到其他基于注意力的模型中，在不增加训练或推理时间的情况下提高性能。我们使用公共规划数据集NAVSIM对DRAMA进行了评估，结果表明，我们的方法在参数少、计算成本低的情况下明显优于基线Transfer。

#DeepInteraction++

多模态3D再进化！融合感知算法新SOTA

目前随着自动驾驶技术的快速发展，安全的自动驾驶车辆需要依赖可靠和准确的场景感知，其中3D目标检测是非常核心的一项任务。自动驾驶中的感知模块通过定位和识别周围3D世界中的决策敏感物体，从而为下游的规控模块做出准确的决策提供保障。

自动驾驶车辆为了输出准确和可靠的感知结果，通常均会配备激光雷达、相机、毫米波雷达以及超声波雷达等多种传感器采集设备。为了增强自动驾驶车辆的感知能力，目前大多数自动驾驶汽车都同时部署了激光雷达和摄像头传感器，分别提供3D点云和RGB图像。由于两种传感器的感知特性不同，它们自然表现出强烈的互补效应。点云涉及必要的目标定位和几何信息，具有稀疏表示的特性，而2D图像则以高分辨率的形式提供丰富的目标外观和语义信息。因此，跨模态的专用信息融合对于强大的场景感知尤为重要。

目前常用的多模态3D目标检测方法通常采用如下图(a)图的融合策略，将各个模态的表示组合成混合的特征。然而，这种融合方法在结构上受到限制，由于信息融合到统一表示的过程中存在很大程度上的不完善，所以可能会丢失很大一部分特定模态的表示信息。

针对上述提到的相关问题，并为了克服上述提到的相关挑战，我们提出了一种新颖的模态交互策略，称之为DeepInteraction++，相关的融合结构如下图的(b)图所示。

51c自动驾驶~合集19_自动驾驶_17

各类不同的多模态融合感知算法架构对比

我们工作的核心思路是学习和维护多种特定模态的特征表示，而不是得出单一模态的融合表示。我们提出的方法实现了模态间的交互，允许自发交换信息并保留特定模态的信息优势，同时最小化不同模态之间的干扰。具体来说，我们首先使用两个独立的特征提取主干网络，以并行的方式将3D空间的点云数据和2D平面的多视图图像映射到多尺度的LiDAR BEV特征和相机全景特征中。随后，我们使用编码器以双边方式交互异构特征来进行渐进式表示学习和集成。为了充分利用每个模态的特征表达，我们设计了一个解码器以级联方式进行多模态预测交互，以产生更准确的感知结果。大量实验证明了我们提出的DeepInteraction++框架在3D目标检测和端到端自动驾驶任务上均具有卓越的性能。

论文链接：https://www.arxiv.org/pdf/2408.05075

代码链接：https://github.com/fudan-zvg/DeepInteraction

网络模型的整体架构和细节梳理

在详细介绍本文提出的DeepInteraction++算法模型之前，下图整体展示了提出的DeepInteraction++算法模型的网络结构。

51c自动驾驶~合集19_自动驾驶_18

提出DeepInteraction算法模型的整体框架图

与现有技术相比，本文提出的算法模型在整个检测流程中为激光雷达点云和相机图像模态保留两种不同的特征表示，同时通过多模态的交互策略实现了不同模态信息交换和聚合，而不是创建单一的模态融合表示。通过上图的网络结构可以看出，提出的DeepInteraction++由两个主要模块组成：具有多模态表征交互的编码器模块和具有多模态预测交互的解码器模块。编码器实现模态之间的信息交换和集成，同时通过多模态表征交互保持每个模态的单独场景表达。解码器从单独的模态特定表示中聚合信息，并以统一的模态无关方式迭代细化检测结果。

编码器：实现多模态的表达交互

与通常将多个模态的输入特征聚合到一个混合特征图的传统模态融合策略不同，我们设计的编码器模块采用了多输入多输出的结构，通过多模态表达交互的方式来维护和增强单个模态的特征，其编码器的网络结构如上图中的(a)图所示。整体而言，编码器模块将激光雷达和图像主干独立提取的两个特定模态场景表示特征作为输入，并产生两个精修的特征表达作为输出。具体而言，编码器模块由堆叠多个多模态表征交互编码器层组成。在每一层中，来自不同模态的特征参与多模态表征交互和模态内表征学习，以实现模态间和模态内的交互过程。

双流Transformer的交互编码器模块

在之前DeepInteraction算法模型的基础上，为了进一步推动更高的可扩展性和降低计算开销，我们通过将原始编码器层替换为一对自定义的注意交互机制的Transformer层来实现。此外，多模态表达交互模块中的并行模态内和模态间表征学习现在用作重构架构中的自注意和交叉注意操作。这里，我们以激光雷达分支为例，每个Transformer层内的计算可以表示为如下的情况：

其中公式中的FFN表示前馈网络层，LN表示层归一化，SA和CA分别为表示多模表达交互和模态内表征学习。图像分支中的Transformer 层遵循类似的设计。

多模态表达交互

以相机全景特征表达以及激光雷达BEV表达作为两种模态的输入，我们的多模态表达交互用于实现以双边的方式交换临近上下文的信息，具体实现过程如下。

为了定义跨模态之间的邻接关系，我们首先需要建立激光雷达BEV特征表达和相机全景特征表达之间的像素到像素的对应关系。为此，我们在图像坐标系和BEV坐标系之间构建密集映射（和）。

再确定了跨模态的邻接关系之后，我们采用注意机制来实现跨模态信息的交换过程。具体而言，给定一张图片作为查询，它的跨模态邻域用于交叉注意力机制中的键和值，其表示方式如下：

其中代表的是在2D表达中位置的元素，是激光雷达到图像表达交互，实现使用激光雷达的点云信息增强图像特征图。同样反过来，给定一个激光雷达BEV特征点作为查询，我们获取它的跨模态领域作为查询。同样采用上述的计算流程用于实现图像到激光雷达的表达交互。

为了促进稀疏激光雷达点云和密集图像模态之间的表征交互，我们需要进行有效的跨模态表征增强。我们引入了一种新的交互机制，即利用激光雷达引导的图像列和BEV极射线之间的跨平面注意力机制，从而实现有效地利用表征交互中的密集图像特征。具体而言，对于每个相机，我们首先转换到极坐标进而得到，其中是图像特征的宽度，是半径的维度。一旦相机参数固定，两个序列元素之间的对应关系将变得更加稳定且更容易学习。我们利用多头注意力和正弦位置编码来捕捉这种模式

模态内表征学习

除了直接合并来自异构模态的信息之外，模态内推理还有助于更全面地整合这些表征。因此，在编码器的每一层中，我们进行与多模态交互互补的模态内表征学习。在本文中，我们利用可变形注意力进行模态内表征学习。同时，考虑到透视投影引入的尺度差异，相比于固定局部邻域内的交叉注意力，具有更灵活感受野的交互操作更为合理，从而在保持原有高效局部计算的同时，实现了更灵活的感受野，并促进了多尺度的信息交互。

分组稀疏注意力实现高效交互

考虑到激光雷达点云固有的稀疏性，激光雷达点的数量在Pillar内会根据其位置而变化，并且单个Pillar内的点最多只能被两个摄像头看到。因此，为了在图像到激光雷达的表示交互期间充分利用GPU的并行计算能力，我们仔细检查每个Pillar中有效图像标记数量的分布，并将这些Pillar划分为几个区间，然后，我们通过将键和值的数量填充到间隔的上限来批量处理每个间隔内的支柱，以进行注意力计算。通过仔细选择间隔边界，可显著减少内存消耗，而对并行性的影响可忽略不计。

解码器：多模态预测交互

除了考虑表示层面的多模态交互之外，我们还引入了具有多模态预测交互的解码器来进行预测，其网络结构如下图所示。

51c自动驾驶~合集19_自动驾驶_19

多模态预测交互模块网络结构图

通过上图的(a)图可以看出，我们的核心思想是增强一种模态在另一种模态条件下的3D目标检测。具体来说，解码器是通过堆叠多个多模态预测交互层来构建的，其中部署预测交互以通过交替聚合来自增强图像表示和增强BEV表示的信息来逐步细化预测过程。

端到端的自动驾驶

为了进一步证明我们提出的DeepInteraction++的可扩展性和优越性，我们将DeepInteraction++扩展为端到端多任务框架，同时解决场景感知、运动预测和规划任务。具体而言，在使用了现有的检测头之外，我们还使用了额外的任务头来形成端到端框架，包括用于地图分割的分割头、用于估计被检测物体运动状态的预测头和用于为自我车辆提供最终行动计划的规划头。考虑到来自BEV和周围视图的特征图用于深度交互式解码，我们做了一些修改以利用这一优势。首先，与激光雷达点云相比，图像上下文对于地图表示更具辨别性，而大量的点云信息可能会反过来造成混淆。因此，我们通过LSS将周围视图特征投影到BEV上，然后将它们传播到地图分割头中。随后，预测和规划头将检测和分割生成的结果作为输入，并使用标准Transformer解码器对其进行处理，从而实现端到端的自动驾驶任务。

实验

为了验证我们提出算法模型的有效性，我们在nuScenes的验证集和测试集上与其它SOTA算法模型进行了对比，相关的实验结果如下图所示。

51c自动驾驶~合集19_自动驾驶_20

不同算法模型在nuScenes数据集上的精度对比

通过上述的实验结果可以看出，我们提出的DeepInteraction++算法模型实现了SOTA的感知性能。此外，为了进一步直观的展现我们提出算法模型的效果，我们将模型的检测结果进行了可视化，如下图所示。

51c自动驾驶~合集19_自动驾驶_21

算法模型的可视化结果

此外，为了展现我们提出的DeepInteraction++框架在端到端任务上的性能，我们也在nuScenes的验证集上比较了SOTA算法模型的端到端的规划性能，具体的性能指标如下图所示。

51c自动驾驶~合集19_自动驾驶_22

不同算法模型的planning性能

上述的实验结果表明我们提出的算法框架在大多数评估指标上显著超越了现有的面向规划的方法。除了提供更准确的规划轨迹外，DeepInteraction++ 还可以通过对交通参与者进行更精确、更全面的感知和预测来实现更低的碰撞率。为了更加直观的展现我们模型的planning性能，我们也将相关的结果进行了可视化，如下图所示。

51c自动驾驶~合集19_自动驾驶_23

端到端planning任务的性能对比情况

通过上图的可视化结果可以看出，通过整合多模态信息并采用有意义的融合策略，我们提出的方法可以全面理解和分析驾驶场景，从而即使在复杂而错综复杂的驾驶环境中也能做出更合理的规划行为。此外，由于上游的精准感知，DeepInteraction++能够有效避免因累积误差而导致的错误动作，如上图中的第三行所示。

结论

在本文中，我们提出了一种新颖的多模态交互方法DeepInteraction++，用于探索自动驾驶任务中内在的多模态互补性及其各自模态的特性。大量的实验结果表明，我们提出的方法在nuScenes数据集上的3D目标检测以及端到端任务上取得了最先进的性能。

#轨迹预测之问

Anchor-based方法能否被Anchor-free取代？

Anchor-based方法能否被Anchor-free取代？

Anchor-based方法真的不行吗？

在目标检测和轨迹预测领域，Anchor的概念扮演着举足轻重的角色。它不仅作为检测或预测过程中的重要参考信息，还深刻影响着算法的设计与应用效果。

在目标检测领域，Anchor-based方法通过预设一系列具有不同大小和长宽比的锚框（Anchor Boxes）作为候选区域，用于目标检测。这些锚框基于图像特征或统计数据设计，旨在覆盖可能的目标位置和形状。模型会预测每个锚框内是否存在目标物体，以及目标的位置偏移和类别。这类方法通常具有较高的检测准确率，因为它们通过精细设计的锚框来缩小搜索空间，使得模型更容易学习到目标的特征。同时，它也便于实现多尺度检测，通过在不同层级的特征图上设置不同尺度的锚框来适应不同大小的目标。Anchor-free方法不依赖于预定义的锚框，而是直接在图像或特征图上预测目标的位置和形状。这种方法通过预测关键点（如中心点、角点等）或边界框本身来实现目标检测。这种方法较为灵活，因为它们不受锚框数量和尺度的限制，能够更好地适应不同大小和形状的目标。同时，由于不需要手动设计锚框，这种方法也减少了人工干预和调试的工作量。

在轨迹预测领域，Anchor-based方法通常依赖于先验信息或历史数据来定义一系列可能的轨迹点或路径作为参考。这些方法通过预测智能体相对于这些参考点的运动状态或偏移来预测其未来轨迹，因此，可以利用丰富的历史数据和先验知识来指导预测过程，提高预测的准确性和鲁棒性，同时便于实现多模态预测，通过考虑不同的轨迹点或路径组合来应对智能体行为的不确定性。而Anchor-free轨迹预测方法不依赖于固定的参考点或路径，而是直接根据智能体的历史状态和周围环境信息来预测其未来轨迹。这些方法通常使用深度学习模型来捕捉智能体的运动规律和意图，并据此生成预测轨迹，它们不受限于任何预设的轨迹点或路径，因此能够更好地适应复杂多变的交通环境和智能体行为模式。

当我们观察Argoverse榜单，能看到许许多多anchor-free架构的模型如LOF[1]、HPNet[2]、SEPT[3]以及HiVT[4]等，却难以看见anchor-based模型的影子。这一现象说明了anchor-free方法的预测准确性远远超过anchor-based方法，那anchor-based方法是否会被时代淘汰呢？

51c自动驾驶~合集19_自动驾驶_24

图1PBP与SOTA的对比

但在工业界，实际上大家普遍更加认可的却是anchor-based架构，如PBP[5]、TNT[6]或DenseTNT[7]等。一方面，对于下游而言，轨迹预测的准确性并非越高越好，我们定义的准确性是将预测轨迹和预测的GT进行对比，然而数据集的GT不是现实生活中的唯一解另一方面，anchor-based方法输出的轨迹具有真实性，能够更好地部署到自动驾驶框架之中。

51c自动驾驶~合集19_自动驾驶_25

图2HiVT-64和PBP对比(注:HiVT尽管精度比PBP高,但会出现①超出道路边界的不可能预测②不符合地图结构的预测③缺少模态)

总的来说，轨迹预测中两种方法的主要的优缺点总结如下：

51c自动驾驶~合集19_自动驾驶_26

表1.Anchor-based和anchor-free方法对比

那么为什么anchor-based方法能够输出更加真实、与地图兼容和全面的轨迹呢？接下来，我们将从anchor-based典型代表：PBP和MTR轨迹预测模型分析其中的奥秘。

PBP：有目标的轨迹预测

本文提出了一个名为Path-based Prediction方法，这一网络首先利用场景编码器提取智能体（如其他车辆）的历史位置和高精地图信息的特征向量。然后，候选路径采样器从地图的车道图中为每个代理生成一系列可能的参考路径。路径分类器进一步预测这些路径的概率分布。最后，轨迹回归器在Frenet路径坐标系中，针对每条参考路径预测代理的未来轨迹，这些轨迹随后转换回笛卡尔坐标系以获得多模态预测结果。与传统的目标驱动预测相比，PBP方法通过在整个参考路径上进行操作，而不是仅依赖于目标位置，从而提高了预测的准确性和地图适应性。

PBP框架的核心亮点在于候选轨迹和Frenet坐标系的应用。候选轨迹生成的目的是基于矢量地图和目标智能体的位置与行驶方向得到目标智能体的未来可能的所有轨迹。候选轨迹需要满足两个原则：其一是轨迹起点要在目标智能体足够接近，以保证不会出现状态跳变的现象，其二是候选轨迹必须沿着目标智能体的形式方向，其原因在于车辆在正常路面上倒车属于小概率事件。在满足这两个条件之后，便可以通过宽度优先算法进行搜索，得到多条候选轨迹。候选轨迹可以为轨迹解码器提供参考的先验信息使得输出的轨迹更倾向沿着车道中心线的方向，以此保证输出轨迹的地图适应性。

Frenet坐标系定义沿着参考轨迹前进方向为正方向，以车辆中心为原点，X表示沿着参考轨迹的曲线距离，Y代表与参考轨迹对应切线的最短距离。Frenet坐标系将轨迹预测问题从二维或三维笛卡尔空间转换为基于路径的一维纵向（s）和横向（d）坐标表示，简化了预测模型需要处理的数据维度。同时，由于车道中心线提供了一个自然的参考，轨迹预测的方差会降低，这有助于生成更加稳定和可靠，更加符合道路布局和交通规则的轨迹。

51c自动驾驶~合集19_自动驾驶_27

图3PBP模型框架

MTR：全局意图定位和局部运动细化的有机结合

在自动驾驶技术的前沿探索中，Motion Transformer（MTR）以其独特的全局意图定位和局部运动细化机制，为anchor-based轨迹预测树立了新的标杆。

1.全局意图定位

全局意图定位是MTR框架中的基石，它为后续的轨迹预测提供了宏观的方向性指导。这一步骤的核心在于确定交通参与者可能的宏观运动意图，这些意图通常与参与者的最终目的地或主要运动方向紧密相关。

通过引入静态意图查询（static intention queries），MTR巧妙地构建了一组代表性的意图点，每个点都对应着一个特定的运动模式。这些静态查询作为学习到的positional embeddings，能够生成特定于运动模式的初步轨迹。与传统的密集目标候选集相比，静态意图查询显著提高了训练过程的稳定性，并确保了模型能够更全面地覆盖所有潜在的未来行为。

全局意图定位的作用不仅在于缩小预测范围，使模型能够集中精力探索最有可能的轨迹，更在于为后续的局部运动细化提供了有力的基础。通过确定大致的运动方向和意图，模型能够在复杂的交通环境中保持清晰的思路，为更精细的预测奠定基础。

51c自动驾驶~合集19_自动驾驶_28

图4全局意图定位(注:引入静态意图点的目的:①每个意图点负责一个模态,保证预测模态全面②降低未来轨迹的不确定性③稳定训练过程)

2.局部运动细化

在全局意图定位之后，局部运动细化作为MTR框架的精细打磨环节，负责对预测的轨迹进行细粒度的调整和优化。这一步骤的核心在于捕捉并利用局部区域的具体信息，以提高预测的精度和可靠性。

动态搜索查询（dynamic searching queries）在这一过程中扮演了关键角色。它们被初始化为与静态意图查询相对应的位置嵌入，但能够根据预测的轨迹动态更新。这些动态查询像是一双双敏锐的眼睛，不断检索每个意图点周围的细粒度局部特征，使模型能够根据最新的局部上下文信息对预测轨迹进行微调。

局部运动细化的作用在于捕捉复杂的场景细节，如道路条件、交通信号、周围其他参与者的行为等。通过充分利用这些信息，模型能够生成更加符合实际场景的轨迹预测，从而提高自动驾驶系统的安全性和可靠性。

51c自动驾驶~合集19_自动驾驶_29

图5MTR局部运动细化

3.局部和全局的协同工作

全局意图定位和局部运动细化在MTR框架中并非孤立存在，而是紧密相连、协同工作的。全局意图定位提供了宏观的指导方向，为局部运动细化划定了探索范围；而局部运动细化则通过精细的调整和优化，确保了预测轨迹的准确性和可靠性。

这种分层次的处理方法不仅提高了轨迹预测的效率，还显著提升了预测的精度。在自动驾驶系统中，这样的预测能力对于车辆理解周围环境、规划安全路径以及做出快速响应至关重要。

51c自动驾驶~合集19_自动驾驶_30

图6MTR总体框架

总结

在轨迹预测领域，尽管近年来Anchor-free方法因其高准确性和灵活性在学术研究和排行榜上崭露头角，但Anchor-based方法依然占据着不可或缺的重要地位，特别是在工业界和实际应用中。本文深入探讨了Anchor-based与Anchor-free两种方法的优缺点，并通过分析PBP和MTR这两个典型的Anchor-based轨迹预测模型，揭示了Anchor-based方法为何能够输出更加真实、与地图兼容且全面的轨迹。

Anchor-based方法通过预设一系列基于先验知识或历史数据的锚点或路径作为参考，不仅缩小了预测空间，提高了预测效率，还使得预测结果更加符合实际交通规则和道路布局。例如，PBP模型通过候选路径采样器和Frenet坐标系的应用，确保了预测轨迹的地图适应性和真实性。而MTR模型则通过全局意图定位和局部运动细化的有机结合，进一步提升了预测的准确性和鲁棒性。

在工业界，轨迹预测的准确性并非唯一追求，更重要的是预测轨迹的实用性和可部署性。Anchor-based方法输出的轨迹更加真实，能够更好地与自动驾驶框架中的其他模块（如路径规划、控制等）协同工作，确保车辆在实际道路环境中的安全行驶。此外，Anchor-based方法还能够实现多模态预测，通过考虑不同的轨迹点或路径组合来应对智能体行为的不确定性，为自动驾驶系统提供更加全面的决策支持。

未来，随着技术的不断进步和需求的不断变化，Anchor-based与Anchor-free方法或将进一步融合创新，共同推动轨迹预测技术的发展。

一点小感悟

在参与轨迹预测小班课的过程中，Thomas和Paul老师的生动讲解不仅让我对技术细节有了更深入的理解，而且领悟到两个人生道理。首先，我深刻体会到了“预设与灵活性”的辩证关系。Anchor-based方法通过预设锚点或路径，为预测提供了稳定的框架，但这也要求我们在面对变化时保持足够的灵活性。人生亦是如此，我们需要设定目标，规划路径，但更要有应对突发情况、灵活调整策略的能力。正如在自动驾驶中，车辆需要根据实时路况和周围环境的变化来动态调整行驶轨迹，我们在人生道路上也需要根据环境和自身条件的变化，适时调整方向，保持前进的动力。其次，我认识到了“全面性与真实性”的重要性。Anchor-based方法能够输出更加全面、真实的轨迹，这得益于它对多种可能性的综合考虑和对实际环境的深刻理解。人生亦是如此，我们不仅要追求表面的成功和成就，更要注重内心的真实感受和价值观的塑造。只有全面审视自己的生活，真诚面对自己的内心，才能找到真正属于自己的道路，活出真实的自我。

#LEO

多模态LLM能力升级，与3D世界交互更进一步！

论文题目：LEO: An Embodied Generalist Agent in 3D World
原文链接：https://arxiv.org/abs/2311.12871
项目地址：https://embodied-generalist.github.io/
作者单位：北京通用人工智能研究院通用视觉实验室

在人工智能和神经科学领域，构建一个能够处理各种综合任务的通用模型一直是研究者们长期追求的目标。这种模型应该能够像人类一样，不仅在二维空间中表现出色，更能深入理解和交互于复杂的三维物理世界。然而，现有的通用模型在二维领域的成就虽然显著，但它们在三维空间的理解上却显得力不从心，这成为了它们在解决现实世界任务和接近人类智能水平时的一大障碍。为了克服这一限制，文章提出了一个核心问题：如何使智能体不仅能够全面理解真实的三维世界，还能与之进行有效的交互？在探索这一问题的过程中，文章发现智能体的发展面临三个主要的挑战：

数据集的缺乏：与二维数据相比，三维数据的收集成本更高，这限制了模型训练和验证的广度和深度。
统一模型的缺失：以往的三维视觉语言（3D VL）模型并没有经过大规模的统一预训练，也没有有效的微调策略，这些模型通常基于强先验设计，而缺乏灵活性和泛化能力。
学习策略的不足：在视觉语言学习（VLA）的潜力和大型语言模型（LLM）对三维任务的适应性方面，还有很多未被充分探索的问题。

为此，北京通用人工智能研究院通用视觉实验室（BIGAI）的研究团队引入了多模态通用智能体LEO，它能以自我视角的2D图像、3D点云、文本作为任务输入，在3D环境中处理综合性任务。LEO展示了具有统一任务接口、模型架构和目标的感知、基础、推理、计划和行动能力。

LEO采用了两阶段的训练方案，即（i） 3D 视觉-语言（3D VL）对齐和（ii） 3D 视觉-语言-动作（VLA）指令调优。文章收集的大规模数据集包括各种对象级和场景级任务，这些任务需要对 3D 世界有深入的理解并与之交互。值得注意的是，文章精心设计了一个LLM辅助流水线来生成高质量的3D VL数据，并使用场景图和以对象为中心的思维链(O-CoT)方法来提示LLM。为了进一步加强质量控制，文章设计了一系列通过正则表达式匹配和场景图检索的改进程序。文章证明了该方法在很大程度上丰富了数据的规模和多样性，同时减轻了LLM生成数据时的错误率。文章在不同的3D任务上定量地评估LEO并进行消融研究，包括3D字幕描述、3D问答、定位问题回答、具身导航和机器人操作设计。

模型

下面一起来看看LEO的模型是如何设计的吧。LEO主要做了两件事，第一件事是将自我视角的二维图、全局视角的三维图、文本指令转化为多模态输入，并用统一架构输出文本回复和具体动作命令。具体来说，首先将所有不同模态的数据转换为一系列符号（如下所示），然后用预训练的LLM来处理这些序列:

进而，LEO的学习过程被表述为一种特定的语言建模任务。具体来说，它使用了GPT（Generative Pre-trained Transformer）风格的自回归语言建模方法，即通过自回归的方式（即依次生成序列中的每个元素，每个元素的生成依赖于前面已经生成的元素）来预测文本序列的下一个词或字符。GPT自回归语言建模时输入一个给定前缀的上下文中，并指导后续文本的生成。综上所述，通过将LEO的学习过程采用前缀语言建模的方法，使其能够根据给定的前缀生成适当的响应或输出。

LEO做的第二件事就是利用预训练的大型语言模型(LLM)作为下游任务的强大先验知识，从而泛化应用在多种通用化人工智能任务上（包括3D字幕描述、3D问答、定位问题回答、具身导航和机器人操作设计等）。

LEO通过一个自我视角的2D图像编码器来感知实体视图，通过一个以物体为中心的3D点云编码器来感知他人视角的全局视图。这种感知模块可以灵活适应各种具身环境，增强三维推理能力。编码的视觉标记与文本标记相互交织，形成统一的多模态任务序列，该序列进一步作为仅解码器的LLM的输入。LLM配备了包含文本和动作标记的词汇表，可以同时生成对各种任务的回复。因此，所有的任务都被表述为序列预测，从而实现了统一的训练目标。

训练和推断

文章以前缀语言建模的方式制定了LEO训练跟随的目标函数。对于标记序列s和第B个批次，文章通过以下函数来优化LEO：

51c自动驾驶~合集19_自动驾驶_31

其中，s_prefix表示(1)中的前缀标记。在训练过程中，文章冻结了预训练的3D点云编码器和LLM，并微调了2D图像编码器、Spatial Transformer和LoRA参数。LEO总共有约7B个参数，其中约142M个参数将被调谐。在推理过程中，文章使用光束搜索来生成文本回复。

数据集

在展示训练结果之前还要说明数据集的划分以及一些训练细节。由于LEO是一个接受多模态输入并遵循指令的通用智能体，因此文章采用两阶段训练方法，并将数据分成两组:

(i) LEO-align：侧重于3D 视觉-语言（3D VL）对齐，以弥合3D场景表示与自然语言之间的差距。与BLIP-2类似，文章训练LEO在给定各种3D输入的情况下生成字幕。具体来说，文章收集了三种类型的3D字幕数据:1)对象级字幕，其中文章将3D单个对象与其描述对齐;2)场景中的对象描述，其目标是在3D场景上下文中生成对象的指代表达;3)场景级字幕，重点是用自然语言描述全局3D场景。

(ii) LEO-directive：针对3D 视觉-语言-动作（3D VLA）指令调优，赋予LEO各种泛化能力。文章策划了一套全面的任务，涵盖了从基础场景理解和推理到对话、规划和具体化动作。具体来说，文章引入了：1)3D字幕描述和问题回答——给定3D场景输入，智能体需要生成自然语言回应来描述场景或回答问题;2) 3D对话和任务规划，其中智能体被期望对给定3D场景的复杂指令产生灵活连贯的回复;3)导航和操作，这需要智能体在3D场景中完成各种具身操作任务（embodied acting tasks）。

LLM辅助的3D文本配对数据生成

产生大量LEO-align和LEO - directive数据集的核心是用LLM(即ChatGPT)辅助生成3D文本配对数据，如图二。

能力评估和分析

文章全面评估了包括感知、定位、推理、规划和行动在内的三维任务，展示了LEO的能力。

1 3D视觉语言理解和推理

从智能体自我中心的角度理解和推理对象属性、对象关系和3D场景的其他方面是3D世界中具身通用智能体的基本能力。文章研究了LEO执行3D 视觉语言理解和具体化推理任务的能力。具体来说，文章考虑了三个著名的3D任务：Scan2Cap上的3D字幕描述，ScanQA上的3D问答，以及SQA3D上的3D具体化推理。为了进行定量比较，文章采用了针对特定任务的方法和通用模型，包括:1)3D密集字幕描述的最先进专家模型;2)最先进的3D 问答（3D QA）专家模型;3)任务特定的微调通用模型，如3D-VisTA 和3D-LLM 。据文章所知，与之前的模型形成鲜明对比的是，LEO是第一个可以在统一架构中直接处理上述3D视觉语言任务而无需针对任务进行微调的模型。

结果如表4所示。LEO在3D密集字幕描述和3D QA任务上明显优于最先进的单任务和特定任务微调模型。与使用特定任务头部的专家模型相比，文章基于LLM的方法不仅提供了生成开放式回复的灵活性，而且还展示了出色的定量结果。另一方面，考虑到3D-LLM中复杂的特征聚合，文章认为以对象为中心的3D表示是一种简单而有效的选择，可以在利用LLM先验知识的同时将3D场景与LLM连接起来。

2 情景对话和规划

文章预期LEO将支持与人类更复杂的交互，例如，在3D世界中回应复杂的多轮用户指令。为了验证LEO的3D视觉语言的理解和推理能力，文章对3D对话和规划任务进行定性研究，并从LEO - instruction的测试集中使用模型未见过的场景测试。

结果如图A .1所示，LEO能够生成高质量的回复，它具有两个特点：1）精确对应到3D场景：LEO提出的任务规划涉及与3D场景相关的具体对象，以及这些对象相关的合理动作。2）丰富的信息性空间关系。LEO的回答中的实体通常伴随着详细的描述。此类信息有助于在复杂的3D场景中识别特定对象，并为人类提供相当大的帮助。

3 三维世界中的具身动作

为了探索LEO在3D世界中连接视觉语言行为的能力，文章选择了两个典型的具身化AI任务：AI Habitat上的对象导航(ObjNav)和CLIPort上的机器人操作。表5和6中展示了CLIPort操作和对象导航的结果。文章的研究结果如下:1)在机器人操作方面，LEO的性能可与最先进的性能相媲美，在一些具有挑战性的未知任务上甚至更胜一筹。特别是，LEO 直接产生运动指令，无需归纳偏差（如热图），展示了 LEO 在学习具体动作方面的巨大能力。

2)在对象导航(ObjNav)中，LEO实现了与基线相当的成功率，并且在MP3D-val上具有更好的SPL，这表明LEO可以利用以物体为中心的3D场景输入(可能提供粗略的全局地图)并采取更短的路径到达目标。此外，HM3Dval上的结果证实了LEO对新场景的零样本泛化能力。值得注意的是，所有基线模型都配备了循环模块，而LEO仅包含截断的过去行动，这可能是成功率较低的原因。

4 更多关于LEO的见解

文章在使用不同的数据配置进行训练时评估LEO，包括精确匹配、句子相似度和人工评级。文章将LEO指令调优而不包含动作任务(w/o Act)的组别作为默认设置。

是否对齐的影响：与完成两阶段训练(w/o Act)相比，文章直接对没有对齐阶段的模型进行指令调整(w/o Align)。表7中的结果显示了对齐的一致影响。尤其是在Scan2Cap任务上，对齐的优势显得尤为突出，因为该任务专注于详细的场景理解和相应的字幕描述，而这正是对齐训练所聚焦的核心要点。

专家模型VS通用模型：即使在ScanNet任务上，ScanNet场景专家模型的表现也比w/o Act略差，尤其是在跨场景(3RQA)和任务(3RDialog和3RPlan)的泛化方面。这证明了通用的指令调优具有广泛的场景和任务覆盖的优势。

是否包含具身化的动作任务对视觉语言能力的影响：文章比较了w/o Act和VLA，它们的不同之处在于是否包含具身化的动作任务。表7的结果显示，加入具身动作任务会导致3D VL任务的性能下降。这可能源于1)语言生成与具身动作预测之间的差距，2)具身动作任务的数据规模不平衡。与VL数据有利于VLA协同训练中的具身动作任务的发现(Brohan等人，2023)相反，文章的观察表明，具身动作任务可能反过来损害视觉语言（VL）能力。如何不断弥合虚拟语言与具身动作任务之间的差距，是进一步探索的重要方向。

有无对话和规划数据的影响：与默认模型(表8中的w/ dialog)相反，文章在没有对话和规划数据(w/o dialog)的情况下训练LEO。文章设计了一个包含三种类型问题(可回答、不可回答和NLP)的评估集，并根据人类偏好使用TrueSkill 进行评估。表8的结果证实，在无对话的情况下，出现了更多的错觉(用户对“无法回答”的偏好较低)和更差的NLP技能。这可能是因为1)对话数据中的不同对话有助于培养对复杂指令的灵活反应;2)文章的规划数据可以提供基于场景的常识性知识，并鼓励详细连贯的文本。

数据平衡的影响：文章发现不平衡的数据可能会导致LEO产生错觉，例如，当被问到“这个房间里有什么东西吗?”时，它倾向于回答“是”。为了解决这个问题，文章在3RScanQA数据中添加了更多的负面样本（w/ Aug），其中查询了不存在的对象。文章还设计了一个具有不同类型(Yes和No)的对象存在性问题的评估集。表9中的结果表明，文章可以通过平衡调优数据有效地缓解错觉问题。此外，增强3RScan数据的好处可以以零样本的方式转移到ScanNet场景。

5 规模效应分析

文章研究了规模效应，即跟踪测试集上的指令调优损失随着数据规模的增长而增加的现象。除了默认的Vicuna-7B，文章还纳入了两个不同规模的LLM: OPT-1.3B 和Vicuna-13B 。对于Vicuna-7B，文章还探讨了对齐的影响(Scratch未对齐 vs. Aligned对齐)。

从图3的测试损失曲线中，文章发现:1)LEO的指令调优后符合规模定律：所有曲线都随数据规模呈对数线性递减。2)扩展LLM的规模可以带来进一步的性能改进：对齐的Vicuna-7B的损失明显低于对齐的OPT-1.3B。相比之下，尽管有持续的改进，但对齐的Vicuna-7B和Vicuna-13B之间的差距似乎不那么显著，这表明如果文章继续扩大LLM的规模，可能会出现饱和。这表明了LEO的规模扩大和扩展数据以匹配模型容量的必要性。3)对齐会带来性能改进：对齐的Vicuna-7B的损耗始终低于未对齐的 Vicuna-7B，这与表7中未对齐的Vicuna-7B的性能较差的结果相一致。

结论

本文提出的智能体LEO将当前LLM的通用能力从文本扩展到三维世界和具身化任务，这是构建具身通用人工智能的关键的第一步。结果表明：

(1) 通过对统一的模型进行与任务无关的指令调优，LEO在大多数任务上达到了最先进的性能，特别是超过了以前的特定任务模型;

(2) LEO精通情景对话和规划，能够产生灵活和连贯的反应;

(3) LEO在导航和操作任务上的性能可与当前最先进的特定任务模型相媲美，具有显著的泛化能力;

(4) LEO的强大性能源于数据和模型两个方面，包括对齐阶段、数据多样性、通用的指令调优和以对象为中心的表征;

(5) LEO表现出的规模效应规律印证了先前的研究结果。文章还展示了定性结果，以说明LEO的多功能性和熟练程度接地3D场景的理解。

尽管如此，也存在一些局限性，包括对新场景的泛化，以及视觉语言(VL)学习与具身动作规划之间的尚未弥合的差距。对此，文章提出了几个有前景的改进方向：

(1)通过利用来自更丰富的3D域的更大规模视觉语言(3D VL)数据来增强3D VL的理解能力;

(2)不断弥合3D VL和具身动作之间的差距，文章的实验揭示了他们联合学习的有效性;

(3)在具身通用智能体的背景下研究LLM错觉和对齐问题，特别是考虑到文章的规模分析表明，通过对数据和模型扩大规模可以显著优化模型。

#HybridOcc

NeRF与Occ能怎么结合？HybridOcc也许是个答案

基于视觉的3D语义场景补全（SSC）通过3D volume表示来描述自动驾驶场景。然而，场景表面对不可见体素的遮挡给当前SSC方法在幻想精细3D几何形状方面带来了挑战。这里提出了一种名为HybridOcc的混合方法，该方法结合了Transformer框架和NeRF表示生成的3D volume查询建议，并在一个由粗到细的SSC预测框架中进行优化。HybridOcc通过基于混合查询建议的Transformer范式来聚合上下文特征，同时结合NeRF表示来获得深度监督。Transformer分支包含多个尺度，并使用空间交叉注意力进行2D到3D的转换。新设计的NeRF分支通过volume渲染隐式推断场景占用情况，包括可见和不可见的体素，并显式捕获场景深度而非生成RGB颜色。此外还提出了一种创新的占用感知光线采样方法，以引导SSC任务而非仅关注场景表面，从而进一步提高整体性能。在nuScenes和SemanticKITTI数据集上进行的大量实验证明了HybridOcc在SSC任务中的有效性。

领域背景介绍

基于相机的3D场景理解是自动驾驶感知系统的重要组成部分。它涉及获取准确且全面的现实世界3D信息，即使在车辆轻微移动的情况下也能如此。近年来，在多相机系统的帮助下，在深度估计和3D检测等任务中，多相机系统已经取得了与激光雷达相媲美的成绩。语义场景补全（SSC）最近比3D检测获得了更多关注。由于语义场景补全能够表示任意形状和类别的场景，因此它更适合自动驾驶的下游任务。然而，从有限的观测视角推断出全面的语义场景是具有挑战性的。

MonoScene 提出了直接通过特征投影将2D图像提升到3D体素以完成SSC任务。最近，一些工作提出了基于空间交叉注意力将多视角相机特征提升到3D表示。在Occ3D 提出的从粗到细的框架中，性能受限于缺乏深度信号。其它研究采用了额外的深度估计模块来提高3D体素表示的质量，如图1(a)所示。FB-Occ使用了预训练的深度预测模型和深度感知的反投影模型来辅助生成3D体素特征。然而，大多数基于深度的方法都集中在场景的可视表面上，缺乏对遮挡区域的推断。VoxFormer提出了一个额外的基于掩码自动编码器的模块来考虑遮挡体素，但其繁琐的两阶段结构不利于端到端模型训练。目前的各种方法都表明了深度信号对于SSC任务的重要性。值得注意的是，目前存在两种用于自动驾驶的不同功能的3D占用数据集。一种是仅评估可视表面（图2(b)），另一种则用于场景的完整占用，即SSC任务（图2(a)）。本文更侧重于SSC任务，该任务考虑了遮挡的物体或区域。当前的SSC工作大多受到遮挡的影响，使得每个体素特征包含许多模糊性。因此，遮挡体素的占用预测仍面临挑战。

神经辐射场（NeRFs）的引入极大地提高了3D场景重建的性能。SceneRF 为辐射场设计了一种概率射线采样方法，并将其应用于自动驾驶场景的3D重建。最近，一些方法利用提升的3D体素特征进行深度和颜色渲染。由于基于NeRF的3D重建方法主要关注场景的可视表面，如图1(b)所示，SSC任务需要对不可见区域的体素特征给予额外关注。因此，在SSC任务上粗略且直接地应用NeRF模型可能不利于优化隐函数和完成SSC任务。

为了应对这些挑战，本文提出了HybridOcc，这是一种基于多相机的语义场景补全方法。HybridOcc在粗到细的结构中细化了由NeRF表示和Transformer架构生成的混合占用建议。如图1(c)所示，HybridOcc包含两个分支。受SurroundOcc 和Occ3D 启发的Transformer分支，使用可学习的交叉注意力将2D图像提升到3D体素，并从粗到细的结构中逐渐细化3D体素查询。NeRF分支创新性地采用了具有深度监督的体积渲染来预测完整的占用情况。由于自动驾驶场景中的遮挡给NeRF优化带来了挑战，我们提出了占用感知射线采样来优化大型辐射volumes。隐函数通过沿射线在可见和不可见体素之间取占用感知采样点来训练，以服务于SSC任务。在粗到细的结构中，需要仔细考虑每一层的占用先验。改进的NeRF可以推断出遮挡不可见区域的占用情况。将NeRF和粗粒度Transformer预测的二进制占用混合成新的体素查询集，以细化语义占用。综上所述，我们的贡献有三方面：

提出了一种新颖的Transformer上下文特征聚合与NeRF深度监督相结合的互补方法。在粗到细的结构中，NeRF表示和Transformer框架生成的混合占用建议得到了端到端的细化。
引入了一种新颖的深度监督神经辐射场，该辐射场在SSC任务中考虑了所有可见和遮挡的不可见体素。它将深度信号添加到粗到细的SSC预测框架中，并包括了一个占用感知射线采样策略。
大量实验证明了HybridOcc的有效性，其性能优于基于深度预测网络的方法，如FB-Occ和VoxFormer。

一些相关工作介绍

3D语义场景补全可以提供对自动驾驶场景更详细的理解。一些先前的工作是在小规模室内场景中进行的。随着SemanticKITTI数据集和nuScenes数据集的发布，最近迅速提出了针对大规模自动驾驶场景的SSC基准。SurroundOcc和Occ3D分别构建了基于nuScenes的3D占用预测数据集，一个面向密集的SSC任务，另一个仅评估可见表面的占用情况。这些占用方法可以简单地分为两类：基于深度预测构建3D体素特征，以及使用基于Transformer的可学习体素特征聚合。一些方法引入历史帧数据来解决深度预测和遮挡问题。OccFiner提出隐式捕获和处理多个局部帧。此外，一些方法使用NeRF表示来探索占用任务，但它们更侧重于重建而非SSC。我们提出了一种结合Transformer范式和NeRF表示优势的方法，以增强SSC任务性能。

3D场景重建旨在从单视图或多视图的2D图像中建模3D表面信息。早期的重建方法侧重于体素的显式表示，但现在神经辐射场（NeRF）和3D高斯splatting在隐式重建中越来越受欢迎。考虑到NeRF存在渲染速度慢的问题，一些方法在保持渲染质量的同时提高了渲染速度。基于图像特征的隐式重建工作将对象级重建扩展到室内场景，并致力于构建一个通用的隐式网络。一些工作采用粗到细的方法融合多尺度特征，以获得更准确的室内场景3D重建。SceneRF提出了球形U-Net和概率射线采样，以扩展NeRF用于大规模室外场景。值得注意的是，在NeRF范式下的3D重建需要沿射线的采样点集中在3D表面附近，以便更好地渲染颜色或语义。然而，对于SSC任务来说，将辐射场集中在被占用的体素上更有意义。

HybridOcc方法介绍

HybridOcc的总体流程如图3所示。以camera图像为输入，使用图像主干网络提取多尺度摄像头特征。然后，通过由Transformer框架和NeRF表示组成的双分支学习稀疏的3D体素特征。具体来说，Transformer分支通过2D到3D转换模块从多摄像头特征中学习3D体素形状的查询。混合3D查询proposal分别来自Transformer和NeRF，并以粗到细的方式逐步细化。在NeRF分支中，原始的NeRF范式被新的自动驾驶场景占用预测NeRF模块所取代。体渲染占用预测模型直接受深度监督，而不是RGB颜色。语义占用真实值监督多尺度体素语义占用预测。

1）Transformer Branch

粗到细的方法。与SurroundOcc中获得的密集3D体素不同，受Occ3D的启发，我们采用粗到细的方法来逐步细化稀疏体素，如图3上半部分所示。具体来说，每个尺度的3D体素空间的语义占用Ol是通过遵循SurroundOcc的MLP（多层感知机）进行预测的。占用值低于占用阈值θ的体素被定义为空体素。第l层的体素占用Ol作为更高分辨率体素中查询先验位置分布的一部分，如图3中的紫色箭头和紫色方框所示。中的稀疏体素被记录为稀疏查询建议,，其中，并且是通过每个尺度的2D到3D模块从多camera特征中学习得到的。最后，与上采样的进行跳跃连接，并输入到MLP中以预测第l+1层的语义占用。语义占用预测可以表示为：

51c自动驾驶~合集19_自动驾驶_32

其中，up表示2倍上采样，h(·)表示多层感知机（MLP）。值得注意的是，粗粒度体素V1的初始查询建议是密集构建的。细粒度V2、V3和V4的查询建议的先验空间分布分别由Transformer分支和NeRF分支在每个尺度上的二进制占用率的混合组成。

2D到3D的转换。受近期基于Transformer的多camera的3D感知方法的启发，将体素的3D参考点投影到2D相机上以聚合特征。具体来说，每个对应于查询的3D参考点，都根据给定的相机内参和外参投影到2D特征图上，并执行可变形交叉注意力（DeformAtt）来学习特征：

其中，X是多camera特征，和是通过线性投影获得的权重，是注意力权重且，X(p + ∆pmk)是与2D参考点p相对应的采样特征，∆pmk是与p相对应的学习到的位置偏移量。其他设置遵循SurroundOcc和BEVFormer。最后，通过3D稀疏卷积对体素形状的查询Q进行进一步优化，使得每个体素查询子集都关注于彼此之间的局部信息。

2）Neural Radiance Field Branch

深度渲染监督。传统的NeRF基于光线沿路上采样点的密度ρ来优化连续的辐射场f(·) = (c, ρ)，并通过RGB进行体渲染的监督。与之不同的是，我们基于SceneRF设计了一个新的辐射场，而新的NeRF模型具有深度监督以预测3D占用率。NeRF分支如图3底部所示，NeRF分支基于来自图像主干的第l层多摄像头特征Xl（l = 2, 3, 和 4）进行占用率预测和深度渲染。从每个相机的像素坐标中均匀采样I个像素，并沿着通过这些像素的光线采样N个点。这种均匀采样策略与SceneRF一致。然后，按照SceneRF的方法将Xl转换为球面空间以获得，以便每个采样点x可以投影到球面空间上，通过双线性插值检索图像特征向量。最后，将点x的特征和3D位置编码γ输入到隐式表达函数MLP中，以预测体素的二值占用率σ。值得注意的是，NeRF分支仅需要为基于Transformer的粗到细结构提供查询的先验空间分布信息，因此，我们只预测与类别无关的占用率。二值占用率预测的隐式辐射场定义为：

51c自动驾驶~合集19_自动驾驶_33

与大多数使用从密度到颜色的体渲染的NeRFs不同，我们尝试从辐射体显式地揭示深度。分别在多尺度图像特征X2、X3和X4上进行深度体渲染，以便多尺度特征可以获得深度监督。对于第l尺度的特征，我们将深度体渲染定义为：

占用率感知的光线采样。先前的研究表明，沿着场景表面附近的光线采样点可以有效地提高渲染效率。图4(a)展示了分层体采样方法，该方法生成了一个沿着光线聚焦于表面的概率密度函数（PDF），以优化采样点。在SSC任务的NeRF模块中，目标是根据可见表面和不可见体素的特征来估计深度，而不是颜色或类别。NeRF分支的隐函数需要完成对整个场景的3D体素二值占用率预测。对于占用率预测的NeRF模型，直观地看，落在非空体素上的光线采样点可以提高渲染效果。因此，我们提出了一种占用率感知的光线采样策略，其中体积Vl的占用率预测结果Ol明确地指导体积中每条光线上的每个采样点，如图4(b)所示。

具体来说，对于每条光线，首先在近边界和远边界之间均匀采样128个点。然后，将这些点投影到3D体素V3中，以查询占用状态O3，并根据占用状态采样32个点。如果占用的点超过32个，则从中随机采样32个点。否则，我们接受所有占用的点，并随机采样其余的点。这种占用率感知的光线采样策略侧重于对场景内占用体素的采样，从而优化二值占用率预测和深度体渲染。

混合查询提proposal。上述NeRF分支具有3D占用率预测能力，以nuScenes数据集为例，首先将每个相机的特征X2、X3和X4独立地划分到3D体素空间中，并通过NeRF模块预测3D体素的二值占用率。然后，在体素坐标中融合多相机结果，并结合相机外参，获得占用率分布。同时，深度监督信号也会更新图像特征，使模型对深度敏感。最后，将NeRF分支隐式预测的占用率与粗粒度Transformer分支在体素Vl-1中显式估计的进行融合。混合查询proposal作为第l级查询，参与2D到3D的过程。混合查询proposal 可以表示为：

51c自动驾驶~合集19_自动驾驶_34

3）损失函数

双分支占用率预测网络是一个端到端的优化模型。模型的总损失β，其中是Transformer分支的显式损失，是NeRF分支的隐式损失，β设置为0.5。多尺度3D体素的监督灵感来源于SurroundOcc。这里也对每个尺度的体素进行监督，以获得粗粒度和细粒度的3D特征。采用交叉熵损失来进行3D语义占用率预测，可以表示为：

其中αi是第l尺度监督的衰减损失权重。高分辨率体素V4的混合查询需要足够的监督信号，对于NeRF分支的损失，使用二元交叉熵损失来进行类别无关的占用率预测，并利用SILog损失来优化深度，深度由激光雷达点的投影进行监督。同时也包括衰减损失权重α，可以表示为：

实验结果对比

在nuScenes数据集上进行了多相机语义场景补全实验，该数据集包含来自6个相机的环绕RGB图像数据和覆盖360度全视场的激光雷达扫描数据。这1000个多模态数据被分为训练集/验证集/测试集，比例为700/150/150。SurroundOcc基于nuScenes数据集提出了一个3D SSC基准，其中包含17个类别的3D占用率。感知范围在X、Y轴上被裁剪为[-50m, 50m]，在Z轴上被裁剪为[-5m, 3m]。语义占用率的真实体素维度为200×200×16，体素大小为0.5m。对于Occ3D-nuScenes，感知范围在X、Y轴上被裁剪为[-40m, 40m]，在Z轴上被裁剪为[-1m, 5.4m]。最终输出的占用率形状为200×200×16，体素大小为0.4m。

为了进一步证明方法的有效性，在SemanticKITTI数据集上进行了单目语义场景补全实验，该数据集用21个语义类别（19个语义类别、1个自由类别和1个未知类别）标注了自动驾驶场景。数据集包含22个序列，并被分为10/1/11用于训练/验证/测试。感知范围在X轴上被裁剪为[-25.6m, 25.6m]，在Y轴上被裁剪为[0, 51.2m]，在Z轴上被裁剪为[-2m, 4.4m]。真实语义占用率的维度为256×256×32，体素大小为0.2m。

1）Metrics

对于SurroundOcc-nuScenes和SemanticKITTI数据集，我们报告了占用体素的交并比（IoU）作为类别无关场景补全（SC）任务的评估指标，并遵循SurroundOcc的方法，报告了SSC任务中所有语义类别的平均交并比（mIoU）。对于Occ3D-nuScenes，遵循FB-Occ和Occ3D的方法报告mIoU。值得注意的是，Occ3D-nuScenes仅评估可见区域，如图2所示。

2）详细的实施细节

对于SurroundOcc-nuScenes数据集，输入图像的分辨率为900×1600。遵循SurroundOcc采用从FCOS3D模型初始化的ResNet-101作为图像主干网络。图像主干网络产生3级特征图，并采用FPN在主干网络之后生成4级隐藏维度为256的特征图。对于SemanticKITTI数据集，将cam2的图像裁剪为370×1220的大小，并使用EfficientNetB7作为图像主干网络以进行公平比较。对于Occ3D-nuScenes数据集，遵循FB-Occ将输入图像的分辨率调整为256×704，并采用ResNet-50作为图像主干网络。

对于SurroundOcc-nuScenes和SemanticKITTI数据集，将2D到3D空间交叉注意力层的数量分别设置为6、3、1和3。每个级别的空间交叉注意力在每个参考点周围分别使用8、4、4和4个采样点。NeRF模块中隐函数f(·)的MLP结构与SceneRF一致。我们在占用率感知射线采样中每条射线使用32个点。占用率阈值θ设置为0.5。Occ3D-nuScenes数据集评估场景的可见表面，将我们的HybridOcc采样策略简单地设置为概率射线采样。我们在nuScenes数据集上训练了24个周期，在SemanticKITTI数据集上训练了30个epoch，默认学习率为2×10−4。所有模型均在4个NVIDIA A800 GPU上以bs为4进行训练。

3）结果对比

#稚晖君的人形机器人发布会

总的来说，发布会中规中矩，甚至有点低于预期了。

没有炸裂的产品，没有足够出彩的技术，更多的是停留在PPT上的东西，跟一般的企业老板开发布会没啥大区别。

这次发布会强调的更多的也是大模型、交互以及AGI的一些东西，提倡的“具身智能”要具体依托和实现的平台是不是人形机器人也无所谓了。

在去年的智元机器人发布会上，人形机器人的腿被做成了类似“Cassie”的反屈膝形态。

当时的解释是“不是为了模仿人而模仿人，是为了更好的完成任务”，我就觉得有一点莫名其妙的，毕竟人的膝盖也是正屈膝的，反屈膝怎么就能更好地完成任务呢？应该只是早期的方案将错就错了，或者他们为了凸显特点而故意为之的~

果然，今年发布的新一代人形机器人就将这个形态改过来了，这就跟波士顿动力、特斯拉以及国内大多数的人形机器人一个形态了，算是回到了大众的路线上来。

在运动控制方面，个人觉得其实没有什么进展，采用的方案也是传统方案，所表现出来的运动控制能力也很一般，属于是典型的老太太步行方式，步行过程较为谨慎。

因此，可以看到，智元机器人其实也没有在腿足的控制方面发力，更多的还是在交互、大模型、多模态感知、灵巧手等的设计方面做研发，腿足的控制在未来一段时间内不会有什么大的进步。

不过这也能够理解，毕竟，目前来说，腿部控制得好不好，对于机器人的作业能力并不起决定性作用，更关键的还是感知、手臂和手的操作。

所以，智元主推的一个方向还是基于底盘式的双臂协作机器人，可以没有腿，但是一定要有一双灵巧的手。

可以看到，智元在手的设计上融入了更多的传感器，在手指上嵌入摄像头用于视觉感知这个确实是一种相对较新的方案，结合在头部附近的相机并融合许多现有的视觉方案，应该可以做出一些创新的东西出来。

目前，对于企业来说，能够更快落地的方案才有可能带来盈利。因此，在智元的路线中，人形机器人是一项长期投资的技术方向，但是实际落地的现在一定不是带腿的人形机器人，但是必须是能够实际完成任务的机器人，所以下面这个形态是目前最佳的方案。

这样可以在底盘保证运动稳定的情况下完成更多的任务，结合现在的大模型技术也可以提供更好的交互和任务完成的能力。

硬件本体其实跟之前比较老套的这类家用机器人没什么本质区别了，比如大家所熟知的PR2。

以及一些新兴起来的公司所设计的机器人，比如星尘智能的双臂机器人。

这类底盘（AGV）+双臂形式的机器人应该是目前在大模型等AI技术的加持下想要实现通用机器人的最佳平台了。

智能的感知、灵巧的双手、友好的交互再加上一定的负重就可以完成大部分我们生活中的作业任务，基本能实现机器人辅助人类生产生活的初衷，有没有腿也就没有那么重要了。

当然，本次发布会还是有一些值得期待的亮点工作。

比如即将开源的全面兼容ROS的轻量级机器人操作系统：

比如可以实现“零元购”的开源模块化机器人灵犀X1：

总之，智元机器人本身也是初创企业，在国内这种日新月异的创业环境中，能不能更快地自我造血将会是决定其是否能够活下来的关键。

上述底盘+双臂的机器人可能会是他们推出的第一款能够落地的产品，但是，是否有足够出彩的地方让其能够超越对手而活下去，还需要继续观察，现在机器人创业大环境中泡沫还是大于实际的。

作者：波士顿动力开源了

manipulation在我一个外行眼里demo做的挺不错的，数据集部分有些审美疲劳的，最近好多具身智能公司都在搞，饼有些同质化。

locomotion部分很无聊，走路慢吞吞的，X1的算法摔跤前的动作一眼就是在测RL。摔跤的时候扔枕头的镜头非常真实，以前实验室尝试过扔泡沫，也是一样从来都没接住过，后来就摆烂如下图。

侧面看出智元的办公环境非常好，都能往地上扔枕头，应该非常适宜工作。最后学会了新型的电机转速展示方式，用rpm做单位，数字可以轻松比同行多一位。

作者：喝一口可乐

demo视频很惊艳，但考虑到没有实机直播展示与算法细节，具体多少有落地的可能，要打上很大的问号。比如说unigrasp和最后x1的抓取视频，如果效果真的有那么好的话完全可以直播演示，机器人也拉过来了，但是没有演示，说明ppt的水份可能很大。

另外这个公司描述的业务场景很广阔，硬件仿真部署训练一条龙服务，但实际上能做好其中一个点就不错了。

上一篇：51c大模型~合集37

下一篇：51c大模型~合集38

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯