51c自动驾驶~合集23

原创

qq6669490e54384 2024-09-01 13:53:50 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#MambaOcc

Mamba再下一城，杀入Occupancy！更快更强的MambaOcc来了（中科院&美团）

在自动驾驶系统当中，感知作为自动驾驶车辆检测周围静态和动态障碍物的重要途径，其准确性和稳定性的重要程度不言而喻。然而，当自动驾驶汽车在开放场景中行驶时，准确和稳定的感知模块变得尤其具有挑战性，因为它们必须检测看不见的或不规则的物体。

最近，由于占用预测具有更加细粒度的通用感知能力，它在自动驾驶系统的感知和规划流程中引起了越来越广泛的关注。虽然占用预测网络相比于原有的3D障碍物感知算法具有更加细粒度和通用的感知能力，但是占用预测网络需要确定当前感知的3D场景中每个体素的状态，这会导致感知模型开发过程中对计算和内存的需求很高。

基于栅格预测的相关优势以及现有存在的诸多不足，我们的核心思路是提高基于BEV空间的占用预测的性能，同时减少参数数量和计算成本。考虑到先前的研究工作中强调了Transformers算法模型在长距离建模方面的优势，但它们的计算负担也非常的大。最近，状态空间模型 (SSM)（例如 Mamba）已成为长距离建模的更有效解决方案。这一发展促使我们探索状态空间模型在改进占用预测任务方面的潜力。

因此，本文提出了一种基于Mamba框架的新型占用率预测方法，旨在实现轻量级，同时提供高效的远距离信息建模，我们称之为MambaOcc算法模型。

论文链接：https://arxiv.org/pdf/2408.11464

网络模型的整体架构&细节梳理

在详细介绍本文提出的MambaOcc算法模型的技术细节之前，下图展示了我们提出的MambaOcc算法的整体网络结构。通过下图可以看出，MambaOcc算法模型主要包括四个模块，分别是基于Mamba的图像主干网络用于图像特征的提取，用于获取BEV形式特征和聚合多帧特征的视角转换模块以及时间融合模块，带有自适应局部重排模块LAR-SS2S混合BEV编码器模块以及占用预测头模块。

MambaOcc算法模型的整体网络结构

整体而言，我们采用四种方向的视觉Mamba来提取图像特征。同时为了减轻与3D体素相关的高计算负担，我们使用BEV特征作为占用预测的中间特征表示，并设计了结合卷积层和Mamba层的混合BEV编码器。考虑到Mamba架构在特征提取过程中对标记排序的敏感性，我们引入了一个利用可变形卷积层的局部自适应重新排序模块。该模块旨在动态更新每个位置的上下文信息，使模型能够更好地捕获和利用数据中的局部依赖关系。这种方法不仅可以缓解标记序列相关的问题，还可以通过确保在提取过程中优先考虑相关的上下文信息来提高占用预测的整体准确性。

VM-Backbone（视觉Mamba主干网络）

为了从多视图图像中提取深层特征，我们使用VMamba作为特征提取的主干网络。与卷积神经网络和Transformer网络相比，基于 Mamba的网络架构模型可以高效地捕获上下文信息。Mamba网络框架的核心是选择性状态空间模型，该模型通过线性时变系统定义隐藏状态和输出的更新规则，可以用四个参数，，，表示如下：

其中，和是在时刻的输入、隐藏和输出状态。，是和的离散形式：

在中，值定义为模型的参数，，和的值通过一个由以输入为条件的投影层生成：

其中，是系统的参数，，和是映射层，是softplus函数。S6和序列化的操作一起构成了至关重要的SS2D模块。为了获得输入的token序列，多视角的图像从四个不同的方向被分成了图像块。序列被独立的喂入到S6模块中，并且S6模块的输出通过重新映射token到2D特征图的方式实现空间上的对齐。这些2D特征被加在一起以融合不同的上下文。

View Transformation and Temporal Fusion（视角转换以及时序融合）

在MambaOcc算法模型中，我们采用LSS算法模型实现从图像平面到BEV平面的空间视图变换。首先，将图像主干网络的输出特征组织成2D格式的地图。然后通过深度预测网络生成每个像素的一系列离散深度。最后，使用体素池化在预定义的BEV平面上聚合每个网格内的深度预测。

在使用了时间域融合的情况下，视角转换模块提供了一种方便的方式融合来自不同视角以及不同时间戳的图像特征。利用来自前几帧的 BEV空间特征，首先基于自车运动信息进行特征转换操作。然后，应用采样和插值操作来生成与当前帧BEV空间特征图对齐的特征。最后，将对齐的特征合并到一起来实现融合时序的上下文特征信息。

LAR-SS2D Hybrid BEV Encoder（LAR-SS2D混合BEV编码器）

在BEV空间特征的提取方面，我们首先设计了基于Mamba网络模型的架构，该架构由三个块组成，其中每个块包含两个SS2D组。考虑到 SSM层对序列中token的顺序很敏感，我们进一步探索局部自适应伪重排序机制来优化上下文信息的嵌入。然后使用LAR组替换每个块中的一个SS2D组。

具体而言，给定输入的序列，如果我们定义的索引函数代表重新排序的规则，然后重新排序的序列可以用如下的形式进行表达：

对于严格的重排机制，是从的双映射，表示原来位于位置的元素的新位置。考虑到BEV特征的局部相关性，我们对上述重排序过程做了如下三点修改，并提出了伪重排序机制，具体细节如下所示。

首先，我们将排序函数设置为一个可学习的模型，该模型以作为输入。即排序结果由模型参数和输入的特征共同决定

其次，考虑到直接从输入数据生成全局重排序结果是比较困难的，我们改为引入映射锚点，其中的生成由锚定。具体来说，锚点用于学习相对位置偏移，然后用于构建置换函数。置换函数可以表示为如下的形式：其中，代表的原始位置，代表用于学习相对位置的偏移

然后，我们将的映射从双射放宽到单射，从而允许重新排序后的序列中不同位置的元素源自原始序列中的相同元素

通过上述的修改，我们建立了一个灵活的局部伪重排序机制。此外，所提出的重排序过程可以通过可变形卷积算子高效实现，从而确保较高的计算效率并保持较快的处理速度。

除了上面描述的一对一映射之外，我们还提出了多对一映射过程。这种方法聚合了原始序列中多个位置的特征，并将它们映射到新序列中的单个位置。为了整合来自多个位置的特征，我们采用注意力机制来自适应地融合这些特征，从而使模型能够专注于最相关的信息。为了更好地捕捉位置关系，我们在LAR和SS2D组中引入了位置嵌入。

Occupancy预测头（Occupancy Prediction Head）

我们采用了FlashOcc算法当中的实现思路，我们同样使用了channel-to-height操作从生成的BEV特征图的通道维度当中恢复出高度信息。这个过程允许我们在整个网络的最后来获得3D占用的特征表达。随后，我们使用线性层来预测3D空间中每个位置的类别，从而提供整个3D空间中详细完整的占用预测信息。

实验结果&评价指标与其它SOTA算法的对比试验

为了验证我们提出的MambaOcc算法模型的有效性，我们在Occ3D-nuScenes数据集上进行了相关实验，相关的实验结果如下表所示。

不同算法模型在Occ3D-nuScenes数据集上的结果汇总

通过实验结果可以看出，与最先进的方法相比，我们提出的MambaOcc算法模型在计算效率和参数数量方面具有更加显著的优势。与以Swin-Transformer为主干网络的FlashOcc算法模型相比，MambaOcc取得了更好的性能，同时减少了42%的参数和39%的计算成本。此外，MambaOcc-Large比FlashOcc高出了0.77的mIoU，减少了14%的参数和32%的计算成本。与以ResNet-101为主干网络的PanoOcc算法相比，MambaOcc的性能高出1.23 mIoU，同时减少了19%的参数。这些结果均表明，与基于CNN和Transformer的方法相比，所提出的Mamba框架在参数量、计算效率和感知能力方面具有显著优势。

此外，为了更加直观的展示我们提出的MambaOcc算法模型的有效性，下图可视化了MambaOcc算法模型占用预测的结果。如图所示，MambaOcc可以为人类和车辆等典型物体提供精确的感知结果，同时还能有效检测电线杆、交通灯和路锥等结构不规则的物体。

MambaOcc算法模型的占用预测结果可视化

此外，为了直观的展示我们提出的MambaOcc和FlashOcc预测占用的效果对比，我们也对两个模型的结果进行了可视化，如下图所示。

MambaOcc与FlashOcc结果可视化对比

通过可视化两个模型的预测结果对比可以看出，MambaOcc算法模型在长距离平面感知方面的卓越性能，能够提供更全面的地面预测，而FlashOcc算法模型通常会将这些区域预测为空。

消融对比实验

为了清楚地展示提出的MambaOcc算法模型中每个组件的贡献，我们在下表中展示了我们进行的消融研究结果，以强调每个模块的有效性。

通过汇总的消融实验结果可以看出，用Mamba网络结构替换CNN网络架构，可使mIoU显著增加3.96，凸显了Mamba网络架构的有效性。此外，我们提出的LAR-SS2D BEV编码器模块比基于CNN的编码器额外增加了1.12的mIoU。此外，通过结合位置编码，可以进一步提高模型的预测性能。

此外，我们也进行了相关实验来验证不同的图像主干网络初始化方法对于网络模型占用预测的影响效果，相关的实验结果如下表所示。

通过实验结果可以明显的看出，良好的参数初始化方法会显著影响性能。使用ImageNet分类预训练初始化占用预测网络与随机初始化相比，对于Mamba和卷积网络，效果明显更好。例如与使用随机值初始化的相比，使用ImageNet预训练的VM-Backbone的MambaOcc在mIoU方面的性能高出10.01。

我们也对不同的BEV编码器对于占用预测任务的影响进行了相关的实验，实验结果汇总在下表所示。

如上表所示，BEV编码器的结构显著影响了占用预测性能。纯SS2D优于纯CNN，mIoU指标提高了0.56。混合CNN-SS2D网络架构的性能优于纯CNN和纯SS2D的网络架构，mIoU分别提高了0.77和0.21。所提出的LAR-SS2D混合架构取得了最佳效果，比CNN-SS2D混合架构高出0.48 mIoU。

除此之外，我们比较了LAR层中不同映射方法的效果。对于多对一映射，我们使用不同的条目数3×3和5×5进行了实验，其中原始序列中多个位置的信息在映射到新序列中的相同位置之前进行加权和融合。相关的实验结果汇总在下表中。

通过表格结果可以看出，多对一映射方法优于一对一方法。具体而言，与一对一方法相比，5×5和3×3配置分别将性能提高了0.07和0.32 mIoU，表明多对一映射可以成为提高性能的有效策略。

为了更全面地了解映射模式，我们对每个LAR层应用了四种不同的映射模式，并在分组特征通道中执行这些模式。相关的结果分别可视化在下图。

Group0 & 1的可视化结果

Group 2 & 3的可视化结果

我们观察到，不同群体之间的映射模式存在显著差异，这表明这种多样性可能有助于模型在元素之间建立更全面的联系。

结论

在本文中，我们提出了首个基于Mamba的占用预测网络模型，我们命名为MambaOcc。与基于Transformer网络模型的方法相比，MambaOcc超越了基于CNN的方法，并且实现了更好的检测效率。

#ThinkGrasp

波士顿动力最新！通过GPT-4o完成杂乱环境中的抓取工作

在杂乱的环境中，由于遮挡和复杂的物体排列，机器人抓取仍然是一个重大的挑战。ThinkGrasp是一个即插即用的视觉语言抓取系统，它利用GPT-4o的高级上下文推理能力，为杂乱环境制定抓取策略。ThinkGrasp能够有效地识别和生成目标物体的抓取姿态，即使它们被严重遮挡或几乎看不见，也能通过使用目标导向的语言来指导移除遮挡物。这种方法逐步揭露目标物体，并最终在几步内以高成功率抓取它。在模拟和真实实验中，ThinkGrasp均取得了高成功率，并在杂乱环境或各种未见过的物体中显著优于最先进的方法，展示了强大的泛化能力。

行业背景介绍

近年来，机器人抓取领域取得了显著进展，深度学习和视觉语言模型推动了更加智能和适应性强的抓取系统的发展。然而，在高度杂乱的环境中，机器人抓取仍然是一个重大挑战，因为目标物体经常被严重遮挡或完全隐藏。即使是最先进的方法也难以在这种场景下准确识别和抓取物体。

为了应对这一挑战，这里提出了ThinkGrasp，它将大规模预训练的视觉语言模型的强大功能与遮挡处理系统相结合。ThinkGrasp利用像GPT-4o这样的模型的先进推理能力，来获得对环境和物体属性（如锐利度和材料组成）的视觉理解。通过基于结构化提示的思维链整合这些知识，ThinkGrasp可以显著提高成功率，并通过战略性地消除遮挡物来确保抓取姿态的安全性。例如，它优先处理较大且位于中央的物体，以最大化可见性和可接近性，并专注于抓取最安全、最有利的部分，如手柄或平面。与依赖RoboRefIt数据集进行机器人感知和推理的VL-Grasp不同，ThinkGrasp受益于GPT-4o的推理和泛化能力。这使得ThinkGrasp能够直观地选择正确的物体，并在复杂环境中实现更高的性能，正如对比实验所示。

主要贡献如下：

• 开发了一个即插即用的遮挡处理系统，该系统高效地利用视觉和语言信息来辅助机器人抓取。为了提高可靠性，利用LangSAM和VLPart实现了一个健壮的错误处理框架用于分割。GPT-4o提供目标物体的名称，LangSAM和VLPart负责图像分割。这种任务分工确保了语言模型中的任何错误都不会影响分割过程，从而在多样化和杂乱的环境中实现更高的成功率和更安全的抓取姿态。

• 在模拟环境中，通过对具有挑战性的RefCOCO数据集进行了广泛的实验，展示了最先进的性能。ThinkGrasp在杂乱场景中的成功率达到98.0%，并且所需步骤更少，优于先前的方法，如OVGNet（43.8%）和VLG（75.3%）。尽管存在未见过的物体和严重的遮挡情况，目标物体几乎不可见或完全不可见，但ThinkGrasp仍然保持了78.9%的高成功率，展现了其强大的泛化能力。在现实世界中，系统也实现了高成功率，并且所需步骤较少。

• 系统的模块化设计使其能够轻松集成到各种机器人平台和抓取系统中。它与6自由度两指夹爪兼容，展示了强大的泛化能力。通过简单的提示，它能够快速适应新的语言目标和新型物体，使其具有高度灵活性和可扩展性。

#OmniRe

仿真迎来终局？上交&英伟达提出OmniRe：性能直接拉爆StreetGS四个点！！！

自动驾驶仿真重建的终局？？？上交和英伟达等团队最新的工作OmniRe，性能直接拉爆了一众算法，PSNR超越StreetGS四个多点！！！可谓是3DGS的集大成者。具体来说，OmniRe将动态目标分为刚体和非刚体，车辆和行人/骑行人的步态重建的性能非常惊艳！背景是比较常见的background+sky。静态要素的重建效果也非常棒，像红绿灯，车道线等等。

写在前面&笔者的个人理解

本文介绍了OmniRe，这是一种高效重建高保真动态城市场景的整体方法。最近使用神经辐射场或高斯splatting对驾驶序列进行建模的方法已经证明了重建具有挑战性的动态场景的潜力，但往往忽视了行人和其他非车辆动态参与者，阻碍了动态城市场景重建的完整流程。为此，我们提出了一种用于驾驶场景的全面3DGS框架，称为OmniRe，它允许对驾驶过程中的各种动态目标进行准确、完整的重建。OmniRe基于高斯表示构建动态神经场景图，并构建多个局部规范空间，对各种动态参与者进行建模，包括车辆、行人和骑行人等。这种能力是现有方法无法比拟的。OmniRe允许我们全面重建场景中存在的不同目标，随后能够实时模拟所有参与者参与的重建场景（~60 Hz）。对Waymo数据集的广泛评估表明，我们的方法在定量和定性上都大大优于先前最先进的方法。我们相信，我们的工作填补了推动重建的关键空白。

项目主页：https://ziyc.github.io/omnire/

文章简介

随着自动驾驶越来越多地采用端到端模型，对可扩展且无域差异的仿真环境的需求变得更加明显，这些环境可以在闭环仿真中评估这些系统。尽管使用艺术家生成资源的传统方法在规模、多样性和逼真度方面达到了极限，但数据驱动方法在生成数字孪生体方面的进展，通过从设备日志中重建仿真环境，提供了强有力的替代方案。确实，神经辐射场（NeRFs）和高斯点云（GS）已经成为重建具有高视觉和几何保真度的3D场景的强大工具。然而，准确且全面地重建动态驾驶场景仍然是一个重大挑战，特别是由于现实环境中多样化的参与者和运动类型的复杂性。

已经有若干工作尝试解决这一挑战。早期的方法通常忽略动态参与者，仅专注于重建场景的静态部分。后续的工作则旨在通过以下两种方式之一来重建动态场景：(i) 将场景建模为静态和时间依赖的神经场的组合，其中不同场景部分的分解是一种自发属性，或者(ii) 构建一个场景图，其中动态参与者和静态背景被表示为节点，并在其标准框架中重建和表示。场景图的节点通过编码相对变换参数的边连接，这些参数表示每个参与者随时间的运动。尽管前者是一种更通用的公式化方法，后者提供了更高的可编辑性，并且可以直接用经典行为模型进行控制。然而，场景图方法仍然主要关注可以表示为刚体的车辆，从而在很大程度上忽略了其他在驾驶仿真中至关重要的易受伤害的道路使用者（VRUs），如行人和骑自行车者。

为了填补这一关键空白，本文的工作旨在对所有动态参与者进行建模，包括车辆、行人和骑自行车者等。与在工作室中使用多视角系统建模目标不同，从室外场景中重建动态参与者极具挑战性。以人类为例，从部分观察中重建人类本身就是一个具有挑战性的问题，在驾驶场景中，由于传感器观察分布不利、环境复杂且频繁遮挡，这一问题变得更加复杂。事实上，即使是最先进的人体姿态预测模型，也常常难以预测出准确的姿态，特别是对于那些距离较远或被其他物体遮挡的行人（例如图3）。此外，还有其他动态参与者，如轮椅上的个人或推婴儿车的人，这些都无法简单地用参数化模型来进行建模。

为了应对这些相互强化的挑战，本文提出了一个能够处理多样化参与者的“全景”系统。本文的方法OmniRe高效地重建了包含静态背景、驾驶车辆和非刚性运动动态参与者的高保真动态驾驶场景（见图1）。具体来说，本文基于高斯点云表示构建了一个动态神经场景图，并为不同的动态参与者构建了专用的局部标准空间。遵循“因材施教”的原则，OmniRe利用了不同表示方法的集体优势：(i) 车辆被建模为静态高斯，通过刚体变换模拟其随时间的运动；(ii) 近距离行走的行人使用基于模板的SMPL模型进行拟合，通过线性混合蒙皮权重(linear blend skinning weights)实现关节级控制；(iii) 远距离和其他无模板的动态参与者则使用自监督变形场(deformation fields)进行重建。这种组合允许对场景中大多数感兴趣的目标进行准确表示和可控重建。更重要的是，本文的表示方法可以直接适用于自动驾驶仿真中常用的行为和动画模型（例如图1-(c)）。总结来说，本文的主要贡献如下：

本文提出了OmniRe，这是一种动态驾驶场景重建的整体框架，在参与者覆盖和表示灵活性方面体现了“全景”原则。OmniRe利用基于高斯表示的动态神经场景图来统一重建静态背景、驾驶车辆和非刚性运动的动态参与者（第4节）。它能够实现高保真的场景重建，从新视角进行传感器仿真，以及实时可控的场景编辑。

本文解决了从驾驶日志中建模人类和其他动态参与者所面临的挑战，例如遮挡、复杂环境以及现有人体姿态预测模型的局限性。本文的研究结果基于自动驾驶场景，但可以推广到其他领域。

本文进行了大量实验和消融研究，以展示本文整体表示方法的优势。OmniRe在场景重建和新视点合成（NVS）方面达到了最先进的性能，在完整图像指标上显著超越了以往的方法（重建提高了1.88的PSNR，NVS提高了2.38的PSNR）。对于动态参与者，如车辆（提高了1.18的PSNR）和人类（重建提高了4.09的PSNR，NVS提高了3.06的PSNR），差异尤为显著。

#CoVLA

东京大学最新！用于自动驾驶的综合视觉-语言-动作数据集

原标题：CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving
论文链接：https://arxiv.org/pdf/2408.10845
作者单位：Turing Inc. 东京大学 University of Tsukuba Keio Research Institute at SFC National Institute of Informatics

论文思路：

自动驾驶，特别是在复杂和意外场景中的导航，要求具备复杂的推理和规划能力。虽然多模态大语言模型（MLLMs）在这方面提供了一个有前途的途径，但其应用主要局限于理解复杂的环境上下文或生成高层次的驾驶指令，只有少数研究将其应用扩展到端到端路径规划。一个主要的研究瓶颈是缺乏包含视觉、语言和动作的大规模标注数据集。为了解决这个问题，本文提出了CoVLA（Comprehensive Vision-Language-Action）数据集，这是一个包含超过80小时真实驾驶视频的广泛数据集。该数据集利用了一种基于自动数据处理和描述(caption)生成流程的新颖且可扩展的方法，生成了与详细自然语言描述的驾驶环境和操作相匹配的精确驾驶轨迹。这种方法利用了车内传感器的原始数据，使其在规模和标注丰富性上超越了现有的数据集。使用CoVLA，本文研究了能够在各种驾驶场景中处理视觉、语言和动作的MLLMs的驾驶能力。本文的结果显示了本文的模型在生成连贯的语言和动作输出方面的强大能力，强调了视觉-语言-动作（VLA）模型在自动驾驶领域的潜力。通过提供一个全面的平台用于训练和评估VLA模型，该数据集为构建稳健、可解释和数据驱动的自动驾驶系统奠定了基础，助力于更安全和更可靠的自动驾驶车辆。

主要贡献：

本文介绍了CoVLA数据集，这是一个大规模数据集，提供了多种驾驶场景的轨迹目标，以及详细的逐帧情境描述。

本文提出了一种可扩展的方法，通过传感器融合准确估计轨迹，并自动生成关键驾驶信息的逐帧文本描述。

本文开发了CoVLA-Agent，这是一种基于CoVLA数据集的新型VLA模型，用于可解释的端到端自动驾驶。本文的模型展示了持续生成驾驶场景描述和预测轨迹的能力，为更可靠的自动驾驶铺平了道路。

论文设计：

自动驾驶技术面临的一个关键挑战在于应对多样且不可预测的驾驶环境的“长尾”问题[35, 63]。自动驾驶车辆不仅需要在常见场景中导航，还必须应对罕见和复杂的情况，这就需要广泛的世界知识和高级推理能力[20]。这要求对环境有深刻的理解，并且具备超越物体识别的推理能力，能够解释其行为并据此规划行动。视觉-语言-动作（VLA）模型通过无缝整合视觉感知、语言理解和动作规划，已成为实现这一目标的有前途的途径。近期在VLA领域的进展，特别是在机器人[4, 28, 40]和自动驾驶[45]方面，展示了其在实现更健壮和智能的驾驶系统方面的潜力。

然而，将VLA模型应用于自动驾驶的一个主要障碍是缺乏有效结合视觉数据、语言描述和驾驶动作的大规模数据集。现有的数据集在规模和全面标注方面往往不足，尤其是语言方面，通常需要繁重的人工工作。这限制了能够处理现实世界驾驶复杂性的健壮VLA模型的发展和评估。

本文介绍了CoVLA（Comprehensive Vision-Language-Action）数据集，这是一个旨在克服现有局限性的新型大规模数据集。CoVLA数据集利用可扩展的自动化标注和描述生成方法，创建了一个包含10,000个真实驾驶场景、总计超过80小时视频的丰富数据集。每个30秒的场景都包含精确的驾驶路径和详细的自然语言描述，这些描述来源于同步的前置相机录像和车内传感器数据。这个丰富的数据集允许对驾驶环境和代理行为进行更深入的理解。为了展示其在推进自动驾驶研究方面的有效性，本文开发了CoVLA-Agent，这是一种基于本文数据集进行训练的VLA模型，用于轨迹预测和交通场景描述生成。本文的研究结果表明，即使在需要复杂和高级判断的情况下，本文的VLA模型也能够做出一致且精确的预测。

本节深入介绍了CoVLA数据集，详细描述了其结构、内容以及用于创建这一宝贵自动驾驶研究资源的方法。本文重点介绍了其对多样化真实世界驾驶场景的覆盖、同步的多模态数据流（前置相机、车内信号及其他传感器）以及大规模标注数据：10,000个驾驶场景，总计超过80小时的视频，每个场景都包含精确的逐帧轨迹和描述标注。为了创建这个广泛的VLA数据集，本文开发了一种新颖且可扩展的方法，从原始数据中自动生成场景描述和真实轨迹。

图1. CoVLA框架概述。本文开发了CoVLA数据集，这是一个用于自动驾驶的综合数据集，包含独特的10,000个视频片段、描述驾驶场景的逐帧语言描述以及未来的轨迹动作。本文还展示了CoVLA-Agent，这是一种基于VLM的路径规划模型，能够预测车辆的未来轨迹，并提供其行为和推理的文本描述。

表1. 含有语言和动作数据的驾驶数据集比较。

图2. 数据集生成 pipeline 概述。本文自动标注视频帧和传感器信号以生成轨迹和其他标签。此外，本文对视频帧应用自动描述生成，以生成行为和推理的描述。

图3. CoVLA数据集的示例帧。显示了估计的轨迹（绿色线）和由描述生成模型生成的描述。关键对象以蓝色粗体文本突出显示，而描述中的错误以红色粗体文本显示。

图4. 车辆速度和转向角的数据分布。红色条表示采样前的分布，而黄色条显示采样后的分布。请注意，为了清晰展示，（b）中使用了对数刻度。

在本节中，本文介绍了基线模型CoVLA-Agent的开发和评估方法，该模型利用CoVLA数据集的丰富性来完成自动驾驶任务。本文详细描述了实验设置，包括数据集、模型配置、训练过程和评估指标，并对结果进行了分析。

架构：如图5所示，CoVLA-Agent是一个为自动驾驶设计的VLA模型。本文使用预训练的Llama-2（7B）[52]作为语言模型，并使用CLIP ViT-L（224×224像素）[43]作为视觉编码器。此外，本文的模型将自车速度作为输入，通过多层感知器（MLP）转换为嵌入向量。CLIP ViT-L提取的视觉特征与速度嵌入和文本嵌入拼接在一起，然后输入到Llama-2模型中。对于轨迹预测，使用特殊的 tokens 作为轨迹查询。这些轨迹查询的输出经过MLP层处理，生成10个(x, y, z)坐标的序列，表示车辆相对于当前位置的预测轨迹，覆盖三秒的时间范围。

训练：基于这种架构，本文在两个任务上训练CoVLA-Agent，分别是交通场景描述生成和轨迹预测。对于交通场景描述生成，本文使用交叉熵损失作为损失函数；对于轨迹预测，本文采用均方误差损失。最终，训练的目标是最小化一个组合损失函数，其中两个损失被等权重对待。

图5. CoVLA-Agent的架构。

实验结果：

图6. CoVLA-Agent在各种交通场景下的轨迹预测结果。红线表示在预测描述条件下的预测轨迹，蓝线表示在真实描述条件下的预测轨迹，绿线表示真实轨迹。

表2. 不同条件的定量比较。

表3. 平均ADE和FDE最大的前10个单词。这些单词对应的是从单帧中难以估计的运动。明确表示运动的单词以粗体显示。

总结：

本文介绍了CoVLA数据集，这是一个用于自动驾驶的VLA模型的新型数据集。通过利用可扩展的自动化方法，本文构建了一个大规模、全面的数据集，并丰富了详细的语言标注。基于这个稳健的数据集，本文开发了CoVLA-Agent，这是一种先进的VLA自动驾驶模型。评估结果强调了该模型在生成连贯的语言和动作输出方面的强大能力。这些发现突显了VLA多模态模型的变革潜力，并为未来的自动驾驶研究创新铺平了道路。

#端到端~离不开的仿真闭环

“端到端”（End-to-End）无疑是今年自动驾驶行业最热的关键词，无论是学术圈还是工业圈，这一概念都引起了广泛的关注和讨论。它指的是一种直接将输入数据映射到输出结果的计算模型，无需复杂的中间处理步骤。在自动驾驶领域，这意味着可以通过深度学习算法直接从原始传感器数据（如摄像头图像、雷达信号等）学习到驾驶决策和车辆控制命令，而不需要传统的、基于规则的多层次数据处理流程。下图展示了特斯拉自动驾驶从模块化到端到端深度学习的演进。

51c自动驾驶~合集23_自动驾驶_10

图片来源 How Tesla will transition from Modular to End-To-End Deep Learning

端到端的方法在自动驾驶技术中的应用，带来了几个显著的优势。首先，它简化了系统架构，减少了对复杂软件和硬件的需求，从而降低了成本。其次，通过直接从数据中学习，端到端模型能够捕捉到更多的细微模式和复杂关系，这在传统的基于规则的方法中很难实现。此外，这种方法还有助于提高系统的适应性和泛化能力，因为它能够从大量的实际驾驶场景中学习，而不是仅仅依赖于预先定义的规则。

端到端的本质应当是感知信息的无损传递。感知模块输出对环境的检测和识别信息，是对复杂驾驶场景采用人为定义的显式抽象。然而，对于一些边缘场景中，显式抽象很难准确和完整的表达场景中影响自动驾驶表现的所有因素。广义的端到端系统，作用便是存在一种全面的场景表征方法，将信息无损传递到规划控制模块。

为了更好的定义端到端自动驾驶的概念，需要加上明确的描述词，主要分为四个阶段/架构：感知“端到端”、决策规划模型化、模块化端到端、One Model/ 单一模型端到端。

端到端自动驾驶仿真的挑战

当前的量产算法普遍还是采用模块化的算法框架，在测试的时候无论是logsim还是worldsim，都可以针对模块或者模块之间的组合进行测试，仿真或者测试系统能够去构造显示的输入，接收显示的输出进行闭环控制以及结果评价。实车测试验证的成本高昂，针对经典的自动驾驶架构，行业已经有一套行之有效的方案进行模型上车前的测试验证，即感知算法使用回灌数据进行离线开环测试，规控算法基于模拟器进行闭环测试验证。

对于感知“端到端”、决策规划模型化，传统的测试方法依然有效，显示的输出能够被定义和构造。但对于模块化端到端、One Model/ 单一模型端到端，隐示的表达可以被捕捉，但无法评测，也无法构造，这就造成传统方法的失效。在基于数据回灌的开环测试条件下，端到端系统无法与环境交互，系统一旦出现偏离采集路径的操作，后续系统的响应将无法评估。

51c自动驾驶~合集23_自动驾驶_11

图片来源Building the Next-Generation of Autonomous Vehicles in Simulation

当然这里的传统测试方法主要指的是SIL，对于HIL而言，现在主流的测试已经是信号级传感器的注入，对完整的功能进行测试验证，端到端的改变并没有很大影响。此外，目前模块化端到端、One Model/ 单一模型端到端还处在一个研发阶段，实际上车还需要很长一段时间。所以本文所讨论的内容，既有落地的方案，也有处在预研阶段的路线。

端到端仿真的技术路线

端到端仿真需要更加真实的传感器输入，尤其是视觉传感器，这是行业的共识。实现高保真模拟的技术路线包括基于光线追踪的游戏引擎、基于三维重建的仿真器以及基于世界模型的仿真器。

基于游戏引擎的仿真器

全球最大最顶尖的端到端算法比赛，即CVPR 2024 Autonomous Grand Challenge，是采用CARLA测试，同时也有基于CARLA的算法比赛项目。CARLA基于Epic Games的虚幻引擎4构建，这意味着它可以生成高保真的3D环境，提供视觉上的真实性，这对于测试车辆感知系统尤其重要。也就是说从技术角度，Carla 这一类基于物理引擎架构的仿真平台在一定程度上可以完成自动驾驶感知端到端模型的训练和测试。

基于三维重建的仿真器

近年来，自动驾驶技术的迅猛发展不断推动着相关领域的技术革新。自ECCV 2020会议上NeRF（神经辐射场）技术的首次亮相，我们见证了三维重建技术跨入了一个全新的发展阶段。NeRF通过先进的深度学习算法，能够从稀疏的二维图像中重建出连续的三维场景，这一突破为自动驾驶领域提供了前所未有的感知能力。

紧接着，SIGGRAPH 2023会议上提出的3DGS（3D高斯泼溅）技术，进一步加速了三维重建技术的发展。3DGS通过更高效的数据处理和更精细的模型构建，使得三维模型的生成更加迅速和准确，为自动驾驶系统提供了更为丰富和细致的环境理解。

清华AIR提出的首个开源自动驾驶NeRF仿真工具MARS，Waabi和多伦多大学在CVPR 2023上的工作汇报中介绍了UniSim，浙大&理想在ECCV 2024上Street Gaussians，一种新的显式场景表示。此外还有GaussianPro、LidaRF等相继被提出。

尽管三维重建的热点不断，但从实际表现来看，局限性比较多，重建效果非常依赖数据，而且当视角与原车视角变换大时，效果不可控。此外，动态场景的添加、场景与车辆的交互、光影的变换，也存在一些实现难点。

基于世界模型的仿真器

2023年2月16日凌晨，OpenAI 发布了视频大模型 Sora，能够根据用户提供的文本描述生成长达 60 秒的视频，视频精准反映提示词内容，复杂且逼真，效果惊艳。广义上，Sora 也属于世界模型的范畴。世界模型也是对物理世界“常识”的理解。

世界模型可以有效赋能智驾。在自动驾驶领域，能够准确预测驾驶场景未来的演变至关重要，通过对场景即将发生的事件进行预判，汽车可以自如地进行规划和控制做出更明智的决策。

51c自动驾驶~合集23_自动驾驶_12

图片来源World Models for Autonomous Driving: An Initial Survey

采用自回归的模型，将数据压缩和提炼，在潜在空间通过无监督的训练构建模型对未来进行预测，之后通过不同的解码器将预测好的信息解码成为需要的表达方式进而构建世界模型。在自动驾驶领域，世界模型可以用来生成场景，也可以直接用来做决策规划。具体而言：

可以生成诸多逼真的场景，生成稀缺、难以采集的场景，为模型训练提供足量的数据；
同样生成的场景亦可以作为仿真测试工具对算法进行闭环验证；
多模态的世界模型亦可以直接生成驾驶策略来指导自动驾驶行为。

OASIS SIM V3.0如何赋能

端到端仿真

OASIS SIM 3.0是基于游戏引擎的仿真器，也就是技术路线中的第一个。对于端到端的仿真，OASIS SIM能够提供高保真场景模拟与传感器以及高质量、规模化的测试用例场景搭建，提升仿真的置信度以及测试覆盖度。

高保真传感器模型

OASIS SIM V3.0通过精确的物理模型，实现了传感器仿真的高精度模拟，能够实现传感器采集层、模型层、协议层的全流程仿真。摄像头可模拟长焦、广角、鱼眼、双目等各种镜头类型，仿真畸变、运动模糊、晕光、过曝、脏污、噪声等特性。激光雷达模型通过对扫描特性、传播特性进行物理建模，实现运动畸变、噪声、强度的模拟，可以仿真不同型号的激光雷达，并生成接近真实雷达的点云数据。

51c自动驾驶~合集23_自动驾驶_13

51c自动驾驶~合集23_自动驾驶_14

摄像头仿真

51c自动驾驶~合集23_自动驾驶_15

激光雷达仿真

OASIS SIM将在新版本中使用UE5，使用更加精细的素材以及全新的光照和天气系统，丰富细节，提升真实度。

交通流仿真模型

OASIS SIM V3.0交通流能够在仿真环境中自定义交通流，重现真实世界的交通情景，帮助测试和优化自动驾驶算法。交通流场景控制功能支持基于规则的控制模型以及基于AI的控制模型。基于规则的控制模型能够自动识别并适配不同道路拓扑结构，可以根据周车的交互行为做出相应的驾驶行为，如车辆跟驰、换道、车道侵入、超车、避障、遵守交通规则等，无需预先定义原子场景。

51c自动驾驶~合集23_自动驾驶_16

大规模城镇场景程序化建模

OASIS SIM 3.0支持直接导入OpenDrive文件，并自动识别和解析道路网络等关键信息自动化生成三维场景，无需复杂的建模和人工编辑，提高了场景构建的速度和效率。在后续的版本中，会逐渐丰富场景的个性化参数，包括场景的风格、植被的密度、建筑的密度，并添加围栏、路灯、街道障碍物等。虽然建筑等并不是自动驾驶感知的感兴趣区域，但会影响光影效果，进而影响感知结果。

51c自动驾驶~合集23_自动驾驶_17

OASIS SIM V3.0三维场景生成

基于3DGS的融合策略

3D高斯泼溅（3DGS）技术的突破彻底改变了场景建模和渲染。利用显式3D高斯体的强大功能，3DGS在新视图合成和实时渲染方面取得了最佳效果，同时相比传统的表示方法（如网格或体素）显著降低了参数复杂性。这项技术无缝集成了基于点的渲染和splatting的原理，通过基于splatting的栅格化促进了快速渲染和可微分计算。

基于原始的 3DGS 算法，对自动驾驶场景进行进一步的动静态元素建模，对场景背景信息和交通参与者同时进行还原。

在此基础上， OASIS SIM V3.0 实现了 3DGS 场景和存量建模场景的渲染融合表达，支持对融合场景进行深度编辑，例如添加/移动车辆，改变天气光照等。

下图为真实数据展示

51c自动驾驶~合集23_自动驾驶_18

下图为OASIS重建场景演示，并且进行了车辆添加和天气改变

51c自动驾驶~合集23_自动驾驶_19

测试之外

合成数据

自动驾驶进入深水区，端到端逐步成为未来方向，世界模型重要性凸显。一方面随着自动驾驶走入深水区，玩家对数据的要求日益提升，厂家希望数据能够模拟复杂交通流、具有丰富的场景、广泛收集各类长尾场景、并且具备 3D标注信息。而现实状态下，数据的采集成本居高不下，部分危险的场景如车祸等难以采集，长尾场景稀缺，同时3D标注的成本高昂，因此采用合成数据来助力自动驾驶模型训练测试成为颇具前景的发展方向，而世界模型恰为良好的场景生成和预测器。

另一方面，随着端到端自动驾驶成为未来的发展方向，开发者需要依靠数据将驾驶知识赋予模型，数据需求会伴随模型体量的增加而扩大。此外更重要的影响在于，在仿真和验证环节，传统的模块化算法时代可以对感知和规控模块分别进行验证，感知端可以进行开环的检测（即将感知的结果和带有标注的真实世界状况直接对比即可，不需要反馈和迭代），规控环节可以依靠仿真工具，将世界的状况（各类场景）输入，通过环境的变化来给予模型反馈，进而闭环的（外部环境可以根据智能体的输出变化而改变，形成反馈）验证规控算法的性能。

这其中，感知环节更注重仿真环境的逼真性，而规控环节更注重逻辑的丰富度。在端到端时代，感知和规控合二为一，这要求仿真工具既可以逼真地还原外部环境，同时能够给予模型反馈实现闭环测试，尽管 NeRF、3DGS等等算法层出不穷，但能够很好的做到自动驾驶全过程完整的闭环测试亦难度较高，而世界模型则能够很好的应对类似的场景。

深度强化学习

在强化学习中，智能体学习如何在环境中做出决策和行动，以最大化累积奖励信号。在自主智能体的背景下，强化学习为这些智能体提供了一种通过试错学习来学习如何在没有明确编程的情况下执行任务和做出决策的方法。智能体是强化学习框架中的学习者。它与环境相互作用，并采取行动实现某些目标。环境是代理与之交互的外部系统。

深度Q学习（Deep Q-Network，DQN）是一种改进的Q学习算法，它使用神经网络来估计Q值。DQN的主要优势是它可以处理大规模的状态空间，从而能够应用于复杂的环境中。

展望

对于端到端模型的开发，仿真测试相比道路测试具有更大的优势：闭环。通过基于大模型实现的世界模型，我们可以建立可闭环、逼近物理级交互的世界仿真器。同时，借助于强化学习，来实现人类驾驶经验、交通法规的信息注入，引导模型更好迭代。

另外，著名 AI 科学家李飞飞近期的创业方向-空间智能说到

多年来我一直强调，拍照和真正地「看」并理解是两回事。今天，我想补充一点。仅仅看见是不够的。真正的「看」是为了行动和学习。当在三维空间和时间中采取行动时，我们将通过观察来学习如何做得更好。自然界通过「空间智能」创造了一个良性循环，将视觉和行动联系起来。

自动驾驶车辆作为智能体，也可以赋予空间智能的能力，由其所处的空间来决定下一步的动作，也许也是端到端仿真的技术方向。

#DriveGenVLM

挑战更复杂场景！首个基于VLM的自动驾驶世界模型

自动驾驶技术的进步需要越来越复杂的方法来理解和预测现实世界场景。视觉语言模型（VLMs）正作为具有显著潜力影响自动驾驶的革命性工具而崭露头角。本文提出了DriveGenVLM框架，用于生成驾驶视频并利用VLMs进行理解。为实现这一目标，采用了一种基于去噪扩散概率模型（DDPM）的视频生成框架，旨在预测现实世界中的视频序列。随后，利用一种称为“基于第一人称视频的高效上下文学习”（EILEV）的预训练模型，探索了生成的视频在VLMs中使用的充分性。该扩散模型使用Waymo开放数据集进行训练，并通过FVD评分进行评估，以确保生成视频的质量和真实性。EILEV为这些生成的视频提供了相应的叙述，这可能在自动驾驶领域带来益处。这些叙述可以增强对交通场景的理解，辅助导航，并提高规划能力。DriveGenVLM框架中将视频生成与VLMs相结合，标志着在利用先进AI模型解决自动驾驶复杂挑战方面迈出了重要一步。

当前领域背景概述

自动驾驶领域中将先进的预测模型集成到车辆系统或交通系统中，对于提高安全性和效率变得越来越关键。在众多的传感技术中，基于camera的视频预测脱颖而出，成为了一个核心组成部分，它提供了动态且丰富的现实世界数据源。通过采用前沿的扩散模型方法，本研究不仅促进了自动驾驶技术的发展，还为在提升车辆安全性和导航精度方面应用预测模型设立了新的基准。

目前，AI生成的内容是计算机视觉和人工智能领域的主要研究方向之一。由于内存和计算时间的限制，生成逼真且连贯的视频是一个具有挑战性的领域。在自动驾驶领域，从车辆前置camera预测视频尤为重要，这在自动驾驶和高级驾驶辅助系统（ADAS）的上下文中尤为关键，本文利用车辆周围camera的视频来预测未来的帧。

生成模型也已被应用于交通和自动驾驶领域，这些模型因其理解驾驶环境的能力而越来越受到认可。目前，视觉语言模型（VLMs）正被用于自动驾驶应用。为了提高VLMs的实用性并探索生成模型在VLMs中视频内容的应用，验证生成模型的预测以确认其在现实场景中的相关性和准确性至关重要。DriveGenVLM引入了上下文中的VLM作为一种方法，通过提供驾驶场景的文本描述来验证基于扩散的生成模型预测的视频。

扩散模型是一类深度生成模型，其特点主要包括两个阶段：（i）前向扩散阶段，其中初始数据通过在多个步骤中添加高斯噪声而逐渐被破坏；（ii）反向扩散阶段，其中生成模型旨在通过逐步学习反转扩散过程来从添加噪声的版本中重建原始数据，逐步进行。去噪扩散概率模型（DDPM）是一种常见的生成模型类型，旨在通过扩散过程学习和生成特定的目标概率分布。DDPM已被验证比传统的生成模型（如GANs和VAE）更为有效。

生成长视频需要大量的计算资源。一些工作通过基于自回归的模型克服了这一挑战。然而，自回归模型可能导致不现实的场景转换和长视频序列中的持续不一致性，因为这些模型缺乏从更长片段中同化模式的机会。为了克服这一点，MCVD 采用了一种训练方法，通过独立且随机地屏蔽所有先前或后续帧来为各种视频生成任务准备模型。同时，FDM 引入了一个基于扩散概率模型（DDPMs）的框架，该框架能够生成扩展的视频序列，并在不同设置下实现现实且连贯的场景完成。NUWAXL 介绍了一种“扩散之上的扩散”架构，旨在通过“粗到细”的方法生成扩展视频。

近年来，基于文本的大型语言模型（LLMs）的受欢迎程度急剧上升。此外，在自动驾驶领域还引入了各种生成式视觉语言模型（VLMs）。提出了RAGDriver ，以利用上下文学习来实现高性能、可解释的自动驾驶。我们利用EILEV 的上下文学习能力来生成驾驶场景的描述。在DriveGenVLM中，上下文VLMs使我们能够处理由扩散框架预测的视频，这些视频随后可以被其他基于视觉的模型识别，从而可能为自动驾驶中的决策算法做出贡献。据我们所知，DriveGenVLM是首个将视频生成模型和视觉语言模型（VLM）集成到自动驾驶领域的工作。

主要有那些创新点？

将条件去噪扩散概率模型应用于驾驶视频预测领域；

在Waymo开放数据集的不同camera角度下测试视频生成框架，以验证其在现实世界驾驶场景中的可行性。

利用上下文视觉语言模型生成预测视频的描述，并验证这些视频是否可应用于基于视觉语言模型的自动驾驶。

一些基础预备知识1）DDPM

去噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM）是一种在机器学习和计算机视觉领域备受关注的生成模型。DDPM通过一个前向过程将数据转换为噪声，以及一个后向过程从噪声中重建原始数据来工作。前向过程的目标是将任何数据转换为基本先验分布，而后续的目标则是开发转换核以撤销这种转换。为了生成新的数据点，首先从先验分布中抽取一个随机向量，然后通过反向马尔可夫链进行祖先采样。这种采样技术的关键在于训练反向马尔可夫链以准确复制前向马尔可夫链的时间反向进程。

51c自动驾驶~合集23_自动驾驶_20

对于条件扩展，其中建模的x依赖于观测值y。给定数据分布x0 ∼ q(x0)，前向过程生成一系列随机变量x1, x2,..., xT。x0表示原始的无噪声数据，而x1则包含了少量的噪声。这个过程一直持续到xT，此时xT几乎与x0无关，并且类似于从单位高斯分布中抽取的随机样本。xt的分布仅依赖于xt−1，转移核是：

51c自动驾驶~合集23_自动驾驶_21

联合分布由等式2中的扩散过程和数据分布q(x0, y)定义。

51c自动驾驶~合集23_自动驾驶_22

将这些模型称为扩散概率模型（Diffusion Probabilistic Models，DPMs），这些模型通过反转扩散序列来工作。对于给定的xt和y，我们使用神经网络来估计θ，作为的近似。这个估计使我们能够通过从标准高斯分布中采样开始来获取的样本，这是因为扩散过程的初始状态类似于高斯分布。随后，我们通过θ从迭代地向后采样到。在给定y的条件下，采样得到的x0:T的联合分布可以表示为：

51c自动驾驶~合集23_自动驾驶_23

在这里，表示与θ无关的单位高斯分布。训练条件DPM涉及调整θ，以使其在全范围的t、和y值上与紧密匹配。

2）在视觉语言模型（VLMs）上的上下文学习

In-context学习最初在GPT-3的论文中提出，它指的是模型能够在单次交互中根据提供的上下文学习或调整其响应的能力，而无需对其基础模型进行任何显式更新或再训练。

这里采用了EILEV，这是一种训练技术，旨在增强第一人称视频中的视觉语言模型（VLMs）的上下文学习能力。如图3所示，EILEV在交错上下文-查询场景下的架构涉及使用来自BLIP-2的未修改视觉transformer来处理视频片段。得到的压缩标记与初始上下文-查询实例序列中的文本标记混合。然后，将这些组合标记输入到BLIP-2的静态语言模型中，以生成新的文本标记。该方法可以泛化到分布外的视频和文本，以及通过上下文学习罕见的动作。我们利用预训练模型为驾驶视频生成语言叙述，以验证生成的结果是否可解释且现实。

51c自动驾驶~合集23_自动驾驶_24

DriveGenVLM方法

生成长时间、连贯且逼真的视频仍然是一个挑战。灵活扩散模型（Flexible Diffusion Model, FDM）通过使用条件生成模型来解决这个问题。在DriveGenVLM中，采用了类似的方法。为了采样具有大量帧的连贯视频，可以使用生成模型在少量帧的条件下采样任意长度的视频。我们的目标是在一些帧的条件下，采样出连贯且逼真的驾驶场景视频。这里采用了一种顺序程序，通过生成模型来采样任意长度的视频，该模型一次只能采样或基于少量帧进行条件处理。

广义上，我们将采样方案定义为一系列元组，其中每个元组由一个向量组成，表示要采样的帧的索引，以及一个向量，表示在阶段s = 1,...,S中用作条件的帧的索引。

1）训练框架

DDPM图像框架采用了U-net结构。该架构的特点是一系列层，这些层首先降低空间维度，然后再进行上采样，其间穿插着卷积残差网络块和专注于空间注意力的层。

51c自动驾驶~合集23_自动驾驶_25

该架构如图2所示。DDPM迭代地将噪声XT转换为视频帧X0。带有红色边框的框表示条件。右侧显示了每个DDPM步骤的UNet架构。

51c自动驾驶~合集23_自动驾驶_26

算法1展示了如何使用采样方案来采样视频。生成模型可以根据视频帧的其他子集来采样任何子集。模型可以生成任何选择的X和Y。

2）Sampling Schemes

每种采样方案的相对效率在很大程度上取决于手头的数据集，且没有普遍最优的选择。在本文中，尝试了三种采样方案，如表I所示。第一个也是最直接的方案是Autoreg，它通过在每个步骤中对前十个帧进行条件设置来采样十个连续帧。另一个方案是Hierarchy2，它采用多层采样方法，第一层有十个等距选择的帧，覆盖视频中未观察到的部分，这些帧以十个观察到的帧为条件。在第二层中，以组为单位连续采样帧，同时考虑最近的先前帧和后续帧，直到所有帧都被采样。最后使用了Adaptive Hierarchy-2（Ad），这只能通过实现FDM来实现。Adaptive Hierarchy-2在测试期间战略性地选择条件帧，以优化帧多样性，这通过它们之间的成对LPIPS距离来衡量。

51c自动驾驶~合集23_自动驾驶_27

实验对比分析1）数据集

Waymo-open数据集是一个广泛应用的数据集，它利用多种传感器来辅助自动驾驶技术的进步。该数据集包含来自Waymo自动驾驶汽车群组的高质量传感器数据，并由超过1000小时的视频组成。这些视频是通过各种传感器拍摄的，如激光雷达、雷达和五个camera（前后及侧面），它们始终提供汽车周围的完整视图，即我们所说的360度视野。这组数据有着非常细致的标注，包括车辆、行人、骑自行车者以及道路上其他物体的标记。这使得它对于该领域的研究人员或工程师来说非常有用，可以帮助他们提升自动驾驶汽车中的感知（理解）、预测（猜测接下来会发生什么）和模拟算法的技能。数据集V2格式旨在与Apache Parquet文件格式及其支持的组件一起使用。在这里，组件是一组相关的字段/列，它们是理解每个单独字段所必需的。

2）实验设置

为了验证算法在真实驾驶场景中的有效性，利用了Waymo开放数据集，该数据集涵盖了多个城市的不同真实世界环境。我们从数据集中提取了所有五个现有camera的数据。然后对数据集进行了预处理，并从三个camera（前camera、前左camera和前右camera）中提取了数据，总共处理了138个视频。其中，包含所有三个camera的108个视频被平均分配用于训练，而每个camera各有10个视频用于测试集。训练视频中发现的最大帧数为199帧，最小帧数为175帧左右。因此，将所有视频的帧数限制为175帧，分辨率降低到了128×128，并转换成了4D张量。

该模型在Debian GNU/Linux 11系统上运行，该系统配备了8核Intel Cascade Lake处理器和具有24GB内存的NVIDIA L4 GPU。我们使用了bs大小为1、学习率为0.0001的设置。每个camera训练的详细信息如表II所示。前camera是从头开始训练的，没有使用任何预训练权重，迭代了200,000次。前右camera使用了来自camera1的预训练权重，并训练了150,000次迭代，而前左camera则使用了来自camera3的预训练权重，训练了100,000次迭代。总共花费了108个GPU小时进行训练。

51c自动驾驶~合集23_自动驾驶_28

利用FVD（Frechet视频距离）评估，这是一种用于评估模型在视频生成或未来帧预测等任务中生成的视频质量的度量标准。类似于用于图像的Frechet Inception Distance（FID），FVD衡量生成视频分布与真实视频分布之间的相似性。FVD对于评估视频的时间一致性和视觉质量非常有用，因此它是视频合成模型基准测试的一个宝贵工具。

3）结果

表III、表IV和表V总结了我们在Waymo开放数据集上对三个camera进行实验得到的FVD分数，这些实验采用了不同的采样方案。结果表明，自适应层次-2采样方法优于其他两种方法。

51c自动驾驶~合集23_自动驾驶_29

51c自动驾驶~合集23_自动驾驶_30

图4-6展示了使用自适应层次-2采样方案（产生最低FVD分数）为每个camera生成的预测视频。每个子图包含每个camera生成的2个视频示例。带有红色边界框的帧是真实帧，预测帧位于每个对应帧的下方。生成的视频以每个示例的前40帧为条件。

51c自动驾驶~合集23_自动驾驶_31

51c自动驾驶~合集23_自动驾驶_32

51c自动驾驶~合集23_自动驾驶_33

FDM在Waymo数据集上的训练展示了其在连贯性和逼真度方面的能力。然而，它仍然难以准确解释现实世界驾驶中的复杂逻辑，如交通和行人的导航。这种局限性很可能是由于现实场景中存在的额外挑战，这些挑战在模拟环境中是不存在的。

为了验证我们生成的视频是否可解释且可用于视觉语言模型，我们在Ego4D数据集上使用了预训练的EILEV模型，即eilev-blip2-opt-2.7b ，来测试我们生成的驾驶视频。我们利用了描述camera角度、驾驶环境和一天中时间的视频片段和文本对。结果如图7所示。模型生成的动作叙述显示在橙色框中。值得注意的是，前两个视频中没有共享任何动词和名词类别组合，如蓝色框所示。我们可以观察到，模型能够识别出车辆正在高速公路上行驶，且摄像头位于前方。对于第二个视频，模型识别出车辆正在夜间使用前置摄像头行驶。在VLMs上进行上下文学习预训练的模型与生成的模型配合良好，表明这些视频是可解释的，并且有可能被基于VLMs的算法所使用。

51c自动驾驶~合集23_自动驾驶_34

#多视图重建

一览NeRF/3DGS等多种方法

近年来，随着深度学习技术的发展，基于学习的MVS方法相较于传统方法取得了显著的进展。本综述[1]（Learning-based Multi-View Stereo: A Survey）对这些基于学习的方法进行了分类：

基于深度图

基于体素

基于NeRF（神经辐射场）

基于3D高斯投影

大规模前馈方法。

其中，基于深度图的方法因其简洁、灵活和可扩展性被广泛关注。在综述中，文章对当前文献进行了全面回顾，探讨了各类基于学习的MVS方法的表现，并对这些方法在流行基准上的效果进行了总结。文章还讨论了该领域未来的研究方向，旨在推动3D重建技术的发展。

基础知识

基于深度图的多视图立体视觉（MVS）方法，包括大多数传统和基于学习的方法，通常由几个组件组成：相机校准、视图选择、多视图深度估计和深度融合。在本节中，我们介绍这些组件，以便读者能够清晰地了解MVS问题。需要注意的是，相机校准和视图选择也是其他基于学习的方法的组成部分。

相机校准

相机校准是确定相机的内参和外参以准确理解其几何和特性的重要过程。它是MVS的基础步骤，确保后续的重建过程基于准确且一致的几何信息，最终导致更加可靠和精确的场景3D表示。通常，通过运行现成的结构光或SLAM算法来获取校准后的相机参数。这些相机参数包括外参矩阵T = [R|t]和内参矩阵K。基于深度图的MVS方法通常需要一个限定的深度范围[dmin, dmax]以提高估计的准确性。对于离线方法，深度范围可以通过将稀疏点云从结构光投影到每个视角并计算最小和最大z值来估算。相比之下，在线方法通常设置恒定的深度范围，例如[0.25m, 20.00m]，因为场景规模通常是固定的。

视图选择

视图选择是重建中的一个重要步骤，平衡三角测量质量、匹配精度和视图视锥体的重叠非常重要。目前，视图选择主要有两种策略。

首先，对于大多数在线MVS深度估计方法，当一个帧的姿态与先前关键帧的姿态有足够的差异时，该帧会被选择为关键帧。然后，每个关键帧采用几个先前的关键帧来估计深度。GP-MVS提出了一种启发式的姿态-距离度量策略，用于选择合适的视图。

其次，对于大多数离线MVS方法，视图选择是通过使用结构光获得的稀疏点云来完成的。对于参考视图i，MVSNet通过计算与其邻近视图j的得分来选择视图，该得分根据两个视图观察到的3D点P之间的基线角度计算而来。几乎所有后续的离线MVS方法都使用了相同的策略。

基于平面扫描的多视图深度估计

为了形成更适合卷积操作的结构化数据格式，大多数基于学习的MVS方法依赖于平面扫描算法来计算匹配代价。平面扫描算法通过沿深度方向离散化深度空间为一组前平行平面，并评估这些平面上的几何表面分布。它的操作通过在目标空间中扫描概念平面、计算图像之间的单应性，并根据不同视图的一致性选择深度值，从而最终实现精确的3D重建。

深度融合

对于基于深度图的MVS方法，在估计所有深度图后，需要将它们融合成稠密的3D表示，如点云或网格。在线MVS方法通常采用TSDF（截断的有符号距离函数）融合，将深度图融合成一个TSDF体积，然后使用Marching Cubes算法提取网格。然而，深度图中通常存在异常值，这可能会降低重建精度。为了克服这个问题并提高准确性，离线MVS方法通常在融合为点云之前进行深度图过滤，主要采用光度一致性过滤和几何一致性过滤。

数据集和基准

常用的公共MVS数据集和基准通常用于训练和评估。数据集如ScanNet、7-Scenes、DTU、Tanks and Temples和ETH3D等提供了相应的真值数据，包括相机姿态、深度图、点云和网格。不同数据集的目标不同，涵盖了室内外各种场景的3D重建任务。

评估指标

根据真值数据，评估指标可以分为2D指标和3D指标。2D指标通常用于在线MVS方法来评估深度图的精度，而3D指标则被广泛用于离线MVS方法来评估重建的点云质量。常见的3D评估指标包括精度/准确性、召回率/完整性和F-Score，F-Score是精度和召回率的调和平均值，用于衡量重建方法的整体性能。

基于深度估计的监督方法

这些方法通过深度估计来进行3D重建。典型的基于深度图的MVS流程主要包括特征提取、代价体积构建、代价体积正则化和深度估计。以MVDepthNet和MVSNet为代表，分别展示了在线和离线MVS方法的流程。

特征提取

考虑到效率，大多数方法使用简单的卷积神经网络（CNN）结构从图像中提取深度特征，例如ResNet、U-Net和FPN。对于在线MVS方法，特征提取网络通常与实时操作目标相结合。DeepVideoMVS结合了MNasNet（轻量级且低延迟）与FPN，而SimpleRecon则利用ResNet18的前两个块和EfficientNet-v2编码器，在保持效率的同时显著提高了深度图的精度。对于离线MVS方法，MVSNet使用了堆叠的八层2D CNN来为所有图像提取深度特征。多尺度方法进一步使用多尺度RGB图像或FPN来进行多尺度特征提取，以便在多个尺度上进行估计。最近，许多后续工作更加注重特征提取，以提高深度特征的表示能力。

代价体积构建

对于在线和离线MVS方法，代价体积通过平面扫描算法构建。

在线MVS：为了减少计算量并提高在线应用的效率，在线MVS方法通常构建3D代价体积，存储每个像素及深度采样的单一匹配代价。MVDepthNet和GP-MVS计算参考视图与每个源视图之间的逐像素强度差异作为匹配代价。如果有多个源视图，代价体积将被平均。DeepVideoMVS和MaGNet则计算参考特征与变换后的源特征之间的逐像素相关性作为代价。

离线MVS：离线MVS方法主要关注通过高分辨率图像重建高质量的稠密几何体。为了编码更多的匹配信息并提高质量，离线方法通常构建4D代价体积，每个像素及深度采样对应一个匹配代价。MVSNet提出了一种基于方差的代价度量，将N个源视图的特征体积求平均，然后通过方差计算匹配代价。为了减少维度，CIDER引入了分组相关性来计算参考视图和每个变换后的源视图之间的轻量级代价体积。

代价体积正则化

通常，原始代价体积可能存在噪声，因此需要通过正则化引入平滑性约束，以进行深度估计。代价体积正则化是一个关键步骤，通过从大的感受野中聚合匹配信息来对代价体积进行细化。

在线MVS： 2D编码器-解码器架构通常用于信息聚合。MVDepthNet将参考图像与代价体积连接起来，然后输入到一个带有跳跃连接的编码器-解码器架构中。DeepVideoMVS在代价体积上应用了2D U-Net，并在所有分辨率上添加了图像编码器和代价体积编码器之间的跳跃连接。
离线MVS：大多数使用4D代价体积的离线MVS方法有三种主要的正则化策略：直接3D CNN、粗到细和RNN。MVSNet采用3D U-Net对代价体积进行正则化，从较大的感受野中聚合上下文信息。

迭代更新

与传统方法不同，一些方法采用迭代更新来逐步细化深度图。迭代方法引入了一种动态的深度图估计方法，通过多次迭代逐步改进重建过程。这种迭代细化特别适用于初始估计可能较为粗糙或不准确的场景。

一些方法结合了迭代PatchMatch与深度学习。PatchMatch算法主要包括随机初始化、向邻居传播假设和评估以选择最佳解。PatchMatchNet提出了自适应传播和代价聚合模块，使得PatchMatch能够更快收敛并生成更精确的深度图。

深度估计

对于一个4D代价体积，通常在代价体积正则化后生成一个概率体积，然后用于深度估计。目前，几乎所有基于学习的MVS方法都使用回归（软argmax）或分类（argmax）来预测深度。

MVSNet使用软argmax通过计算概率体积沿深度方向的期望值来回归深度图。对于粗到细方法，软argmax在每个阶段应用，用于回归深度图。而RNN正则化方法则主要采用argmax操作，将概率最高的深度样本作为最终预测。

深度细化

由于MVS生成的初始深度估计可能存在噪声，因此通常使用细化来提高精度。许多方法采用不同的策略来进一步优化深度图，从而获得更高质量的重建结果。

置信度估计

光度一致性置信度在离线MVS方法的深度融合过程中非常重要。大多数离线MVS方法从概率体积中提取置信度来过滤掉不可靠的估计值。此外，一些方法还通过深度学习来估计置信度，用于进一步细化结果。

损失函数

在线MVS：许多方法通过对预测的反深度图进行回归损失计算来进行训练。

离线MVS：基于深度估计策略，损失函数主要分为回归和分类。使用软argmax的回归方法通常采用L1损失，而采用argmax的分类方法则使用交叉熵损失。

基于深度估计的无监督与半监督方法

前面介绍的监督式MVS方法高度依赖于通过深度传感设备获得的准确的深度图真值数据。这不仅使数据收集过程变得复杂、耗时且昂贵，还将这些方法的应用限制在少数数据集和主要室内场景中。为了使MVS在更广泛的现实世界场景中得到实际应用，必须考虑替代的无监督学习方法，这些方法在不依赖真值深度数据的情况下，能够提供与监督方法相媲美的精度。目前的无监督方法基于光度一致性假设，即同一3D点的不同视图中对应像素应具有相似的特征。这些方法分为端到端方法和多阶段方法。SGT-MVSNet是目前唯一的半监督方法。

光度一致性假设

在无监督深度图预测领域，现有方法通常通过增强参考视图与源视图之间的相似性来实现光度一致性。这个关键概念围绕着通过将源视图对齐到参考视图的方式来提升图像间的相似度。

具体来说，给定参考图像的深度估计，使用公式将参考像素投影到后续图像中。

然后，通过在由于投影过程导致的像素偏移位置上进行双线性采样，生成源图像的扭曲版本。此外，通常生成一个二进制掩码，用于排除投影到图像边界之外的无效像素。

光度一致性损失可以表示为：

其中，表示像素级的梯度，而

结构相似性损失通过结构相似性指数（SSIM）来评估合成图像与参考图像之间的上下文一致性，SSIM的定义如下：

其中，和分别表示图像的均值和方差，和

平滑损失项的引入是为了在图像和深度图对齐时促进深度信息的连续性。平滑损失的计算如下：

其中，和分别表示沿x和y轴的梯度，

端到端无监督方法

端到端方法是指从头开始训练的无监督MVS方法，这些方法与监督方法使用相同的输入信息（如第II节中介绍的），但不使用真值深度进行监督。相反，它们通常将光度一致性、结构相似性和光滑性约束作为损失函数的一部分。

然而，无监督MVS的瓶颈在于找到准确的光度对应关系。实际场景中，非朗伯表面、相机曝光变化和遮挡会使光度一致性假设失效，从而导致“模糊监督”的问题。

为了解决这个问题，JDACS除了光度一致性外，还引入了语义一致性。它通过预训练网络提取语义特征，并通过非负矩阵分解生成语义分类图。然后计算跨视图语义一致性，监督信号通过交叉熵损失来指导分类。RC-MVSNet引入了神经渲染，通过结合神经辐射场（NeRF）的强大表示能力和代价体积的强大泛化能力，提出了一个新的无监督方法。ElasticMVS通过引入分块感知PatchMatch算法，来处理基于光度损失的几何信息中缺失数据和伪影的问题。

CL-MVSNet提出了一种框架，通过在常规分支与两个对比分支之间确保对比一致性来增强正样本对之间的接近性。

需要注意的是，这些端到端方法均不需要预处理，减少了训练时间并降低了在实际场景中应用的复杂性。

多阶段无监督方法

多阶段方法需要对特定模块进行预训练或对训练数据进行预处理。这些方法基于伪标签生成的思想。

Self-supervised CVP-MVSNet通过在CVP-MVSNet框架上进行自监督训练生成伪深度标签，并通过交叉视图深度一致性检查和点云融合来进行多次迭代，逐步提高性能。U-MVSNet通过预训练光流估计网络，利用密集2D光流一致性来生成伪标签，并提出了一个不确定性自训练一致性模块，以减少背景中的无效监督。

最近，KD-MVS通过知识蒸馏策略实现了卓越的性能。它在自监督方式下训练了一个教师模型，然后通过交叉视图一致性检查和概率编码生成伪标签，并通过这些伪标签将教师模型的知识传递给学生模型。

半监督方法

SGT-MVSNet提出仅使用少量稀疏真值3D点来估计参考视图的深度图。3D点一致性损失通过最小化从对应像素反投影的3D点与真值之间的差异来进行监督。为了处理边缘和边界上的不准确估计，SGT-MVSNet引入了一个从粗到细的可靠深度传播模块，来修正错误的预测。

不依赖深度估计的基于学习的MVS方法

尽管通过平面扫描预测单个深度图的基于学习的MVS方法是主流，但近年来还有许多其他类型的方法在3D重建方面取得了显著的效果。这里讨论了四种主要的类别：基于体素的方法、基于NeRF（神经辐射场）的方法、基于3D高斯投影的方法，以及大规模前馈方法。

基于体素的方法

这些方法通过隐函数（如有符号距离函数，SDF）利用体素表示估计场景几何。具体来说，Atlas和NeuralRecon试图通过将2D图像特征提升到3D特征体积来预测TSDF（截断的有符号距离函数）体积。Atlas使用3D卷积神经网络基于从所有场景图像中累积的特征体积来回归TSDF体积，从而展示出较高的重建完整性。NeuralRecon则通过分块式和粗到细的方式逐步重建场景，提高了效率。TransformerFusion通过两个Transformer将粗细图像特征融合到体素网格中，然后预测场景几何的占据场。VoRTX使用了与TransformerFusion相似的设计，通过3D卷积神经网络处理由不同级别Transformer输出的特征，从而获得场景几何。

基于NeRF的方法

在新视图合成领域，神经辐射场（NeRF）开启了一种新兴的3D表示方式，利用可微分的体积渲染方案，通过2D图像级损失对基于辐射的3D表示进行监督。NeRF使用多层感知机（MLP）将一个位置（x, y, z）和归一化视角方向（θ, ϕ）映射到相应的颜色和体积密度。对于新视角的特定射线，NeRF使用近似的数值体积渲染来计算累积颜色。许多后续研究进一步改进了NeRF的质量、训练速度、内存效率以及实时渲染能力。

尽管NeRF最初的目的是实现新视图合成，VolSDF和NeuS将NeRF与SDF结合，用于表面重建。SDF被转化为用于体积渲染的密度。

基于3D高斯投影的方法

基于3D高斯投影的方法最近在3D重建和新视图合成中表现出色。DreamGaussian和SuGaR是代表性的基于3D高斯投影的方法，它们通过在稀疏点云上进行3D高斯投影，将场景的稠密表面和颜色信息编码为3D高斯体积，并使用体积渲染进行监督。这些方法具有较高的渲染速度和出色的重建质量，特别是在大规模和复杂场景中表现尤为突出。

大规模前馈方法

大规模前馈方法主要使用大型Transformer模型直接从给定的图像中学习3D表示。这些方法通常需要大量的计算资源，因为它们依赖于巨大的网络结构，但在某些对象级别的场景中表现得非常出色。这些方法通过直接学习整个场景的3D表示，跳过了传统方法中的逐帧深度估计步骤，因此在某些场景中可以显著提升重建速度和质量。

总结一下

该综述涵盖了截至2023年最新的基于学习的MVS方法文献，包括四个主要类别：基于深度图、基于体素、基于NeRF、基于3D高斯投影以及大规模前馈方法。