#MambaOcc

Mamba再下一城,杀入Occupancy!更快更强的MambaOcc来了(中科院&美团)

在自动驾驶系统当中,感知作为自动驾驶车辆检测周围静态和动态障碍物的重要途径,其准确性和稳定性的重要程度不言而喻。然而,当自动驾驶汽车在开放场景中行驶时,准确和稳定的感知模块变得尤其具有挑战性,因为它们必须检测看不见的或不规则的物体。

最近,由于占用预测具有更加细粒度的通用感知能力,它在自动驾驶系统的感知和规划流程中引起了越来越广泛的关注。虽然占用预测网络相比于原有的3D障碍物感知算法具有更加细粒度和通用的感知能力,但是占用预测网络需要确定当前感知的3D场景中每个体素的状态,这会导致感知模型开发过程中对计算和内存的需求很高。

基于栅格预测的相关优势以及现有存在的诸多不足,我们的核心思路是提高基于BEV空间的占用预测的性能,同时减少参数数量和计算成本。考虑到先前的研究工作中强调了Transformers算法模型在长距离建模方面的优势,但它们的计算负担也非常的大。最近,状态空间模型 (SSM)(例如 Mamba)已成为长距离建模的更有效解决方案。这一发展促使我们探索状态空间模型在改进占用预测任务方面的潜力。

因此,本文提出了一种基于Mamba框架的新型占用率预测方法,旨在实现轻量级,同时提供高效的远距离信息建模,我们称之为MambaOcc算法模型。

论文链接:https://arxiv.org/pdf/2408.11464

网络模型的整体架构&细节梳理

在详细介绍本文提出的MambaOcc算法模型的技术细节之前,下图展示了我们提出的MambaOcc算法的整体网络结构。通过下图可以看出,MambaOcc算法模型主要包括四个模块,分别是基于Mamba的图像主干网络用于图像特征的提取,用于获取BEV形式特征和聚合多帧特征的视角转换模块以及时间融合模块,带有自适应局部重排模块LAR-SS2S混合BEV编码器模块以及占用预测头模块。

MambaOcc算法模型的整体网络结构

整体而言,我们采用四种方向的视觉Mamba来提取图像特征。同时为了减轻与3D体素相关的高计算负担,我们使用BEV特征作为占用预测的中间特征表示,并设计了结合卷积层和Mamba层的混合BEV编码器。考虑到Mamba架构在特征提取过程中对标记排序的敏感性,我们引入了一个利用可变形卷积层的局部自适应重新排序模块。该模块旨在动态更新每个位置的上下文信息,使模型能够更好地捕获和利用数据中的局部依赖关系。这种方法不仅可以缓解标记序列相关的问题,还可以通过确保在提取过程中优先考虑相关的上下文信息来提高占用预测的整体准确性。

VM-Backbone(视觉Mamba主干网络)

为了从多视图图像中提取深层特征,我们使用VMamba作为特征提取的主干网络。与卷积神经网络和Transformer网络相比,基于 Mamba的网络架构模型可以高效地捕获上下文信息。Mamba网络框架的核心是选择性状态空间模型,该模型通过线性时变系统定义隐藏状态和输出的更新规则,可以用四个参数,,,表示如下:

其中,和是在时刻的输入、隐藏和输出状态。,是和的离散形式:

在中,值定义为模型的参数,,和的值通过一个由以输入为条件的投影层生成:

其中,是系统的参数,,和是映射层,是softplus函数。S6和序列化的操作一起构成了至关重要的SS2D模块。为了获得输入的token序列,多视角的图像从四个不同的方向被分成了图像块。序列被独立的喂入到S6模块中,并且S6模块的输出通过重新映射token到2D特征图的方式实现空间上的对齐。这些2D特征被加在一起以融合不同的上下文。

View Transformation and Temporal Fusion(视角转换以及时序融合)

在MambaOcc算法模型中,我们采用LSS算法模型实现从图像平面到BEV平面的空间视图变换。首先,将图像主干网络的输出特征组织成2D格式的地图。然后通过深度预测网络生成每个像素的一系列离散深度。最后,使用体素池化在预定义的BEV平面上聚合每个网格内的深度预测。

在使用了时间域融合的情况下,视角转换模块提供了一种方便的方式融合来自不同视角以及不同时间戳的图像特征。利用来自前几帧的 BEV空间特征,首先基于自车运动信息进行特征转换操作。然后,应用采样和插值操作来生成与当前帧BEV空间特征图对齐的特征。最后,将对齐的特征合并到一起来实现融合时序的上下文特征信息。

LAR-SS2D Hybrid BEV Encoder(LAR-SS2D混合BEV编码器)

在BEV空间特征的提取方面,我们首先设计了基于Mamba网络模型的架构,该架构由三个块组成,其中每个块包含两个SS2D组。考虑到 SSM层对序列中token的顺序很敏感,我们进一步探索局部自适应伪重排序机制来优化上下文信息的嵌入。然后使用LAR组替换每个块中的一个SS2D组。

具体而言,给定输入的序列,如果我们定义的索引函数代表重新排序的规则,然后重新排序的序列可以用如下的形式进行表达:

对于严格的重排机制,是从的双映射,表示原来位于位置的元素的新位置。考虑到BEV特征的局部相关性,我们对上述重排序过程做了如下三点修改,并提出了伪重排序机制,具体细节如下所示。

首先,我们将排序函数设置为一个可学习的模型,该模型以作为输入。即排序结果由模型参数和输入的特征共同决定

其次,考虑到直接从输入数据生成全局重排序结果是比较困难的,我们改为引入映射锚点,其中的生成由锚定。具体来说,锚点用于学习相对位置偏移,然后用于构建置换函数。置换函数可以表示为如下的形式:其中,代表的原始位置,代表用于学习相对位置的偏移

然后,我们将的映射从双射放宽到单射,从而允许重新排序后的序列中不同位置的元素源自原始序列中的相同元素

通过上述的修改,我们建立了一个灵活的局部伪重排序机制。此外,所提出的重排序过程可以通过可变形卷积算子高效实现,从而确保较高的计算效率并保持较快的处理速度。

除了上面描述的一对一映射之外,我们还提出了多对一映射过程。这种方法聚合了原始序列中多个位置的特征,并将它们映射到新序列中的单个位置。为了整合来自多个位置的特征,我们采用注意力机制来自适应地融合这些特征,从而使模型能够专注于最相关的信息。为了更好地捕捉位置关系,我们在LAR和SS2D组中引入了位置嵌入。

Occupancy预测头(Occupancy Prediction Head)

我们采用了FlashOcc算法当中的实现思路,我们同样使用了channel-to-height操作从生成的BEV特征图的通道维度当中恢复出高度信息。这个过程允许我们在整个网络的最后来获得3D占用的特征表达。随后,我们使用线性层来预测3D空间中每个位置的类别,从而提供整个3D空间中详细完整的占用预测信息。

实验结果&评价指标与其它SOTA算法的对比试验

为了验证我们提出的MambaOcc算法模型的有效性,我们在Occ3D-nuScenes数据集上进行了相关实验,相关的实验结果如下表所示。

不同算法模型在Occ3D-nuScenes数据集上的结果汇总

通过实验结果可以看出,与最先进的方法相比,我们提出的MambaOcc算法模型在计算效率和参数数量方面具有更加显著的优势。与以Swin-Transformer为主干网络的FlashOcc算法模型相比,MambaOcc取得了更好的性能,同时减少了42%的参数和39%的计算成本。此外,MambaOcc-Large比FlashOcc高出了0.77的mIoU,减少了14%的参数和32%的计算成本。与以ResNet-101为主干网络的PanoOcc算法相比,MambaOcc的性能高出1.23 mIoU,同时减少了19%的参数。这些结果均表明,与基于CNN和Transformer的方法相比,所提出的Mamba框架在参数量、计算效率和感知能力方面具有显著优势。

此外,为了更加直观的展示我们提出的MambaOcc算法模型的有效性,下图可视化了MambaOcc算法模型占用预测的结果。如图所示,MambaOcc可以为人类和车辆等典型物体提供精确的感知结果,同时还能有效检测电线杆、交通灯和路锥等结构不规则的物体。

MambaOcc算法模型的占用预测结果可视化

此外,为了直观的展示我们提出的MambaOcc和FlashOcc预测占用的效果对比,我们也对两个模型的结果进行了可视化,如下图所示。

MambaOcc与FlashOcc结果可视化对比

通过可视化两个模型的预测结果对比可以看出,MambaOcc算法模型在长距离平面感知方面的卓越性能,能够提供更全面的地面预测,而FlashOcc算法模型通常会将这些区域预测为空。

消融对比实验

为了清楚地展示提出的MambaOcc算法模型中每个组件的贡献,我们在下表中展示了我们进行的消融研究结果,以强调每个模块的有效性。

通过汇总的消融实验结果可以看出,用Mamba网络结构替换CNN网络架构,可使mIoU显著增加3.96,凸显了Mamba网络架构的有效性。此外,我们提出的LAR-SS2D BEV编码器模块比基于CNN的编码器额外增加了1.12的mIoU。此外,通过结合位置编码,可以进一步提高模型的预测性能。

此外,我们也进行了相关实验来验证不同的图像主干网络初始化方法对于网络模型占用预测的影响效果,相关的实验结果如下表所示。

通过实验结果可以明显的看出,良好的参数初始化方法会显著影响性能。使用ImageNet分类预训练初始化占用预测网络与随机初始化相比,对于Mamba和卷积网络,效果明显更好。例如与使用随机值初始化的相比,使用ImageNet预训练的VM-Backbone的MambaOcc在mIoU方面的性能高出10.01。

我们也对不同的BEV编码器对于占用预测任务的影响进行了相关的实验,实验结果汇总在下表所示。

如上表所示,BEV编码器的结构显著影响了占用预测性能。纯SS2D优于纯CNN,mIoU指标提高了0.56。混合CNN-SS2D网络架构的性能优于纯CNN和纯SS2D的网络架构,mIoU分别提高了0.77和0.21。所提出的LAR-SS2D混合架构取得了最佳效果,比CNN-SS2D混合架构高出0.48 mIoU。

除此之外,我们比较了LAR层中不同映射方法的效果。对于多对一映射,我们使用不同的条目数3×3和5×5进行了实验,其中原始序列中多个位置的信息在映射到新序列中的相同位置之前进行加权和融合。相关的实验结果汇总在下表中。

通过表格结果可以看出,多对一映射方法优于一对一方法。具体而言,与一对一方法相比,5×5和3×3配置分别将性能提高了0.07和0.32 mIoU,表明多对一映射可以成为提高性能的有效策略。

为了更全面地了解映射模式,我们对每个LAR层应用了四种不同的映射模式,并在分组特征通道中执行这些模式。相关的结果分别可视化在下图。

Group0 & 1的可视化结果

Group 2 & 3的可视化结果

我们观察到,不同群体之间的映射模式存在显著差异,这表明这种多样性可能有助于模型在元素之间建立更全面的联系。

结论

在本文中,我们提出了首个基于Mamba的占用预测网络模型,我们命名为MambaOcc。与基于Transformer网络模型的方法相比,MambaOcc超越了基于CNN的方法,并且实现了更好的检测效率。




#ThinkGrasp

波士顿动力最新!通过GPT-4o完成杂乱环境中的抓取工作

在杂乱的环境中,由于遮挡和复杂的物体排列,机器人抓取仍然是一个重大的挑战。ThinkGrasp是一个即插即用的视觉语言抓取系统,它利用GPT-4o的高级上下文推理能力,为杂乱环境制定抓取策略。ThinkGrasp能够有效地识别和生成目标物体的抓取姿态,即使它们被严重遮挡或几乎看不见,也能通过使用目标导向的语言来指导移除遮挡物。这种方法逐步揭露目标物体,并最终在几步内以高成功率抓取它。在模拟和真实实验中,ThinkGrasp均取得了高成功率,并在杂乱环境或各种未见过的物体中显著优于最先进的方法,展示了强大的泛化能力。

行业背景介绍

近年来,机器人抓取领域取得了显著进展,深度学习和视觉语言模型推动了更加智能和适应性强的抓取系统的发展。然而,在高度杂乱的环境中,机器人抓取仍然是一个重大挑战,因为目标物体经常被严重遮挡或完全隐藏。即使是最先进的方法也难以在这种场景下准确识别和抓取物体。

为了应对这一挑战,这里提出了ThinkGrasp,它将大规模预训练的视觉语言模型的强大功能与遮挡处理系统相结合。ThinkGrasp利用像GPT-4o这样的模型的先进推理能力,来获得对环境和物体属性(如锐利度和材料组成)的视觉理解。通过基于结构化提示的思维链整合这些知识,ThinkGrasp可以显著提高成功率,并通过战略性地消除遮挡物来确保抓取姿态的安全性。例如,它优先处理较大且位于中央的物体,以最大化可见性和可接近性,并专注于抓取最安全、最有利的部分,如手柄或平面。与依赖RoboRefIt数据集进行机器人感知和推理的VL-Grasp不同,ThinkGrasp受益于GPT-4o的推理和泛化能力。这使得ThinkGrasp能够直观地选择正确的物体,并在复杂环境中实现更高的性能,正如对比实验所示。

主要贡献如下:

• 开发了一个即插即用的遮挡处理系统,该系统高效地利用视觉和语言信息来辅助机器人抓取。为了提高可靠性,利用LangSAM和VLPart实现了一个健壮的错误处理框架用于分割。GPT-4o提供目标物体的名称,LangSAM和VLPart负责图像分割。这种任务分工确保了语言模型中的任何错误都不会影响分割过程,从而在多样化和杂乱的环境中实现更高的成功率和更安全的抓取姿态。

• 在模拟环境中,通过对具有挑战性的RefCOCO数据集进行了广泛的实验,展示了最先进的性能。ThinkGrasp在杂乱场景中的成功率达到98.0%,并且所需步骤更少,优于先前的方法,如OVGNet(43.8%)和VLG(75.3%)。尽管存在未见过的物体和严重的遮挡情况,目标物体几乎不可见或完全不可见,但ThinkGrasp仍然保持了78.9%的高成功率,展现了其强大的泛化能力。在现实世界中,系统也实现了高成功率,并且所需步骤较少。

• 系统的模块化设计使其能够轻松集成到各种机器人平台和抓取系统中。它与6自由度两指夹爪兼容,展示了强大的泛化能力。通过简单的提示,它能够快速适应新的语言目标和新型物体,使其具有高度灵活性和可扩展性。

相关工作介绍

杂乱环境中的机器人抓取:由于遮挡的复杂性和物体的多样性,杂乱环境中的机器人抓取仍然是一个重大挑战。传统方法严重依赖于手工特征和启发式算法,在多样化、非结构化环境中的泛化能力和鲁棒性方面存在困难。使用卷积神经网络(CNNs)和强化学习(RL)的深度学习方法在抓取规划和执行方面表现出改进。然而,这些方法通常需要收集和标记大量数据,这使得它们在各种情况下的实用性降低。最近的方法,如NG-Net和Sim-Grasp,在杂乱环境中取得了进展。然而,这些方法在处理具有多样物体的严重杂乱情况时仍然存在局限性。

用于机器人抓取的预训练模型:视觉语言模型(VLMs)和大型语言模型(LLMs)通过整合视觉和语言信息,在增强机器人抓取方面展现出了潜力。如CLIP和CLIPort等模型提高了任务性能,VL-Grasp为杂乱场景开发了交互式抓取策略。此外,像ManipVQA、RoboScript、CoPa和OVAL-Prompt这样的模型使用视觉语言模型和上下文信息来提高抓取任务的性能。Voxposer和GraspGPT展示了LLMs如何生成与任务相关的动作和抓取策略。尽管有这些进展,但它们并没有考虑到严重的遮挡情况,从而导致其有效性受到限制。

ThinkGrasp方法介绍

在严重杂乱的环境中,机器人抓取面临着由于遮挡和多个物体的存在而带来的重大挑战。主要问题在于:为自然语言指令指定的目标物体设计合适的抓取姿态。

一个显著的挑战是遮挡,即物体常常被其他物品部分或完全遮挡,这使得机器人难以识别和抓取目标物体。另一个问题是自然语言指令的模糊性。这些指令可能含糊不清,需要机器人准确解读用户的意图,并在众多可能性中识别出正确的物体。此外,环境的动态性意味着抓取策略必须随着物体位置和方向的变化实时调整。确保安全性和稳定性至关重要,因为抓取姿态不仅要可行,而且要稳固,以避免损坏物体或机器人。效率也至关重要,因为减少实现成功抓取所需步骤的数量可以使过程更快、更有效。

为了克服这些挑战,我们需要一个系统,该系统能够准确理解环境、解释自然语言命令、即使目标物体部分遮挡也能定位、根据当前环境调整其抓取方式、确保安全稳定的抓取,并高效运行以用最少的努力完成任务。

提出的方法通过一个迭代流程(图1)解决了杂乱环境中抓取的战略部分。给定一个初始的RGB-D场景观测O0(模拟中为224×224,真实机器人为640×480)和一个自然语言指令g。

首先,系统利用GPT-4o执行我们称之为“想象分割”的过程。在这个过程中,GPT-4o将视觉场景和自然语言指令g作为输入。GPT-4o将生成视觉理解和分割假设,识别出与给定指令最匹配的潜在目标物体或部分。对于每个识别的物体,GPT-4o通过想象最优分割并在3×3网格内提出具体的抓取点,来建议最合适的抓取位置。

GPT-4o利用目标语言条件来识别当前场景中的潜在物体。然后,它确定哪个物体在移动后最有可能揭示目标物体,或者如果目标物体已经可见,则直接选择目标物体作为目标。它根据视觉输入和语言指令来想象分割后的物体,利用3×3网格方法,专注于对抓取来说最安全、最有利的物体部分。3×3网格策略将包含提议的目标物体或部分的裁剪框划分为3×3网格,并建议一个1到9之间的数字,指示最优抓取区域(1代表左上角,9代表右下角)。这种策略特别适用于低分辨率图像,它侧重于选择最优区域而不是精确的点,同时也考虑了机械臂和夹爪成功抓取的约束条件。

接下来,系统根据GPT-4o识别的是物体还是物体部分,使用LangSAM 或VLPart 进行分割,并裁剪包含这些物体的点云。GPT-4o将在每次抓取后根据新的视觉输入调整其选择,更新其“想象分割”以及对目标物体和首选抓取位置的预测,使用裁剪后的点云。

为了确定最优抓取姿态,系统基于裁剪后的点云生成一组候选抓取姿态A。为了验证我们的系统,我们在实验中保持变量一致。使用不同的抓取生成网络进行模拟和真实机器人测试。具体来说,我们在所有模拟比较中使用Graspnet-1Billion ,而在真实机器人比较中使用FGC-Graspnet 。这种方法确保了我们的结果是可靠的,并且观察到的任何差异都归因于抓取系统本身,而不是抓取生成网络的不一致性。候选抓取姿态A根据其接近GPT-4o建议的首选位置的程度以及各自抓取生成模块的抓取质量评分进行评估。系统对选定的目标执行最优姿态。

这个闭环过程展示了系统的适应性,它根据每次抓取尝试后的更新场景观测生成下一个抓取策略。该流程根据需要调整其抓取策略,直到任务成功完成或达到最大迭代次数。它有效地管理了严重杂乱环境带来的挑战。

1)GPT-4o在目标物体选择中的角色与约束求解器

我们的抓取系统利用GPT-4o这一最先进的视觉语言模型(VLM),无缝集成视觉和语言信息。GPT-4o在上下文推理和知识表示方面表现出色,使其特别适用于杂乱环境中的复杂抓取任务。

目标物体选择:GPT-4o在识别与给定指令最匹配的物体方面表现出色,有效地关注相关区域并避免无关选择,即使在没有深度信息的情况下也是如此。这确保了系统不会尝试抓取不太可能隐藏目标物体的物体。例如,在图2中,左上角的小包裹被正确地忽略,因为它下面很可能没有任何隐藏物。

在目标物体选择过程中,GPT-4o使用语言指令g和场景上下文来选择最相关的物体。它考虑诸如物体与指令的相关性、抓取的难易程度以及潜在的障碍物等因素。这种有针对性的方法通过优先考虑最有可能导致任务成功完成的物体,确保了抓取的高效性和有效性。

该过程可以表述为:

51c自动驾驶~合集23_自动驾驶

其中,是选定目标物体的颜色和名称,g是语言指令,是场景的颜色观测值,表示选择函数,该函数评估在指令和场景背景下每个物体o的适用性。

处理遮挡和杂乱:GPT-4o策略性地识别和选择物体,即使在物体被严重遮挡或部分可见时也能确保准确抓取。系统智能地移除遮挡物以提高可见性和抓取准确性。

2)3×3网格策略用于最优抓取部分选择

3×3网格策略通过从选择精确点转变为在3×3网格内选择最优区域,增强了系统处理低分辨率图像(224×224)的能力。这种转变利用了更广泛的上下文信息,即使像素密度较低,也使抓取选择过程更加健壮和可靠。网格将目标物体(由分割算法得分最高的输出得出的边界框表示)划分为九个单元格。每个单元格都根据安全性、稳定性和可访问性进行评估。GPT-4o根据其对物体的想象分割,在此网格内输出一个优选的抓取位置,指导后续的分割和姿态生成步骤。

与依赖单一最佳抓取姿态选择的传统方法不同,我们的系统首先根据它们与优选位置的接近程度评估多个潜在的抓取姿态(前k名)。然后,从这些顶级候选者中,选择得分最高的姿态。这种方法与3×3网格策略相结合,以确定最优抓取区域,确保了所选抓取姿态既是最优的又是稳定的,从而显著提高了整体性能和成功率。

3)目标物体分割与裁剪区域生成

分割与裁剪:在我们的系统中,当GPT-4o识别出一个物体时,使用LangSAM框架来生成精确的分割掩码和边界框,这对于分割低分辨率图像特别有效。当GPT-4o识别出物体的特定部分(如手柄)时,利用VLPart进行详细的部件分割。如果VLPart无法准确分割该部件,会退回到LangSAM与3×3网格策略相结合,以确保我们的方法仍然能够准确地考虑和处理物体部件。

抓取姿态生成:为了确定最优抓取姿态Pg,系统基于裁剪后的点云生成一组候选抓取姿态A。候选抓取姿态A根据它们与GPT-4o建议的优选位置的接近程度以及各自抓取生成模块的抓取质量分数进行评估。经过评估后,得分最高的抓取姿态被选为最优抓取姿态。

鲁棒性和错误处理:尽管GPT-4o具有先进的功能,但偶尔也可能发生误识别。为了解决这个问题,采用迭代细化方法。如果抓取尝试失败,系统会捕获新图像,更新分割和抓取策略,并再次尝试。这种闭环过程确保了基于实时反馈的持续改进,从而显著提高了鲁棒性和可靠性。

消融实验(表1)表明,当我们将LangSAM与GPT-4o结合用于抓取点选择时,与单独使用GPT-4o相比,系统性能显著提高。通过将GPT-4o的上下文理解与LangSAM的精确分割和VLPart的详细部件识别相结合,我们的系统实现了更高的成功率和更高的效率。这种协同作用确保了更准确的抓取和更复杂场景的更佳处理。

4)抓取姿态生成与选择

候选抓取姿态生成:使用局部点云,系统生成一组候选抓取姿态:

51c自动驾驶~合集23_自动驾驶_02

抓取姿态评估:使用一种分析计算方法对每个抓取进行评分。基于来自GraspNet-1Billion的改进力封闭度量标准,通过逐渐将摩擦系数µ从1减小到0.1(直到抓取不再是对极的)来计算得分。摩擦系数µ越低,成功抓取的概率越高。我们的得分s定义为:

51c自动驾驶~合集23_自动驾驶_03

每个候选抓取姿态都根据其与优选抓取位置的对齐程度进行评估。通过最大化一个考虑每个姿态适用性的得分函数来选择最优抓取姿态:

51c自动驾驶~合集23_自动驾驶_04

5)针对重度杂乱环境的闭环鲁棒系统

我们的系统通过闭环控制机制增强了在重度杂乱环境中的鲁棒性,该机制在每次抓取尝试后都会不断更新场景理解,确保使用最新的信息。裁剪区域和抓取姿态会根据实时反馈进行动态调整,从而使系统能够专注于最相关的区域并选择最优抓取姿态。

如图2所示,图像序列展示了根据用户指令选择目标物体的过程。首先,用户给出目标物体“芒果”并输入命令“给我一个水果”。初始的彩色输入图像来自模拟。GPT-4o根据提示选择一个物体(例如绿色瓶子)和一个优选位置,并将其分割成3×3网格。这些信息将被传递给LangSAM进行分割。LangSAM将图像中所有绿色瓶子进行分割,并裁剪出包含所有绿色瓶子的点云。然后,它在裁剪后的点云中生成所有可能的抓取姿态。具有最高LangSAM分割得分的姿态被选为目标物体。目标点是GPT-4o提供的优选物体位置的中心。然后,系统评估距离目标点最近的前10个姿态,并选择得分最高的姿态,最后在绿色瓶子上执行该姿态。即使GPT-4o的初步选择与目标不匹配(例如选择瓶子而不是芒果),由于颜色特征的明显差异,LangSAM的分割和评分过程也会纠正错误并锁定在目标物体上。

实验对比分析

我们的系统设计用于在模拟和现实世界环境中都能有效工作,并针对每个环境的独特挑战和限制进行了量身定制的适应。

模拟环境使用PyBullet构建,包括一个UR5机械臂、一个ROBOTIQ-85夹爪和一个Intel RealSense L515相机。原始图像被调整为224×224像素,并通过LangSAM进行分割以获得精确的对象掩码。我们将解决方案与最先进的方法Vision-Language Grasping (VLG)和OVGrasp进行了比较,这些方法使用相同的GraspNet主干以确保公平比较。此外,还将我们的方法与直接使用GPT-4o选择目标抓取点而不进行额外处理或与其他模块集成的方法进行了比较。

我们的杂乱环境实验集中在各种任务上,如抓取圆形物体、取用餐具或饮料等物品,以及其他特定请求。每个测试用例包括15次运行,通过两个指标来衡量:任务成功率和动作次数。任务成功率是指在15次测试运行中,在15次动作尝试内成功完成任务的平均百分比。动作次数是指每完成任务一次所需的平均动作数。

结果。表1总结了结果,表明我们的系统在整体成功率和效率指标上显著优于基线方法。在杂乱环境中的平均成功率为0.980,平均步数为3.39,平均成功步数为3.32(如图3所示)。这些结果表明,我们的系统不仅在完成抓取任务方面表现出色,而且效率更高,成功完成任务所需的步数更少。

还评估了系统在重度杂乱场景中的性能,其中物体被部分或完全遮挡。这些场景(如图4所示)包含多达30个未见过的物体,并且每次运行允许最多50次动作尝试。表1中的结果表明,在这些具有挑战性的条件下,我们的系统显著优于基线方法,实现了最高的成功率2,并且成功抓取所需的步数最少。

消融研究。为了评估我们系统中不同组件的贡献,这里进行了消融研究。这些消融研究的结果如表1所示,研究突出了我们完整系统的有效性。一种配置标记为“无3×3”,它不会将对象分割为3×3网格来选择抓取点,而是使用对象边界框的中心。另一种配置“GPT裁剪”使用GPT-4o来确定点云的裁剪坐标,从而专注于与抓取相关的区域。“无GPT4o”配置则完全排除了GPT-4o的使用。这些实验表明,我们集成了所有组件的完整系统实现了优越的性能,证明了每个部分在提升整体有效性方面的重要性。

真实世界场景实验

我们将系统的功能扩展到现实世界环境中,以处理复杂多变的场景。设置包括一个具有6个自由度的UR5机械臂和一个Robotiq 85夹爪。使用RealSense D455相机捕获观测数据,提供用于点云构建的彩色和深度图像。使用MoveIt运动规划框架和RRT*算法确定抓取的目标姿态。ROS管理通信,运行在一台配备12GB 2080Ti GPU的工作站上。我们的ThinkGrasp模型部署在具有双3090 GPU的服务器上,使用Flask,通过GPT-4o API在10秒内提供抓取姿态预测。

在我们的现实世界实验中,将系统与VL-Grasp进行了比较,使用了相同的FGCGraspNet下游抓取模型,以确保对我们的战略部分抓取和重度杂乱处理机制引入的改进进行公平评估。

结果。我们的结果(表3)表明,即使在杂乱的环境中,系统在识别和抓取目标物体方面也具有较高的成功率。VLPart和GPT-4o的集成显著提高了系统的鲁棒性和准确性。然而,由于单幅图像数据的局限性、下游模型产生的低质量抓取姿态以及UR5机器人稳定性和控制的差异,也发生了一些失败情况。这些失败凸显了稳健的图像处理对于确保准确的场景解释、精确的抓取姿态生成以提高成功率以及稳定的机器人控制操作的重要性。解决这些因素对于进一步提升系统性能至关重要。附录(表A)中提供了更多技术细节和实验设置。




#OmniRe

仿真迎来终局?上交&英伟达提出OmniRe:性能直接拉爆StreetGS四个点!!!

自动驾驶仿真重建的终局???上交和英伟达等团队最新的工作OmniRe,性能直接拉爆了一众算法,PSNR超越StreetGS四个多点!!!可谓是3DGS的集大成者。具体来说,OmniRe将动态目标分为刚体和非刚体,车辆和行人/骑行人的步态重建的性能非常惊艳!背景是比较常见的background+sky。静态要素的重建效果也非常棒,像红绿灯,车道线等等。

写在前面&笔者的个人理解

本文介绍了OmniRe,这是一种高效重建高保真动态城市场景的整体方法。最近使用神经辐射场或高斯splatting对驾驶序列进行建模的方法已经证明了重建具有挑战性的动态场景的潜力,但往往忽视了行人和其他非车辆动态参与者,阻碍了动态城市场景重建的完整流程。为此,我们提出了一种用于驾驶场景的全面3DGS框架,称为OmniRe,它允许对驾驶过程中的各种动态目标进行准确、完整的重建。OmniRe基于高斯表示构建动态神经场景图,并构建多个局部规范空间,对各种动态参与者进行建模,包括车辆、行人和骑行人等。这种能力是现有方法无法比拟的。OmniRe允许我们全面重建场景中存在的不同目标,随后能够实时模拟所有参与者参与的重建场景(~60 Hz)。对Waymo数据集的广泛评估表明,我们的方法在定量和定性上都大大优于先前最先进的方法。我们相信,我们的工作填补了推动重建的关键空白。

项目主页:https://ziyc.github.io/omnire/

文章简介

随着自动驾驶越来越多地采用端到端模型,对可扩展且无域差异的仿真环境的需求变得更加明显,这些环境可以在闭环仿真中评估这些系统。尽管使用艺术家生成资源的传统方法在规模、多样性和逼真度方面达到了极限,但数据驱动方法在生成数字孪生体方面的进展,通过从设备日志中重建仿真环境,提供了强有力的替代方案。确实,神经辐射场(NeRFs)和高斯点云(GS)已经成为重建具有高视觉和几何保真度的3D场景的强大工具。然而,准确且全面地重建动态驾驶场景仍然是一个重大挑战,特别是由于现实环境中多样化的参与者和运动类型的复杂性。

已经有若干工作尝试解决这一挑战。早期的方法通常忽略动态参与者,仅专注于重建场景的静态部分。后续的工作则旨在通过以下两种方式之一来重建动态场景:(i) 将场景建模为静态和时间依赖的神经场的组合,其中不同场景部分的分解是一种自发属性,或者(ii) 构建一个场景图,其中动态参与者和静态背景被表示为节点,并在其标准框架中重建和表示。场景图的节点通过编码相对变换参数的边连接,这些参数表示每个参与者随时间的运动。尽管前者是一种更通用的公式化方法,后者提供了更高的可编辑性,并且可以直接用经典行为模型进行控制。然而,场景图方法仍然主要关注可以表示为刚体的车辆,从而在很大程度上忽略了其他在驾驶仿真中至关重要的易受伤害的道路使用者(VRUs),如行人和骑自行车者。

为了填补这一关键空白,本文的工作旨在对所有动态参与者进行建模,包括车辆、行人和骑自行车者等。与在工作室中使用多视角系统建模目标不同,从室外场景中重建动态参与者极具挑战性。以人类为例,从部分观察中重建人类本身就是一个具有挑战性的问题,在驾驶场景中,由于传感器观察分布不利、环境复杂且频繁遮挡,这一问题变得更加复杂。事实上,即使是最先进的人体姿态预测模型,也常常难以预测出准确的姿态,特别是对于那些距离较远或被其他物体遮挡的行人(例如图3)。此外,还有其他动态参与者,如轮椅上的个人或推婴儿车的人,这些都无法简单地用参数化模型来进行建模。

为了应对这些相互强化的挑战,本文提出了一个能够处理多样化参与者的“全景”系统。本文的方法OmniRe高效地重建了包含静态背景、驾驶车辆和非刚性运动动态参与者的高保真动态驾驶场景(见图1)。具体来说,本文基于高斯点云表示构建了一个动态神经场景图,并为不同的动态参与者构建了专用的局部标准空间。遵循“因材施教”的原则,OmniRe利用了不同表示方法的集体优势:(i) 车辆被建模为静态高斯,通过刚体变换模拟其随时间的运动;(ii) 近距离行走的行人使用基于模板的SMPL模型进行拟合,通过线性混合蒙皮权重(linear blend skinning weights)实现关节级控制;(iii) 远距离和其他无模板的动态参与者则使用自监督变形场(deformation fields)进行重建。这种组合允许对场景中大多数感兴趣的目标进行准确表示和可控重建。更重要的是,本文的表示方法可以直接适用于自动驾驶仿真中常用的行为和动画模型(例如图1-(c))。总结来说,本文的主要贡献如下:

本文提出了OmniRe,这是一种动态驾驶场景重建的整体框架,在参与者覆盖和表示灵活性方面体现了“全景”原则。OmniRe利用基于高斯表示的动态神经场景图来统一重建静态背景、驾驶车辆和非刚性运动的动态参与者(第4节)。它能够实现高保真的场景重建,从新视角进行传感器仿真,以及实时可控的场景编辑。

本文解决了从驾驶日志中建模人类和其他动态参与者所面临的挑战,例如遮挡、复杂环境以及现有人体姿态预测模型的局限性。本文的研究结果基于自动驾驶场景,但可以推广到其他领域。

本文进行了大量实验和消融研究,以展示本文整体表示方法的优势。OmniRe在场景重建和新视点合成(NVS)方面达到了最先进的性能,在完整图像指标上显著超越了以往的方法(重建提高了1.88的PSNR,NVS提高了2.38的PSNR)。对于动态参与者,如车辆(提高了1.18的PSNR)和人类(重建提高了4.09的PSNR,NVS提高了3.06的PSNR),差异尤为显著。

相关工作回顾

动态场景重建。神经表征是主导的新视角合成。这些已经以不同的方式进行了扩展,以实现动态场景重建。基于变形的方法和最近的DeformableGS提出使用规范空间的3D神经表示来对动态场景进行建模,并结合将时间依赖观测值映射到规范变形的变形网络。这些通常仅限于运动受限的小场景,不足以应对具有挑战性的城市动态场景。基于调制的技术通过直接将图像时间戳(或潜码)作为神经表示的额外输入来操作。然而,这通常会导致公式构建不足,因此需要额外的监督,例如深度和光流(Video NeRF和NSFF),或从同步相机捕获的多视图输入(DyNeRF和Dynamic3DGS)。D2NeRF提出通过将场景划分为静态和动态场来扩展这一公式。在此之后,SUDS和EmerNeRF在动态自动驾驶场景中表现出了令人印象深刻的重建能力。然而,它们使用单个动态场对所有动态元素进行建模,而不是分别建模,因此它们缺乏可控性,限制了它们作为传感器模拟器的实用性。将场景显式分解为单独的代理可以单独控制它们。这些代理可以表示为场景图中的边界框,如神经场景图(NSG),该图在UniSim、MARS、NeuRAD、ML-NSG和最近的基于高斯的作品StreetGaussians、DrivingGaussians和HUGS中被广泛采用。然而,由于时间无关表示的限制或基于变形的技术的限制,这些方法仅处理刚性目标。为了解决这些问题,OmniRe提出了一种高斯场景图,该图结合了刚性和非刚性目标的各种高斯表示,为各种参与者提供了额外的灵活性和可控性。

人体重建。人体具有可变的外观和复杂的运动,需要专门的建模技术。NeuMan建议使用SMPL身体模型将射线点扭曲到规范空间。这种方法能够重建非刚性人体,并保证精细控制。同样,最近的研究,如GART、GauHuman和HumanGaussians,将高斯表示和SMPL模型相结合。然而,这些方法在野外并不直接适用。然而,这些方法仅关注形状和姿态估计,在外观建模方面存在局限性。相比之下,我们的方法不仅对人体外观进行建模,还将这种建模整合到一个整体的场景框架中,以实现全面的解决方案。城市场景通常涉及众多行人,观察稀少,通常伴随着严重的遮挡。

OmniRe方法详解

如图2所示,OmniRe构建了一个高斯场景图表示,它全面覆盖了静态背景和各种可移动实体。

Dynamic Gaussian Scene Graph Modeling

Gaussian Scene Graph:为了在不牺牲重建质量的情况下灵活控制场景中的各种可移动目标,本文选择高斯场景图表示。我们的场景图由以下节点组成:(1)一个表示远离自车的天空的天空节点,(2)一个代表建筑物、道路和植被等静态场景背景的背景节点,(3)一组刚性节点,每个节点代表一个可刚性移动的物体,如车辆,(4)一组模拟行人或骑行人的非刚性节点。类型为(2,3,4)的节点可以直接转换为世界空间高斯分布。这些高斯分布被连接起来,并使用[17]中提出的光栅化器进行渲染。天空节点由一个优化的环境纹理贴图表示,单独渲染,并与具有简单阿尔法混合的光栅化高斯图像组成。

Background Node:背景节点由一组静态高斯表示。这些高斯是通过累积激光雷达点和随机生成的额外点来初始化的。

Rigid Nodes:刚性目标由该目标的局部空间和车辆位姿表示。

51c自动驾驶~合集23_自动驾驶_05

Non-Rigid Nodes:与刚性车辆不同,行人和骑行人等非刚性动态类都与人类有关,需要额外考虑他们在世界空间中的全局运动和在局部空间中的连续变形,以准确重建他们的动态。为了能够完全解释底层几何结构的重建,我们将非刚性节点进一步细分为两类:用于步行或跑步行人的SMPL节点,具有支持关节水平控制的SMPL模板,以及用于分布外的非刚性实例(如骑自行车者和其他无模板的动态实体)的可变形节点。

Non-Rigid SMPL Nodes:SMPL提供了一种表示人体姿态和变形的参数化方法,因此我们使用模型参数来驱动节点内的3D高斯分布。

51c自动驾驶~合集23_自动驾驶_06

Non-Rigid Deformable Nodes:这些节点充当分布外非刚性实例的回退选项,例如,即使是最先进的SMPL预测器也无法提供准确估计的极其遥远的行人;或长尾模板较少的非刚性实例。因此,我们建议使用通用的变形网络来拟合节点内的非刚性运动。具体来说,对于节点h,世界空间高斯分布定义为:

51c自动驾驶~合集23_自动驾驶_07

Sky Node:同[6,47]一样,本文使用单独的环境地图来适应观察方向的天空颜色。我们得到的最终渲染结果如下:

51c自动驾驶~合集23_自动驾驶_08

Reconstructing In-the-Wild Humans

为了初始化非刚性SMPL节点的参数,我们扩展了一个现成的预测器4D Humans,该预测器根据原始视频输入估计人体姿势。然而它存在几个实际限制,阻碍了它在我们的环境中的可用性。我们通过以下模块讨论并解决这些挑战,以在频繁遮挡的情况下,从野外拍摄的多视图图像中预测准确且时间一致的人体姿势。

Human ID Matching:4D Humans仅设计用于处理单目视频。在我们的环视设置中,这种限制导致同一个人在不同视图之间失去联系(图3(a))。为了解决这个问题,我们使用检测和GT框之间的mIoU将检测到的人的估计姿态与数据集中的GT ID进行匹配,确保在环视中一致地识别出每个行人。

Missing Pose Completion:4D Humans很难预测被占用个体的SMPL姿势,这在自动驾驶场景中很常见,导致预测缺失。我们通过从相邻帧中插值姿势来恢复丢失的姿势。如图3(b)所示,该过程能够为被占用的个体恢复准确的姿势,从而实现暂时完整的姿势序列。

Scene-Pose Alignment:作为一个与相机无关的通用模型,4D Humans假设一个虚拟相机的所有视频输入参数都是固定的。相比之下,真实的相机具有不同的参数。这会导致预测姿势的比例和位置与现实世界坐标系之间的错位。我们使用每个人可用的box大小和位置数据来校正预测姿势的比例和位置。

Pose Refinement:姿态预测器、插值和对齐估计的误差会导致人体姿态噪声。我们利用这些嘈杂的姿态来初始化SMPL节点的动态,并在训练过程中通过优化重建损失来联合细化每个个体的每帧姿态。我们的消融研究表明,人体姿态细化对于提高重建质量和姿态精度至关重要。

整体的训练损失如下:

51c自动驾驶~合集23_自动驾驶_09

实验结果

我们使用每10帧作为NVS的测试集,在场景重建和新视图合成(NVS)任务中评估我们的方法。我们报告了完整图像以及与人类和车辆相关区域的PSNR和SSIM评分,以评估动态重建能力。表1中的定量结果表明,OmniRe优于所有其他方法,在与人类相关的区域有显著的优势,验证了我们对动态参与者的整体建模。此外,虽然StreetGS和我们的方法以类似的方式对车辆进行建模,但我们观察到,即使在车辆区域,OmniRe也略优于StreetGS。这是由于StreetGS中缺乏人体建模,这使得来自人体区域的监控信号(如颜色、激光雷达深度)会错误地影响车辆建模。StreetGS面临的问题是我们对场景中几乎所有内容进行整体建模的动机之一,旨在消除错误的监督和意外的梯度传播。

此外,我们在图4中显示了可视化,以定性评估模型性能。尽管PVG在场景重建任务中表现良好,但在高度动态的场景中,它难以完成新颖的视图合成任务,导致新颖视图中的动态目标模糊(图4-f)。HUGS(图4-e)、StreetGS(图4-d)和3DGS(图10-h)无法恢复行人,因为它们无法对非刚性物体进行建模。DeformableGS(图10-g)在具有快速运动的室外动态场景中会出现极端运动模糊,尽管在室内场景和小运动的情况下取得了合理的性能。EmerNeRF在一定程度上重建了移动的人类和车辆的粗略结构,但难以处理精细的细节(图4-c)。与所有这些方法相比,我们的方法忠真实地重建了场景中任何目标的精细细节,处理了遮挡、变形和极端运动。我们建议读者查看我们的项目页面,了解这些方法的视频比较。

几何形状。除了外观,我们还研究了OmniRe是否可以重建城市场景的精细几何。我们评估了训练帧和新帧上激光雷达深度重建的均方根误差RMSE和CD。附录中提供了评估程序的详细信息。表4报告了结果。我们的方法远远优于其他方法。图5显示了与其他方法相比,我们的方法实现的动态参与者的精确重建。

结论

我们的方法OmniRe使用高斯场景图进行全面的城市场景建模。它实现了快速、高质量的重建和渲染,为自动驾驶和机器人模拟带来了希望。我们还为复杂环境中的人体建模提供了解决方案。未来的工作包括自我监督学习、改进的场景表示和安全/隐私考虑。

更广泛的影响。我们的方法旨在解决自动驾驶模拟中的一个重要问题。这种方法有可能加强自动驾驶汽车的开发和测试,从而可能带来更安全、更高效的自动驾驶系统。以安全可控的方式进行模拟仍然是一个开放且具有挑战性的研究问题。

道德与隐私。我们的工作不包括收集或注释新数据。我们使用符合严格道德准则的成熟公共数据集。这些数据集确保敏感信息(包括可识别的人类特征)被模糊或匿名化,以保护个人隐私。我们致力于确保我们的方法以及未来的应用程序以负责任和道德的方式使用,以维护安全和隐私。

限制。OmniRe仍然存在一些局限性。首先,我们的方法没有明确地模拟光照效果,这可能会导致模拟过程中的视觉和谐问题,特别是在组合在不同光照条件下重建的元素时。应对这一不平凡的挑战需要我们在当前工作范围之外做出不懈的努力。对光效建模和增强模拟真实感的进一步研究对于实现更令人信服和和谐的结果仍然至关重要。其次,与其他每场景优化方法类似,当相机明显偏离训练轨迹时,OmniRe会产生不太令人满意的新视图。我们认为,整合数据驱动的先验,如图像或视频生成模型,是未来探索的一个有前景的方向。



#CoVLA

东京大学最新!用于自动驾驶的综合视觉-语言-动作数据集

原标题:CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

论文链接:https://arxiv.org/pdf/2408.10845

作者单位:Turing Inc. 东京大学 University of Tsukuba Keio Research Institute at SFC National Institute of Informatics

论文思路:

自动驾驶,特别是在复杂和意外场景中的导航,要求具备复杂的推理和规划能力。虽然多模态大语言模型(MLLMs)在这方面提供了一个有前途的途径,但其应用主要局限于理解复杂的环境上下文或生成高层次的驾驶指令,只有少数研究将其应用扩展到端到端路径规划。一个主要的研究瓶颈是缺乏包含视觉、语言和动作的大规模标注数据集。为了解决这个问题,本文提出了CoVLA(Comprehensive Vision-Language-Action)数据集,这是一个包含超过80小时真实驾驶视频的广泛数据集。该数据集利用了一种基于自动数据处理和描述(caption)生成流程的新颖且可扩展的方法,生成了与详细自然语言描述的驾驶环境和操作相匹配的精确驾驶轨迹。这种方法利用了车内传感器的原始数据,使其在规模和标注丰富性上超越了现有的数据集。使用CoVLA,本文研究了能够在各种驾驶场景中处理视觉、语言和动作的MLLMs的驾驶能力。本文的结果显示了本文的模型在生成连贯的语言和动作输出方面的强大能力,强调了视觉-语言-动作(VLA)模型在自动驾驶领域的潜力。通过提供一个全面的平台用于训练和评估VLA模型,该数据集为构建稳健、可解释和数据驱动的自动驾驶系统奠定了基础,助力于更安全和更可靠的自动驾驶车辆。

主要贡献:

本文介绍了CoVLA数据集,这是一个大规模数据集,提供了多种驾驶场景的轨迹目标,以及详细的逐帧情境描述。

本文提出了一种可扩展的方法,通过传感器融合准确估计轨迹,并自动生成关键驾驶信息的逐帧文本描述。

本文开发了CoVLA-Agent,这是一种基于CoVLA数据集的新型VLA模型,用于可解释的端到端自动驾驶。本文的模型展示了持续生成驾驶场景描述和预测轨迹的能力,为更可靠的自动驾驶铺平了道路。

论文设计:

自动驾驶技术面临的一个关键挑战在于应对多样且不可预测的驾驶环境的“长尾”问题[35, 63]。自动驾驶车辆不仅需要在常见场景中导航,还必须应对罕见和复杂的情况,这就需要广泛的世界知识和高级推理能力[20]。这要求对环境有深刻的理解,并且具备超越物体识别的推理能力,能够解释其行为并据此规划行动。视觉-语言-动作(VLA)模型通过无缝整合视觉感知、语言理解和动作规划,已成为实现这一目标的有前途的途径。近期在VLA领域的进展,特别是在机器人[4, 28, 40]和自动驾驶[45]方面,展示了其在实现更健壮和智能的驾驶系统方面的潜力。

然而,将VLA模型应用于自动驾驶的一个主要障碍是缺乏有效结合视觉数据、语言描述和驾驶动作的大规模数据集。现有的数据集在规模和全面标注方面往往不足,尤其是语言方面,通常需要繁重的人工工作。这限制了能够处理现实世界驾驶复杂性的健壮VLA模型的发展和评估。

本文介绍了CoVLA(Comprehensive Vision-Language-Action)数据集,这是一个旨在克服现有局限性的新型大规模数据集。CoVLA数据集利用可扩展的自动化标注和描述生成方法,创建了一个包含10,000个真实驾驶场景、总计超过80小时视频的丰富数据集。每个30秒的场景都包含精确的驾驶路径和详细的自然语言描述,这些描述来源于同步的前置相机录像和车内传感器数据。这个丰富的数据集允许对驾驶环境和代理行为进行更深入的理解。为了展示其在推进自动驾驶研究方面的有效性,本文开发了CoVLA-Agent,这是一种基于本文数据集进行训练的VLA模型,用于轨迹预测和交通场景描述生成。本文的研究结果表明,即使在需要复杂和高级判断的情况下,本文的VLA模型也能够做出一致且精确的预测。

本节深入介绍了CoVLA数据集,详细描述了其结构、内容以及用于创建这一宝贵自动驾驶研究资源的方法。本文重点介绍了其对多样化真实世界驾驶场景的覆盖、同步的多模态数据流(前置相机、车内信号及其他传感器)以及大规模标注数据:10,000个驾驶场景,总计超过80小时的视频,每个场景都包含精确的逐帧轨迹和描述标注。为了创建这个广泛的VLA数据集,本文开发了一种新颖且可扩展的方法,从原始数据中自动生成场景描述和真实轨迹。

图1. CoVLA框架概述。本文开发了CoVLA数据集,这是一个用于自动驾驶的综合数据集,包含独特的10,000个视频片段、描述驾驶场景的逐帧语言描述以及未来的轨迹动作。本文还展示了CoVLA-Agent,这是一种基于VLM的路径规划模型,能够预测车辆的未来轨迹,并提供其行为和推理的文本描述。

表1. 含有语言和动作数据的驾驶数据集比较。

图2. 数据集生成 pipeline 概述。本文自动标注视频帧和传感器信号以生成轨迹和其他标签。此外,本文对视频帧应用自动描述生成,以生成行为和推理的描述。

图3. CoVLA数据集的示例帧。显示了估计的轨迹(绿色线)和由描述生成模型生成的描述。关键对象以蓝色粗体文本突出显示,而描述中的错误以红色粗体文本显示。

图4. 车辆速度和转向角的数据分布。红色条表示采样前的分布,而黄色条显示采样后的分布。请注意,为了清晰展示,(b)中使用了对数刻度。

在本节中,本文介绍了基线模型CoVLA-Agent的开发和评估方法,该模型利用CoVLA数据集的丰富性来完成自动驾驶任务。本文详细描述了实验设置,包括数据集、模型配置、训练过程和评估指标,并对结果进行了分析。

架构:如图5所示,CoVLA-Agent是一个为自动驾驶设计的VLA模型。本文使用预训练的Llama-2(7B)[52]作为语言模型,并使用CLIP ViT-L(224×224像素)[43]作为视觉编码器。此外,本文的模型将自车速度作为输入,通过多层感知器(MLP)转换为嵌入向量。CLIP ViT-L提取的视觉特征与速度嵌入和文本嵌入拼接在一起,然后输入到Llama-2模型中。对于轨迹预测,使用特殊的 tokens 作为轨迹查询。这些轨迹查询的输出经过MLP层处理,生成10个(x, y, z)坐标的序列,表示车辆相对于当前位置的预测轨迹,覆盖三秒的时间范围。

训练:基于这种架构,本文在两个任务上训练CoVLA-Agent,分别是交通场景描述生成和轨迹预测。对于交通场景描述生成,本文使用交叉熵损失作为损失函数;对于轨迹预测,本文采用均方误差损失。最终,训练的目标是最小化一个组合损失函数,其中两个损失被等权重对待。

图5. CoVLA-Agent的架构。

实验结果:

图6. CoVLA-Agent在各种交通场景下的轨迹预测结果。红线表示在预测描述条件下的预测轨迹,蓝线表示在真实描述条件下的预测轨迹,绿线表示真实轨迹。

表2. 不同条件的定量比较。

表3. 平均ADE和FDE最大的前10个单词。这些单词对应的是从单帧中难以估计的运动。明确表示运动的单词以粗体显示。

总结:

本文介绍了CoVLA数据集,这是一个用于自动驾驶的VLA模型的新型数据集。通过利用可扩展的自动化方法,本文构建了一个大规模、全面的数据集,并丰富了详细的语言标注。基于这个稳健的数据集,本文开发了CoVLA-Agent,这是一种先进的VLA自动驾驶模型。评估结果强调了该模型在生成连贯的语言和动作输出方面的强大能力。这些发现突显了VLA多模态模型的变革潜力,并为未来的自动驾驶研究创新铺平了道路。




#端到端~离不开的仿真闭环

“端到端”(End-to-End)无疑是今年自动驾驶行业最热的关键词,无论是学术圈还是工业圈,这一概念都引起了广泛的关注和讨论。它指的是一种直接将输入数据映射到输出结果的计算模型,无需复杂的中间处理步骤。在自动驾驶领域,这意味着可以通过深度学习算法直接从原始传感器数据(如摄像头图像、雷达信号等)学习到驾驶决策和车辆控制命令,而不需要传统的、基于规则的多层次数据处理流程。下图展示了特斯拉自动驾驶从模块化到端到端深度学习的演进。

51c自动驾驶~合集23_自动驾驶_10

图片来源 How Tesla will transition from Modular to End-To-End Deep Learning

端到端的方法在自动驾驶技术中的应用,带来了几个显著的优势。首先,它简化了系统架构,减少了对复杂软件和硬件的需求,从而降低了成本。其次,通过直接从数据中学习,端到端模型能够捕捉到更多的细微模式和复杂关系,这在传统的基于规则的方法中很难实现。此外,这种方法还有助于提高系统的适应性和泛化能力,因为它能够从大量的实际驾驶场景中学习,而不是仅仅依赖于预先定义的规则。

端到端的本质应当是感知信息的无损传递。感知模块输出对环境的检测和识别信息,是对复杂驾驶场景采用人为定义的显式抽象。然而,对于一些边缘场景中,显式抽象很难准确和完整的表达场景中影响自动驾驶表现的所有因素。广义的端到端系统,作用便是存在一种全面的场景表征方法,将信息无损传递到规划控制模块。

为了更好的定义端到端自动驾驶的概念,需要加上明确的描述词,主要分为四个阶段/架构:感知“端到端”、决策规划模型化、模块化端到端、One Model/ 单一模型端到端。

端到端自动驾驶仿真的挑战

当前的量产算法普遍还是采用模块化的算法框架,在测试的时候无论是logsim还是worldsim,都可以针对模块或者模块之间的组合进行测试,仿真或者测试系统能够去构造显示的输入,接收显示的输出进行闭环控制以及结果评价。实车测试验证的成本高昂,针对经典的自动驾驶架构,行业已经有一套行之有效的方案进行模型上车前的测试验证,即感知算法使用回灌数据进行离线开环测试,规控算法基于模拟器进行闭环测试验证。

对于感知“端到端”、决策规划模型化,传统的测试方法依然有效,显示的输出能够被定义和构造。但对于模块化端到端、One Model/ 单一模型端到端,隐示的表达可以被捕捉,但无法评测,也无法构造,这就造成传统方法的失效。在基于数据回灌的开环测试条件下,端到端系统无法与环境交互,系统一旦出现偏离采集路径的操作,后续系统的响应将无法评估。

51c自动驾驶~合集23_自动驾驶_11

图片来源Building the Next-Generation of Autonomous Vehicles in Simulation

当然这里的传统测试方法主要指的是SIL,对于HIL而言,现在主流的测试已经是信号级传感器的注入,对完整的功能进行测试验证,端到端的改变并没有很大影响。此外,目前模块化端到端、One Model/ 单一模型端到端还处在一个研发阶段,实际上车还需要很长一段时间。所以本文所讨论的内容,既有落地的方案,也有处在预研阶段的路线。

端到端仿真的技术路线

端到端仿真需要更加真实的传感器输入,尤其是视觉传感器,这是行业的共识。实现高保真模拟的技术路线包括基于光线追踪的游戏引擎、基于三维重建的仿真器以及基于世界模型的仿真器。

基于游戏引擎的仿真器

全球最大最顶尖的端到端算法比赛,即CVPR 2024 Autonomous Grand Challenge,是采用CARLA测试,同时也有基于CARLA的算法比赛项目。CARLA基于Epic Games的虚幻引擎4构建,这意味着它可以生成高保真的3D环境,提供视觉上的真实性,这对于测试车辆感知系统尤其重要。也就是说从技术角度,Carla 这一类基于物理引擎架构的仿真平台在一定程度上可以完成自动驾驶感知端到端模型的训练和测试。

基于三维重建的仿真器

近年来,自动驾驶技术的迅猛发展不断推动着相关领域的技术革新。自ECCV 2020会议上NeRF(神经辐射场)技术的首次亮相,我们见证了三维重建技术跨入了一个全新的发展阶段。NeRF通过先进的深度学习算法,能够从稀疏的二维图像中重建出连续的三维场景,这一突破为自动驾驶领域提供了前所未有的感知能力。

紧接着,SIGGRAPH 2023会议上提出的3DGS(3D高斯泼溅)技术,进一步加速了三维重建技术的发展。3DGS通过更高效的数据处理和更精细的模型构建,使得三维模型的生成更加迅速和准确,为自动驾驶系统提供了更为丰富和细致的环境理解。

清华AIR提出的首个开源自动驾驶NeRF仿真工具MARS,Waabi和多伦多大学在CVPR 2023上的工作汇报中介绍了UniSim,浙大&理想在ECCV 2024上Street Gaussians,一种新的显式场景表示。此外还有GaussianPro、LidaRF等相继被提出。

尽管三维重建的热点不断,但从实际表现来看,局限性比较多,重建效果非常依赖数据,而且当视角与原车视角变换大时,效果不可控。此外,动态场景的添加、场景与车辆的交互、光影的变换,也存在一些实现难点。

基于世界模型的仿真器

2023年2月16日凌晨,OpenAI 发布了视频大模型 Sora,能够根据用户提供的文本描述生成长达 60 秒的视频,视频精准反映提示词内容,复杂且逼真,效果惊艳。广义上,Sora 也属于世界模型的范畴。世界模型也是对物理世界“常识”的理解 。

世界模型可以有效赋能智驾。在自动驾驶领域, 能够准确预测驾驶场景未来的演变至关重要,通过对场景 即将发生的事件进行 预判,汽车可以自如地进行规划和控制做出更明智的决策 。

51c自动驾驶~合集23_自动驾驶_12

图片来源World Models for Autonomous Driving: An Initial Survey

采用自回归的模型,将数据压缩和提炼,在潜在空间通过无监督的训练构建模型对未来进行预测,之后通过不同的解码器将预测好的信息解码成为需要的表达方式进而构建世界模型。在自动驾驶领域, 世界模型可以用来生成场景,也可以直接用来做决策规划。具体而言:

  1. 可以生成诸多逼真的场景 ,生成稀缺、难以采集的场景, 为模型训练提供足量的数据;
  2. 同样生成的场景亦可以作为仿真测试工具 对算法进行闭环验证;
  3. 多模态的世界模型亦可以直接生成 驾驶策略来指导自动驾驶行为。

OASIS SIM V3.0如何赋能

端到端仿真

OASIS SIM 3.0是基于游戏引擎的仿真器,也就是技术路线中的第一个。对于端到端的仿真,OASIS SIM能够提供高保真场景模拟与传感器以及高质量、规模化的测试用例场景搭建,提升仿真的置信度以及测试覆盖度。

高保真传感器模型

OASIS SIM V3.0通过精确的物理模型,实现了传感器仿真的高精度模拟,能够实现传感器采集层、模型层、协议层的全流程仿真。摄像头可模拟长焦、广角、鱼眼、双目等各种镜头类型,仿真畸变、运动模糊、晕光、过曝、脏污、噪声等特性。激光雷达模型通过对扫描特性、传播特性进行物理建模,实现运动畸变、 噪声、强度的模拟,可以仿真不同型号的激光雷达,并生成接近真实雷达的点云数据。

51c自动驾驶~合集23_自动驾驶_13

51c自动驾驶~合集23_自动驾驶_14

摄像头仿真

51c自动驾驶~合集23_自动驾驶_15

激光雷达仿真

OASIS SIM将在新版本中使用UE5,使用更加精细的素材以及全新的光照和天气系统,丰富细节,提升真实度。

交通流仿真模型

OASIS SIM V3.0交通流能够在仿真环境中自定义交通流,重现真实世界的交通情景,帮助测试和优化自动驾驶算法。交通流场景控制功能支持基于规则的控制模型以及基于AI的控制模型。基于规则的控制模型能够自动识别并适配不同道路拓扑结构,可以根据周车的交互行为做出相应的驾驶行为,如车辆跟驰、换道、车道侵入、超车、避障、遵守交通规则等,无需预先定义原子场景。

51c自动驾驶~合集23_自动驾驶_16

大规模城镇场景程序化建模

OASIS SIM 3.0支持直接导入OpenDrive文件,并自动识别和解析道路网络等关键信息自动化生成三维场景,无需复杂的建模和人工编辑,提高了场景构建的速度和效率。在后续的版本中,会逐渐丰富场景的个性化参数,包括场景的风格、植被的密度、建筑的密度,并添加围栏、路灯、街道障碍物等。虽然建筑等并不是自动驾驶感知的感兴趣区域,但会影响光影效果,进而影响感知结果。

51c自动驾驶~合集23_自动驾驶_17

OASIS SIM V3.0三维场景生成

基于3DGS的融合策略

3D高斯泼溅(3DGS)技术的突破彻底改变了场景建模和渲染。利用显式3D高斯体的强大功能,3DGS在新视图合成和实时渲染方面取得了最佳效果,同时相比传统的表示方法(如网格或体素)显著降低了参数复杂性。这项技术无缝集成了基于点的渲染和splatting的原理,通过基于splatting的栅格化促进了快速渲染和可微分计算。

基于原始的 3DGS 算法,对自动驾驶场景进行进一步的动静态元素建模,对场景背景信息和交通参与者同时进行还原。

在此基础上, OASIS SIM V3.0 实现了 3DGS 场景和存量建模场景的渲染融合表达,支持对融合场景进行深度编辑,例如添加/移动车辆,改变天气光照等。

下图为真实数据展示

51c自动驾驶~合集23_自动驾驶_18

下图为OASIS重建场景演示,并且进行了车辆添加和天气改变

51c自动驾驶~合集23_自动驾驶_19

测试之外

合成数据

自动驾驶进入深水区,端到端逐步成为未来方向,世界模型重要性凸显。一方面随着自动驾驶走入深水区,玩家对数据的要求日益提升,厂家希望数据能够模拟复杂交通流、具有丰富的场景、广泛收集各类长尾场景、并且具备 3D标注信息。而现实状态下,数据的采集成本居高不下,部分危险的场景如车祸等难以采集,长尾场景稀缺,同时3D标注的成本高昂,因此采用合成数据来助力自动驾驶模型训练测试成为颇具前景的发展方向 ,而世界模型恰为良好的场景生成和预测器 。

另一方面, 随着端到端自动驾驶成为未来的发展方向, 开发者需要依靠数据将驾驶知识赋予模型,数据需求会伴随模型体量的增加而扩大。此外更重要的影响在于,在仿真和验证环节,传统的模块化算法时代可以对感知和规控模块分别进行验证,感知端可以进行开环的检测(即将感知的结果和带有标注的真实世界状况直接对比即可,不需要反馈和迭代),规控环节可以依靠仿真工具,将世界的状况(各类场景)输入,通过环境的变化来给予模型反馈,进而闭环的(外部环境可以根据 智能体的输出变化而改变, 形成反馈 )验证规控算法的性能。

这其中,感知环节更注重仿真环境的逼真性,而规控环节更注重逻辑的丰富度。在端到端时代,感知和规控合二为一,这要求仿真工具既可以逼真地还原外部环境,同时能够给予模型反馈实现闭环测试,尽管 NeRF、3DGS等等算法层出不穷,但能够很好的做到自动驾驶全过程完整的闭环测试亦难度较高,而世界模型则能够很好的应对类似的场景 。

深度强化学习

在强化学习中,智能体学习如何在环境中做出决策和行动,以最大化累积奖励信号。在自主智能体的背景下,强化学习为这些智能体提供了一种通过试错学习来学习如何在没有明确编程的情况下执行任务和做出决策的方法。智能体是强化学习框架中的学习者。它与环境相互作用,并采取行动实现某些目标。环境是代理与之交互的外部系统。

深度Q学习(Deep Q-Network,DQN)是一种改进的Q学习算法,它使用神经网络来估计Q值。DQN的主要优势是它可以处理大规模的状态空间,从而能够应用于复杂的环境中。

展望

对于端到端模型的开发,仿真测试相比道路测试具有更大的优势:闭环。通过基于大模型实现的世界模型,我们可以建立可闭环、逼近物理级交互的世界仿真器。同时,借助于强化学习,来实现人类驾驶经验、交通法规的信息注入,引导模型更好迭代。

另外,著名 AI 科学家李飞飞近期的创业方向-空间智能说到

多年来我一直强调,拍照和真正地「看」并理解是两回事。今天,我想补充一点。仅仅看见是不够的。真正的「看」是为了行动和学习。当在三维空间和时间中采取行动时,我们将通过观察来学习如何做得更好。自然界通过「空间智能」创造了一个良性循环,将视觉和行动联系起来。

自动驾驶车辆作为智能体,也可以赋予空间智能的能力,由其所处的空间来决定下一步的动作,也许也是端到端仿真的技术方向。




#DriveGenVLM

挑战更复杂场景!首个基于VLM的自动驾驶世界模型

自动驾驶技术的进步需要越来越复杂的方法来理解和预测现实世界场景。视觉语言模型(VLMs)正作为具有显著潜力影响自动驾驶的革命性工具而崭露头角。本文提出了DriveGenVLM框架,用于生成驾驶视频并利用VLMs进行理解。为实现这一目标,采用了一种基于去噪扩散概率模型(DDPM)的视频生成框架,旨在预测现实世界中的视频序列。随后,利用一种称为“基于第一人称视频的高效上下文学习”(EILEV)的预训练模型,探索了生成的视频在VLMs中使用的充分性。该扩散模型使用Waymo开放数据集进行训练,并通过FVD评分进行评估,以确保生成视频的质量和真实性。EILEV为这些生成的视频提供了相应的叙述,这可能在自动驾驶领域带来益处。这些叙述可以增强对交通场景的理解,辅助导航,并提高规划能力。DriveGenVLM框架中将视频生成与VLMs相结合,标志着在利用先进AI模型解决自动驾驶复杂挑战方面迈出了重要一步。

当前领域背景概述

自动驾驶领域中将先进的预测模型集成到车辆系统或交通系统中,对于提高安全性和效率变得越来越关键。在众多的传感技术中,基于camera的视频预测脱颖而出,成为了一个核心组成部分,它提供了动态且丰富的现实世界数据源。通过采用前沿的扩散模型方法,本研究不仅促进了自动驾驶技术的发展,还为在提升车辆安全性和导航精度方面应用预测模型设立了新的基准。

目前,AI生成的内容是计算机视觉和人工智能领域的主要研究方向之一。由于内存和计算时间的限制,生成逼真且连贯的视频是一个具有挑战性的领域。在自动驾驶领域,从车辆前置camera预测视频尤为重要,这在自动驾驶和高级驾驶辅助系统(ADAS)的上下文中尤为关键,本文利用车辆周围camera的视频来预测未来的帧。

生成模型也已被应用于交通和自动驾驶领域,这些模型因其理解驾驶环境的能力而越来越受到认可。目前,视觉语言模型(VLMs)正被用于自动驾驶应用。为了提高VLMs的实用性并探索生成模型在VLMs中视频内容的应用,验证生成模型的预测以确认其在现实场景中的相关性和准确性至关重要。DriveGenVLM引入了上下文中的VLM作为一种方法,通过提供驾驶场景的文本描述来验证基于扩散的生成模型预测的视频。

扩散模型是一类深度生成模型,其特点主要包括两个阶段:(i)前向扩散阶段,其中初始数据通过在多个步骤中添加高斯噪声而逐渐被破坏;(ii)反向扩散阶段,其中生成模型旨在通过逐步学习反转扩散过程来从添加噪声的版本中重建原始数据,逐步进行。去噪扩散概率模型(DDPM)是一种常见的生成模型类型,旨在通过扩散过程学习和生成特定的目标概率分布。DDPM已被验证比传统的生成模型(如GANs和VAE)更为有效。

生成长视频需要大量的计算资源。一些工作通过基于自回归的模型克服了这一挑战。然而,自回归模型可能导致不现实的场景转换和长视频序列中的持续不一致性,因为这些模型缺乏从更长片段中同化模式的机会。为了克服这一点,MCVD 采用了一种训练方法,通过独立且随机地屏蔽所有先前或后续帧来为各种视频生成任务准备模型。同时,FDM 引入了一个基于扩散概率模型(DDPMs)的框架,该框架能够生成扩展的视频序列,并在不同设置下实现现实且连贯的场景完成。NUWAXL 介绍了一种“扩散之上的扩散”架构,旨在通过“粗到细”的方法生成扩展视频。

近年来,基于文本的大型语言模型(LLMs)的受欢迎程度急剧上升。此外,在自动驾驶领域还引入了各种生成式视觉语言模型(VLMs)。提出了RAGDriver ,以利用上下文学习来实现高性能、可解释的自动驾驶。我们利用EILEV 的上下文学习能力来生成驾驶场景的描述。在DriveGenVLM中,上下文VLMs使我们能够处理由扩散框架预测的视频,这些视频随后可以被其他基于视觉的模型识别,从而可能为自动驾驶中的决策算法做出贡献。据我们所知,DriveGenVLM是首个将视频生成模型和视觉语言模型(VLM)集成到自动驾驶领域的工作。

主要有那些创新点?

将条件去噪扩散概率模型应用于驾驶视频预测领域;

在Waymo开放数据集的不同camera角度下测试视频生成框架,以验证其在现实世界驾驶场景中的可行性。

利用上下文视觉语言模型生成预测视频的描述,并验证这些视频是否可应用于基于视觉语言模型的自动驾驶。

一些基础预备知识1)DDPM

去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)是一种在机器学习和计算机视觉领域备受关注的生成模型。DDPM通过一个前向过程将数据转换为噪声,以及一个后向过程从噪声中重建原始数据来工作。前向过程的目标是将任何数据转换为基本先验分布,而后续的目标则是开发转换核以撤销这种转换。为了生成新的数据点,首先从先验分布中抽取一个随机向量,然后通过反向马尔可夫链进行祖先采样。这种采样技术的关键在于训练反向马尔可夫链以准确复制前向马尔可夫链的时间反向进程。

51c自动驾驶~合集23_自动驾驶_20

对于条件扩展,其中建模的x依赖于观测值y。给定数据分布x0 ∼ q(x0),前向过程生成一系列随机变量x1, x2,..., xT。x0表示原始的无噪声数据,而x1则包含了少量的噪声。这个过程一直持续到xT,此时xT几乎与x0无关,并且类似于从单位高斯分布中抽取的随机样本。xt的分布仅依赖于xt−1,转移核是:

51c自动驾驶~合集23_自动驾驶_21

联合分布由等式2中的扩散过程和数据分布q(x0, y)定义。

51c自动驾驶~合集23_自动驾驶_22

将这些模型称为扩散概率模型(Diffusion Probabilistic Models,DPMs),这些模型通过反转扩散序列来工作。对于给定的xt和y,我们使用神经网络来估计θ,作为的近似。这个估计使我们能够通过从标准高斯分布中采样开始来获取的样本,这是因为扩散过程的初始状态类似于高斯分布。随后,我们通过θ从迭代地向后采样到。在给定y的条件下,采样得到的x0:T的联合分布可以表示为:

51c自动驾驶~合集23_自动驾驶_23

在这里,表示与θ无关的单位高斯分布。训练条件DPM涉及调整θ,以使其在全范围的t、和y值上与紧密匹配。

2)在视觉语言模型(VLMs)上的上下文学习

In-context学习最初在GPT-3的论文中提出,它指的是模型能够在单次交互中根据提供的上下文学习或调整其响应的能力,而无需对其基础模型进行任何显式更新或再训练。

这里采用了EILEV,这是一种训练技术,旨在增强第一人称视频中的视觉语言模型(VLMs)的上下文学习能力。如图3所示,EILEV在交错上下文-查询场景下的架构涉及使用来自BLIP-2的未修改视觉transformer来处理视频片段。得到的压缩标记与初始上下文-查询实例序列中的文本标记混合。然后,将这些组合标记输入到BLIP-2的静态语言模型中,以生成新的文本标记。该方法可以泛化到分布外的视频和文本,以及通过上下文学习罕见的动作。我们利用预训练模型为驾驶视频生成语言叙述,以验证生成的结果是否可解释且现实。

51c自动驾驶~合集23_自动驾驶_24

DriveGenVLM方法

生成长时间、连贯且逼真的视频仍然是一个挑战。灵活扩散模型(Flexible Diffusion Model, FDM)通过使用条件生成模型来解决这个问题。在DriveGenVLM中,采用了类似的方法。为了采样具有大量帧的连贯视频,可以使用生成模型在少量帧的条件下采样任意长度的视频。我们的目标是在一些帧的条件下,采样出连贯且逼真的驾驶场景视频。这里采用了一种顺序程序,通过生成模型来采样任意长度的视频,该模型一次只能采样或基于少量帧进行条件处理。

广义上,我们将采样方案定义为一系列元组,其中每个元组由一个向量组成,表示要采样的帧的索引,以及一个向量,表示在阶段s = 1,...,S中用作条件的帧的索引。

1)训练框架

DDPM图像框架采用了U-net结构。该架构的特点是一系列层,这些层首先降低空间维度,然后再进行上采样,其间穿插着卷积残差网络块和专注于空间注意力的层。

51c自动驾驶~合集23_自动驾驶_25

该架构如图2所示。DDPM迭代地将噪声XT转换为视频帧X0。带有红色边框的框表示条件。右侧显示了每个DDPM步骤的UNet架构。

51c自动驾驶~合集23_自动驾驶_26

算法1展示了如何使用采样方案来采样视频。生成模型可以根据视频帧的其他子集来采样任何子集。模型可以生成任何选择的X和Y。

2)Sampling Schemes

每种采样方案的相对效率在很大程度上取决于手头的数据集,且没有普遍最优的选择。在本文中,尝试了三种采样方案,如表I所示。第一个也是最直接的方案是Autoreg,它通过在每个步骤中对前十个帧进行条件设置来采样十个连续帧。另一个方案是Hierarchy2,它采用多层采样方法,第一层有十个等距选择的帧,覆盖视频中未观察到的部分,这些帧以十个观察到的帧为条件。在第二层中,以组为单位连续采样帧,同时考虑最近的先前帧和后续帧,直到所有帧都被采样。最后使用了Adaptive Hierarchy-2(Ad),这只能通过实现FDM来实现。Adaptive Hierarchy-2在测试期间战略性地选择条件帧,以优化帧多样性,这通过它们之间的成对LPIPS距离来衡量。

51c自动驾驶~合集23_自动驾驶_27

实验对比分析1)数据集

Waymo-open数据集是一个广泛应用的数据集,它利用多种传感器来辅助自动驾驶技术的进步。该数据集包含来自Waymo自动驾驶汽车群组的高质量传感器数据,并由超过1000小时的视频组成。这些视频是通过各种传感器拍摄的,如激光雷达、雷达和五个camera(前后及侧面),它们始终提供汽车周围的完整视图,即我们所说的360度视野。这组数据有着非常细致的标注,包括车辆、行人、骑自行车者以及道路上其他物体的标记。这使得它对于该领域的研究人员或工程师来说非常有用,可以帮助他们提升自动驾驶汽车中的感知(理解)、预测(猜测接下来会发生什么)和模拟算法的技能。数据集V2格式旨在与Apache Parquet文件格式及其支持的组件一起使用。在这里,组件是一组相关的字段/列,它们是理解每个单独字段所必需的。

2)实验设置

为了验证算法在真实驾驶场景中的有效性,利用了Waymo开放数据集,该数据集涵盖了多个城市的不同真实世界环境。我们从数据集中提取了所有五个现有camera的数据。然后对数据集进行了预处理,并从三个camera(前camera、前左camera和前右camera)中提取了数据,总共处理了138个视频。其中,包含所有三个camera的108个视频被平均分配用于训练,而每个camera各有10个视频用于测试集。训练视频中发现的最大帧数为199帧,最小帧数为175帧左右。因此,将所有视频的帧数限制为175帧,分辨率降低到了128×128,并转换成了4D张量。

该模型在Debian GNU/Linux 11系统上运行,该系统配备了8核Intel Cascade Lake处理器和具有24GB内存的NVIDIA L4 GPU。我们使用了bs大小为1、学习率为0.0001的设置。每个camera训练的详细信息如表II所示。前camera是从头开始训练的,没有使用任何预训练权重,迭代了200,000次。前右camera使用了来自camera1的预训练权重,并训练了150,000次迭代,而前左camera则使用了来自camera3的预训练权重,训练了100,000次迭代。总共花费了108个GPU小时进行训练。

51c自动驾驶~合集23_自动驾驶_28

利用FVD(Frechet视频距离)评估,这是一种用于评估模型在视频生成或未来帧预测等任务中生成的视频质量的度量标准。类似于用于图像的Frechet Inception Distance(FID),FVD衡量生成视频分布与真实视频分布之间的相似性。FVD对于评估视频的时间一致性和视觉质量非常有用,因此它是视频合成模型基准测试的一个宝贵工具。

3)结果

表III、表IV和表V总结了我们在Waymo开放数据集上对三个camera进行实验得到的FVD分数,这些实验采用了不同的采样方案。结果表明,自适应层次-2采样方法优于其他两种方法。

51c自动驾驶~合集23_自动驾驶_29

51c自动驾驶~合集23_自动驾驶_30

图4-6展示了使用自适应层次-2采样方案(产生最低FVD分数)为每个camera生成的预测视频。每个子图包含每个camera生成的2个视频示例。带有红色边界框的帧是真实帧,预测帧位于每个对应帧的下方。生成的视频以每个示例的前40帧为条件。

51c自动驾驶~合集23_自动驾驶_31

51c自动驾驶~合集23_自动驾驶_32

51c自动驾驶~合集23_自动驾驶_33

FDM在Waymo数据集上的训练展示了其在连贯性和逼真度方面的能力。然而,它仍然难以准确解释现实世界驾驶中的复杂逻辑,如交通和行人的导航。这种局限性很可能是由于现实场景中存在的额外挑战,这些挑战在模拟环境中是不存在的。

为了验证我们生成的视频是否可解释且可用于视觉语言模型,我们在Ego4D数据集上使用了预训练的EILEV模型,即eilev-blip2-opt-2.7b ,来测试我们生成的驾驶视频。我们利用了描述camera角度、驾驶环境和一天中时间的视频片段和文本对。结果如图7所示。模型生成的动作叙述显示在橙色框中。值得注意的是,前两个视频中没有共享任何动词和名词类别组合,如蓝色框所示。我们可以观察到,模型能够识别出车辆正在高速公路上行驶,且摄像头位于前方。对于第二个视频,模型识别出车辆正在夜间使用前置摄像头行驶。在VLMs上进行上下文学习预训练的模型与生成的模型配合良好,表明这些视频是可解释的,并且有可能被基于VLMs的算法所使用。

51c自动驾驶~合集23_自动驾驶_34




#多视图重建

一览NeRF/3DGS等多种方法

近年来,随着深度学习技术的发展,基于学习的MVS方法相较于传统方法取得了显著的进展。本综述[1](Learning-based Multi-View Stereo: A Survey)对这些基于学习的方法进行了分类:

基于深度图

基于体素

基于NeRF(神经辐射场)

基于3D高斯投影

大规模前馈方法。

其中,基于深度图的方法因其简洁、灵活和可扩展性被广泛关注。在综述中,文章对当前文献进行了全面回顾,探讨了各类基于学习的MVS方法的表现,并对这些方法在流行基准上的效果进行了总结。文章还讨论了该领域未来的研究方向,旨在推动3D重建技术的发展。

基础知识

基于深度图的多视图立体视觉(MVS)方法,包括大多数传统和基于学习的方法,通常由几个组件组成:相机校准、视图选择、多视图深度估计和深度融合。在本节中,我们介绍这些组件,以便读者能够清晰地了解MVS问题。需要注意的是,相机校准和视图选择也是其他基于学习的方法的组成部分。

相机校准

相机校准是确定相机的内参和外参以准确理解其几何和特性的重要过程。它是MVS的基础步骤,确保后续的重建过程基于准确且一致的几何信息,最终导致更加可靠和精确的场景3D表示。通常,通过运行现成的结构光或SLAM算法来获取校准后的相机参数。这些相机参数包括外参矩阵T = [R|t]和内参矩阵K。基于深度图的MVS方法通常需要一个限定的深度范围[dmin, dmax]以提高估计的准确性。对于离线方法,深度范围可以通过将稀疏点云从结构光投影到每个视角并计算最小和最大z值来估算。相比之下,在线方法通常设置恒定的深度范围,例如[0.25m, 20.00m],因为场景规模通常是固定的。

视图选择

视图选择是重建中的一个重要步骤,平衡三角测量质量、匹配精度和视图视锥体的重叠非常重要。目前,视图选择主要有两种策略。

首先,对于大多数在线MVS深度估计方法,当一个帧的姿态与先前关键帧的姿态有足够的差异时,该帧会被选择为关键帧。然后,每个关键帧采用几个先前的关键帧来估计深度。GP-MVS提出了一种启发式的姿态-距离度量策略,用于选择合适的视图。

其次,对于大多数离线MVS方法,视图选择是通过使用结构光获得的稀疏点云来完成的。对于参考视图i,MVSNet通过计算与其邻近视图j的得分来选择视图,该得分根据两个视图观察到的3D点P之间的基线角度计算而来。几乎所有后续的离线MVS方法都使用了相同的策略。

基于平面扫描的多视图深度估计

为了形成更适合卷积操作的结构化数据格式,大多数基于学习的MVS方法依赖于平面扫描算法来计算匹配代价。平面扫描算法通过沿深度方向离散化深度空间为一组前平行平面,并评估这些平面上的几何表面分布。它的操作通过在目标空间中扫描概念平面、计算图像之间的单应性,并根据不同视图的一致性选择深度值,从而最终实现精确的3D重建。

深度融合

对于基于深度图的MVS方法,在估计所有深度图后,需要将它们融合成稠密的3D表示,如点云或网格。在线MVS方法通常采用TSDF(截断的有符号距离函数)融合,将深度图融合成一个TSDF体积,然后使用Marching Cubes算法提取网格。然而,深度图中通常存在异常值,这可能会降低重建精度。为了克服这个问题并提高准确性,离线MVS方法通常在融合为点云之前进行深度图过滤,主要采用光度一致性过滤和几何一致性过滤。

数据集和基准

常用的公共MVS数据集和基准通常用于训练和评估。数据集如ScanNet、7-Scenes、DTU、Tanks and Temples和ETH3D等提供了相应的真值数据,包括相机姿态、深度图、点云和网格。不同数据集的目标不同,涵盖了室内外各种场景的3D重建任务。

评估指标

根据真值数据,评估指标可以分为2D指标和3D指标。2D指标通常用于在线MVS方法来评估深度图的精度,而3D指标则被广泛用于离线MVS方法来评估重建的点云质量。常见的3D评估指标包括精度/准确性、召回率/完整性和F-Score,F-Score是精度和召回率的调和平均值,用于衡量重建方法的整体性能。

基于深度估计的监督方法

这些方法通过深度估计来进行3D重建。典型的基于深度图的MVS流程主要包括特征提取、代价体积构建、代价体积正则化和深度估计。以MVDepthNet和MVSNet为代表,分别展示了在线和离线MVS方法的流程。

特征提取

考虑到效率,大多数方法使用简单的卷积神经网络(CNN)结构从图像中提取深度特征,例如ResNet、U-Net和FPN。对于在线MVS方法,特征提取网络通常与实时操作目标相结合。DeepVideoMVS结合了MNasNet(轻量级且低延迟)与FPN,而SimpleRecon则利用ResNet18的前两个块和EfficientNet-v2编码器,在保持效率的同时显著提高了深度图的精度。对于离线MVS方法,MVSNet使用了堆叠的八层2D CNN来为所有图像提取深度特征。多尺度方法进一步使用多尺度RGB图像或FPN来进行多尺度特征提取,以便在多个尺度上进行估计。最近,许多后续工作更加注重特征提取,以提高深度特征的表示能力。

代价体积构建

对于在线和离线MVS方法,代价体积通过平面扫描算法构建。

在线MVS: 为了减少计算量并提高在线应用的效率,在线MVS方法通常构建3D代价体积,存储每个像素及深度采样的单一匹配代价。MVDepthNet和GP-MVS计算参考视图与每个源视图之间的逐像素强度差异作为匹配代价。如果有多个源视图,代价体积将被平均。DeepVideoMVS和MaGNet则计算参考特征与变换后的源特征之间的逐像素相关性作为代价。

离线MVS: 离线MVS方法主要关注通过高分辨率图像重建高质量的稠密几何体。为了编码更多的匹配信息并提高质量,离线方法通常构建4D代价体积,每个像素及深度采样对应一个匹配代价。MVSNet提出了一种基于方差的代价度量,将N个源视图的特征体积求平均,然后通过方差计算匹配代价。为了减少维度,CIDER引入了分组相关性来计算参考视图和每个变换后的源视图之间的轻量级代价体积。

代价体积正则化

通常,原始代价体积可能存在噪声,因此需要通过正则化引入平滑性约束,以进行深度估计。代价体积正则化是一个关键步骤,通过从大的感受野中聚合匹配信息来对代价体积进行细化。

  1. 在线MVS: 2D编码器-解码器架构通常用于信息聚合。MVDepthNet将参考图像与代价体积连接起来,然后输入到一个带有跳跃连接的编码器-解码器架构中。DeepVideoMVS在代价体积上应用了2D U-Net,并在所有分辨率上添加了图像编码器和代价体积编码器之间的跳跃连接。
  2. 离线MVS: 大多数使用4D代价体积的离线MVS方法有三种主要的正则化策略:直接3D CNN、粗到细和RNN。MVSNet采用3D U-Net对代价体积进行正则化,从较大的感受野中聚合上下文信息。
迭代更新

与传统方法不同,一些方法采用迭代更新来逐步细化深度图。迭代方法引入了一种动态的深度图估计方法,通过多次迭代逐步改进重建过程。这种迭代细化特别适用于初始估计可能较为粗糙或不准确的场景。

一些方法结合了迭代PatchMatch与深度学习。PatchMatch算法主要包括随机初始化、向邻居传播假设和评估以选择最佳解。PatchMatchNet提出了自适应传播和代价聚合模块,使得PatchMatch能够更快收敛并生成更精确的深度图。

深度估计

对于一个4D代价体积,通常在代价体积正则化后生成一个概率体积,然后用于深度估计。目前,几乎所有基于学习的MVS方法都使用回归(软argmax)或分类(argmax)来预测深度。

MVSNet使用软argmax通过计算概率体积沿深度方向的期望值来回归深度图。对于粗到细方法,软argmax在每个阶段应用,用于回归深度图。而RNN正则化方法则主要采用argmax操作,将概率最高的深度样本作为最终预测。

深度细化

由于MVS生成的初始深度估计可能存在噪声,因此通常使用细化来提高精度。许多方法采用不同的策略来进一步优化深度图,从而获得更高质量的重建结果。

置信度估计

光度一致性置信度在离线MVS方法的深度融合过程中非常重要。大多数离线MVS方法从概率体积中提取置信度来过滤掉不可靠的估计值。此外,一些方法还通过深度学习来估计置信度,用于进一步细化结果。

损失函数

在线MVS: 许多方法通过对预测的反深度图进行回归损失计算来进行训练。

离线MVS: 基于深度估计策略,损失函数主要分为回归和分类。使用软argmax的回归方法通常采用L1损失,而采用argmax的分类方法则使用交叉熵损失。

基于深度估计的无监督与半监督方法

前面介绍的监督式MVS方法高度依赖于通过深度传感设备获得的准确的深度图真值数据。这不仅使数据收集过程变得复杂、耗时且昂贵,还将这些方法的应用限制在少数数据集和主要室内场景中。为了使MVS在更广泛的现实世界场景中得到实际应用,必须考虑替代的无监督学习方法,这些方法在不依赖真值深度数据的情况下,能够提供与监督方法相媲美的精度。目前的无监督方法基于光度一致性假设,即同一3D点的不同视图中对应像素应具有相似的特征。这些方法分为端到端方法和多阶段方法。SGT-MVSNet是目前唯一的半监督方法。

光度一致性假设

在无监督深度图预测领域,现有方法通常通过增强参考视图与源视图之间的相似性来实现光度一致性。这个关键概念围绕着通过将源视图对齐到参考视图的方式来提升图像间的相似度。

具体来说,给定参考图像的深度估计,使用公式将参考像素投影到后续图像中。

然后,通过在由于投影过程导致的像素偏移位置上进行双线性采样,生成源图像的扭曲版本。此外,通常生成一个二进制掩码,用于排除投影到图像边界之外的无效像素。

光度一致性损失可以表示为:

其中, 表示像素级的梯度,而

结构相似性损失通过结构相似性指数(SSIM)来评估合成图像与参考图像之间的上下文一致性,SSIM的定义如下:

其中, 和  分别表示图像的均值和方差, 和 

平滑损失项的引入是为了在图像和深度图对齐时促进深度信息的连续性。平滑损失的计算如下:

其中, 和  分别表示沿x和y轴的梯度,

端到端无监督方法

端到端方法是指从头开始训练的无监督MVS方法,这些方法与监督方法使用相同的输入信息(如第II节中介绍的),但不使用真值深度进行监督。相反,它们通常将光度一致性、结构相似性和光滑性约束作为损失函数的一部分。

然而,无监督MVS的瓶颈在于找到准确的光度对应关系。实际场景中,非朗伯表面、相机曝光变化和遮挡会使光度一致性假设失效,从而导致“模糊监督”的问题。

为了解决这个问题,JDACS除了光度一致性外,还引入了语义一致性。它通过预训练网络提取语义特征,并通过非负矩阵分解生成语义分类图。然后计算跨视图语义一致性,监督信号通过交叉熵损失来指导分类。RC-MVSNet引入了神经渲染,通过结合神经辐射场(NeRF)的强大表示能力和代价体积的强大泛化能力,提出了一个新的无监督方法。ElasticMVS通过引入分块感知PatchMatch算法,来处理基于光度损失的几何信息中缺失数据和伪影的问题。

CL-MVSNet提出了一种框架,通过在常规分支与两个对比分支之间确保对比一致性来增强正样本对之间的接近性。

需要注意的是,这些端到端方法均不需要预处理,减少了训练时间并降低了在实际场景中应用的复杂性。

多阶段无监督方法

多阶段方法需要对特定模块进行预训练或对训练数据进行预处理。这些方法基于伪标签生成的思想。

Self-supervised CVP-MVSNet通过在CVP-MVSNet框架上进行自监督训练生成伪深度标签,并通过交叉视图深度一致性检查和点云融合来进行多次迭代,逐步提高性能。U-MVSNet通过预训练光流估计网络,利用密集2D光流一致性来生成伪标签,并提出了一个不确定性自训练一致性模块,以减少背景中的无效监督。

最近,KD-MVS通过知识蒸馏策略实现了卓越的性能。它在自监督方式下训练了一个教师模型,然后通过交叉视图一致性检查和概率编码生成伪标签,并通过这些伪标签将教师模型的知识传递给学生模型。

半监督方法

SGT-MVSNet提出仅使用少量稀疏真值3D点来估计参考视图的深度图。3D点一致性损失通过最小化从对应像素反投影的3D点与真值之间的差异来进行监督。为了处理边缘和边界上的不准确估计,SGT-MVSNet引入了一个从粗到细的可靠深度传播模块,来修正错误的预测。

不依赖深度估计的基于学习的MVS方法

尽管通过平面扫描预测单个深度图的基于学习的MVS方法是主流,但近年来还有许多其他类型的方法在3D重建方面取得了显著的效果。这里讨论了四种主要的类别:基于体素的方法、基于NeRF(神经辐射场)的方法、基于3D高斯投影的方法,以及大规模前馈方法。

基于体素的方法

这些方法通过隐函数(如有符号距离函数,SDF)利用体素表示估计场景几何。具体来说,Atlas和NeuralRecon试图通过将2D图像特征提升到3D特征体积来预测TSDF(截断的有符号距离函数)体积。Atlas使用3D卷积神经网络基于从所有场景图像中累积的特征体积来回归TSDF体积,从而展示出较高的重建完整性。NeuralRecon则通过分块式和粗到细的方式逐步重建场景,提高了效率。TransformerFusion通过两个Transformer将粗细图像特征融合到体素网格中,然后预测场景几何的占据场。VoRTX使用了与TransformerFusion相似的设计,通过3D卷积神经网络处理由不同级别Transformer输出的特征,从而获得场景几何。

基于NeRF的方法

在新视图合成领域,神经辐射场(NeRF)开启了一种新兴的3D表示方式,利用可微分的体积渲染方案,通过2D图像级损失对基于辐射的3D表示进行监督。NeRF使用多层感知机(MLP)将一个位置(x, y, z)和归一化视角方向(θ, ϕ)映射到相应的颜色和体积密度。对于新视角的特定射线,NeRF使用近似的数值体积渲染来计算累积颜色。许多后续研究进一步改进了NeRF的质量、训练速度、内存效率以及实时渲染能力。

尽管NeRF最初的目的是实现新视图合成,VolSDF和NeuS将NeRF与SDF结合,用于表面重建。SDF被转化为用于体积渲染的密度。

基于3D高斯投影的方法

基于3D高斯投影的方法最近在3D重建和新视图合成中表现出色。DreamGaussian和SuGaR是代表性的基于3D高斯投影的方法,它们通过在稀疏点云上进行3D高斯投影,将场景的稠密表面和颜色信息编码为3D高斯体积,并使用体积渲染进行监督。这些方法具有较高的渲染速度和出色的重建质量,特别是在大规模和复杂场景中表现尤为突出。

大规模前馈方法

大规模前馈方法主要使用大型Transformer模型直接从给定的图像中学习3D表示。这些方法通常需要大量的计算资源,因为它们依赖于巨大的网络结构,但在某些对象级别的场景中表现得非常出色。这些方法通过直接学习整个场景的3D表示,跳过了传统方法中的逐帧深度估计步骤,因此在某些场景中可以显著提升重建速度和质量。

总结一下

该综述涵盖了截至2023年最新的基于学习的MVS方法文献,包括四个主要类别:基于深度图、基于体素、基于NeRF、基于3D高斯投影以及大规模前馈方法。

  • 提供了对不同方面的全面回顾和见解,包括各类算法的工作流程和复杂性。
  • 总结了所回顾方法在不同基准上的表现,并讨论了深度学习MVS方法未来的潜在研究方向。