51c自动驾驶~合集27

原创

qq6669490e54384 2024-09-12 09:30:58 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#无图NOA

一场对高精地图的祛魅！2024在线高精地图方案的回顾与展望~

自VectorMapNet以来，无图/轻图的智能驾驶方案开始出现在自动驾驶量产的牌桌上，到如今也有两年多的时间。而『无图NOA』真正开始爆火的节点当属MapTR算法的提出，原来矢量化地图还能这么学习，以前分割的方案开始退出自动驾驶舞台，各家开始真正投入主力量产无图/轻图方案。

首先需要明确一点，无图方案不是完全摒弃高精地图，下游轨迹预测/规控仍然依赖高精地图的输入。『无图』实际指的是不再依赖厂商提供的高精地图，转而使用车载算法实时感知的『局部在线高精地图』。

因此无图方案的核心在于实时在线地图构建的准确性，从技术层面来讲，正常情况下无图的上限就是有图；而在传统高精地图更新不及时的区域（比如施工路段、道路重构路段等），无图方案是更有优势的。在线高精地图的发展也有两年多了，无图一直致力于从『能用』走向『好用』。今天自动驾驶之心就带大家盘点一下2024年在线高精地图的主流前沿算法，一探研究趋势，并在文末进行总结。

相关工作

Driving with Prior Maps: Unified Vector Prior Encoding for Autonomous Vehicle Mapping

论文链接：https://arxiv.org/abs/2409.05352v1

阿里巴巴和西交团队的工作：高精地图（HD地图）对于自动驾驶汽车的精确导航和决策至关重要，但其创建和维护带来了巨大的成本和及时性挑战。使用车载传感器在线构建高精地图已成为一种有前景的解决方案；然而，由于遮挡和恶劣天气，这些方法可能会受到不完整数据的阻碍。本文提出了PriorDrive框架，通过利用先验地图的力量来解决这些局限性，显著提高了在线高精地图构建的鲁棒性和准确性。我们的方法整合了各种先前的地图，如OpenStreetMap的标准定义地图（SD地图）、供应商过时的高精地图以及来自历史车辆数据的本地构建地图。为了将这些先验信息有效地编码到在线见图模型中，PriorDrive提出了一种混合先验表示（HPQuery），该表示对不同地图元素的表示进行了标准化。PriorDrive的核心是统一矢量编码器（UVE），它采用双编码机制来处理矢量数据。矢量内编码器捕获细粒度的局部特征，而矢量间编码器集成全局上下文。此外提出了一种segment-level和point-level的预训练策略，使UVE能够学习矢量数据的先验分布，从而提高编码器的泛化能力和性能。通过对nuScenes数据集的广泛测试，PriorDrive与各种在线地图模型高度兼容，并大大提高了地图预测能力。通过PriorDrive框架整合先前的地图，为单一感知数据的挑战提供了一个强大的解决方案，为更可靠的自动驾驶汽车导航铺平了道路。

Neural HD Map Generation from Multiple Vectorized Tiles Locally Produced by Autonomous Vehicles

论文链接：https://arxiv.org/abs/2409.03445v1

高精地图厂商四维图新的工作：高精地图是自动驾驶系统的基本组成部分，因为它可以提供有关驾驶场景的精确环境信息。最近关于矢量化地图生成的工作，车辆运行一次只能在自车周围生成65%的局部地图元素，这就留下了一个难题，即如何在高质量标准下构建投影在世界坐标系中的全局高精地图。为了解决这个问题，我们将GNMap作为一个端到端的生成神经网络来自动构建具有多个矢量化图块的高精地图，这些图块是由自动驾驶汽车通过多次旅行在本地生成的。它利用多层和基于注意力的自动编码器作为共享网络，其中的参数是从两个不同的任务（即分别进行预训练和微调）中学习的，以确保生成的映射的完整性和元素类别的正确性。对真实世界的数据集进行了大量的定性评估，实验结果表明，GNMap可以超过SOTA方法5%以上的F1分数，只需少量手动修改即可达到工业使用水平。我们已经在有限公司Navinfo公司部署了它，作为自动构建自动驾驶系统高精地图的不可或缺的软件。

Enhancing Vectorized Map Perception with Historical Rasterized Maps（ECCV2024）

论文链接：https://arxiv.org/abs/2409.00620v1
开源链接：https://github.com/HXMap/HRMapNet

无图NOA以来，研究人员focus在端到端的在线矢量地图构建上，该技术在鸟瞰图（BEV）空间中实现，希望能够替代传统成本较高的离线高精（HD）地图。但是当前方法在恶劣环境下的准确性和鲁棒性很容易受限。为此本文提出了HRMapNet，其利用低成本的历史光栅化地图来增强在线矢量化地图的感知能力。历史光栅化地图来源于先前预测的结果，因此可以提供当前帧一定的先验信息。为了充分利用历史地图，作者设计了两个模块来增强BEV特征和地图元素的查询。对于BEV特征，本文设计了特征聚合模块，以编码图像和历史地图的特征。对于地图元素的查询，则设计了一个查询初始化模块，以赋予查询从历史地图中得到的先验信息。这两个模块对于在在线感知中利用地图信息至关重要。HRMapNet能够与大多数现有的在线矢量化地图感知方法集成。问鼎nuScenes和Argoverse 2 SOTA。

Online Temporal Fusion for Vectorized Map Construction in Mapless Autonomous Driving

论文链接：https://arxiv.org/abs/2409.00593v1

为了减少对高精（HD）地图的依赖，自动驾驶的一个日益增长的趋势是利用车载传感器在线生成矢量化地图。然而目前的方法大多受到仅处理单帧输入的限制，这阻碍了它们在复杂场景中的鲁棒性和有效性。为了克服这个问题，我们提出了一种在线地图构建系统，该系统利用长期的时间信息来构建一致的矢量化地图。首先，该系统有效地将来自现成网络的所有历史道路标记检测融合到语义体素图中，该图使用基于哈希的策略来实现，以利用道路元素的稀疏性。然后通过检查融合信息找到可靠的体素，并逐步聚类到道路标记的实例级表示中。最后，该系统结合领域知识来估计道路的几何和拓扑结构，这些结构可以直接由规划和控制（PnC）模块使用。通过在复杂的城市环境中进行的实验，我们证明了我们系统的输出比网络输出更一致、更准确，并且可以有效地用于闭环自动驾驶系统。

PriorMapNet: Enhancing Online Vectorized HD Map Construction with Priors

论文链接：https://arxiv.org/abs/2408.08802v2

北理工和元戎启行团队的工作：在线矢量化高精地图构建对于自动驾驶中的后续预测和规划任务至关重要。遵循MapTR范式，最近的工作取得了值得注意的成就。然而在主流方法中，参考点是随机初始化的，导致预测和GT之间的匹配不稳定。为了解决这个问题，我们引入了PriorMapNet来增强在线矢量化高精地图的构建。我们提出了PPS解码器，它为参考点提供了位置和结构先验。根据数据集中的地图元素进行拟合，先验参考点降低了学习难度，实现了稳定的匹配。此外，我们提出了PF编码器，利用BEV特征先验来增强图像到BEV的转换。此外，我们提出了DMD交叉注意，它分别沿多尺度和多样本解耦交叉注意，以实现效率。我们提出的PriorMapNet在nuScenes和Argoverse2数据集上的在线矢量化高精地图构建任务中实现了最先进的性能。

Enhancing Online Road Network Perception and Reasoning with Standard Definition Maps

论文链接：https://arxiv.org/abs/2408.01471v1
项目主页：https://henryzhangzhy.github.io/sdhdmap/

用于城市和高速公路驾驶应用的自动驾驶通常需要高精（HD）地图来生成导航。然而在按比例生成和维护高精地图时，会出现各种挑战。虽然最近的在线建图方法已经开始出现，但其在于大范围感知时的性能受到动态环境中严重遮挡的限制。考虑到这些因素，本文旨在在开发在线矢量化高精地图表示时利用轻量级和可扩展的先验标准清晰度（SD）地图。我们首先研究了将原型光栅化SD地图表示集成到各种在线地图架构中。此外，为了确定轻量级策略，我们使用OpenStreetMaps扩展了OpenLane-V2数据集，并评估了图形SD地图表示的好处。设计SD地图集成组件的一个关键发现是，SD地图编码器与模型无关，可以快速适应利用鸟瞰图（BEV）编码器的新架构。我们的结果表明，使用SD图作为在线映射任务的先验可以显著加快收敛速度，并将在线中心线感知任务的性能提高30%（mAP）。此外，我们表明，引入SD图可以通过利用SD图来减少感知和推理任务中的参数数量，同时提高整体性能。

PrevPredMap: Exploring Temporal Modeling with Previous Predictions for Online Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2407.17378v1

时间信息对于检测被遮挡的实例至关重要。现有的时间表示已经从BEV或PV特征发展到更紧凑的查询特征。与上述特征相比，预测提供了最高级别的抽象，提供了明确的信息。在在线矢量化高精地图构建的背景下，这种独特的预测特性可能有利于长时间建模和地图先验的整合。本文介绍了PrevPredMap，这是一个开创性的时间建模框架，利用之前的预测构建在线矢量化高精地图。我们为PrevPredMap精心设计了两个基本模块：之前的基于预测的查询生成器和动态位置查询解码器。具体而言，基于先前预测的查询生成器被设计为对来自先前预测的不同类型的信息进行单独编码，然后由动态位置查询解码器有效地利用这些信息来生成当前预测。此外，我们还开发了一种双模策略，以确保PrevPredMap在单帧和时间模式下的稳健性能。大量实验表明，PrevPredMap在nuScenes和Argoverse2数据集上实现了最先进的性能。

Mask2Map: Vectorized HD Map Construction Using Bird's Eye View Segmentation Masks

论文链接：https://arxiv.org/abs/2407.13517v2
代码链接：https://github.com/SehwanChoi0307/Mask2Map

汉阳大学的工作：本文介绍了Mask2Map，这是一种专为自动驾驶应用设计的端到端在线高精地图构建方法。我们的方法侧重于预测场景中以鸟瞰图（BEV）表示的地图实例的类和有序点集。Mask2Map由两个主要组件组成：实例级掩码预测网络（IMPNet）和掩码驱动映射预测网络（MMPNet）。IMPNet生成掩码感知查询和BEV分割掩码，以在全局范围内捕获全面的语义信息。随后，MMPNet通过两个子模块使用本地上下文信息增强了这些查询功能：位置查询生成器（PQG）和几何特征提取器（GFE）。PQG通过将边界元位置信息嵌入到掩码感知查询中来提取实例级位置查询，而GFE则利用边界元分割掩码来生成点级几何特征。然而，我们观察到Mask2Map的性能有限，这是由于IMPNet和MMPNet之间对GT匹配的不同预测导致的网络间不一致。为了应对这一挑战，我们提出了网络间去噪训练方法，该方法指导模型对受噪声GT查询和扰动GT分割掩码影响的输出进行去噪。我们对nuScenes和Argoverse2基准进行的评估表明，Mask2Map比以前最先进的方法实现了显著的性能改进，分别提高了10.1%mAP和4.1 mAP。

MapDistill: Boosting Efficient Camera-based HD Map Construction via Camera-LiDAR Fusion Model Distillation（ECCV 2024）

论文链接：https://arxiv.org/abs/2407.11682v1

三星研究院的工作：在线高精地图构建是自动驾驶领域一项重要而具有挑战性的任务。最近研究人员对基于成本效益高的环视相机的方法越来越感兴趣，而不依赖于激光雷达等其他传感器。然而，这些方法缺乏明确的深度信息，需要使用大型模型来实现令人满意的性能。为了解决这个问题，我们首次采用知识蒸馏（KD）思想进行高效的高精地图构建，并引入了一种名为MapDistill的基于知识蒸馏的新方法，将知识从高性能相机LiDAR融合模型转移到仅使用相机的轻量模型。具体而言，我们采用师生架构，即以摄像头LiDAR融合模型为教师，以轻量级摄像头模型为学生，并设计了一个双BEV转换模块，以促进跨模式知识提取，同时保持仅使用摄像头的成本效益部署。此外，我们提出了一种全面的蒸馏方案，包括跨模态关系蒸馏、双层特征蒸馏和映射头蒸馏。这种方法缓解了模式之间的知识转移挑战，使学生模型能够学习改进的特征表示，用于HD地图构建。在具有挑战性的nuScenes数据集上的实验结果证明了MapDistill的有效性，性能提升7.7 mAP或速度提升4.5倍。

Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention（ECCV 2024）

论文链接：https://arxiv.org/abs/2407.06683v1

多伦多大学&英伟达等团队的工作：了解道路几何形状是自动驾驶汽车（AV）堆栈的关键组成部分。虽然高精（HD）地图可以很容易地提供此类信息，但它们的标签和维护成本很高。因此，许多最近的工作提出了从传感器数据在线估计HD地图的方法。最近的绝大多数方法将多相机观测值编码为中间表示，例如鸟瞰图（BEV）网格，并通过解码器生成矢量地图元素。虽然这种架构是高性能的，但它会大量抽取中间表示中编码的信息，从而阻止下游任务（例如行为预测）利用它们。在这项工作中，我们建议揭示在线地图估计方法的丰富内部特征，并展示它们如何将在线地图与轨迹预测更紧密地结合起来。通过这样做，我们发现直接访问内部BEV特征可以使推理速度提高73%，对真实世界nuScenes数据集的预测准确率提高29%。

Is Your HD Map Constructor Reliable under Sensor Corruptions?

论文链接：https://arxiv.org/abs/2406.12214v2
项目链接：https://mapbench.github.io/

三星研究院&悉尼大学等团队的工作：驾驶系统通常依赖高精（HD）地图获取精确的环境信息，这对规划和导航至关重要。虽然目前的高精地图构建器在理想条件下表现良好，但它们对现实世界挑战的弹性，例如恶劣天气和传感器故障，还没有得到很好的理解，这引发了安全问题。这项工作介绍了MapBench，这是第一个旨在评估HD地图构建方法对各种传感器损坏的鲁棒性的综合基准。我们的基准测试共包括29种由摄像头和激光雷达传感器引起的损坏。对31个HD地图构建器的广泛评估显示，在恶劣天气条件和传感器故障下，现有方法的性能显著下降，突显了关键的安全问题。我们确定了增强鲁棒性的有效策略，包括利用多模态融合、先进数据增强和架构技术的创新方法。这些见解为开发更可靠的高精地图构建方法提供了途径，这对自动驾驶技术的进步至关重要。

MapVision: CVPR 2024 Autonomous Grand Challenge Mapless Driving Tech Report

论文链接：https://arxiv.org/abs/2406.10125v1

滴滴&北邮团队在CVPR 2024挑战赛上的工作：没有高精（HD）地图的自动驾驶需要更高水平的主动场景理解。在本次比赛中，组织者提供了多视角相机图像和标清（SD）地图，以探索场景推理能力的边界。我们发现，大多数现有的算法都是从这些多视角图像中构建鸟瞰图（BEV）特征，并使用多任务头来描绘道路中心线、边界线、人行横道和其他区域。然而，这些算法在道路的远端表现不佳，当图像中的主要对象被遮挡时，它们会遇到困难。因此，在这场比赛中，我们不仅使用多视角图像作为输入，还结合了SD地图来解决这个问题。我们采用地图编码器预训练来增强网络的几何编码能力，并利用YOLOX来提高交通要素检测精度。此外，对于区域检测，我们创新性地引入了LDTR和辅助任务，以实现更高的精度。因此，我们的OLUS最终得分为0.58。

DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2405.05518v2
代码链接：https://github.com/lynn-yu/DTCLMapper

时间信息在鸟瞰图（BEV）感知场景理解中起着关键作用，可以缓解视觉信息的稀疏性。然而，在构建矢量化高精晰度（HD）地图时，不加选择的时间融合方法会导致特征冗余的障碍。本文重新审视了矢量化HD地图的时间融合，重点研究了时间实例一致性和时间地图一致性学习。为了改进单帧映射中实例的表示，我们引入了一种新方法DTCLMapper。该方法使用双流时间一致性学习模块，该模块将实例嵌入与几何图相结合。在实例嵌入组件中，我们的方法集成了时态实例一致性学习（ICL），确保向量点和从点聚合的实例特征的一致性。采用矢量化点预选模块来提高每个实例中矢量点的回归效率。然后，从矢量化点预选模块获得的聚合实例特征基于对比学习来实现时间一致性，其中基于位置和语义信息选择正样本和负样本。几何映射组件引入了使用自监督学习设计的映射一致性学习（MCL）。MCL通过关注实例的全局位置和分布约束来增强我们一致学习方法的泛化能力。在公认的基准上进行的广泛实验表明，所提出的DTCLMapper在矢量化映射任务中达到了最先进的性能，在nuScenes和Argoverse数据集上分别达到了61.9%和65.1%的mAP得分。

HybriMap: Hybrid Clues Utilization for Effective Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2404.11155v1

港中文团队的工作：近年来，利用全景相机构建矢量化高精地图引起了人们的广泛关注。然而，主流方法中常用的多阶段顺序工作流往往会导致早期信息的丢失，特别是在透视图特征中。通常，在最终的鸟瞰预测中，这种损失被视为实例缺失或形状不匹配。为了解决这个问题，我们提出了一种新的方法，即HybriMap，它有效地利用混合特征的线索来确保有价值的信息的传递。具体来说，我们设计了双增强模块，以便在混合特征的指导下实现显式集成和隐式修改。此外，透视关键点被用作监督，进一步指导特征增强过程。在现有基准上进行的广泛实验证明了我们提出的方法的最先进性能。

MGMap: Mask-Guided Learning for Online Vectorized HD Map Construction（CVPR 2024）

论文链接：https://arxiv.org/abs/2404.00876v1
代码链接：https://github.com/xiaolul2/MGMap

浙大和有鹿的工作：目前高精晰度（HD）地图构建倾向于轻量级的在线生成趋势，旨在保存及时可靠的道路场景信息。然而地图元素包含强大的形状先验。一些奇形怪状的标注使当前基于检测的框架在定位相关特征范围方面模糊不清，并导致预测中详细结构的丢失。为了缓解这些问题，我们提出了MGMap，这是一种掩模引导的方法，可以有效地突出信息区域，并通过引入学习到的掩模来实现精确的地图元素定位。具体来说，MGMap从两个角度采用了基于增强的多尺度边界元法特征的学习掩模。在实例级别，我们提出了掩码激活实例（MAI）解码器，该解码器通过激活实例掩码将全局实例和结构信息合并到实例查询中。在点级别，设计了一种新的位置引导掩模补丁细化（PG-MPR）模块，从更细粒度的角度细化点位置，从而能够提取特定于点的补丁信息。与基线相比，我们提出的MGMap在不同输入模式下实现了约10mAP的显著改善。大量实验还表明，我们的方法具有很强的鲁棒性和泛化能力。

MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping

论文链接：https://arxiv.org/abs/2403.15951v1
项目主页：https://map-tracker.github.io/

Wayve等团队的工作：本文提出了一种矢量HD建图算法，该算法将地图表示为跟踪任务，并使用内存延迟历史来确保随时间推移的一致重建。我们的方法MapTracker将传感器流累积到两个潜在表示的存储缓冲区中：1）鸟瞰（BEV）空间中的光栅延迟，2）道路元素（即人行横道、车道分隔线和道路边界）上的矢量延迟。该方法借鉴了跟踪文献中的查询传播范式，该范式明确地将前一帧中的跟踪道路元素与当前帧相关联，同时融合了用距离步长选择的记忆延迟子集，以进一步增强时间一致性。对向量潜势进行解码以重建道路元素的几何形状。该论文还通过以下方式做出了基准贡献：1）改进现有数据集的处理代码，以通过时间对齐产生一致的地面实况，2）通过一致性检查增强现有的mAP度量。MapTracker在nuScenes和Agroverse2数据集上的表现明显优于现有方法，在传统和新的一致性感知指标上分别超过8%和19%。

HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2403.08639v2

三星团队的工作：矢量化高精（HD）地图构建需要预测地图元素（如道路边界、车道分隔线、人行横道等）的类别和点坐标。最先进的方法主要基于点级表示学习，用于回归精确的点坐标。然而该范式在获取元素级信息和处理元素级故障方面存在局限性，例如错误的元素形状或元素之间的纠缠。为了解决上述问题，我们提出了一个简单而有效的名为HIMap的HybrId框架，以充分学习和交互点级和元素级信息。具体来说，我们引入了一种名为HIQuery的混合表示来表示所有地图元素，并提出了一个点元素交互器来交互式地提取元素的混合信息，例如点位置和元素形状，并将其编码到HIQuery中。此外，我们提出了一个点元素一致性约束，以增强点级和元素级信息之间的一致性。最后，集成HIQuery的输出点元素可以直接转换为地图元素的类、点坐标和掩码。我们进行了广泛的实验，并在nuScenes和Argoverse2数据集上始终优于以前的方法。值得注意的是，我们的方法在nuScenes数据集上实现了77.8 mAP，至少比之前的SOTA高出8.3 mAP。

EAN-MapNet: Efficient Vectorized HD Map Construction with Anchor Neighborhoods

论文链接：https://arxiv.org/abs/2402.18278v2

中山大学等团队的工作：高精（HD）地图对于自动驾驶系统至关重要。现有的大多数工作设计了基于DETR解码器的地图元素检测头。然而，初始查询缺乏对物理位置信息的明确结合，而普通的自注意力需要很高的计算复杂性。因此我们提出了EAN MapNet，用于使用锚点邻域高效构建高精地图。首先，我们基于锚点邻域设计查询单元，允许非邻域中心锚点有效地帮助将邻域中心锚点拟合到表示地图元素的目标点。然后利用查询之间的相对实例关系，提出了分组局部self-att（GL-SA）。这有助于同一实例的查询之间的直接特征交互，同时创新性地将本地查询用作不同实例查询之间交互的中介。因此，GL-SA显著降低了自注意力的计算复杂度，同时确保了查询之间有足够的特征交互。在nuScenes数据集上，EAN MapNet经过24个epoch的训练，达到了63.0 mAP的最新性能，比MapTR高出12.7 mAP。此外，与MapTRv2相比，它大大减少了8198M的内存消耗。

ADMap: Anti-disturbance framework for reconstructing online vectorized HD map（ECCV2024）

论文链接：https://arxiv.org/abs/2401.13172v2
开源链接：https://github.com/hht1996ok/ADMap

零跑&浙大等团队的工作：在自动驾驶领域，在线高精（HD）地图重建对于规划任务至关重要。最近的研究开发了几种高性能的高精地图重建模型来满足这一需求。然而，由于预测偏差，实例向量内的点序列可能会抖动或锯齿状，这可能会影响后续任务。因此，本文提出了抗干扰图重建框架（ADMap）。为了减轻点序抖动，该框架由三个模块组成：多尺度感知neck、实例交互注意力（IIA）和矢量方向差损失（VDDL）。通过以级联方式探索实例之间和实例内部的点序关系，该模型可以更有效地监控点序预测过程。ADMap在nuScenes和Argoverse2数据集上实现了最先进的性能。广泛的结果表明，它能够在复杂和不断变化的驾驶场景中生成稳定可靠的地图元素。

Stream Query Denoising for Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2401.09112v2

中科大&旷视团队的工作：为了提高自动驾驶领域复杂和广泛场景中的感知性能，人们对时间建模给予了特别关注，特别强调了流式方法。流模型的主流趋势涉及利用流查询来传播时间信息。尽管这种方法很流行，但将流式范式直接应用于构建矢量化高精地图（HD地图）并不能充分利用时间信息的内在潜力。本文介绍了流查询去噪（SQD）策略，这是一种在高精地图（HD map）构建中进行时间建模的新方法。SQD旨在促进流模型中映射元素之间时间一致性的学习。该方法涉及对因在前一帧的GT中添加噪声而受到干扰的查询进行去噪。该去噪过程旨在重建当前帧的地面真实信息，从而模拟流查询中固有的预测过程。SQD策略可以应用于这些流式方法（例如StreamMapNet），以增强时间建模。拟议的SQD MapNet是配备SQD的StreamMapNet。在nuScenes和Argoverse2上的大量实验表明，我们的方法在近距离和远距离的所有设置中都明显优于其他现有方法。

MapNeXt: Revisiting Training and Scaling Practices for Online Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2401.07323v1

独立研究作者：高精（HD）地图是自动驾驶导航的关键。将运行时轻量级高精地图构建的能力集成到自动驾驶系统中最近成为一个有前景的方向。在这种激增中，视觉感知脱颖而出，因为相机设备仍然可以感知立体信息，更不用说其便携性和经济性的吸引人的特征了。最新的MapTR架构以端到端的方式解决了在线高精地图构建任务，但其潜力仍有待探索。在这项工作中，我们提出了MapTR的全面升级，并提出了下一代高精地图学习架构MapNeXt，从模型训练和缩放的角度做出了重大贡献。在深入了解MapTR的训练动态并充分利用地图元素的监督后，MapNeXt Tiny在不进行任何架构修改的情况下，将MapTR Tiny的map从49.0%提高到54.8%。MapNeXt Base享受着地图分割预训练的成果，将map进一步提高到63.9%，已经比现有技术多模态MapTR提高了1.4%，同时速度提高了1.8倍。为了将性能边界推向下一个水平，我们在实际模型缩放方面得出了两个结论：增加的查询有利于更大的解码器网络进行充分的消化；一个大的主干稳定地提高了最终的准确性，没有花哨的东西。基于这两条经验法则，MapNeXt Huge在具有挑战性的nuScenes基准测试中取得了最先进的性能。具体来说，我们首次将无地图视觉单模型性能提高到78%以上，比现有方法中的最佳模型高出16%。

总结与展望

从今年文章的情况来看，可以总结以下几点趋势：

前期工作主要是模型层面的改动：比如模型训练的优化方法、损失、新型注意力机制、Query、Encoder-Decoder的改进等等方式；
下半年的文章则聚焦在如何使用额外的信息提升模型性能：比如SD Map、历史地图等等，额外信息的引入能大幅提升模型性能，这块也是业内实际量产的前沿方向，值得更进一步挖局；
此外也有一些工作尝试进行蒸馏、研究模型的鲁棒性等，这块对量产的指导意义更强，期待后续有业务数据的反馈。

总结来说，目前在线高精地图是工业界和学术界主流的研究方向，从CVPR/ECCV等顶会也可以反应出这一趋势。模块化方法离不开在线高精地图，端到端更离不开在线地图。但反过来说，在线地图依赖传统高精地图的标注训练。可谓从群众中来，到群众中去。传统高精地图不会湮灭，仍然会在技术发展的洪流中发光发热。

#Robo-GS

开源最Solid的赛博机械臂！机械臂与环境无缝交互

🚨🤖 警报！机器人界的“血案”：特斯拉工厂惊现机械臂“暴走”事件 🚨

去年年末，一则“特斯拉机器人伤人事件”的微博引发了网友的广泛关注和热烈讨论。

📅 时间倒回2023年12月26日，英国小报《每日邮报》爆出猛料，标题惊悚：“特斯拉机器人在得克萨斯州工厂发生严重故障，一名工程师惨遭‘毒手’——现场留下‘血迹’，紧急关闭按钮被工人们火速按下！”😱

📜 但别急，这起事故实际上记录在2021年的特斯拉报告中，并非近期发生。文章中描述了两名目击者惊恐地目睹他们的同事被一台本应用于抓取和移动新铝制汽车零件的机器“袭击”。🏭

根据澎湃新闻2024.1.10 https://www.thepaper.cn/newsDetail_forward_25951876

🤖 机器臂安全，警钟长鸣！虽说这则网络新闻并非近期发生，但机器臂安全不容小觑。有了具身智能的加持后，或许能一定程度上防止工业机器人伤人事件。然而由于感知判断错误，以及机器臂网络重建误差依然有可能引起的工业事故。为了彻底规避“机械臂搬运零件时发生严重偏移，从而撞到检查设备的工人”这类事故，学者们对于机械臂控制以及机械臂网络重建精度的研究仍在努力探索中。

Real2Sim技术能刚好地帮助机械臂在工作时更好地控制“自己”。近期公开的Robo-GS采用混合表示模型，集成了网格几何、3D高斯核和物理属性，以增强机械臂的数字资产表示。这种混合表示通过高斯-网格-像素绑定技术实现，该技术在网格顶点和高斯模型之间建立了同构映射。这能够实现一个完全可微的渲染管道，该管道可以通过数值求解器进行优化，通过高斯展开实现高保真渲染，并使用基于网格的方法促进机械臂与其环境交互的物理合理模拟。该流程标准化了坐标系统和比例尺，确保了多个组件的无缝集成。除了重建机械臂外，还可以整体重建周围的静态背景和物体，从而实现机械臂与其环境之间的无缝交互。

该项成果还提供了涵盖各种机器人操作任务和机械臂网格重建的数据集，由网格、高斯溅射和真实世界运动的组合表示。这些数据集包括以数字资产形式捕获的现实世界运动，确保了质量和摩擦力的精确表示，这对于机器人操作至关重要。Real2Sim在机器人应用的真实渲染和网格重建质量方面达到了最先进的水平。

Robo-GS: A Physics Consistent Spatial-Temporal Model for Robotic Arm with Hybrid Representation https://arxiv.org/abs/2408.14873

背景知识

看到这里想必大家有几个问题：什么是渲染？什么是高斯溅射？下面在开始正文之前，文章先来了解一些背景知识。

什么是渲染？

渲染是指将三维场景（或模型）转换成二维图像的过程。这包括光照、阴影、纹理等效果的计算，以生成逼真的视觉效果。高保真渲染是指尽可能接近真实世界效果的渲染技术，包括光照、反射、折射等复杂物理现象的模拟。最常用的渲染方法之一就是利用三维场景重建技术，如高斯飞溅和神经辐射场(NeRF)。

高斯飞溅技术如何进行三维场景重建？

首先，从多个视角获取场景的图像或深度数据，以及相应的相机参数。在图像中提取特征点（如SIFT、SURF等），并在不同视角间进行匹配，以建立空间中的对应关系。然后利用多视角几何原理（如三角测量）计算匹配特征点的三维坐标，形成初始的三维点云。对于点云中的每个点，根据其位置精度和可能的误差来源（如相机校准误差、匹配误差等），分配一个高斯分布。这个高斯分布的均值即为该点的三维坐标，协方差矩阵反映了该点位置的不确定性。最后，将所有点的高斯分布组合起来，形成一个连续的、概率性的三维场景表示。这个表示可以进一步用于各种应用，如场景可视化、路径规划、碰撞检测等。

神经辐射场（NeRF）如何进行三维场景重建？

与传统的三维重建方法（如体素网格、点云等）不同，NeRF采用了一种连续的体积表示方式。这意味着它并不直接存储三维空间中每个点的颜色或密度，而是通过一个神经网络来“学习”这些属性的函数关系。NeRF的神经网络接收两个主要的输入：一是三维空间中的坐标点（x, y, z），它代表了场景中的位置；二是观察方向（θ, φ），它表示从哪个角度观察该点。网络的输出则是该点在给定观察方向下的颜色和体积密度（即该点被占据的可能性）。为了从神经辐射场中生成可视化的图像，NeRF采用了体积渲染技术。这一过程模拟了光线在三维场景中传播并与物质交互的过程。具体来说，它沿着从相机出发到图像平面上每个像素的光线进行采样，对于光线上的每个采样点，使用NeRF网络查询其颜色和密度。然后，根据这些颜色和密度值，以及光线在场景中的传播路径，计算出该像素的最终颜色。

NeRF的训练目标是最小化重建图像与真实图像之间的差异。这通常通过定义一个损失函数来实现，该损失函数计算了重建图像中每个像素的颜色与真实图像中对应像素颜色之间的误差。在训练过程中，通过反向传播算法来优化神经网络的参数，以最小化损失函数。这一过程通常涉及到大量的迭代计算，直到模型达到收敛状态。

特别之处

在了解了以上背景知识后，文章可以进一步看看这篇文章相对于先前的研究有什么特别的贡献了。

提出“同构网格-高斯绑定”，实现了机械臂各部分的联动建模

在传统的或经典的机械臂控制方法中，机械臂的每个连杆都是通过预定义的关节连接起来的。控制机械臂沿特定路径运动的主要方式是通过调整各个关节的角度，这种连接方式允许机械臂按照预设的路径运动。但在高斯设置（机械臂的运动或某些特性被建模为高斯分布或高斯过程）中，各个元素（机械臂的连杆、关节或运动参数）之间没有明确的联动定义。即，这些元素被视为彼此独立的，而不是像经典控制方法中那样通过关节相互连接。由于在高斯设置中各个元素之间的独立性，当尝试模拟或控制机械臂的运动时，可能会出现运动不一致的情况，机械臂的运动可能不符合实际的物理规律或预期的运动轨迹。

为此，文章引入了“同构网格-高斯绑定”的概念。同构网格提供了一个统一的框架，用于描述机械臂的整体形状和结构。而高斯绑定则允许文章在这个框架内为每个元素分配一个高斯分布或高斯过程，以模拟其运动特性或不确定性。通过这种方式，文章能够在保持各个元素独立性的同时，实现它们之间的协调和联动，从而解决运动不一致的问题。

对机械臂更有效的姿态学习与控制

在Real2Sim2Real范例中，通过基于姿态的控制策略，利用逆运动学和基于扩散的生成模型，将现实世界中的机械臂操作转化为仿真环境中的控制指令，以实现更有效的机器人学习与控制。这种方法的核心在于将机械臂末端执行器在现实世界中的姿态轨迹转换到仿真环境中，以实现从现实到仿真的有效策略迁移。这种控制方法侧重于机械臂末端执行器（如夹爪、工具等）的姿态（位置和方向），通过测量或预设末端执行器在现实世界中的姿态轨迹，可以生成相应的控制指令。在仿真环境中重现末端执行器姿态的轨迹，可以帮助确保仿真训练的有效性和现实世界的一致性。

实现更逼真的渲染

以往的研究通常使用NeRF和高斯飞溅来重建机器人操作场景并实现模拟，探索基于高斯的、高度可变形的物体重建，进行机器人仿真和抓取任务。然而，这些方法往往无法实现高保真渲染。因此，为了实现逼真的渲染，文章将传统的基于MLP的变形场替换为数值ODE求解器，以提高四维高斯溅射的质量。

模型架构解析

接下来一起看看文章的模型具体是如何搭建的吧。

文章的数字资产由网格、高斯飞溅和真实世界的运动来表示。在传统的数字资产制作中，主要关注的是纹理网格和材料属性。然而，文章意识到物体的物理参数，如质量和摩擦，在机器人操作中更为重要。每个高斯绑定到一组网格顶点和面，创建高斯-网格-像素绑定，如图3所示。

文章定义投影映射(Projection Mapping)、网格映射(Mesh Mapping)、重投影映射(Re-projection Mapping)来连接高斯飞溅，网格和真实世界运动的表示。其中，投影映射将任何已知的3D点位置使用透视投影模型重新投影到2D图像平面上；网格映射将高斯中心（A)与顶点集合（V）中的每一个顶点关联；重投影映射定义了高斯中心(A)与图像像素位置(P)和顶点集合(V)相关联的同构关系φ，记录真实场景的图像平面、基于网格的模拟引擎的模拟结果和渲染的4D高斯飞溅场景之间转移轨迹。从真实世界的视频到高斯到网格的渐变(向后优化)、从网格到高斯到渲染视频的渐变(前向渲染)遵循以上映射关系。

接下来，文章从单目视频数据中提取机器人臂的链接、对象和背景网格，并将其与物理参数和控制方程相结合，以生成用于仿真的统一机器人描述格式（URDF）模型。具体来说分为以下几步：（1）从视频数据中提取三维网格模型，这些模型能够精确地表示机器人臂的各个部分、操作对象以及背景环境。（2）LLM（Large Language Models）在这里用于推断物理参数，如质量、摩擦系数等，这些参数对于机器人操作和仿真至关重要。（3）控制方程（用于描述和控制机器人运动的数学方程）被嵌入到URDF资产中，有助于在仿真环境中准确地模拟机器人的行为。（4）Panoptic图像分割技术更精确地从视频中提取和重建三维网格，并将它们整合到URDF模型中。（5）采用2DGS（2D Gaussian Splatting）从二维图像中提取三维几何信息，将图像中的像素映射到三维空间中的高斯分布。此外，文章采用场景重新定向技术将重建的场景与仿真引擎的坐标系对齐，并建立了一个统一的坐标系统OpenGL，无缝连接现实世界和模拟场景。

在运动控制方程的选择上，将原来的四维重建问题分解为静态和动态两个阶段，使用欧拉表示法处理静态场景，使用拉格朗日表示法处理动态场景。文章采用基于姿态的机械臂控制策略，重点控制末端执行器的姿态，并使用逆运动学来生成现实世界中每个关节的控制信号。在这种方法中，网格充当互连映射。每个网格的运动通过变换矩阵传递到每个绑定到该网格上的高斯，从而引导高斯的运动。
动力学控制方程选择牛顿-欧拉方程，生成一个具有机械臂力控制和刚体运动的变换矩阵。
最后，为了渲染视图，高斯飞溅将这些3D高斯投影到图像平面上，并计算每个像素的颜色，及每个高斯中心在t时刻的位置更新，从而提取一组轨迹，应用于渲染场景。

实验结果

文章比较了当前最先进的四维高斯喷溅，包括SC-GS和K-Planes，与本文的方法，发现K-Planes和SC-GS都不能优化机械臂和物体运动的转换。图5显示了执行一组轨迹以识别其拐角情况的机器人手臂的重建。本文的方法展示了处理复杂轨迹和运动的能力。

图6显示了推箱子的机械臂的重构。显然，KPlanes和SC-GS无法准确地重建机械臂和刚体的动态运动，这与Robo360的结果一致。相比之下，本文的方法在机器人操作任务中成功地保持了运动和几何一致性。

文章将文章的方法与2DGS Original, Gaustudio, SUGAR和商业3D扫描仪扫描的地面真相进行比较。与SUGAR和Gaustudio相比，文章的方法产生了更好的网格质量，并实现了接触丰富的策略执行。图7显示了与地面真值网格和其他方法相比，文章的网格结果的质量更好。可以看到，在URDF方法中，文章的模型成功地重构了机械臂不同小模块的相接的部位。

表1给出了Gaustudio、Sugar、Robostudio (v1)和Robostudio (Full)的定量比较结果。Robostudio (v1)和Robostudio (Full)之间的区别在于Robostudio (Full)包括二维高斯溅射(2DGS)中的重新定向和网格清洗技术，从而改善了对齐和采样。

总结

文章针对机械手臂操作场景的整体重建，这需要一个可操作的机器人模型，背景和对象的重建，质量和摩擦等物理参数的结合，以及逼真的渲染器。该方法的核心是高斯-网格-像素绑定，它在网格顶点、高斯核和图像像素之间建立了同构关系。每个高斯被分配一个语义标签和相应的ID，从而能够精确地应用由URDF控制的转换矩阵。这确保了真实世界视频、模拟结果和渲染图像之间轨迹的无缝传输。这种绑定的优点包括在每个表示之间传递端到端的可微分梯度，通过文章最先进的网格重建进行卓越的碰撞检测，以及高渲染质量。系统确保了模拟和现实之间的一致渲染，允许学习策略有效地部署在现实场景中。此外，它还支持在Isaac Sim (Gym)模拟中进行编辑后端，启用新姿态和新策略调整。此外，文章还提出了一种新的数字资产格式，由网格、高斯飞溅和真实世界运动的组合表示。该方法通过整合从真实世界的运动视频中提取的关键物理参数，如质量和摩擦，超越了传统的纹理网格和材料属性。

#ADS断代领先

华为发布首款轿跑SUV

26.8万，打破BBA崇拜的华为，接下来要挑战Model Y了。

刚刚，华为首款轿跑SUV智界R7开订，车长近5米，尺寸介于Model X和Model Y之间。

800V高压平台，最高续航超800km，预售价26.8万元。

同时，年度科技车皇问界M9，新增了五座版车型，46.98万起售。

26.8万起，华为首款轿跑SUV开订

智界R7车长/宽/高分别为4956/1981/1634（mm），比Model Y大得多，外观和智界S7相似，形成了鸿蒙智行家族设计语言。

前排内饰风格也和智界S7相似，椭圆的方向盘，以及超大的中控平台。

前舱部分首发了一项很有趣的功能。

华为将手机上双击截屏的思路，迁移至前备箱，可以敲击开启。

后备箱空间837L，三层分区，可以放下3个28寸大行李箱和1个20寸登机箱。

副驾有零重力座椅，余承东介绍，即便是前排如图中躺下一个女生，后排仍然可以坐人。

展车不久后会到门店，大家可以线下体验体验，验证一下嘴总有没有“以行践言”。

三电方面，搭载800V高压平台，最高续航802km，在纯电的SUV中实现了罕见的“双800”。

长续航主要得益于超低的风阻系数，余承东再次强调，智界R7的风阻系数全球最低。

操控上，前双叉臂后五连杆悬挂，全系标配CDC连续可变阻尼减震器和空气悬架。

以上就是智界R7目前公开的主要信息，预售价格为26.8万元，也就是13台华为三折叠的价格。

比智界S7的预售价格贵了1万元，比Model Y也贵了1.6万元，预计正式上市还会有惊喜。

压轴登场的智界R7，有很多惊喜，但并非是唯一主角。

与华为三折叠同台发布的，还有问界M9五座版。

46.98万起，问界M9五座版上市

问界M9交付以来，在50万元以上SUV市场势如破竹，连续5个月蝉联，累计大定突破13万台。

不过，三排座椅也劝退了一部分潜在用户，比如一孩家庭，日常用不上这么多座位。

所以说此次新增五座版，可以覆盖更大的用户群体。

五座也能变四座，中台配有杯架、储物盒和无线快充：

头枕音响拔掉后，支持“双人沙滩椅模式”：

少了一排座位，后备箱空间自然更富裕了。

五座版后备箱空间达1043L，可以放下4个28英寸的大行李箱以及1个高尔夫球包。

空间更大之外，华为还进行了很多新的设计：

比如类似劳斯莱斯的“揽景座椅”，非常适合钓鱼佬。

配备了储物箱：

装配了麂皮包裹的硬质遮物板以及阻隔器：

底部托盘可以拉出，野外露营时当个餐桌很方便：

除了车座数量变化，还有以下多项升级：

首先是最让人惊讶的是，问界M9可以圆规掉头了。

然后是余承东确认，ADS 3.0明日起鸿蒙智行全系升级，余承东认为ADS 3.0是“断代式领先”，强调车位到车位的体验，“环岛都能开”，这也是此前2.0版本的弱势场景。

其他方面，主要是车内外的一些功能小升级。

车外新增了全新的迎宾灯语。

支持语音控制打开车门：

打开车门来到车内，先来看中控位置，此前曾有人吐槽水晶旋钮功能太少，这次新增悬架高度调节功能和路面辅助模式。

然后是后排，改善了投影幕布体验，防止调节座椅挡住幕布下降：

新车投影幕布还配备了遥控器，老车主后续也会陆续免费送。

最后来看下售价，与六座版相同，有Max和Ultra两个版本。其中只有Ultra版有纯电车型。

Ultra版比Max版多了电动门、华为投影大灯、投影幕布。

Ultra增程版的电池包更大。

有没有很心动？

赛力斯总裁何利扬透露，M9五座版6-8周可交付。

毫无疑问，五座版的上市，会让问界M9在50万元以上SUV市场的统治地位，更加稳固。

问界M9终结了BBA神话，新的问题来了：

智界R7，能不能延续辉煌，把Model Y拉下神坛呢？

#MiniDrive

单卡就能训的VLM来了！中科院提出, 各项指标完爆当前SOTA~

视觉语言模型（VLM）是自动驾驶中的通用端到端模型，通过问答交互实现预测、规划和感知等子任务。然而大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型（LLM），这使得它们难以在现实世界场景和实时应用中部署。同时大多数现有的VLM缺乏处理多幅图像的能力，因此难以适应自动驾驶中的环视感知。为了解决这些问题，我们提出了一个名为MiniDrive的新框架，该框架结合了我们提出的特征工程混合专家（FE-MoE）模块和动态指令适配器（DI-Adapter）。FE MoE在输入到语言模型之前，有效地将2D特征映射到视觉标记嵌入中。DI适配器使可视令牌嵌入能够随着指令文本嵌入而动态变化，解决了以前方法中同一图像的静态可视令牌嵌入问题。与之前的工作相比，MiniDrive在参数大小、浮点运算和响应效率方面实现了最先进的性能，轻量版本仅包含83M个参数。

开源链接：https://github.com/EMZucas/minidrive

51c自动驾驶~合集27_自动驾驶

总结来说，本文的主要贡献如下：

本文开发了自动驾驶VLMs MiniDrive，它解决了自动驾驶系统VLMs中高效部署和实时响应的挑战，同时保持了出色的性能。该模型的训练成本降低，多个MiniDrive模型可以在具有24GB内存的RTX 4090 GPU上同时进行完全训练；
MinDrive首次尝试利用大型卷积核架构作为自动驾驶视觉语言模型的视觉编码器骨干，并能够更高效、更快地提取不同图像级别的2D特征。我们提出了特征工程混合专家（FE-MoE），它解决了从多个角度将2D特征高效编码到文本标记嵌入中的挑战，有效地减少了视觉特征标记的数量，并最大限度地减少了特征冗余；
本文通过残差结构引入了动态指令适配器，解决了同一图像在输入到语言模型之前的固定视觉标记问题。DI适配器使视觉特征能够动态适应不同的文本指令，从而增强跨模态理解；
我们在MiniDrive上进行了广泛的实验，与Drive LM上具有多视图图像输入的自动驾驶VLM相比，实现了最先进的性能。此外，我们在CODA-LM上使用单幅图像输入的性能比普通开源VLM（>7B）平均高出13.2分。

相关工作回顾Vision-Language Models

Transformer架构的成功推动了LLM的发展。在计算机视觉领域，Dosovitskiy等人提出了ViT，它将图像划分为补丁，并根据transformer架构对其进行处理，成功地将其应用于计算机视觉任务。Transformer架构可以有效地学习和表示图像和自然语言。一项开创性的工作是CLIP，它将对比学习用于图像-文本对齐训练，展示了在图像分类任务中优越的零样本能力。Llava冻结了CLIP的视觉编码器（ViT），并在视觉编码器和LLM之间添加了一个线性投影层，旨在将视觉输出表示映射到文本空间中。同样BLIP-2通过更复杂的Q-Former对齐视觉和文本表示。InstructBLIP以BLIP-2为基础，对公共视觉问答数据集进行指令微调。MiniGPT-4将冻结的视觉编码器和Q-Former与类似冻结的LLM Vicuna相结合，将它们与单个投影层对齐。Llava-1.5v通过使用带有多层感知器（MLP）投影层的CLIP-ViT-L-336px，并添加针对学术任务量身定制的VQA数据，通过简单的响应格式化提示，在11个基准测试中实现了最先进的性能，显著提高了数据效率。Phi-3-mini具有默认的4K上下文长度，并引入了使用LongRope技术扩展到128K上下文长度的版本，同时采用了类似于Llama-2的块结构和相同的标记器，实现了轻量级的多模式模型。尽管这些多模态大型模型具有强大的功能，并且有轻量化设计的趋势，但它们的参数数量超过10亿，这使得在许多硬件平台上的部署和实时使用具有挑战性。因此，有必要研究和开发具有较小参数大小和较低计算成本的高效视觉语言模型。

Autonomous Driving Based on LLMs

LLM有效地增强了自动驾驶系统的可解释性及其与人类的互动。这些优势促使研究人员将自动驾驶的多模态数据纳入LLM的训练中，旨在为自动驾驶构建多模态大型模型。Chen等人将矢量化模态信息与LLaMA-7B对齐，以训练自动驾驶的问答模型。训练过程遵循两阶段方法：在第一阶段，向量表示与冻结的LLaMA对齐，而在第二阶段，LoRA用于微调语言模型。DriveGPT4也使用LLaMA作为其大型语言模型，使用CLIP作为视觉编码器。它通过输入视觉和文本信息来生成相应的答案。DriveGPT4操纵ChatGPT/GPT-4生成指令数据集，并在此数据集上进行训练。然而DriveGPT4仅使用单视角图像，限制了其在自动驾驶场景中处理更全面理解的能力。Wang等人开发了DriveMLM，该模型使用LLaMA-7B作为基础语言模型，ViT-g/14作为图像编码器。该模型处理多视图图像、激光雷达点云、交通规则和用户命令，以实现闭环驾驶。受大型语言模型中的思维链方法的启发，Sha等人提出了一种用于驾驶场景的思维链框架，使用ChatGPT-3.5为自动驾驶提供可解释的逻辑推理。Mao等人介绍了GPT Driver，它使用ChatGPT-3.5为自动驾驶汽车创建运动规划器，GPT Driver通过将规划器的输入和输出表示为语言令牌，将运动规划作为语言建模任务进行刷新。Sima等人发布了DriveLM数据集，这是一个图形化的视觉问答数据集，其中包含与感知、行为和自我车辆规划相关的问答对，基于NuScenes数据集的多视图图像数据。为了建立基线，Li等人在这个新数据集上对BLIP-2进行了微调。EM-VLM4AD引入了门控池注意力（GPA），它将多个图像聚合到一个统一的嵌入中，并将其与文本嵌入连接作为LLM的输入，在DriveLM数据集上取得了有前景的结果。

虽然现有的工作提供了巨大的价值，并展示了强大的自动驾驶能力，但大多数模型都有超过10亿个参数。它们主要基于GPT-3.5和LLaMA等大规模语言模型，并依赖于基于ViT架构构建的视觉编码器，如CLIP、ViT-g/14和ViT-B/32。这导致了高昂的计算成本，使这些模型不适合在线场景。尽管有开发轻型自动驾驶车型的趋势，但与大型车型相比，它们的性能仍然不足。

MinDrive方法详解

MiniDrive是自动驾驶领域的一种视觉语言模型，旨在执行视觉问答任务。它通过接收图像和用户指令文本作为输入来生成文本响应。在本节中，我们首先详细介绍MiniDrive的整体框架，然后具体解释每个模块的技术细节和原理，包括视觉编码器、特征工程混合专家（FE-MoE）和动态指令适配器（DI适配器）。

Model Architecture

51c自动驾驶~合集27_自动驾驶_02

图2（a）展示了MiniDrive的整体结构。在MiniDrive中，主要有两个分支：视觉和文本。在视觉方面，给定来自车辆的n幅图像作为视觉编码器的输入，每幅图像都接收一组深度2D特征表示。然后，这些特征被输入到FE-MoE中，在那里，多个专家沿着通道维度c压缩信息，并沿着高度h和宽度w维度扩展信息，以生成新的2D特征表示。在FE MoE中，Gate网络确定哪些专家更适合处理每个图像，为每个专家分配不同的权重值。最后，通过加权和来组合新的2D特征表示，以产生新的特征集Vmoe。压扁Vmoe得到V。

在文本侧，通过Tokenizer和Em垫层处理用户在构造中的自然语言，以获得文本T的令牌嵌入。文本T的嵌入序列用作键（k）和值（v），而现阶段的视觉嵌入序列v用作查询（q）。这些被馈送到DI适配器中以计算新的视觉嵌入序列V1，该序列现在结合了来自文本嵌入T的上下文信息，从而能够更好地进行跨模态理解或决策。然后，V1通过残差连接与V组合以形成序列。然后，连接，被用作语言模型的输入。语言模型解码以生成具有最高预测概率的单词序列。整个框架高效地处理多图像输入信息，动态响应用户查询。

Vision Encoder

如图2（b）所示，视觉编码器的骨干网络基于大核神经网络UniRepLKNet（Ding等人，2024），该网络在多种模态上表现出色。它有效地利用了大型内核卷积的特性，无需深入网络层即可实现广泛的接受域。在保持高效计算的同时，它在各种任务中也达到或超过了当前最先进技术的性能。这种通用性和效率使其成为一个强大的模型，在广泛的感知任务中具有潜力。如图3所示，对UniRepLKNet的整体架构进行简要回顾后发现，它主要由多个顺序连接的Stage层组成。每个阶段主要由一系列Lark Block和Smak Block组成。在MiniDrive中，我们使用UniRepLKNet作为视觉网络的骨干，其中输入图像并从最后阶段n获得输出特征图F1。

Feature Engineering Mixture of Experts

在图2（b）中，我们展示了FE-MoE的具体结构，该结构旨在处理来自多幅图像的二维输入特征。每个输入图像对应于视觉编码器输出的特征图F1。为了进一步有效地处理每个图像的2D特征表示，它们被输入到FE-MoE中。首先，门网络使用F1来获得与样本对应的专家选择权重。Gate网络主要由卷积层、最大池化层和线性层组成，如下式所示：

51c自动驾驶~合集27_自动驾驶_03

每个专家网络主要由解卷积层、ReLU层和卷积层组成。解卷积层首先执行初始上采样映射，增加特征图宽度和高度的维度以扩展信息量，从而促进后续的映射学习。同时，它减少了原始特征图中的通道数量，以最小化数据冗余并选择最重要的二维特征表示信息，从而显著简化了后续视觉标记的数量。卷积层进一步变换特征，以提高专家的学习能力。公式如下：

51c自动驾驶~合集27_自动驾驶_04

在这种情况下，F2表示单个专家的输出。假设图像的第i个专家的权重为Wi，该专家的输出为Fi，专家总数为N，则FE-MoE模型处理后的图像特征Vmoe由以下公式表示：

51c自动驾驶~合集27_自动驾驶_05

Dynamic Instruction Adapter

在之前的视觉语言模型中，图像表示在输入语言模型之前是固定的，在进入语言模型进行计算之前，它们对应于各种文本表示。为了使图像表示在输入到语言模型之前能够根据不同的文本表示进行动态转换，从而提高跨模态理解，我们引入了动态指令机制并设计了动态指令适配器。我们使用文本输入序列T作为键（k）和值（v），使用图像输入序列v作为查询（q）。通过交叉注意，我们计算了融合了文本上下文信息的融合序列V。公式如下：

51c自动驾驶~合集27_自动驾驶_06

残差通道中的序列通过残差连接与投影层的输出序列连接，作为输入到语言模型之前的视觉表示。附加语言模型输出的培训见附录。

实验结果定量结果

在表1中，我们将MiniDrive的评估结果与之前在测试集上的工作进行了比较，包括EM-VLM4AD和Drive Agent。就指标的整体性能而言，MiniDrive224和MiniDrive384都优于以前的方法，尽管DriveLM Agent在BLEU-4中覆盖了我们，但它的参数计数明显大于我们的，达到3.96B。

51c自动驾驶~合集27_自动驾驶_07

计算分析

本节主要比较MiniDrive和一系列现有视觉语言模型在参数计数、浮点运算（FLOP）和内存使用（GB）方面的差异。结果如表2所示。以224的输入图像分辨率为例，MiniDrive在所有三个方面都表现出了卓越的性能。

51c自动驾驶~合集27_自动驾驶_08

定性示例

在图4中，我们展示了MiniDrive在三个不同任务中对看不见的样本的实际响应。为了对MiniDrive对多视图图像输入的感知进行可解释性分析，我们分析了MiniDrive在各种场景下的激活图。在图4（a）中，MiniDrive演示了对多个图像输入的感知问答，蓝色框表示用户指令中“左后”位置引用的图像。红色框对应于MiniDrive的响应，主要关注该图像，在指定位置识别“许多汽车、一辆卡车和一名行人”。在图4（b）中，MiniDrive演示了如何为多个图像输入规划问答。根据用户的指令和空间术语“CAM_FRONT”，MiniDrive会聚焦在相应正面图像左侧的红色框上。这种关注与人们在做出规划决策时考虑的因素相一致，包括行车道标记和自我汽车左侧的车辆。在图4（c）中，MiniDrive演示了多个图像输入的预测性问答。根据用户预测“左前”位置行人运动的指令，MiniDrive会关注相应位置图像中的行人，并用红色框突出显示。综上所述，MiniDrive在激活图中关注的对象与人类驾驶员在驾驶过程中遵循的推理一致，表明MiniDrive具有一定程度的可靠性和可解释性。

51c自动驾驶~合集27_自动驾驶_09

消融实验

为了验证每个模块的有效性，我们设计了一系列消融实验。在表3中，我们研究了FE-MoE和动态指令适配器（DI适配器）对MiniDrive的影响。当FE-MoE和动态指令适配器分别引入时，各种指标的结果都有所改善，当两个模块同时引入时，效果更好。这表明了模块之间机制的有效性。其他消融实验的详细信息见附录。

51c自动驾驶~合集27_自动驾驶_10

进一步分析

尽管MiniDrive被设计为用于接收多图像输入的自动驾驶问答模型，但它从多个图像中提取、压缩和重新学习信息，作为语言模型的文本令牌。然而它仍然可以用于单个图像输入任务。我们将其与CODA-LM上现有的主流开源和闭源通用模型进行了比较，如表4所示。很明显，尽管MiniDrive只有83M个参数，但它表现出了卓越的性能，优于开源模型，接近闭源模型的性能。由于训练数据的分布问题，我们认为这是MiniDrive识别“圆锥体”能力强的主要因素。

51c自动驾驶~合集27_自动驾驶_11

结论

本文介绍了MiniDrive，这是一种最先进的自动驾驶轻量级视觉语言模型。我们介绍了FE-MoE和DI-Adapter机制，提出了一种将2D卷积特征映射到语言模型的文本标记中的新方法。我们的模型在DriveLM和CODA-LM两个数据集上取得了出色的结果。未来，我们的目标是开发一个具有视频输入的实时响应模型，以进一步推进自动驾驶技术。

限制

MiniDrive构建了专用于自动驾驶领域的VLM，并在当前的主流基准测试中取得了优异的成绩。然而它仍然缺乏一定程度的泛化能力，我们认为这是由于训练样本的局限性造成的。现有的自动驾驶领域需要更多的公共数据集和开发工作。此外，MiniDrive的培训主要集中在基于指令的数据集上，它仍然会遇到幻觉问题。

#GraspSplats

具身智能再发力！高效抓取，准确性和效率都提升

机器人对物体部分进行高效且零样本抓取的能力对于实际应用至关重要，并且随着视觉语言模型（VLMs）的最新进展而变得越来越普遍。为了弥补支持这种能力的表示中的二维到三维差距，现有方法依赖于通过可微渲染或基于点的投影方法的神经场（NeRFs）。然而，我们证明NeRFs由于其隐式性而不适用于场景变化，而基于点的方法在没有基于渲染的优化的情况下，对于部件定位不准确。为了解决这些问题，我们提出了GraspSplats。通过使用深度监督和一种新颖的参考特征计算方法，GraspSplats在不到60秒的时间内生成高质量的场景表示。我们进一步通过展示GraspSplats中明确且优化的几何形状足以自然支持（1）实时抓取采样和（2）使用点跟踪器的动态和关节物体操作，来验证基于高斯表示的优势。我们在Franka机器人上进行了大量实验，证明GraspSplats在各种任务设置下显著优于现有方法。特别是，GraspSplats优于基于NeRF的方法（如F3RM和LERF-TOGO）以及二维检测方法。

原文链接：https://arxiv.org/pdf/2409.02084

领域背景介绍

基于部件级理解的零样本高效操作对于下游机器人应用至关重要。设想一个被部署到新家庭的厨房机器人：在给定包含语言指令的食谱后，机器人通过把手拉开抽屉，通过手柄抓住工具，然后推回抽屉。为了执行这些任务，机器人必须动态理解部件级的抓取功能，以便与物体进行有效交互。最近的研究工作，通过将大规模预训练视觉模型（如CLIP）的参考特征嵌入到神经辐射场（Neural Radiance Fields, NeRFs）中来探索这种理解。然而，这些方法仅提供目标级别的场景静态理解，并且需要数分钟的时间来训练场景，这导致在场景发生任何变化后都需要进行昂贵的重新训练。这一局限性极大地阻碍了涉及物体位移或需要部件级理解的实际应用。另一方面，基于点的方法，通过对二维特征进行反投影，在特征构建方面效率很高，但在处理视觉遮挡时遇到困难，并且往往无法在没有进一步优化的情况下推断出细粒度的空间关系。

除了动态和部件级的场景理解外，实现精细操作还要求机器人对场景的几何和语义都有深入的理解。为了从粗略的二维视觉特征中获得这种能力，需要进一步的优化来弥合二维到三维的差距。基于NeRF的方法通过可微渲染促进了这种理解。然而，NeRFs从根本上来说是隐式表示，这使得它们难以编辑以适应场景变化，从而导致静态假设。为了解决动态问题，一些工作通常使用三维密集对应关系来预测抓取姿态，其中基于参考状态中的关键点识别出可靠的抓取点，然后将其应用于不同的视角或物体位置。然而，这些方法在跟踪物体状态随时间的变化和处理相同物体方面面临挑战。

为此，本文提出了GraspSplats。给定来自校准相机的带姿态的RGBD帧，GraspSplats通过3DGS（3D Gaussian Splatting，3DGS）构建了一个高保真表示，该表示作为显式高斯椭球体的集合。GraspSplats在不到30秒的时间内重建场景，并支持静态和刚性变换的高效部件级抓取，从而实现了如跟踪部件物体等现有方法无法实现的操作。GraspSplats从深度帧的粗略几何形状初始化高斯分布；同时，使用MobileSAM和MaskCLIP实时计算每个输入视图的参考特征。这些高斯分布通过可微光栅化进一步优化几何、纹理和语义。用户可以提供一个目标名称查询（例如，“杯子”）和部件查询（例如，“手柄”），以便GraspSplats能够高效地预测部件级可抓取性并生成抓取建议。GraspSplats直接使用显式高斯原语在毫秒级内生成抓取建议，为此扩展了现有的抓取生成器。此外，还进一步利用显式表示来在物体位移下保持高质量表示。使用点跟踪器，GraspSplats粗略地编辑场景以捕捉刚性变换，并通过部分场景重建进一步优化它。

本文在一台台式计算机上实现了GraspSplats，并搭配真实的Franka Research (FR3)机器人来评估其在桌面操作中的有效性。GraspSplats中的每个组件都非常高效，并且在经验上比现有工作快一个数量级（10倍）——包括计算二维参考特征、优化三维表示和生成二指抓取建议。这使得在手臂扫描的同时并行生成GraspSplats表示成为可能。在实验中，GraspSplats的性能优于基于NeRF的方法（如F3RM和LERF-TOGO）以及其他基于点的方法。

本文贡献主要有三个方面：

提出了一个使用三维高斯溅射（3DGS）进行抓取表示的框架。GraspSplats高效地重建了具有几何、纹理和语义监督的场景，在准确性和效率方面都优于基线方法，实现了零样本部件级抓取。

开发了一种可编辑的高保真表示技术，该技术超越了静态场景中的零样本操作，进入了动态和关节物体操作领域。

进行了广泛的真实机器人实验，验证了GraspSplats在静态和动态场景中零样本抓取的有效性，展示了方法相对于基于NeRF或基于点的方法的优越性。

#PPAD

用于端到端自动驾驶的预测与规划迭代交互

原标题：PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving
论文链接：https://arxiv.org/pdf/2311.08100
代码链接：https://github.com/zlichen/PPAD
作者单位：HKUST DeepRoute.AI

论文思路：

本文提出了一种用于端到端自动驾驶的新型预测与规划的交互机制，称为PPAD（预测与规划迭代交互自动驾驶）。该机制通过逐时间步的交互更好地整合了预测与规划。自车在每个时间步都基于周围代理（如车辆和行人）的轨迹预测及其局部道路状况进行运动规划。与现有的端到端自动驾驶框架不同，PPAD以自回归方式在每个时间步交错进行预测和规划过程，从而建模自车、代理和动态环境之间的交互，而不是简单地依次进行预测和规划的单一顺序过程。具体而言，本文设计了自车与代理、自车与地图、自车与鸟瞰图（BEV）的交互机制，通过层次化动态关键目标注意力来更好地建模这些交互。在nuScenes基准测试上的实验表明，本文的方法优于当前的先进方法。

主要贡献：

本文提出了PPAD，通过迭代的预测与规划方式优化自车、代理和环境之间的交互。迭代优化能够在规划任务中更好、更自然地建模交互和博弈。预测过程处理更细粒度和复杂的未来不确定性，以进行多代理环境的学习，而规划过程则为自车规划一步的未来轨迹。

本文通过层次化动态关键目标注意力，逐步建模自车、代理、环境和BEV特征图之间的细粒度交互，强调空间局部性。

在nuScenes和Argoverse数据集上进行的实验表明，本文的方法在效果上优于当前的先进方法。

论文设计：

深度学习技术的蓬勃发展为自动驾驶提供了强大的支持，得益于便捷且可解释的离散模块设计，自动驾驶领域已经取得了许多令人振奋的重要里程碑。最近，规划导向的理念在追求更高效的端到端驾驶系统方面引起了业界的共鸣，这也是本研究的重点。

传统的自动驾驶系统方法通常将系统分解为模块化组件，包括定位、感知、跟踪、预测、规划和控制，以实现可解释性和可视性。然而，这种方法存在几个缺点：1）随着系统复杂性的增加，模块之间的误差积累变得更加显著。2）下游任务的性能高度依赖于上游模块，这使得构建统一的数据驱动基础设施非常困难。

最近，端到端自动驾驶由于其简洁性而受到广泛关注。基于学习架构，提出了两种主要的方法。第一种方法直接将原始传感器数据作为输入，不经过任何视图转换来作为场景理解的中间表示，直接输出规划轨迹或控制命令。另一种方法基于鸟瞰图（BEV）表示，充分利用查询生成中间输出，以此作为指导来产生规划结果。其最大的优势之一在于可解释性。在这项工作中，本文遵循了第二种方法的设计。

VAD [23] 和 UniAD [19] 是典型的单步运动规划方法，只考虑了代理、自车与周围环境（如地图元素）之间的单步交互。ThinkTwice [22] 将其扩展为一个两阶段框架，以增强博弈或交互过程。QCNet [56] 和 GameFormer [21] 也重复地建模轨迹预测任务。运动规划作为一个计算问题，需要找到一系列有效轨迹，通常基于周围代理的预测、环境理解以及历史和未来的情境。这也可以被视为一种游戏，其中代理根据其他代理的意图和所遇环境不断规划其下一步行动，通过增量式的动作最终实现其目标。为了在端到端自动驾驶中建模这些预测与规划的动态交互，关键在于通过多步建模来考虑预测轨迹的可能变化，以规划出可行的轨迹。

受VAD [23]的启发，本文旨在将逐步的预测与规划引入一个基于学习的框架。直观上，预测和规划模块可以被建模为一个运动预测任务，即通过给定的历史信息预测未来的路径点。每个时间步的预测和规划模块的结果高度依赖于彼此。因此，本文需要迭代和双向地考虑代理与代理、代理与环境之间的交互，以最大化在给定其他代理观测下代理预测的期望。本文提出了PPAD，通过逐步规划自车的未来轨迹，在一个矢量化学习框架中建模逐时间步的双向交互或博弈，如图1所示。PPAD包括预测和规划过程。对于每个运动预测步骤：

预测过程通过代理与环境之间的交叉注意力和自注意力生成当前步骤的运动状态，以建模细粒度的双向交互。本文考虑了自车-代理-环境-BEV的交互，以在所有交通参与者之间传播特征。
规划过程基于期望过程预测当前步骤的运动轨迹。

图1：本文提出的PPAD框架的高级示意图。蓝色的代理意图直行，而红色的自车计划变道。图1(a)展示了典型的单步方法，由于缺乏深入的交互，可能导致无效的运动规划并引发事故。图1(b)展示了在PPAD架构下自车与代理之间的博弈过程。在预测过程中，代理通过加速执行一个果断的计划，以阻止自车阻挡其路线。自车的规划过程基于代理之前的预测过程来规划轨迹。自车减速以避免潜在事故，然后变道以实现其驾驶目标。

图2：本文提出的自动驾驶框架PPAD的整体架构。它由感知Transformer和迭代预测-规划模块组成。感知Transformer将场景上下文编码为代理查询、地图查询和BEV查询。然后，预测-规划模块交替进行代理运动预测和自车规划的过程N次。在整个迭代的预测和规划过程中，自车、代理、地图元素和BEV特征之间进行深入交互。在预测过程中，代理最初打算直行，并未意识到自车的潜在运动。经过与自车、地图元素和BEV特征的交互后，代理计划果断加速。在随后的规划过程中，自车通过与更新后的代理查询交互，了解到代理将加速。最终，自车计划先减速，然后为安全起见进行变道。

本文在图2中展示了整体框架PPAD，该框架由感知Transformer和本文提出的迭代预测-规划模块组成。感知Transformer将场景上下文编码为BEV特征图，并进一步解码为矢量化的代理和地图表示。迭代预测-规划模块通常包括预测和规划过程，沿时间维度剖析自车与代理之间的动态交互。最终，它预测代理的运动并规划自车的未来轨迹。

图像特征模块使用共享的图像骨干网络（例如，ResNet [15]）来提取不同摄像头视角的图像特征。

BEV特征模块将来自多视角摄像头的语义特征转换为统一的鸟瞰图（BEV）。具体而言，本文继承了BEVFormer [29, 47]的编码器来构建BEV特征。网格状的可学习BEV查询

矢量化特征模块受到VAD [23]范式的启发，本文也通过检测解码头 [29, 58] 和地图元素解码头 [31] 将场景上下文编码为矢量化表示，生成个学习的代理查询和个学习的地图查询。将附加独立的基于MLP的解码器来产生辅助输出，这些解码器以学习到的查询为输入，并预测代理属性（位置、尺寸、类别等）或地图属性（类别和由点描述的地图向量）。此外，代理查询将与可学习的运动嵌入结合，以建模代理的多样化运动。带有运动的代理表示为。类似地，自车被建模为三种模式，代表高层次的驾驶指令：直行、左转和右转，其形式为。

迭代预测-规划模块以交错方式预测自车和代理的未来轨迹。与传统的一次性预测所有轨迹的方法不同，本文的PPAD框架通过迭代代理运动预测和自车规划过程来详细说明每一步的运动规划。得益于PPAD框架，本文可以进行深入设计，以粗到细的方式在场景上下文中强化关键目标的交互（见第3.3节）。本文通过将噪声轨迹作为每一步的预测，并训练PPAD框架在下一个时间步重建其原始位置（见第3.4节），进一步提高自车的驾驶性能。

实验结果：

图3：PPAD的定性结果。图中的绿色框表示自车，红色框表示其他代理。

总结：

本文提出了一种新颖的自动驾驶框架PPAD。不同于以往缺乏深入交互建模的方法，本文将规划问题视为自车与代理之间的多步预测与规划博弈过程。通过PPAD架构，本文提出的层次化动态关键目标注意力被纳入其中，以在每一步学习局部和全局场景上下文，最终规划出更精确的轨迹。在训练过程中，采用了置信度感知的碰撞约束和噪声轨迹，以进一步提高驾驶安全性。总体而言，本文提出的新颖PPAD在现有的先进方法上实现了出色的性能，本文希望PPAD框架能激励业界进行更多探索。

#可提示的闭环交通仿真

英伟达新作

论文链接：https://arxiv.org/pdf/2409.05863
项目主页：https://ariostgx.github.io/ProSim/

摘要

本文介绍了可提示的闭环交通仿真。仿真是安全且高效的自动驾驶开发的基石。仿真系统的核心应该是生成逼真、反应灵敏且可控的交通模式。本文提出了ProSim，这是一种多模态可提示的闭环交通仿真框架。ProSim允许用户给出一组复杂的数值提示、分类提示或者文本提示，以引导每个智能体的行为和意图。然后，ProSim以闭环方式生成交通场景，并且建模每个智能体与其他交通参与者的交互。本文实验表明，ProSim在不同用户提示下实现了较高的提示可控性，同时在Waymo Sim Agents挑战赛（没有给定提示）中达到了具有竞争力的性能。为了支持对可提示交通仿真的研究，本文创建了ProSim-Instruct-520k，这是一种多模态提示-场景配对的驾驶数据集，包含超过520k个现实世界驾驶场景的10M多条文本提示。

主要贡献

本文的贡献为如下三方面：

1）本文引入了ProSim，这是首创的闭环交通仿真框架；

2）本文创建了ProSim-Instruct-520k，这是一种大规模的多模态提示-场景驾驶数据集，它是首个包含丰富语义智能体运动标签和文本说明的驾驶数据集；

3）本文将发布ProSim的代码和检查点以及ProSim-Instruct-520k的数据、基准和标注工具，以促进智能体运动仿真研究。

论文图片和表格

总结

本文提出了ProSim，这是一种多模态可提示的闭环交通仿真框架。在用户给定一组复杂的多模态提示的情况下，ProSim以闭环方式模拟交通场景，同时引导智能体遵循提示。ProSim在不同的复杂用户提示下展现出高度的真实感和可控性。本文还开发了ProSim-Instruct-520k，这是首个多模态提示-场景配对的驾驶数据集，其包含超过520K个场景和10M+条提示。本文相信，ProSim模型和数据集套件将为未来对驾驶场景以内和以外的可提示人类行为仿真进行研究。

局限性：ProSim尚不支持任意的提示。复杂的智能体交互（例如，“<A0>从左车道超车<A1>”）或者更为复杂的模态（例如，提示<A0>使用其前视图像）将作为今后的工作。

#自动驾驶3D占用预测（Occupancy Prediction）算法调研

在自动驾驶感知任务中，传统的3D场景理解方法大多数都集中在3D目标检测上，难以描述任意形状和无限类别的真实世界物体。3D占用网络（Occupancy Network）是特斯拉在2022年提出的一种新型感知网络，这种感知网络借鉴了机器人领域中的占用网格建图的思想，将感知环境以一种简单的形式进行在线3D重建。简单来说，就是将机器人周围的空间划分为一系列网格单元，然后定义哪个单元被占用，哪个单元是空闲的，通过预测3D空间中的占用概率来获得一种简单的3D空间表示，这样就可以更全面地实现3D场景感知。

近期对最近几年自动驾驶领域中的3D占用网络算法（主要是基于纯视觉）和数据集做了一些调研，本文将做一个简单的汇总。

1. 论文和算法

综述论文

《A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective》

MonoScene

论文：https://arxiv.org/pdf/2112.00726.pdf

代码：https://github.com/cv-rits/MonoScene

数据集：NYUv2（室内），SemanticKITTI

首个单目3D语义占用预测算法，是后续算法的baseline。

TPVFormer

论文：https://arxiv.org/pdf/2302.07817.pdf

代码：https://github.com/wzzheng/TPVFormer

数据集：SemanticKITTI，Panoptic nuScenes

该算法以环视图像为输入，训练过程中以激光雷达的语义标签为真值去学习实现3D占用预测。作者提出了一种三视角（ tri-perspective view，TPV）表示法，能够有效地描述3D场景的细粒度结构。为了将图像特征转换到3D TPV空间，提出了一种基于注意力机制的TPVFormer模型。

SurroundOcc

论文：https://arxiv.org/pdf/2303.09551.pdf

代码：https://github.com/weiyithu/SurroundOcc

数据集：nuScenes，SemanticKITTI

该算法从输入的多个相机的RGB图像中去实现3D语义占用预测，训练时的语义真值是从激光点云的语义信息中产生。

算法流程如下：

根据稀疏的点云语义信息生成稠密的3D占用语义真值过程：

在RTX 3090 GPU上与其他几个算法的推理时间对比：

OccFormer

论文：https://arxiv.org/pdf/2304.05316.pdf

代码：https://github.com/zhangyp15/OccFormer

数据集：SemanticKITTI，Panoptic nuScenes

该算法提出使用一个双路transformer结构用于处理由相机数据生成的3D体素特征，它可以有效地捕获具有局部和全局路径的细粒度细节和场景级布局。

双路transformer结构：

VoxFormer

论文：https://arxiv.org/pdf/2302.12251.pdf

代码：https://github.com/NVlabs/VoxFormer

数据集：SemanticKITTI

算法框架如上图所示，模型支持输入单帧或多帧图像数据。采用MobileStereoNet（可换成其他深度估计网络）做深度估计，占用预测网络采用轻量级的2D CNN网络LMSCNet。该算法的特点是比较轻量级，对小目标的检测效果较好，模型参数较少，训练时需要的GPU显存少于16GB。缺点是远距离性能需要提升，因为远距离深度估计不准确。

OccupancyDETR

论文：https://arxiv.org/pdf/2309.08504.pdf

代码：https://github.com/jypjypjypjyp/OccupancyDETR

数据集：SemanticKITTI

算法框架如上图所示，由一个类似DETR的目标检测网络（Deformable DETR）和3D占用解码器模块组成，用目标检测模块来引导对3D语义占用网格的预测。把目标检测网络输出的bounding box作为位置先验，并利用物体的隐藏特征作为上下文，然后用一个空间transformer解码器用来提取每个目标的3D占用网格。

算法的详细流程如下：

对于一张输入图像，首先采用ResNet50骨干网络提取特征，然后将这些多尺度特征传入一个可变形编码器进行进一步编码。
通过可变形DETR解码器解码固定数量的查询，然后传递给分类、2D框和3D框这三个检测头网络。分类头和2D框头网络的结果是目标检测中的常规结果，根据分类头的输出选择高置信度的结果作为检测到的物体。
这些高置信度物体的3D框（相机坐标系，根据相机外参转到占用网格坐标系）作为每个物体的位置先验，用于在3D占用解码器中提供位置嵌入，并把可变形DETR解码器获得的特征作为上下文，3D占用解码器基于可变形DETR编码器编码的多尺度特征去预测每个物体的3D占用网格。

3D占用解码器的数据流程图如下：

该算法的特点是对小目标的检测性能好，速度快，计算资源消耗少，训练时只需要一个RTX 3090 GPU，缺点是对道路、人行横道这些类别的预测效果不好。

FB-OCC（ CVPR 2023 3D占用预测挑战赛冠军）

论文：https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf

代码：https://github.com/NVlabs/FB-BEV

数据集：nuScenes

算法框架如上图所示，该算法由FB-BEV算法衍生而来。视图变换模块是纯视觉3D感知算法的核心，作者设计了两个视图变换模型：一个前向投影模块（List-Splat-Shoot）和一个反向投影模块（ BEVFormer）。在FB-OCC中，使用前向投影来生成初始的3D体素表示，然后将3D体素表示压缩成一个扁平的BEV特征图。BEV特征图被视为BEV空间内的查询，并与图像编码器特征进行关联，以获取密集的几何信息。最后，将3D体素表示和优化的BEV表示的融合特征输入到后续的任务头中。

除了模型结构，作者还重点对模型预训练技术进行了精心设计。首先在大规模2D目标检测数据集Object 365上对骨干网络进行训练，使得网络具备语义感知能力。接下来，在nuScenes数据集上再对网络进行专注于深度估计的预训练。由于深度预训练缺乏语义级别的监督，为了减轻模型过度偏向深度信息的风险，可能导致丧失语义先验知识（特别是考虑到大规模模型容易出现过拟合的情况），作者同时预测2D语义分割标签以及深度预测任务。

使用2D图像语义标签和深度图真值，作者联合深度估计任务和语义分割任务对模型进行训练。这种预训练任务与最终的占用预测任务密切相关，可以利用深度值和语义标签直接生成3D占用结果。预训练模型作为改进的起点，为后续的占用预测任务训练提供了帮助。

该算法是为参加比赛设计的，所以整体显得有点笨重，训练时设置batch size为32，需要32个A100 GPU进行训练。

BEVDet-Occ

论文：暂无，从BEVDet衍生到Occupancy Prediction任务

代码：https://github.com/HuangJunJie2017/BEVDet

SimpleOccupancy

论文：https://arxiv.org/pdf/2303.10076.pdf

代码：https://github.com/GANWANSHUI/SimpleOccupancy

数据集：DDAD，Nuscenes

该算法采用自监督的方式实现3D占用预测。

SparseOcc

论文：https://arxiv.org/pdf/2312.17118.pdf

代码：https://github.com/MCG-NJU/SparseOcc

数据集：Occ3D-nuScenes

下面两篇文章是对该算法的解读：

https://zhuanlan.zhihu.com/p/709576252

https://zhuanlan.zhihu.com/p/691549750

SelfOcc

论文：https://arxiv.org/pdf/2311.12754.pdf

代码：https://github.com/huang-yh/SelfOcc

项目主页：https://huang-yh.github.io/SelfOcc/

数据集：Occ3D-nuScenes，SemanticKITTI

鉴于之前的方法都需要可靠的3D语义信息来监督学习，但是3D语义真值又很难获取，因此SelfOcc希望仅使用视频序列采用自监督学习的方式来实现3D语义占用预测，以降低模型训练难度。

算法框架如下：

OccNeRF

论文：https://arxiv.org/pdf/2312.09243.pdf

代码：https://github.com/LinShan-Bin/OccNeRF

数据集：Occ3D-nuScenes

该算法采用自监督学习的方式去实现基于多相机数据输入的3D语义占用预测。为了解决无界场景的问题，作者提出参数化占用场，将无限空间缩小到有界体素内；为了利用时间光度损失，作者对参数化坐标进行体素渲染，得到多帧多摄像头深度图。对于语义占用预测，作者采用Grounded-SAM、Grounding DINO来生成2D语义伪标签。

RenderOcc

论文：https://arxiv.org/pdf/2309.09502.pdf

代码：https://github.com/pmj110119/RenderOcc

数据集：nuScenes，SemanticKITTI

该算法从多视图图像中提取NeRF风格的3D体积表示，并使用体积渲染技术来建立2D重建，从而实现从2D语义和深度标签的直接3D监督，减少了对昂贵的3D占用标注的依赖。实验表明，RenderOcc的性能与使用3D标签完全监督的模型相当，突显了这种方法在现实世界应用中的重要性。

算法框架如下图所示：

SGN

论文：https://arxiv.org/pdf/2312.05752.pdf

代码：https://github.com/Jieqianyu/SGN

数据集：SemanticKITTI，SSCBench-KITTI-360

论文提出了一种新型的端到端基于纯视觉的3D占用预测框架，称为Sparse Guidance Network（SGN）。SGN的核心思想是利用几何先验和占用信息，从具有语义和占用意识的种子体素向整个场景扩散语义。与传统方法不同，SGN采用了一种密集-稀疏-密集的设计，并引入了混合引导和有效的体素聚合来加强类内特征的分离和加速语义扩散的收敛。此外，SGN还利用了各向异性卷积来实现灵活的接收场，同时减少计算资源的需求。

FlashOcc

论文：https://arxiv.org/pdf/2311.12058.pdf

代码：https://github.com/Yzichen/FlashOCC

数据集：Occ3D-nuScenes

FlashOcc通过下面两种方法对现有基于体素级3D特征的占用预测任务进行提升：(1) 用2D卷积替换3D卷积; (2) 用通道-高度变换替换从3D卷积得到的占用预测。

FlashOcc专注于以即插即用的方式增强现有模型，它可以分为五个基本模块: (1) 用于提取图像特征的2D图像编码器。(2) 将2D图像特征映射到BEV表征的视图转换模块。(3) 用于提取BEV特征的BEV编码器。(4) 预测每个体素分割标签的占用预测头。(5) 集成历史信息以提高性能的时序融合模块(可选)。

FlashOcc的特点是速度快，计算资源消耗少，方便部署。

POP3D

论文：https://openreview.net/pdf?id=eBXM62SqKY

代码：https://github.com/vobecant/POP3D

FastOcc

论文：https://arxiv.org/pdf/2403.02710.pdf

代码：暂未开源（不开源就挺尴尬的）

数据集：Occ3D-nuScenes

Co-Occ

论文：https://arxiv.org/pdf/2404.04561.pdf

代码：https://github.com/Rorisis/Co-Occ

项目主页：https://rorisis.github.io/Co-Occ_project-page/

数据集：SemanticKITTI、NuScenes

该论文提出一种基于激光-相机数据的多模态3D占用预测算法，算法框架如下：

OccGen

论文：https://arxiv.org/pdf/2404.15014.pdf

代码：（coming soon）

项目主页：https://occgen-ad.github.io/

该论文提出一种noise-to-occupancy的生成式3D占用预测算法。

Cam4DOcc

论文：https://arxiv.org/pdf/2311.17663

代码：https://github.com/haomo-ai/Cam4DOcc

数据集：NuScenes、Lyft

MonoOcc

论文：https://arxiv.org/pdf/2403.08766v1

代码：https://github.com/ucaszyp/MonoOcc

数据集：SemanticKITTI

该论文提出一个单目3D占用预测算法框架，通过一个辅助语义损失作为对框架浅层的监督和一个图像条件交叉注意力模块来改进单目占用预测的效果，另外该算法训练的时候采用蒸馏模块，以低成本将时间信息和更丰富的知识从较大的图像主干网络传输到单目语义占用预测框架中。

HyDRa

论文：https://arxiv.org/pdf/2403.07746

代码：https://github.com/phi-wol/hydra

该论文提出一种基于相机和毫米波雷达的多模态3D感知框架，实现3D目标检测、语义占用预测多任务感知。

PanoOcc

论文：https://arxiv.org/pdf/2306.10013

代码：https://github.com/Robertwyq/PanoOcc

现有的自动驾驶感知任务（如目标检测、道路结构分割、深度估计等）仅关注整体3D场景理解任务的一小部分。这种分治的策略简化了算法开发过程，但却失去了问题的端到端统一解决方案。在本文中，作者通过基于纯视觉的3D全景分割来解决这一限制，旨在实现仅限摄像头的3D场景理解的统一占用表示。为了实现这一目标，作者提出一种名为PanoOcc的新方法，它利用体素查询以由粗到细的方案从多帧和多视角图像中聚合时空信息，将特征学习和场景表示集成到统一的占用表示中。PanoOcc在nuScenes数据集上实现了基于摄像头的语义分割和全景分割的全新最佳结果。此外，该方法还可以轻松扩展到密集占用预测任务中，并在Occ3D基准上表现出色。

GaussianFormer

论文：https://arxiv.org/abs/2405.17429

代码：https://github.com/huang-yh/GaussianFormer （暂时只放出demo）

ViewFormer

论文：https://arxiv.org/pdf/2405.04299

代码：https://github.com/ViewFormerOcc/ViewFormer-Occ

作者还开源了一个可视化工具，可以对点云目标检测、Occ预测结果等进行可视化：https://github.com/xiaoqiang-cheng/Oviz

HTCL

论文：https://arxiv.org/pdf/2407.02077

代码：https://github.com/Arlo0o/HTCL

Panoptic-FlashOcc

论文：https://arxiv.org/pdf/2406.10527v1

代码：https://github.com/Yzichen/FlashOCC

Panoptic-FlashOcc是目前速度和精度最优的全景占用预测网络，它在FlashOcc的基础上实现了全景占用（Panoptic occupancy）。全景占用旨在将实例占用（instance occupancy）和语义占用（semantic occupancy）整合到统一的框架中。

作者解读：https://zhuanlan.zhihu.com/p/709393871

COTR

论文：https://arxiv.org/pdf/2312.01919

代码：https://github.com/NotACracker/COTR.git

2. 数据集

SemanticKITTI

论文：https://arxiv.org/pdf/1904.01416v3.pdf

下载地址：https://opendatalab.com/OpenDataLab/SemanticKITTI

Occ3D

论文：https://arxiv.org/pdf/2304.14365.pdf

下载地址：https://tsinghua-mars-lab.github.io/Occ3D/

该数据集基于Waymo和nuScenes数据集构建了用于3D占用网格预测的数据集Occ3D-Waymo和Occ3D-nuScenes。

OpenOccupancy

论文：https://arxiv.org/pdf/2303.03991.pdf

GitHub：https://github.com/JeffWang987/OpenOccupancy

该数据集基于nuScenes数据集构建。

OpenOcc

论文：https://arxiv.org/pdf/2306.02851.pdf

GitHub：https://github.com/OpenDriveLab/OccNet

该数据集基于nuScenes数据集构建。

SSCBench

论文：https://arxiv.org/pdf/2306.09001.pdf

GitHub：https://github.com/ai4ce/SSCBench

该数据集基于KITTI-360、 nuScenes、Waymo等数据集构建。

OpenScene

GitHub：https://github.com/OpenDriveLab/OpenScene

相比现有数据集，OpenScene具有Occupancy Flow标签:

LightwheelOcc

GitHub: https://github.com/OpenDriveLab/LightwheelOcc

这是一个合成数据集。

3. 参考资料

上一篇：51c大模型~合集51

下一篇：51c视觉~合集28

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯