51c自动驾驶~合集2

原创

qq6669490e54384 2024-07-18 10:59:55 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#BEVWorld

BEV潜在空间构建多模态世界模型，全面理解自动驾驶~一、引言

世界模型建模了有关环境的知识，其可以通过给定的条件对未来进行合理的想象。未来想象要求世界模型具有物理规律的理解能力以及零样本的探索能力，使得其在自动驾驶领域有着广泛的应用前景，比如：

长尾数据生成：生成鬼探头、前方车辆遗撒等稀缺数据，并通过条件拓展不同天气、光照等环境下的数据。
闭环仿真测试：自动驾驶模型的planning结果作为世界模型未来预测的条件，产出控车后的数据进行闭环测试。
对抗样本：对抗样本是自动驾驶模型的一个安全隐患，利用世界模型，采用同一场景变换condition的方式或者黑盒攻击方式，拿到模型失效的且逼真的样本，用于提升自动驾驶模型的安全性。
foundation model：世界模型通常采用自监督的训练模式，这种方式可以利用大量的无标注数据进行训练，从而可以作为感知决策模型的foundation model来提升自动驾驶模型的泛化能力。

今天自动驾驶之心为大家分享百度最新开源的工作《BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space》中，作者提出了一种创新方法，通过统一的鸟瞰图（Bird's Eye View, BEV）潜在空间整合多模态传感器输入，进而构建世界模型。BEV的空间表达可以便捷地对齐多模态数据，提升多模态数据的生成一致性。同时，BEV表征可以自然地与端到端自动驾驶模型相结合，作为其辅助任务或预训练模型使用。本文将为大家详细解读这篇论文的核心思想、方法实现及其实验结果。代码即将开源https://github.com/zympsyche/BevWorld。

二、方法概述

BEVWorld主要由两部分组成：多模态tokenizer（Multi-modal Tokenizer）和潜在BEV序列扩散模型（Latent BEV Sequence Diffusion Model）。

2.1 多模态tokenizer

多模态tokenizer的核心功能是将原始多模态传感器数据压缩成一个统一的BEV潜在空间。具体实现步骤如下：

51c自动驾驶~合集2_自动驾驶

BEV编码器网络：采用Swin-Transformer作为图像骨干网络，提取多视图图像特征；将点云分割成BEV空间上的支柱（Pillars），并使用Swin-Transformer作为LiDAR骨干网络，提取LiDAR BEV特征。之后，利用基于可变形注意力的机制融合LiDAR BEV特征和图像特征。
BEV解码器网络：由于直接从BEV特征恢复图像和LiDAR存在高度信息缺失问题，BEV解码器首先将BEV标记转换为3D体素特征，然后使用基于体素的NeRF渲染技术恢复多视图图像和LiDAR点云。
多模态渲染网络：分为图像重建网络和LiDAR重建网络。图像重建通过沿射线路径采样点并聚合特征描述符，最后通过CNN解码器生成RGB图像。LiDAR重建则通过计算采样点的期望深度来模拟LiDAR观测。

2.2 潜在BEV序列扩散模型

潜在BEV序列扩散模型旨在预测未来帧的图像和点云，避免自回归方法的累积误差问题。具体实现步骤如下：

51c自动驾驶~合集2_特征点_02

模型结构：采用基于空间-时间变换器的扩散方法，将顺序的噪声BEV标记转换为基于动作条件的干净未来BEV预测。
训练过程：以历史BEV标记和当前BEV标记为条件，学习添加到未来BEV标记中的噪声。
测试过程：使用DDIM调度器从纯噪声中恢复未来BEV标记，并通过多模态tokenizer的解码器渲染出未来的多传感器数据。

三、实验与结果3.1 数据集

实验在nuScenes和Carla两个数据集上进行：

nuScenes：包含多视图图像和LiDAR扫描的多模态自动驾驶数据集，包含700个训练视频和150个验证视频。
Carla：开源自动驾驶模拟器，包含多种天气和城镇环境，实验中收集了300万帧数据进行训练。

3.2 多模态tokenizer评估

通过消融研究评估不同设计决策对多模态tokenizer的影响：

51c自动驾驶~合集2_自动驾驶_03

不同模态的影响：结合LiDAR和多视图相机模态获得最佳重建性能。
渲染方法的影响：基于射线的采样方法在多视图重建中表现更好。

3.3 tokenizer下游任务验证

在3D检测和运动预测任务上验证BEVWorld的有效性：

51c自动驾驶~合集2_自动驾驶_04

3D检测：在nuScenes 3D检测基准上，使用tokenizer编码器作为预训练模型显著提升性能。
运动预测：在检测头基础上添加运动预测头，实现准确轨迹预测。

3.4 潜在BEV序列扩散模型评估

51c自动驾驶~合集2_特征点_05

51c自动驾驶~合集2_特征点_06

介绍了潜在BEV序列扩散模型的训练细节，并与现有方法比较：

LiDAR预测质量：在nuScenes和Carla数据集上取得了与现有方法相当或更好的结果。
视频生成质量：在无额外条件情况下取得与使用手动标注条件方法相当或更好的结果。

BevWorld 还可以根据Action指令进行相应的生成控制。

51c自动驾驶~合集2_自动驾驶_07

四、结论与展望

本文提出的BEVWorld框架通过统一的BEV潜在空间构建多模态世界模型，能够在自监督学习范式下高效处理未标注多模态传感器数据，实现对驾驶环境的全面理解。实验结果表明，BEVWorld在下游自动驾驶任务中表现出色，并在多模态未来预测中取得满意结果。

然而，该工作仍存在一些局限性，如扩散模型推断过程缓慢且计算成本高，动态对象生成图像模糊等。未来研究可探索一步扩散方法提高效率，并引入专门针对动态对象的模块提升生成质量。

总之，BEVWorld为自动驾驶领域中的世界模型构建提供了新视角和方法，有望促进自动驾驶技术的进一步发展。

#DINO-Tracker

跟踪一切目标！DINO-Tracker成为单目跟踪里程碑

本文的DINO-tracker框架能够无视遮挡，实现对物体的长距离跟踪，突破了之前技术的局限，入选了ECCV24。

论文地址：

https://dino-tracker.github.io/assets/dino_tracker.pdf

开源地址：https://dino-tracker.github.io/

01 问题引入

近年来，在视频中建立密集点对应关系这一研究取得了巨大进展。在短期的密集运动估计方面，比如光流估计，研究界的关注焦点是监督学习——设计强大的前馈模型，并在各种合成数据集上进行训练，利用精确的监督信息。最近，这一趋势扩展到了视频中的长期点跟踪领域。随着新架构（如Transformers）和提供长期轨迹监督的新合成数据集的出现，各种监督跟踪器被开发出来，展示了令人印象深刻的成果。

然而，精准的跟踪视频中每一个运动点对此类基于监督学习的方法而言是一个极大的挑战：

首先，用于点跟踪的合成数据集通常包含在不现实配置中的移动物体，相对于自然视频中运动和物体的广泛分布，这些数据集在多样性和规模上受到限制；

此外，现有模型在跨越整个视频时空范围内聚合信息的能力仍然有限——这一点在长时间遮挡（例如在物体被遮挡之前和之后正确匹配一个点）中尤其重要。

为了应对这些挑战，Omnimotion（也就是23年的Tracking Everything）提出了一种测试的优化框架，通过预计算的光流和视频重建作为监督，将跟踪提升到3D层面。这种方法通过优化给定测试视频上的跟踪器，本质上一次性解决了所有视频像素的运动问题。然而，Omnimotion存在一个致命缺点：它严重依赖预计算的光流和单个视频中的信息，没有利用关于视觉世界的外部知识和先验。

在本文中，作者提出了一种新方法，训练与大量数据的学习结合起来，取长补短，形成一个针对特定视频特征提取匹配再到追踪优化框架，该框架结合由广泛的无标签图像训练的外部图像模型学习到的强大特征表示。受到最近自监督学习巨大进展的启发，作者的框架利用了预训练的DINOv2模型——一个使用大量自然图像进行预训练的视觉Transformers。DINO的特征提取已经被证明能够捕捉细粒度的语义信息，并被用于各种视觉任务，如分割和语义对应。

本项工作是首次将基于DINO提取的特征用于密集跟踪的研究。 作者展示了使用原始DINO特征匹配可以作为一个强大的跟踪baseline，但这些特征本身不足以支持亚像素精度的跟踪。因此，作者的框架同时调整DINO的特征以适应测试视频中的运动观察，同时训练一个直接利用这些精炼特征的跟踪器。为此，作者设计了一个新的目标函数，通过在精炼特征空间中培养稳健的语义特征级别对应关系，超越了光流监督实现的效果。

51c自动驾驶~合集2_特征点_08

▲图1｜效果演示©️【深蓝AI】编译

本文的核心贡献包括：

首次利用预训练的DINO特征进行点跟踪；
提出了第一个结合测试时训练和外部先验的跟踪方法；
在长时间，长遮挡的跟踪方面显著提升了性能。

02 实现细节

51c自动驾驶~合集2_特征点_09

▲图2｜全文方法总览©️【深蓝AI】编译

结合图2，可以理解全文方法的pipeline：

对于给定的输入视频序列，此方法的目标是训练一个跟踪器，该跟踪器接受查询点作为输入，并输出一组位置估计，这个过程很容易理解，就是特征提取+匹配+预测，但是这里的特征提取采用了预训练的 DINOv2-ViT 模型进行特征提取。如果各位对DINO还不太了解，请详细阅读下面这段介绍——

我们可以将DINO(Distillation with No Labels)理解为一种无标签的学习训练方法，它广泛应用于计算机视觉领域，尤其是在自监督学习和特征表示学习中。DINO模型的一个显著特点是利用Vision Transformer(ViT)架构进行训练，无需人工标注数据，通过自监督的方式学习图像的语义特征，DINO有三个最显著的特点：

●无需标签数据：通过自监督学习方法，DINO 能够有效减少对大量人工标注数据的依赖，从而降低数据准备的成本和时间；
●高质量特征表示：由于使用了 Vision Transformer 和对比学习策略，DINO 可以学习到更加语义丰富和泛化能力强的特征表示；
●灵活适应多种任务：DINO 所学习到的特征表示不仅适用于图像分类，还可以通过微调，适用于其他各种视觉任务，如目标检测和语义分割等。

DINO在本文中的应用：DINO 的预训练特征为此方法的框架提供了初始的语义和局部表示，但缺乏准确的长时间跟踪所需的时间一致性和细粒度定位。因此，此方法训练了 Delta-DINO，这是一种特征提取器，用于预测预训练 DINO 特征的残差。
此方法的目标是优化这些特征，使它们可以作为“轨迹嵌入”，即沿着轨迹采样的特征应该收敛到一个独特的表示，同时保留原始的 DINO 先验。这个过程实际上解决的是长距离的跟踪问题，以往的方法往往不会对未来的位置进行预测，而是直接对下一帧图像中相同的特征点进行匹配，这样一旦遮挡物出现，特征点之间的匹配失败，就会跟丢目标，而此方法的预测能力，能够在遮挡物出现的时候通过将预测的点进行匹配，从而保证跟踪的连续性。

2.1 跟踪过程

DINO-Tracker的追踪过程可以分为三个阶段：特征提取+特征匹配+轨迹预测+全局一致优化。

关于特征提取，前文已经提到此方法主要采用预训练的DINO框架进行特征点的提取，这一部分主要利用了DINO框架的灵活性和高质量的特征表达，提取后的特征会形成一个特征图，用于后续的特征匹配。

在特征匹配阶段，比起传统的在特征点图中进行对应匹配，本文还提出了一个额外的匹配方式，就是用DINO提取的特征对应关系用于补充训练数据，提供额外的监督。通过识别“最佳配对点”提取可靠的匹配关系，其中每个点在一帧中的最近邻匹配第二帧中的最近邻。在训练期间，精炼特征改进其表示并发现新的可靠对应关系，形成持续更新的精炼最佳配对点集合，实现高质量的特征点匹配，这样得到的匹配关系更加精准，也为后续的长距离跟踪和障碍物遮挡打下了基础。

轨迹预测首先如前文所述，会训练一个Delta-DINO来进行初步的新特征点预测，也就是预测下一帧中特征点可能出现的位置，然而这个预测往往会存在一定的误差，此方法采自监督优化策略来优化这个误差。具体而言，就是使用从测试视频自动提取的监督信号来匹配沿轨迹的预测点。这些信号来自光流和DINO特征的对应关系。光流提供帧间精确的位移信息，通过链接这些位移创建短期轨迹。在预处理过程中，此方法通过计算出所有循环一致的光流对应关系，为短轨迹提供高质量的监督。笔者通俗地总结一下，轨迹预测分为两个阶段，第一阶段中采用Delta-DINO预测下一帧出现的特征点，在第二阶段中采用光流法计算当前特征点的位移信息，结合这个计算出来的位移信息以及预测得到的特征点信息进行联合优化，最终确定预测的轨迹，实际上是一个“双保险”的过程，光流发充分利用了已知的信息，Delta-DINO则使用了预训练DINO模型的强大先验。

通过特征提取+特征匹配，DINO-Tracker实现了每一帧中特征点的准确识别和配准，通过特征匹配+轨迹预测，实现了这一帧和下一帧的特征点准确跟踪，这个过程不断迭代，这就是DINO-Tracker能够实现长距离跟踪的核心。

2.2 遮挡处理

此方法还有一个很强的能力，就是对于遮挡的处理，图3很好地说明了DINO-Tracker是如何在遮挡物出现的时候仍然保持鲁棒跟踪的原理。要处理遮挡场景，首先要有能力判断遮挡的出现，这一点在本文中通过测量轨迹位移差实现，如图3所示，作者选择K1和K2作为锚点，计算追踪点X0是否存在遮挡关系，从图中来看，X0处的轨迹和K1与K2处的轨迹有明显的位移差异，当这种位移差异出现的时候，就会判断在X0处出现了遮挡。这个计算的原理十分简单，目的就是为了提升速度！

想必各位都能发现，本文并不是实时处理遮挡关系的，而是通过当前帧与前两帧来计算遮挡关系，如果判断出现遮挡，就会及时优化修正前一帧中错误的追踪，但是由于这样的计算方式速度很快，这些都发生在电光火石之间，因此对于全局的追踪速度没有太大的影响。

当遮挡关系被计算得到之后，轨迹的预测就会派上用场了，前文中我们提到了对于轨迹预测的“双保险”，即使用Delta-DINO预测下一帧的特征点位置+使用光流直接计算特征点位置共同进行预测，然而遮挡的关系出现会导致光流法失效，因此这个时候会赋予Delta-DINO更多的权重，从而保持跟踪，当物体穿过遮挡物之后，光流又会继续上线，帮助修正全局的跟踪轨迹，通过这个过程实现了对于遮挡关系的处理。

很多人对此都会产生一个疑问：

如果遮挡关系出现得太久，一直依靠Delta-DINO的预测，是否会出现轨迹上的偏差？

答案是：一定会出现的。

在“透视”技术被研究出来之前，理论上来说没有太好的方法能够处理长时间的遮挡关系，但本文方法对于短时间能出现的遮挡关系的处理，已经堪称“完美”，能够应对大多数场景了！

51c自动驾驶~合集2_自动驾驶_10

▲图3｜遮挡处理示意图©️【深蓝AI】编译

03 实验效果

作者通过数值实验和可视化实验证明了本文方法的有效性，首先来看数值实验。

51c自动驾驶~合集2_模态_11

▲图4｜数值实验结果©️【深蓝AI】编译

从图4中可以看到，作者在大部分的数据集中都超过了SOTA方法，并且这些SOTA方法大部分都不具备对于遮挡关系的处理能力。读者可能会觉得似乎作者的指标没有超出SOTA方法太多，我们需要注意的是，这里计算的是像素之间的距离，而由于投影关系，像素上个位数的差异经过投影变换到真实世界中，往往就会被放大到几米甚至十几米（根据不同的投影尺度），因此在这个领域，即便是很小的数值增长，也是很大的提升。

接下来是可视化实验，这里作者主要体现了本文方法对于遮挡和长距离跟踪的能力。

51c自动驾驶~合集2_模态_12

▲图5｜可视化对比实验©️【深蓝AI】编译

从实验结果上来看，本文方法在遮挡出现的时候依旧能够实现鲁棒的跟踪，而对比方法基本上都会出现跟丢或者跟踪出错的问题（从图5左图看出），图五的右图主要体现的是长距离跟踪，图中的自行车选手在公路上“飙车”，速度很快，对比方法出现了不同程度的跟丢情况，而本文方法则死死“咬住”了目标，由此体现出本文方法的高性能。

51c自动驾驶~合集2_自动驾驶_13

▲图6｜DINO特征点选取可视化©️【深蓝AI】编译

图6则可以看到DINO特征点提取的优势，可以从图中看到DINO提取的特征点十分均匀地分布在跟踪物体的各个关键运动位置（关节，轮廓边缘）这些部分是物体运动的重要追踪位置，而其他对比方法则无法实现对这些关键位置的特征提取和鲁棒的追踪。

04 总结

本文提出了DINO-Tracker的追踪框架，能够很好地处理追踪过程中出现的遮挡关系以及长距离的汇总问题。通过利用DINO模型强大的先验知识，实现了对于任意物体的鲁棒追踪。DINO-Tracker不仅在短期内表现出色，还能在较长时间跨度内保持高精度的追踪能力，这主要得益于其特征点轨迹预测方法能够很好地忽略短时间内的遮挡，解决了追踪任务中的一个关键难题。

#MapLocNet

速度和精度都提升！MapLocNet：从粗到细视觉重定位

鲁棒定位是自动驾驶的基石，尤其是在GPS信号受多径误差影响的挑战性城市环境中。传统的定位方法依赖于由精确标注的地标组成的高精度（HD）地图。然而，构建高精度地图既昂贵又难以扩展。鉴于这些局限性，利用导航地图已成为一种有前景的低成本定位替代方案。当前基于导航地图的方法可以实现高精度定位，但其复杂的匹配策略导致不可接受的推理延迟，无法满足实时需求。为了克服这些局限性，这里提出了一种新颖的基于Transformer的重定位方法。受图像配准的启发，方法在导航地图和视觉鸟瞰图特征之间进行从粗到细的神经特征配准。在nuScenes和Argoverse数据集上，方法显著优于当前最先进的OrienterNet，在单视图和环视输入设置下，定位精度分别提高了近10%/20%，帧率分别提高了30/16 FPS。本研究为自动驾驶提供了一种无需高精度地图的定位方法，在挑战性驾驶环境中提供了经济高效、可靠且可扩展的性能。天皓智联开发板商城

行业背景介绍

随着过去十年自动驾驶技术的最新发展，鲁棒定位起到了至关重要的作用。自动驾驶车辆和人工驾驶导航都高度依赖于全球导航卫星系统（GNSS）进行室外定位，但这些信号在城市区域中容易受到干扰。周围基础设施产生的多径传播误差以及建筑物、隧道、桥梁等造成的视线遮挡，会严重影响GPS定位的准确性。如果没有有效的全局定位源，位置会迅速漂移。

在GPS信号不可用的情况下，需要额外的主动定位方法。通过利用先前构建的地图，如3D点云和独特的视觉特征，可以使用基于激光雷达的和基于视觉的SLAM方法进行定位。然而，这种基于点的先验地图非常消耗内存，不能用于自动驾驶任务中的大型环境。自动驾驶在很大程度上依赖于包含精确地理参考的地标和几何形状的高精度（HD）地图，特别是在GPS信号不可用的区域。然而，制作和维护这些地图的高昂成本严重限制了它们在不同环境和地理位置的可扩展性。因此，对HD地图的依赖已成为阻碍自动驾驶技术更广泛应用的主要瓶颈。随着感知算法的发展，如HDMapNet和MapTR等方法已经实现了在线HD地图生成，即使在定位精度较低的情况下，也能实现自动驾驶。

另一方面，我们从生物学中得到了启示，即人类驾驶员仅凭导航地图就能识别位置。通过将视觉观察与地图信息相关联，人类可以在复杂的城市环境中大致确定自己的位置。人类从周围环境中提取出道路结构、建筑轮廓和地标等高级语义信息，并利用认知能力将这些语义信息与导航地图进行匹配。目前，在机器人和增强现实（AR）领域，已经提出了类似的方法来模拟人类定位方法。然而，这些方法往往采用复杂的匹配策略进行定位，导致无法实现实时推理。因此，它们无法应用于自动驾驶系统。为了解决上述挑战，我们提出了MapLocNet，这是一种在满足实时性能要求的同时实现高精度定位的新方法。我们将环视图像编码到鸟瞰图（BEV）空间中，并使用U-Net处理导航地图。关键的创新之处在于采用了基于Transformer的分层特征配准方法，该方法有效地将视觉BEV特征与地图特征进行对齐，从而实现高精度定位。

本文提出的方法在定位精度和推理延迟方面都超越了当前的最先进（SOTA）方法。总体而言，贡献如下：

• 提出了MapLocNet，通过融合环视图像和导航地图实现了高精度定位，特别是在GPS信号不可用且定位漂移显著的区域。

• 引入了一种分层的由粗到细的特征配准策略，用于对齐鸟瞰图（BEV）和地图特征，与现有方法相比，实现了更高的定位精度和推理速度。

• 开发了一种新颖的训练准则，利用感知任务作为姿态预测的辅助目标。MapLocNet在nuScenes和Argoverse数据集上均达到了SOTA定位精度。

再次强调，这次研究提出了一种无需高清地图（HD-map-free）、可靠且类似于人类的定位方法，与现有方法相比，实现了更高的定位精度。

相关工作

构建高清地图成本高昂，因此近期的研究重点转向了基于轻量化导航地图的定位。Panphattarasap等人提出了一种新颖的基于图像的城市环境定位方法，该方法通过图像与二维地图之间的语义匹配来实现。Samano等人设计了一种新颖的方法，该方法通过学习低维嵌入空间来在二维导航地图上对全景图像进行地理定位。Zhou等人提出了一种基于2.5D地图的跨视图定位方法，该方法融合了二维图像特征和2.5D地图，以增强位置嵌入的区分度。OrienterNet提出了一种深度神经网络，该网络通过将神经鸟瞰图（BEV）与OpenStreetMap (OSM)中的可用地图进行匹配来估计查询图像的姿态，并实现了高精度定位。其他方法实现了跨视图地理定位，即将车辆上的摄像头图像与航拍图像或卫星图像进行匹配，以确定车辆的姿态。受先前研究的启发，我们提出了一种将视觉环境感知与导航地图相结合的定位方法。

将图像特征转换为鸟瞰图（BEV）网格的方法有很多，包括几何方法和基于学习的方法。Cam2BEV和VectorMapNet使用了几何方法，该方法利用逆透视映射（IPM）通过平面假设将图像特征转换为BEV空间。HDMapNet提出了一种新颖的view transformer，该转换器结合了神经特征提取和几何投影来获取BEV特征。LSS、BEVDepth、BEVDet通过学习图像特征的深度分布来将每个像素提升到三维空间。然后，它们使用相机的外部和内部参数将所有视锥体投影到BEV上。GKT提出了一种高效且鲁棒的二维到BEV的表示学习方法，该方法利用几何先验来引导转换器关注具有区分性的区域，并展开内核特征以获得BEV特征。BEVFormer利用预定义的网格状BEV查询来查找时空空间，并从图像中聚合时空信息，在三维目标检测方面取得了最先进（SOTA）的性能。为了平衡精度和效率，我们基于LSS架构设计了我们的BEV模块。

图像配准旨在找到一幅图像中的像素与另一幅图像中像素之间的空间映射，这一技术在医学成像和机器人技术研究中得到了广泛应用。传统的基于特征的方法利用从图像中检测到的关键点和其描述符来匹配不同的图像。最近，出现了基于卷积神经网络（CNN）和transformer的图像配准方法，以加快配准速度和提高配准精度。DIRNet提出了一种用于可变形图像配准的深度学习网络。该网络包括一个卷积神经网络（ConvNet）回归器、一个空间变换器和一个重采样器。C2F-ViT是一种基于学习的3D仿射医学图像配准方法，它利用自注意力机制的全局连接性和卷积前馈层的局部性，将全局方向和空间关系稳健地编码为一组几何变换参数。

最近的端到端（E2E）方法引入了有效的架构，这些架构直接从传感器输入和先验地图中估计自我姿态，从而避免了复杂的几何计算和手工制定的规则。PixLoc使用可微优化方法设计了一个端到端神经网络，通过将深度特征与参考三维模型对齐来估计图像的姿态。I2D-Loc提出了一种基于局部图像-激光雷达深度配准的有效网络，用于相机定位，并使用BPnP模块计算后端姿态估计的梯度，以进行端到端训练。BEV-Locator设计了一种新颖的端到端架构，用于从多视图图像和矢量化的全局地图中进行视觉语义定位。基于跨模态transformer结构，它解决了语义地图元素与相机图像之间跨模态匹配的关键挑战。EgoVM构建了一个端到端的定位网络，该网络使用轻量级矢量地图，并实现了厘米级定位精度。受上述工作的启发，我们的方法构建了一个基于transformer的端到端定位网络，以实现精确定位。

MapLocNet的总体架构

MapLocNet的总体架构包含三个主要模块：BEV模块、Map U-Net和神经定位模块。我们的方法采用了一种从粗到细的特征配准策略，从BEV解码器和Map解码器中提取多尺度特征，以执行分层特征对齐。在初始的粗配准阶段之后，该阶段会得出姿态偏移的粗略估计，对高分辨率的BEV特征应用空间变换，以促进后续的细配准过程。将两个阶段的预测结果相结合，得出最终的姿态偏移估计结果。

方法介绍

1）地图构建

由于我们的方法结合了导航地图输入和BEV语义分割标签，因此需要对不同的地图数据源进行适当的处理和融合：

地图光栅化：为了便于访问和全面覆盖，我们利用开放街道地图（OSM）作为导航地图数据源，如图3a所示。OSM使用多边形区域表示建筑物，使用多段线表示道路，使用节点表示交通信号灯和其他兴趣点（PoI）。如图3b所示，仅保留如建筑物、道路和PoI（交通信号灯、电线杆）等必要元素，它们的空间布局为定位提供了关键的几何约束。对于每个查询，我们检索一个以初始车辆定位坐标为中心的栅格化导航地图块。
分割标签：BEV语义分割标签来自两个来源。可行驶区域标签来自高精度地图数据，如nuScenes。作为补充来源，建筑物和PoI（兴趣点）标签来自导航地图，如OSM。
2）BEV模块

该模块旨在提取图像特征并将其投影到BEV空间以获得BEV特征。视觉输入可以是单目前视图像或多个环视图像。使用的图像越多，感知范围越广，从而提高定位精度。环视图像的一个示例如图3c所示。我们选择简单而有效的LSS架构作为主干。采用EfficientNet作为透视图（PV）编码器来提取图像特征。按照LSS程序，我们结合外部和内部参数将投影到大小为的BEV空间。我们认为纵向观测范围比横向范围宽，因此设置空间维度使得。在BEV解码器模块的不同上采样阶段，我们提取低分辨率、高通道数的粗特征和高分辨率、低通道数的细特征，这些特征用于后续的两阶段粗到细特征配准。通过BEV语义分割辅助任务来监督该模块，这可以更好地约束模型的学习目标，同时有效提高定位精度。

3）Map U-Net

我们采用U-Net架构从光栅化地图中提取特征。为了缩小地图特征与视觉BEV特征之间的模态差距，创新性地为这个模块引入了一个BEV分割辅助任务。使用VGG-16作为编码地图特征的主干网络。与BEV模块类似，在地图解码器的不同阶段，我们也提取粗级和细级的地图特征和，用于后续的分层特征配准。这里存在一个关系，即且，这有助于特征融合。我们使用与BEV模块相同的BEV分割标签来监督这个模块，从而约束两种特征之间的差异。

4）Neural Localization Module

该模块负责地图和视觉特征的融合以及姿态偏移的解码，是MapLocNet的核心模块。我们为姿态解码器设计了多种架构，并通过广泛的实验，确定了粗到细的特征配准作为最终的最优解决方案。

我们将神经定位表述为特征配准任务。受C2F-ViT的启发，这里采用Transformer编码器以粗到细的方式对融合的视觉BEV特征和地图特征进行自注意力计算。粗配准和细配准模块共享相同的架构。由于BEV特征和地图特征的宽度不同，我们在宽度维度上对BEV特征进行零填充，以匹配地图特征的宽度。考虑到计算消耗，我们在高度和宽度维度上将BEV和地图特征下采样4倍。遵循C2F-ViT的方法，我们还采用7x7的卷积核沿通道维度对它们进行融合，并将融合后的特征展平为顺序标记，以便对姿态隐藏特征进行自注意力编码。

由于这是一项与姿态相关的任务，位置编码至关重要。我们尝试了学习和固定位置编码两种方法，最终选择了正弦位置编码。然而，我们将位置编码坐标的原点移动到了特征图的中心。位置编码通过逐元素相加的方式注入到融合后的特征中。在每个神经定位模块中，我们设计了N个重复的Transformer编码器层，在实际应用中我们设置N=3。随后是一个由3层多层感知机（MLP）组成的姿态解码头。在粗略特征配准阶段估计出的3自由度姿态偏移量ξˆc被应用于精细的鸟瞰图（BEV）特征。随后，经过空间变换的BEV特征以及精细地图特征进行精细特征配准，以进一步缩小与真实姿态的差距，并获得ξˆf。两个阶段的累积输出共同作为最终的姿态偏移量估计。

5）损失函数

实验对比

数据集：为了确保全面评估，使用两个自动驾驶数据集nuScenes 和Argoverse 对我们提出的方法进行了训练和验证。nuScenes数据集包含在美国波士顿和新加坡采集的1000个驾驶序列。使用了nuScenes的默认训练集，其中包含850个序列。nuScenes验证集包含150个序列，用作我们的评估基准。Argoverse数据集包含在美国迈阿密和匹兹堡录制的113个场景，其中65个场景分配给训练集，24个场景分配给验证集。为了解决nuScenes和Argoverse数据集中缺少导航地图数据的问题，通过从开放街道地图（OSM）获取相应地理区域的导航地图来丰富我们的数据集。按照BLOSBEV 中概述的方法，通过定位坐标变换将导航地图与高清地图进行对齐。图3展示了导航地图信息局部部分与nuScenes数据集中同一位置的帧的对齐情况。

网络设置：除非另有说明，MapLocNet采用6张环视图像作为视觉输入。使用EfficientNet-B0 架构作为图像骨干网络，并将所有输入图像的分辨率调整为128×352。在训练阶段，应用必要的图像数据增强技术来提高模型的鲁棒性，包括随机裁剪、随机翻转和随机丢弃一个camera输入。在鸟瞰图（BEV）空间中，自车的感知范围被定义为沿纵向轴为[−64m, 64m]，沿横向轴为[−32m, 32m]，两者每像素的分辨率均为0.5米（mpp）。深度分布的区间为[4m, 60m]，分辨率为1mpp。对于每一帧，从栅格化导航地图中以自车位置为中心截取一个128m×128m的区域，分辨率为0.5mpp。

模拟3自由度（3-DoF）GPS误差：首先将栅格化导航地图的姿态和比例与nuScenes和Argoverse数据集中的高清地图对齐。在训练过程中，从栅格化导航地图中截取一个以自车位置为中心的区域。为了模拟GPS误差，我们对这个区域应用随机旋转θ ∈ [−30°, 30°]和随机平移t ∈ [−30m, 30m]。然后，裁剪出中央的128m×128m区域，作为MapLocNet的偏差地图输入。

训练细节：使用8块NVIDIA V100 GPU对模型进行200个周期的训练，大约需要48小时才能收敛。模型使用AdamW优化器进行优化，权重衰减为1e-7，批量大小为8，初始学习率为1e-4。使用余弦退火调度器在训练过程中调整学习率。

结果对比

1）对比方法

a) OrienterNet：在nuScenes和Argoverse数据集上使用了OrienterNet的官方实现进行训练和评估。为了确保公平比较，考虑到OrienterNet仅限于单目输入，我们也使用单摄像头输入对我们的方法进行了一系列并行实验。

b) U-BEV：由于U-BEV的任务与我们的相似，直接引用了其论文中提供的数据。值得注意的是，其定位结果不包括方向预测。因此，初始定位可能缺乏航向角误差扰动，这在某种程度上简化了任务。考虑到它使用了6张环视图像，将其归类为6摄像头配置的参考组。

c) MapLocNet DETR：受到DETR中解码器设计的启发，创造性地将姿态偏移作为查询Q，以从视觉鸟瞰图（BEV）特征和地图特征中检索融合特征。DETR解码器处理的特征随后通过相同的3层多层感知机（MLP）姿态头进行姿态解码。

d) MapLocNet CA：受LoFTR和GeoTransformer的启发，使用交叉注意力（CA）模块设计了我们的神经网络定位模块。将视觉特征作为查询Q，将地图特征作为键K和值V，从而实现跨域注意力计算。然后，由相同的姿态头对得到的特征进行解码，以进行姿态估计。

e) MapLocNet 一阶段版：我们的方法是分层的，这在某种程度上影响了推理速度。本文想探究在计算资源有限的情况下，方法是否仅通过一个阶段，即粗略特征配准，就能满足使用要求。因此，在这里测试了MapLocNet的一阶段版本。为了最大限度地降低计算复杂度，在一阶段实验中使用了粗略特征，而不是精细特征。与分层版本唯一的区别是，省略了精细特征配准，并直接将初始粗略阶段的输出作为最终结果。我们期望一阶段版本能在定位精度和推理速度之间取得平衡，而由粗到精的版本则能提高定位精度的上限。

2）定位结果

a) nuScenes：为简化表述，将一阶段方法和由粗到精的方法统称为特征配准（FR）架构。如表I所示，在实验中，使用6个camera的由粗到精的FR架构实现了最佳的定位性能。我们的一阶段FR架构表现出了最高的效率，达到了每秒24.4帧（FPS）。在单目实验组中，将FR架构的定位性能与OrienterNet进行了比较。提出的方法在计算效率和准确性方面都超过了OrienterNet，尤其是在速度上，比OrienterNet快了约30 FPS。

b) Argoverse：为了进一步展示我们模型的能力，我们在Argoverse[37]数据集上进行了实验。利用从nuScenes数据集获得的预训练权重，我们在Argoverse数据集上对模型进行了微调。我们还采用了相同的训练策略，将我们的方法与OrienterNet进行了比较。值得注意的是，如表IV所示，我们的模型在单目摄像头和环视摄像头配置下都表现出了卓越的定位性能。在所有输入设置下，我们的模型在准确性方面都显著优于OrienterNet，这凸显了我们方法的稳健性和通用性。

3）结果可视化

为了直观地展示模型的性能，图4仅展示了第二阶段配准中使用的高分辨率、低通道数的鸟瞰图（BEV）特征和地图特征。由于初始粗略配准中使用的高维特征视觉复杂性较高，因此在此省略。实验发现，在夜间场景中，由于建筑物可见度降低，模型性能略有下降。尽管如此，该模型在白天和夜间条件下都表现出了稳健的定位能力。

4）消融实验

论文进行了全面的消融研究，以评估各种开放街道地图（OSM）元素组合和损失函数配置对模型性能的影响。

输入OSM元素：对三个关键地图元素进行了消融研究：车道、建筑物和节点（包括交通信号灯和标志）。考虑到它们在环境中的普遍性，依次从输入中移除了节点和建筑物。表II显示，这三个元素都对定位性能有积极影响。与节点相比，移除建筑物导致的性能下降更为显著，这表明建筑物对定位的影响更大。值得注意的是，仅使用车道，模型就保持了相当的性能，这表明车道在定位中起着至关重要的作用。我们认为，从鸟瞰图（BEV）的角度来看，学习复杂度从节点到建筑物再到车道依次降低，而它们在环境中的普遍性则依次增加。这种相关性与它们在定位性能中的重要性增加是一致的。
损失函数：本实验旨在探究辅助分割任务对定位性能的影响。这里引入了鸟瞰图（BEV）损失，用于指导视觉分支的特征学习，以及地图损失，该损失使用相同的语义标签来减少视觉分支和地图分支之间的特征模态差异。如表III所示，纳入视觉BEV分割损失监督可以显著提升模型的定位性能。我们认为，这种损失改善了模型对环境结构的理解，提供了更清晰的定位线索。在加入地图分割损失监督后，模型的定位性能得到了进一步提升。我们假设栅格化地图和视觉BEV表示之间存在模态差异。通过统一两个分支的语义监督，我们缩小了这种模态差异，从而提高了模型的定位能力。