51c自动驾驶~合集17

原创

qq6669490e54384 2024-08-16 09:30:00 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#汇聚感知、定位、规划控制的自动驾驶系统

自动驾驶技术在应用到车辆上之后可以通过提高吞吐量来缓解道路拥堵，通过消除人为错误来提高道路安全性，并减轻驾驶员的驾驶负担，从而提高工作效率和休息时间等诸多好处。在过去的30年间，随着传感器和技术的进步使得必要硬件的规模和价格不断减小，在工业界和学术界对于自动驾驶汽车技术的研究力度稳步加大，目前已经取得了诸多的实质性进步。

因此，本文旨在概述自动驾驶汽车软件系统领域的最新发展。本文回顾了自动驾驶汽车软件的基本组成部分，并讨论了各个领域的最新发展。自动驾驶汽车软件系统的核心能力大致可分为三类，即感知、规划和控制，这些能力与车辆与环境的交互如下图所示。此外，可以利用车对车 (V2V) 通信，通过车辆协作进一步改善感知以及规划领域。

自动驾驶汽车软件和硬件的基本组成部分

通过上图可以看出，自动驾驶汽车的软件主要包括感知，规划和控制三个大方向。

感知：感知是指自主系统从环境中收集信息和提取相关知识的能力。环境感知是指发展对环境的情境理解，例如障碍物的位置、道路标志以及标记的检测以及根据语义对数据进行分类。定位是指自动驾驶汽车确定其相对于环境的位置的能力。
规划：规划是指为了实现自动驾驶汽车更高阶的目标而做出有目的的决策的过程，通常是将车辆从起始位置带到目标位置，同时避开障碍物并优化设计的启发式方法。
控制：控制能力是指自动驾驶汽车执行由更高级别流程生成的计划动作的能力。

文章链接：https://www.mdpi.com/2075-1702/5/1/6

感知部分

环境感知

环境感知是自动驾驶汽车的一项基本功能，它为汽车提供有关驾驶环境的重要信息，包括可自由驾驶区域和周围障碍物的位置、速度，甚至未来状态的预测。一般而言自动驾驶汽车上都会配置激光雷达、摄像头、毫米波雷达、超声波雷达等信息采集传感器来实现更高效、准确的周围环境感知。无论采用哪种传感器，感知任务的两个关键要素是路面提取和道路物体检测。

激光雷达传感器

激光雷达是一种光检测和测距设备，它以精心设计的模式每秒发送数百万个光脉冲。借助其旋转轴，它能够创建环境的动态三维地图。激光雷达是大多数现有自动驾驶汽车物体检测的核心。下图显示了3D激光雷达的理想检测结果，所有移动物体均被识别。

3D激光雷达检测到所有移动物体的理想检测结果

在真实场景中，激光雷达返回的点从来都不是完美的。处理激光雷达点的困难在于扫描点稀疏、缺失点和无组织的模式。周围环境也给感知带来了更多挑战，因为表面可能是任意和不稳定的。有时甚至很难从扫描点的可视化中感知到有用的信息。激光雷达的输出是从物体反射回来的稀疏3D点，每个点代表物体相对于激光雷达的3D位置。点的三种主要表示形式通常包括点云、特征和网格。因此，很多学术界的算法都在研究如何实现对于点云特征的更准确表达。

为了要感知3D点云信息，通常涉及两个步骤：分割和分类。有些可能包括第三步，即在时间维度上的积分，以提高准确性和一致性。点云的分割是将点进行聚类的过程，而分类是识别分割的点群的类别，例如自行车、汽车、行人、路面等。3D点云分割算法可分为五类：基于边缘、基于区域、基于属性、基于模型和基于图的各类算法。但随着如今技术的快速发展和迭代，又出现了基于深度学习算法的类别。

在进行点云的分割之后，每个点云簇需要分类为不同的对象类别。每个点云簇中嵌入的信息主要来自空间关系和点的激光雷达强度，这在对象识别中的用途非常有限。因此，大多数算法将通过一些融合机制来实现视觉检测问题。

视觉

自动驾驶汽车环境感知中的视觉系统通常涉及道路检测和道路物体检测。道路检测也包括两类：车道线标记检测和路面检测。

车道线标记检测：车道线标记检测是识别道路上的车道线标记并估计车辆相对于检测到车道线的姿态。这条信息可以作为车辆位置反馈给车辆控制系统。近年来，人们在这个领域进行了大量的研究工作，并取得了较为不错的成绩。
路面检测：路面检测可告知自动驾驶汽车可在不发生碰撞的情况下行驶的自由空间位置。这是任何在线路径规划和控制操作的先决条件。一般来说，方法可分为三类：基于特征、线索的检测、基于特征、线索的学习和深度学习。

对这部分感兴趣的读者可以在论文原文的第2.1.2小节中找到相关的学术论文和研究成果。

传感器融合

不同的传感器各有优缺点。需要传感器融合技术才能充分利用每个传感器的优势。在自动驾驶汽车环境感知方面，激光雷达能够进行3D 测量，并且不受环境照明的影响，但它提供的物体外观信息很少；相反，摄像头能够提供丰富的外观数据，其中包含有关物体的更多细节，但其性能在不同照明条件下并不一致；此外，摄像头不会隐式提供3D信息。考虑到上述的问题，目前基于工业界和学术界对于各类传感器融合算法开展了大量的研究并且取得了诸多出色的研究进展。相关的学术论文及研究成果可以详见论文原文的第2.1.3小节。

定位

定位是确定自车姿态并测量其自身运动的问题。这是实现自动驾驶的基本能力之一。然而，确定车辆的准确姿态（位置和方向）通常很困难，因此定位问题通常被表述为姿态估计问题。估计自车姿态的问题通常可以分为两个子问题，即姿态固定问题和航位推算问题。在姿态固定问题中，测量值与姿态通过代数或者超越方程相关联。姿态固定需要能够根据姿态（例如地图）预测测量值。在航位推算问题中，状态与观察值通过一组微分方程相关联，并且必须将这些方程积分才能导航。在这种情况下，传感器测量值不一定可以从给定的姿态推断出来。从这个意义上讲，姿态固定和航位推算相辅相成。

在定位问题上目前也有诸多的解决方案，定位车辆的最流行方法之一是卫星导航系统和惯性导航系统的融合。卫星导航系统，如GPS可以定期定位车辆的全球位置。它们的精度可以从几十米到几毫米不等，具体取决于信号强度和所用设备的质量。惯性导航系统使用加速度计、陀螺仪和信号处理技术来估计车辆的姿态，不需要外部基础设施。然而，如果不添加其他传感器，惯性导航系统的启动可能会很困难，并且误差会随着时间的推移而无限增长。有关于其它相关的定位解决方案可以阅读论文中第2.2节相关的技术细节。

规划部分

早期的自动驾驶汽车通常只是半自动驾驶，因为它们的设计功能通常仅限于执行车道跟踪、自适应巡航控制和一些其他基本功能。随着自动驾驶规划技术的快速发展，更全面的规划框架可以使自动驾驶汽车处理各种复杂的城市驾驶场景。任务规划（或路线规划）考虑的是高级的目标，例如接送任务的分配以及应走哪条路来完成任务。行为规划做出临时决策，以便与其他交通智能体正确交互并遵守规则限制，从而生成局部目标，例如，变道、超车或通过交叉路口。运动规划（或局部规划）生成适当的路径或者动作集以实现局部目标，最典型的目标是到达目标区域同时避免与障碍物碰撞。接下来，我们对此分别进行介绍。

任务规划

任务规划通常通过对反映道路或者路径网络连通性的有向图网络进行图形搜索来执行。Dijkstra算法或者A*算法等算法都是任务规划中的经典算法，感兴趣的读者也可以看下针对路线规划为主的综述性论文。

行为规划

行为规划器负责做出决策，以确保车辆遵守任何规定的道路规则，并以常规、安全的方式与其他交通智能体进行交互，同时沿着任务规划器规定的路线逐步前进。这可以通过结合本地目标设定、虚拟障碍物放置、可驾驶区域边界调整或者区域启发式成本调整来实现。

运动规划

运动规划是一个非常广泛的研究领域，应用于移动机器人和操纵臂，应用范围广泛，包括制造、医疗、应急响应、安全监视、农业和运输。在自动驾驶汽车这一研究领域，运动规划是指决定一系列动作以达到指定目标的过程，通常同时避免与障碍物发生碰撞。运动规划器通常根据其计算效率和完整性进行比较和评估。计算效率是指过程运行时间以及它如何根据配置空间的维数进行扩展。如果算法在有限的时间内终止，当存在解决方案时始终返回解决方案，否则指示不存在解决方案，则认为该算法是完整的。

运动规划的核心思想是通过将连续空间模型转换为离散模型，目前常用的一般是如下两类转换方法：

组合规划方法：组合规划器旨在通过构建一个离散表示来找到完整的解决方案，该方法准确地表示原始问题，但其特点是对于特殊情况求解器具有方便的属性。
基于采样的方法：基于采样的方法依赖于连续空间的随机采样，以及可行轨迹图（也称为树或路线图）的生成，其中通过检查节点和连接这些节点的边的碰撞来验证可行性。理想情况下，生成的路线图应提供所有无障碍空间的良好覆盖和连通性。然后使用路线图上的路径来构建原始运动规划问题的解决方案。

但是，在日常的自动驾驶汽车行驶过程中，许多操作环境并非静态的，因此无法预先知道。在城市环境中，行人以及周围的汽车会移动，道路会因施工或事故清理而绕行和封闭，视野也会经常受阻。自动驾驶汽车必须不断感知环境中的新变化，并能够在考虑多种不确定性的同时做出反应。不确定性来自感知传感器的精度、定位精度、环境变化和控制策略的执行，因此在实际的应用过程中，如何实现准确、舒适和高效的规划依旧是非常重要的挑战。

控制

自主系统的执行能力（通常也称为运动控制）是将意图转化为行动的过程；其主要目的是通过向硬件级别提供必要的输入来执行计划的意图，从而产生所需的运动。控制器从力和能量的角度映射现实世界中的交互，而自主系统中的认知导航和规划算法通常与车辆相对于其环境的速度和位置有关。控制系统内部的测量可用于确定系统运行情况，因此控制器可以做出反应以消除干扰并将系统的动态改变为所需状态。系统模型可用于更详细地描述所需的运动，这对于令人满意的运动执行至关重要。

反馈控制是许多应用中最常见的控制器结构。反馈控制使用测量的系统响应并主动补偿与期望行为的任何偏差。反馈控制可以减少参数变化、建模错误以及不必要的干扰的负面影响。反馈控制还可以修改系统的瞬态行为以及测量噪声的影响。然而，在控制器中仅使用反馈项可能会受到一些限制。仅反馈控制器的第一个重要限制是它对错误的响应延迟，因为它只在错误发生时才做出响应。纯反馈控制器还存在耦合响应的问题，因为对干扰、建模误差和测量噪声的响应都是由同一机制计算的。有关于控制相关的更多研究和解决方案可以参考论文中的第四节内容。

结论

近年来，随着自动驾驶技术的快速发展和迭代，各个自动驾驶系统的子模块也取得了日新月异的发展，本文就针对自动驾驶系统中的感知、规划和控制等软件系统进行了较为详细的总结和归纳，以帮助自动驾驶领域的从业者进行更好的学习。

#单目深度估计的扩散模型

原标题：Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions
论文链接：https://arxiv.org/pdf/2407.16698
代码链接：https://github.com/fabiotosi92/Diffusion4RobustDepth
作者单位：博洛尼亚大学

论文思路：

本文提出了一种新颖的方法，旨在解决单张图像深度估计任务中由挑战性、分布外数据带来的复杂性。首先，从那些由于没有不利因素而便于深度预测的图像开始，本文系统地生成包含全面挑战和相关深度信息的用户定义场景。这是通过利用具有深度感知控制的最前沿文本到图像扩散模型实现的，这些模型以生成高质量图像内容而著称，同时保持生成图像与源图像之间的3D结构一致性。随后，通过一种自蒸馏协议对任何单目深度网络进行微调，该协议考虑到使用本文策略生成的图像及其在简单、无挑战场景中的深度预测。针对本文的目的设计的基准测试实验展示了本文提案的有效性和多功能性。

主要贡献：

本文率先使用扩散模型作为一种新颖的解决方案，解决单张图像深度估计中的挑战，特别是涉及恶劣天气条件和非朗伯面(non-Lambertian surfaces)场景的情况。
通过蒸馏扩散模型的知识，本文的方法提高了现有单目深度估计模型的鲁棒性，尤其是在具有挑战性的分布外环境中。
本文的方法同时应对恶劣天气和非朗伯面挑战，展示了在实现与依赖额外训练信息的专门解决方案（如[18, 27]）相媲美的结果的同时，解决多个挑战性场景的潜力。

论文设计：

单目深度估计作为计算机视觉中的关键任务，由于深度学习技术的最新突破而取得了显著进展。这在多个领域有着广泛的应用，从增强机器人技术和增强现实到提高自动驾驶的安全性和精确度，特别是在由于资源或空间限制而无法依赖多张图像进行深度估计的情况下。然而，尽管单目深度估计在实际应用中具有优势，但它面临着从单张图像推断深度的挑战，这一问题被公认为具有不良设定和严重欠约束的特性。通常，解决这一挑战的方法包括通过监督方法[9, 15, 46, 61, 93, 98, 101]训练单目深度网络，使用主动传感器的标注数据，或利用在训练时使用立体图像对[29]或单目视频序列[112]的自监督技术。

最先进的模型，如DPT [69]和较新的Depth Anything [96]，结合了大量数据集的见解，每个数据集的深度标注使用不同的技术提取。这种广泛的训练协议使这些模型能够在广泛的现实场景中表现出色。然而，必须强调的是，即使这些模型在许多设置中表现优异，当处理远离训练期间观察到的分布的数据时，仍面临显著挑战，例如恶劣条件（如雨天和夜间）或具有非朗伯表面的物体。这些挑战主要源于缺乏用于鲁棒模型训练的高质量标注数据，以及现有基于视觉的深度提取技术和主动传感器（如LiDAR、ToF、Kinect等）的局限性，这些技术在复杂环境中（如雨、雪或具有特定反射特性的材料）表现不佳。因此，在这些情况下的深度估计往往不可靠，对依赖准确3D信息的后续应用产生严重影响。通常，当前的方法倾向于独立解决这些挑战。有些方法专注于解决光照不足和恶劣天气的问题 [26, 27, 91]，而另一些则处理非朗伯表面的问题 [18]。这些分散的方法突显了需要一种统一的方法——一个能够同时处理所有不利场景的单一框架，提供更鲁棒和通用的解决方案。

在这项工作中，本文引入了最初为图像合成设计的扩散模型[20, 44]，作为一种开创性的策略，以应对那些位于通常用于训练深度估计模型的数据分布长尾部分的图像所带来的严峻挑战。

基于具有多模态控制的文本到图像扩散模型的原理[56, 106]，本文旨在创建一个多样化的高度逼真的场景集合，这些场景准确复制特定参考环境的3D结构，但有意地加入了各种不利因素。重要的是，这些条件完全是任意的，可以根据特定应用的需求通过用户定义的文本提示进行定制。

更具体地说，本文的方法首先选择那些最初描绘没有与不利条件相关的复杂性的场景图像。这些样本可以从现有的现实世界数据集[17, 28, 57]中获取，通过自定义集合收集，甚至可以使用生成模型[2, 59]生成。对于预选的图像，本文采用任何现成的单目深度估计网络来提供场景的初始3D表示。重要的是，这样的模型可以在不同的大规模数据集上进行预训练，或者根据应用需求定制到特定领域。

随后，本文应用文本到图像扩散模型，将最初简单的图像转化为更复杂的图像，同时保持相同的基础3D场景结构（即深度）。在结合复杂和简单图像后，用于3D数据生成的预训练深度网络进入微调阶段。在此阶段，本文将模型暴露于组合数据集，提供具有挑战性的训练图像及其在初始步骤中获得的相应深度图。这一微调过程提升了单目网络推断深度的能力，使其能够更好地处理不利环境，如图1所示。

图1：框架结果。从上到下分别为：源图像、原始Depth Anything [96]的深度预测，以及本文微调版本的结果。

本节概述了本文的框架，如图2所示，旨在改善在不利环境下的单目深度估计。假设在一个领域中不存在同时描绘简单和复杂条件的图像，本文的方法使用具有深度感知控制的扩散模型将简单样本转换为复杂样本。随后，本文通过自蒸馏和使用生成数据的尺度和偏移不变损失来微调预训练的单目深度网络。

图2：方法概述。左侧：图像生成和自蒸馏。扩散蒸馏数据（上）：简单图像（）和文本提示（）输入到条件扩散模型中生成不利场景（）。深度标签蒸馏（下）：预训练网络从简单图像（）估计深度（）。使用（）对进行微调，采用尺度和偏移不变损失。右侧：微调后的网络在测试中处理从简单到复杂场景的多样化输入。

图3：生成图像——天气条件。(a-b)：来自KITTI 2015 [54]的RGB图像和深度图。(c-f)：由扩散模型[56]生成的图像，这些图像由(b)中的深度图和每个子图中指示的文本提示条件生成。

图4：生成图像——ToM对象。从上到下分别为：来自Stable Diffusion [2]的简单场景，来自Depth Anything [96]的深度图，使用[56]生成的转换场景。

实验结果：

图5：定性结果。从上到下分别为：RGB图像、原始模型预测的深度图以及使用本文方法微调版本预测的深度图。开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用 whaosoft aiot自动驾驶也可以哦

总结：

本文引入了一种开创性的单目深度估计训练范式，该范式利用扩散模型来应对分布外场景。通过将简单样本转换为复杂样本，本文生成了捕捉现实世界挑战的多样化数据。本文的微调协议增强了现有深度网络的鲁棒性和泛化能力，使其能够在不需要特定域数据的情况下处理恶劣天气和非朗伯表面。跨多个数据集和最先进架构的广泛实验表明了本文方法的有效性和多功能性。

#自动驾驶行车&泊车~从原理到实践

自动驾驶的两大基础任务：行车&泊车

说起智能驾驶最核心的功能，无疑是行车和泊车。行车功能几乎占据了智能驾驶99%的时间，日常使用最多的自适应巡航控制（ACC）、车道居中控制（LCC）、自动变道辅助（ALC）、高速领航驾驶辅助（NOA）等等都属于行车的范畴。泊车功能相对简单一些，主要是低速场景的车位泊入及泊出，包含低速遥控泊车（RPA）、记忆泊车（HPA）和代客泊车（AVP）。

行车泊车功能的实现包括感知、预测、规划等多个任务，而评价智驾功能安全性及舒适度的决定因素在于规划控制。规划控制作为整个自动驾驶/机器人算法流程中最下游的模块，直接影响司机和乘客的乘车体验，更直接一点：转弯加减速是否丝滑、行车轨迹规划是否符合人类驾驶习惯、车位泊入是否顺畅等等。

虽然特斯拉FSD V12之后，国内各大新势力都在攻坚端到端。但据了解，国内端到端落地尚不明朗，很多公司的端到端虽然已经对外声称上车，但效果相比于rule-based方案，仍然有较大差异。很多公司仍在demo阶段，还不敢投入主战场。直接使用模型输出的规划结果，不出意外的话会不停地『画龙』，安全性根本无法保障，因此仍然需要传统规控兜底。特别是对安全性要求更高的L4，传统规控仍然占据主导地位，短时间内想要替换比较困难。

业内主流的决策规划框架

规划控制发展至今，行业也衍生出很多的决策规划框架，目前主要有以下三大类：

路径速度解耦的决策规划框架；
时空联合的决策规划框架；
数据驱动的决策规划框架。

据了解，业内绝大多数公司采用的都是路径速度解耦的决策规划框架。并且这种方法的上限也是很高的，不少公司都基于该框架实现了无人化的操作。而这种框架最具代表性的方法便是百度Apollo EM Planner，像地平线、大疆、华为、Momenta等诸多主流自动驾驶和芯片公司都有Apollo的影子或基于此直接进行二次开发。

自动驾驶领域为了缩短开发周期，减少框架稳定性的验证，一般会基于优秀的开源框架进行二次开发，比如ROS、Apollo等，重复造轮子对快节奏的自动驾驶行业不是很可取。

而Apollo从2017年4月发布1.0到2023年12月的9.0，已经走过了7个年头。作为最成熟的开源框架影响了无数的自动驾驶从业者，开源Apollo框架集成了很多实用的算法，工程架构完备且方便迁移使用，所以很多初创公司更是直接基于Apollo框架开发产品，可以说Apollo推动了自动驾驶行业的快速发展，这一点百度真的很有远见。

因此，对于刚入门决策规划的小白来说，Apollo决策规划框架是最合适的入门学习内容；对正在找工作和已经工作的同学来说，Apollo也是面试和开发绕不开的点。

从学习/工程角度来说：Apollo框架工程性强，C++代码规范，集成了众多优秀的算法实现。
从面试角度角度来说：对于大部分基础问题, 几乎都可以从Apollo开源代码里找到答案！
从就业角度来说：百度的招聘直接明确的标明"熟悉开源Apollo"优先。如果你学过 Apollo, 绝对是一个很大的加分项。

决策规划的难点在哪里？

整体来说，规划控制相比于感知对理论知识的要求较高。目前业界主流的行车规划EM Planner、泊车规划Hybrid A*。且量产部署均是基于C++开发优化。这段时间有很多小伙伴咨询行车&泊车决策规划的相关问题，市面上已有的鞠策规划相关学习资料质量参差不齐

#MambaST

一种即插即用的跨光谱时空融合器，用于高效行人检测

论文标题：MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection MambaST: 一种即插即用的跨光谱时空融合器，用于高效行人检测
论文会议：The 27th IEEE International Conference on Intelligent Transportation Systems (IEEE ITSC 2024)
论文作者：Xiangbo Gao等

1.写在前面

行人检测是自动驾驶等应用中的一项重要任务，然而在低照明场景（如夜间），可见光（RGB）摄像头难以单独检测到行人，因此跨光谱融合方法显得尤为重要，利用热成像和可见光摄像头的互补信息提升检测效果。此外，行人视频数据中的顺序运动信息也强调了结合空间和时间信息的重要性，以提高检测性能。虽然多模态融合和时空建模已取得一定进展，但跨光谱时空融合仍有待进一步研究。已有的方法主要集中在单帧的跨光谱空间融合，或多帧单模态输入。针对这一问题，本文提出了一种名为MambaST架构，基于状态空间模型（Mamba），首次结合了跨光谱的空间和时间信息，提出了多头层次化分块和聚合（MHHPA）模块，用于层次化时空特征提取。实验结果表明，MambaST在检测性能和模型效率上有显著提升，同时所需的模型参数和计算资源更少。

相关工作总结

跨模态融合方法

多模态传感器数据提供了互补信息，常见的跨模态传感器组合包括RGB-thermal、RGB-LiDAR和RGB-Depth传感器，特别是在低光照环境下，热成像摄像头因其在各种光照和环境条件下能够提供详细的灰度图像而成为一种重要的融合传感器。

Mamba 和 Vision Mamba 的基础

Mamba 是一种用于序列建模的状态空间模型（SSM），其最初应用于一维序列数据。随后，研究人员将其扩展到二维图像数据，用于视觉任务。这些扩展版本（如 VMamba 和 Vision Mamba）通过将图像划分为路径序列或加入位置嵌入，展示了Mamba架构在图像特征提取方面的潜力。尽管已有研究使用Mamba进行多模态融合，但这些工作主要集中在单帧融合上，未能推广到多时序序列。

时序融合

为了进行时间融合，已有的方法包括3D卷积、自适应2D卷积和Transformer等，但这些方法通常无法处理多模态输入。其他方法则集中在单帧跨光谱空间融合，无法直接适应时间融合。在本文中，我们提出了一种扩展Mamba架构的方法，通过递归连接帧间的特征值，实现时序序列的融合。

2.方法论详细总结

模型架构概述

多头层次化分块和聚合（MHHPA）

为了同时提取RGB和热成像特征图中的细粒度和粗粒度信息，本文提出了一种新的多头层次化分块和聚合（MHHPA）结构。现有的方法，如VMamba和Vision Mamba模型，通常在平展特征之前对其进行分块和标记，这样可以有效减少时间复杂度，但可能导致潜在的信息丢失，削弱模型提取细粒度信息的能力。相反，直接平展特征图用于融合的方法（如一些热成像-RGB融合工作）则可能引入噪声，特别是对于小物体的特征表示。因此，MHHPA模块通过层次化结构同时提取细粒度和粗粒度信息，并将它们结合在一起，从而平衡了信息提取的精细度和噪声去除。

顺序感知的拼接和平展（OCF）

为了在多光谱特征图的平展过程中保持空间连续性，本文提出了顺序感知的拼接和平展（OCF）过程。对于每一帧在时间 t 的特征图，OCF过程将来自RGB和热成像特征图的像素交替拼接，并按顺序平展，从而确保在平展表示中保持多光谱数据的结构完整性和空间关系。

OCF的具体公式如下：

用于时间融合的递归结构

本文在MHHPA模块的基础上引入了递归结构，通过在时间帧之间建立递归连接，实现了时序序列的融合。基于Mamba的转换函数公式：

这一递归结构通过时间上的连接，有效地结合了时空信息，显著提升了行人检测的性能。

3.实验结果详细总结

数据集和评价指标

我们在KAIST多光谱行人检测基准数据集上评估了所提出的MambaST方法。训练使用的是、清理后的标注数据集，包括41个视频序列，总计7,601对图像。测试则在25个视频序列中的2,252对图像上进行。

我们在KAIST基准数据集中提供了两个设置下的评估结果：合理（reasonable）和合理小尺寸（reasonable small）。“合理”设置包括高度超过55像素且未遮挡或部分遮挡的行人，而“合理小尺寸”设置包括高度在50到75像素之间的行人。两种设置都使用日志平均错失率（LAMR）作为评价指标，LAMR值越低，性能越好。我们还报告了召回率，较高的召回率表示较低的假阴性率。此外，为评估算法效率，我们报告了推理过程中的模型参数数量和GFLOPs值，参数和GFLOPs值越低，意味着处理图像序列所需的计算资源越少，效率越高。

实现细节

与其他跨模态融合方法的比较

我们将所提出的MambaST融合模块与RGB单模态和热成像单模态方法进行了比较，还包括基本特征加法策略和跨模态融合Transformer（CFT）。在基本特征加法策略中，RGB和热成像特征简单相加，所得特征图在模态间进行广播，这作为基线比较。对于更高级的跨模态融合方法，我们比较了CFT，这是一种顶级的跨模态融合方法。由于原始CFT模型仅适用于单帧，为了实现时间融合，我们实现了三个CFT的变体进行全面比较：1）CFT模型，原始CFT逐帧应用；2）T-CFT模型，通过拼接所有时间步的特征图整合时间信息；3）D-CFT模型，这是一种变体，使用可变形注意力替代Transformer中的标准自注意力，以更高效地处理时间数据。

小目标检测的评估

根据KAIST基准设置，将高度在50到75像素之间的行人视为小尺寸目标。实验结果表明，MambaST在所有设置中表现优异，尤其是在小尺寸目标检测中，显著提高了准确率和召回率。

效率评估

我们评估了推理过程中所需的参数数量、GFLOPs值以及延迟时间。相比于其他方法，MambaST在达到更好检测性能的同时，所需参数数量和GFLOPs值最低，并且具有相对较低的推理延迟。

与当前最先进方法的比较

我们将MambaST与KAIST数据集上的最先进的融合方法进行了比较。实验结果表明，MambaST在夜间场景下的检测性能最为优异，并且随着输入帧数的增加，检测性能进一步提升。

消融研究

我们进行了多组消融研究，评估不同参数选择的效果。首先，我们测试了MHHPA块中不同分块尺寸的数量。实验结果表明，在第一个MHHPA块中使用四个分块尺寸，并在随后的块中省略分块操作，能够在合理和合理小尺寸设置下实现最低的LAMR。其次，我们评估了顺序感知拼接和平展模块（OCF）的影响，发现引入OCF进一步提高了检测性能。最后，我们测试了不同帧数（）的影响，实验表明使用更多帧数能进一步提升模型性能，证明了Mamba模型在处理长序列上的优势。

4.可视化结果

#自动驾驶CornerCase变小Case

数据的收集、标注和整理过程既耗时又昂贵是自动驾驶技术发展不得不面对的问题。结合世界模型、扩散模型，来生成高质量的训练数据，为自动驾驶系统提供了更加真实和复杂的模拟环境。这种方法不仅降低了对真实世界数据集的依赖，还显著提高了数据生成的效率和多样性，为自动驾驶系统提供了更丰富的训练样本，使自动驾驶系统能够更好地适应各种复杂的交通场景，有助于提升其泛化能力和鲁棒性。

具体来说，近年来研究者多聚焦于如何让各种生成式技术各显神通，提升仿真各环节的“能力上限”。如：

1）基于世界模型生成高质量的驾驶视频和驾驶策略，在仿真环境中模拟各种复杂场景，提升系统的鲁棒性；

2）通过整合大语言模型，可以生成多视图的自动驾驶视频，充分考虑交通流、道路状况、行人行为等多种因素，实现定制化的交通模拟；

3）从原始传感器数据中提取特征，并生成自动驾驶的规划结果，实现生成式端到端自动驾驶……

4）加强自动驾驶系统的局部语义表示和图像推理能力，使得自动驾驶系统能够更好地理解交通场景中的语义信息，如交通标志、行人意图等，从而提升决策制定的准确性和安全性。

来看一些典型成果的分析。

DetDiffusion：协同生成模型和感知模型，以增强数据生成和感知

https://arxiv.org/abs/2403.13304

DetDiffusion是一个结合了生成模型和感知模型的框架，旨在提高数据生成和感知的性能。DetDiffusion的目标是通过感知信息增强图像生成质量，并促进下游感知任务的性能。模型通过在生成过程中提取和利用感知属性（Perception-Aware Attribute, P.A. Attr）来定制数据增强。感知属性为一种特殊的标记，通过预训练的检测器（如Faster R-CNN或YOLO系列）从图像中提取对象属性，属性包括类别、位置和检测难度，这些属性被设计为特殊的标记，以帮助扩散模型生成与感知模型训练目标更一致的图像。此外，模型通过分割引入了感知损失（Perception-Aware Loss, P.A. Loss），从而提高了质量和可控性。感知损失是一种新颖的损失函数，利用来自分割头的丰富视觉特征，以实现更精细的图像重建。它结合了掩码损失（mask loss）和dice损失，特别针对感知增强进行优化。

DetDiffusion的编码器使用预训练的Vector Quantized Variational AutoEncoder (VQ-VAE)，将原始图像编码到潜在空间。文本编码器使用预训练的CLIP模型将文本条件编码。然后连接一个包含不同尺寸的resnet和transformer网络的UNet，用于生成过程，并通过交叉注意力机制整合条件变量。模型还基于UNet中间特征的分割模块引入分割头，用于生成对象掩码，与标签真实值结合以增强可控性。训练时，首先利用感知属性作为条件输入，通过感知损失进行监督，生成高质量的图像。然后通过优化模型的高维特征空间，使用感知信息进行更准确的图像合成。

结果显示，DetDiffusion在图像质量和与布局的一致性方面超越了现有的图像（L2I）模型，并且在目标检测任务中表现出色，显著提高了检测器的训练性能。生成的图像与真实图像在视觉上高度一致，展现了模型在图像生成方面的高保真度和准确性。

DriveDreamer：迈向真实世界的自动驾驶世界模型

https://arxiv.org/abs/2309.09777

DriveDreamer是一个为自动驾驶设计的现实世界驱动的世界模型，它能够生成高质量的驾驶视频和驾驶策略。DriveDreamer利用扩散模型（diffusion model）来构建对复杂环境的全面表示，它采用两阶段训练流程，首先让模型理解结构化交通约束，然后赋予模型预测未来状态的能力。第一阶段训练Auto-DM（Autonomous-driving Diffusion Model），用于模拟和理解真实世界驾驶视频。该阶段以结构化交通信息作为条件输入，包括高清地图（HDMap）和3D盒子（3D box），使用时间注意力层（temporal attention layers）增强生成视频帧的一致性。第二阶段训练ActionFormer，它是用于基于驾驶动作预测未来的交通结构条件。具体为利用门控循环单元（GRU）迭代预测未来的隐藏状态，这些状态随后被解码成未来的交通结构条件。

DriveDreamer模型包括一个条件编码器，用于嵌入不同的条件输入，如参考图像、HDMap、3D盒子和动作。然后通过扩散步骤估计噪声并生成与输入噪声的损失，以优化Auto-DM。最后通过交叉注意力促进文本输入与视觉信号之间的特征交互，使文本描述能够影响生成的驾驶场景属性。训练时通过文本提示动态调整生成视频的风格，例如天气和一天中的时间。还可以通过编码历史驾驶动作和Auto-DM提取的多尺度潜在特征，生成合理的未来驾驶动作。DriveDreamer还可以扩展到多视图图像/视频生成，使用视图注意力层来保持生成内容的一致性。

DriveDreamer模型的创新之处在于其对真实世界驾驶场景的深入理解，引入了Auto-DM和两阶段训练流程，以及能够生成与交通约束高度一致的驾驶视频和基于历史观察的合理驾驶策略。这为自动驾驶的实际应用提供了一个强大的工具，特别是在提高驾驶安全性和效率方面。

DriveDreamer-2：LLM增强的世界模型，用于多样化的驾驶视频生成

https://arxiv.org/abs/2403.06845

DriveDreamer-2是一个根据用户描述生成用户自定义的驾驶视频，增强了生成视频的多样性和定制化能力。它在DriveDreamer的基础上进行了增强，并整合了大型语言模型（LLM）。DriveDreamer-2首先集成了一个大型语言模型（LLM）接口，用于将用户的查询转换成代理轨迹（agent trajectories）。然后通过HDMap生成器基于轨迹生成遵守交通规则的高清地图（HDMap），作为视频生成的背景条件。文章引入一个统一多视图模型（UniMVM），用于在DriveDreamer框架内生成多视图驾驶视频，统一了视角内和视角间的一致性。通过调整掩码（mask），UniMVM能够实现基于初始帧、前视视频输入以及无需图像输入的视频生成。

模型能够实现定制化交通模拟，即利用构建的功能库对大型语言模型进行微调，使其能够基于用户文本输入生成代理轨迹。并且，HDMap生成器使用扩散模型来模拟道路结构，将之前生成的代理轨迹作为条件输入。DriveDreamer-2能够生成高质量的驾驶视频，其Fréchet Inception Distance (FID)和Fréchet Video Distance (FVD)分数分别为11.2和55.7，相比之前的方法有显著提升。总体来说，DriveDreamer-2的主要贡献在于：（1）它提出了一个使用文本提示生成多样化交通条件的交通模拟管道。（2）引入UniMVM框架提升了生成视频中的时间和空间连贯性。（3）通过大量实验验证了DriveDreamer-2生成多样化定制化视频的能力，并且提升了下游任务的性能。

GenAD：生成式端到端自动驾驶

https://arxiv.org/abs/2402.11502

文章介绍了一个名为GenAD（Generative End-to-End Autonomous Driving）的框架，旨在通过生成模型直接从原始传感器数据中生成自动驾驶的规划结果，实现生成式端到端自动驾驶（Generative End-to-End Autonomous Driving）。本文探索了端到端自动驾驶的新范式，其中关键是如何根据过去的场景演变预测自我汽车和周围环境，将自动驾驶转变为生成建模问题。文章提出了一个以实例为中心的场景表示（Instance-Centric Scene Representation），首先使用一个场景标记器（scene tokenizer）将周围场景转换为具有地图意识的实例令牌（map-aware instance tokens）。然后通过背景网络提取图像特征，并将它们转换到3D鸟瞰图（BEV）空间。最后使用交叉注意力（cross-attention）和自注意力（self-attention）机制来细化地图和代理（agent）令牌，同时整合实例和地图信息。然后，使用变分自编码器（VAE）学习将真实轨迹映射到高斯分布的潜在空间，以模拟轨迹的不确定性和结构化先验，以进行轨迹先验建模（Trajectory Prior Modeling）。最后，为实现潜在未来轨迹生成（Latent Future Trajectory Generation），采用门控循环单元（GRU）对潜在空间中的实例进行自回归建模，以生成更有效的未来轨迹。

GenAD框架将自动驾驶视为一个生成问题，通过在结构化潜在轨迹空间中采样，并使用学习到的时间模型来生成未来场景，同时执行运动预测和规划。在训练阶段，使用实例分布和真实轨迹分布之间的Kullback-Leibler散度损失来强制分布匹配。在推理阶段，丢弃未来轨迹编码器，根据实例令牌的条件在潜在空间中采样，并使用学习到的时间模型生成未来轨迹。在nuScenes基准测试中进行了广泛的实验，证明了GenAD在基于视觉的端到端自动驾驶中取得了最先进的性能，并且具有高效率。

MagicDrive：具有多种 3D 几何控制的街景生成功能

https://arxiv.org/abs/2310.02601

文章介绍了一个名为MAGICDRIVE的框架，它是一个用于生成多视角街道视图图像和视频的模型，这些图像和视频可以捕捉精细的3D几何细节和各种场景描述。该框架通过定制的编码策略，实现了对相机姿势、道路地图、3D边界框和文本描述的精确控制。为了实现多样化的3D几何控制，模型需要理解不同相机姿势（Camera Pose）下的视图，包括内部参数（如焦距）和外部参数（如相机在世界坐标系中的位置和旋转）。模型以道路地图作为背景条件，提供了道路的二维网格格式信息，包括道路、人行道、交通标志等。3D边界框（3D Bounding Boxes）用于表示场景中对象的位置和尺寸，包括车辆、行人等，每个边界框由其8个角点的坐标定义。

通过定制编码策略提供多样化的 3D 几何控制，包括：（1）场景级编码（Scene-level Encoding）：使用模板构建文本提示，并利用预训练的CLIP文本编码器处理文本描述。（2）3D边界框编码（3D Bounding Box Encoding）：使用交叉注意力机制对每个边界框进行编码，包括类别标签和边界框位置。（3）道路地图编码（Road Map Encoding）：使用额外的编码器分支来处理道路地图信息，实现视图转换和与3D边界框的协同。此外，为了保持不同相机视角之间的一致性，MAGICDRIVE引入了一个交叉视角注意力模块（Cross-View Attention Module）。该模块允许目标视图从其相邻的左侧和右侧视图中获取信息，并通过注意力机制进行信息聚合。在训练时，使用分类器自由引导（Classifier-Free Guidance, CFG）来加强条件引导的影响，简化了在训练中丢弃条件的策略。

实验结果显示，MAGICDRIVE在生成现实感强、与3D注释高度一致的街道视图方面表现出色，可以显著提高BEV分割和3D目标检测任务的性能。MAGICDRIVE框架通过其定制的编码策略和交叉视角注意力模块，实现了对街道视图生成的精确控制，同时保持了多视角之间的一致性，为自动驾驶领域的3D感知任务提供了强大的数据支持。

CarDreamer：基于世界模型的自动驾驶开源学习平台

https://arxiv.org/abs/2405.09111

CarDreamer是一个为自动驾驶开发和评估基于世界模型（World Model, WM）的强化学习（Reinforcement Learning, RL）算法的开源学习平台。CarDreamer的架构包括三个主要部分：内置任务、任务开发套件和世界模型背骨：（1）世界模型Backbone（World Model Backbone）：集成了最先进的世界模型，如DreamerV2、DreamerV3和Planning2Explore，使用户能够轻松地再现RL算法的性能。这些模型通过标准的Gym接口与其他组件解耦和通信。（2）内置任务（Built-in Tasks）：提供了一系列高度可配置的驾驶任务，这些任务与Gym接口兼容，并配备了经验优化的奖励函数。任务包括变道、超车等，允许在难度、可观察性、观察模态和车辆意图交流方面进行广泛定制。（3）任务开发套件（Task Development Suite）：通过API提供了一系列功能，包括API驱动的车辆生成和交通流控制，以及模块化的观察者（Observer）用于轻松收集多模态数据。此外，还有一个可视化服务器，允许用户通过浏览器实时追踪代理驾驶视频和性能指标。

使用DreamerV3作为模型Backbone，在CarDreamer中的不同任务上进行训练和评估。实验结果展示了在不同驾驶任务中WM的性能。文章评估了在不同观察模态（BEV、相机、激光雷达）下，世界模型预测未来状态的能力。实验结果表明，无论观察模态如何，世界模型都能准确预测未来。此外，CarDreamer允许车辆之间进行不同程度的通信，包括视野共享和意图共享。实验结果表明，通信可以显著提高交通的安全性和效率。