#AllWeather-Net
拿捏所有天气!增强所有恶劣环境图像~
论文题目:AllWeather-Net: Unified Image Enhancement for Autonomous Driving Under Adverse Weather and Low-Light Conditions
论文链接:https://arxiv.org/pdf/2409.02045
代码链接:https://github.com/Jumponthemoon/AllWeatherNet
作者单位:利兹大学 澳大利亚国立大学 Edge Hill University 中山大学深圳校区
论文思路:
恶劣条件如雪、雨、夜间和雾,对自动驾驶感知系统构成了挑战。现有方法在提升语义分割等关键计算机视觉任务的效果上有限,且通常仅关注某一种特定条件,如去除雨滴或将夜间图像转换为白天图像。为了解决这些局限性,本文提出了一种方法来改善因这些恶劣条件而退化的视觉质量和清晰度。本文的方法,AllWeather-Net,采用了一种新颖的分层架构,以增强在所有恶劣条件下的图像。该架构通过区分每个层次的patches,在场景、物体和纹理三个语义层次上整合信息。此外,本文引入了一种 Scaled Illumination-aware Attention Mechanism (SIAM),该机制引导学习关注对自动驾驶感知至关重要的道路元素。SIAM表现出较强的鲁棒性,不受天气条件或环境场景变化的影响。AllWeather-Net有效地将图像转换为正常天气和白天场景,展示了卓越的图像增强效果,并随后提升了语义分割的性能,在训练域中mIoU提高了最多5.3%。本文还通过将模型应用于未见过的域而无需重新训练,展示了模型的泛化能力,mIoU提高了最多3.9%。
论文设计:
自动驾驶系统在很大程度上依赖于清晰且最佳的环境图像;然而,由于自然条件如雪、雨、雾、夜间低光等的影响,这在现实生活中无法得到保证。这些条件会显著降低能见度并扭曲图像中的信息,从而影响自动驾驶感知系统的性能,包括但不限于目标检测和语义分割。
为了解决上述问题,一些方法通过去雨 [22,24]、去雾 [3,25] 和去雪 [15,21,27] 来去除天气伪影。此外,一些统一框架 [4,12,14] 处理三种类型的天气,但主要集中在去除水文颗粒,忽略了颜色和纹理细节的变化;因此,在恶劣天气条件下,这些方法对自动驾驶计算机视觉系统的有效性受到限制。
与天气伪影去除相比,像素级图像转换方法将恶劣天气情况转换为晴天图像风格。然而,这些方法主要集中于特定的单一条件,如雨天 [13] 或夜间场景 [2]。此外,模型可能会改变无关像素或区域,引入不必要的变化,导致视觉不一致,并对下游任务的性能产生负面影响。同样,低光增强旨在改善在低光条件下拍摄的图像的可见度和质量。这涉及增强昏暗图像的亮度、对比度和细节;然而,这种技术可能会错误地使已经光线充足的区域变得过亮,导致在如雪天等天气条件下出现过曝现象,如图2所示。
图2:(a) 原始图像。在恶劣条件下对图像处理技术进行语义分割评估揭示了以下方法的不足:(b) 天气效果去除 [4],(c) 像素级转换 [29],以及 (d) 低光增强 [16]。这些方法处理后的图像要么未能充分增强图像质量,要么引入了伪影,影响了语义预测的准确性。(e) 本文的方法 AllWeather-Net,有效地增强了颜色和纹理细节,同时保留了大部分原始图像信息,实现了最佳性能。
本文旨在通过调整图像属性和增强纹理来改善在四种不同恶劣条件下的图像质量和清晰度,并在一个统一的框架内实现。随后,本文希望提升语义分割的性能。为了实现这一目标,本文需要考虑几个关键因素:
首先,虽然统一网络具有成本效益,但天气的多变性会引入学习过程中的不稳定性。因此,找到一个稳定且不变的信号来引导网络学习,从而确保在所有条件下的一致性能是至关重要的。其次,不利条件对捕获图像的不同区域产生不同的影响。例如,在雾天场景中,由于光散射和衰减,远处的物体比近处的更加模糊。此外,恶劣天气条件往往保留图像中的大模式,同时减弱细节的清晰度。因此,既要注重整体增强,也要关注纹理细节的精细恢复。这促使本文设计一个在上下文上敏感并对纹理变化敏感的网络架构。最后,采用配对训练策略可以提高性能,但由于GPS配对不准确和环境变化,在自动驾驶场景中找到完全匹配的图像对是具有挑战性的。作为替代方案,本文考虑采用一种策略,在无法获得完全匹配的图像对时,利用大致对齐的图像进行训练,以实现更鲁棒的区分。
为了解决这些挑战,本文提出了一种新颖的架构,即AllWeatherNet。本文的贡献可以总结如下:
本文首次引入了一种统一的图像增强方法,以应对在恶劣天气和低光条件下(包括雪、雨、雾和夜间)的图像质量退化问题。
为了在各种恶劣条件下实现鲁棒的图像增强,本文引入了一种 Scaled Illumination-aware Attention Mechanism (SIAM),该机制引导平衡的学习过程,关注不同的道路元素,而不受天气和场景变化的影响。
为了实现整体图像一致性和细节增强,本文设计了一种新颖的架构,通过在三个语义层次(场景、物体和纹理)上进行区分任务来增强输入图像。
图1:对于在恶劣条件下拍摄的图像(如图(a)所示),本文提出了一种方法,可以在一个统一的模型中有效地调整颜色和纹理、修改光照和阴影以及去除天气影响。这样可以产生视觉上更为吸引人的效果,使图像看起来像正常的白天天气条件(如图(b)所示),从而增强自动驾驶感知系统的鲁棒性能。
图3:像素级转换与图像增强过程的比较。
图4:AllWeather-Net架构概览。SIAM:Scaled Illumination-aware Attention Mechanism。借助提出的SIAM和分层区分框架,AllWeather-Net能够在所有恶劣条件下(如雾、雪、雨、夜间)增强图像。
图5:生成器中的Scaled illumination-aware attention mechanism。
图6:Attention scores by illumination:朴素注意力 vs. 比例注意力。
图7:使用SIAM生成注意力图的流程以及在图像和 patch 层面上朴素注意力与SIAM的比较。请注意,更高的注意力分数表明模型对该区域的关注度更高。这一观察表明,与朴素注意力机制相比,所提出的SIAM在关注包含道路元素的区域方面更加适应。
图8:分层区分框架的详细信息。
实验结果:
图9:与其他图像处理方法在天气效果去除、像素级转换和低光增强方面的比较,使用放大的红色区域突出视觉差异。
图10:语义分割结果与其他最先进的天气效果去除、像素级转换和低光增强方法的比较,使用放大的白色区域突出视觉差异。
图11:本文的模型在Foggy Zurich和Nighttime Driving数据集上的泛化性能。红色和绿色框对应放大的 patches 区域。
图12:在各种输入恶劣条件图像下的朴素注意力和SIAM注意力图。颜色较深的区域表示更高的注意力分数。
图13:由使用朴素注意力和比例注意力训练的模型生成的结果。
总结:
本文介绍了AllWeatherNet,这是一个旨在提升各种恶劣条件(如雪、雨、雾和夜间)下图像质量的统一框架。本文的目标是开发一个能够同时应对这四种条件而不引入降低图像质量伪影的单一模型。该模型可以在恶劣和正常天气条件下调整图像的光照、亮度和颜色,将它们转换为清晰、白天般的视觉效果。本文实施了一个分层框架来恢复颜色和纹理细节,并采用排序自适应窗口配对训练策略以提高性能。本文还开发了一个 scaled-illumination attention mechanism,以引导学习过程关注 low and high-illumination 区域,使其适应不同的恶劣场景。本文使用增强后的数据集进行语义分割实验,观察到显著的改进。此外,该模型在无需重新训练的情况下,在各种数据集上展示了出色的泛化能力。
#EmbodiedSAM
具身万物?实时在线分割任意3D物体
在具身任务中,代理需要在探索过程中全面理解3D场景,这迫切要求开发一种在线、实时、细粒度且泛化性强的3D感知模型。然而由于高质量的3D数据相对匮乏,直接在3D空间中训练此类模型几乎是不可能的任务。幸运的是,视觉基础模型(Vision Foundation Models, VFM)已经在2D计算机视觉领域取得了革命性的进展,这为使用VFM辅助3D感知成为可能。但是,目前大多数VFM辅助的3D感知方法要么无法在线使用,要么速度太慢,难以应用于实际的具身任务中。为此本文提出了一种名为EmbodiedSAM(ESAM)的VFM辅助3D实例分割框架,旨在利用Segment Anything Model(SAM)实现实时的3D实例分割。这一挑战主要在于输入的RGB-D视频流中不包含未来的帧,且实例可能在多个帧中被观察到,因此需要在帧之间进行目标匹配。为解决这些问题,作者首先提出了一个几何感知查询提升模块,该模块将由SAM生成的2D掩码通过3D感知查询进行表示,并由一个双层查询解码器迭代细化,从而将2D掩码转换为3D点云上的细粒度形状。得益于3D掩码的查询表示,作者可以通过高效的矩阵运算计算不同视图下的3D掩码之间的相似性矩阵,实现实时推理。作者在ScanNet、ScanNet200、SceneNN和3RScan数据集上的实验表明,作者的方法在性能上达到了领先水平,即使与离线方法相比也毫不逊色。此外EmbodiedSAM在多个零样本数据集迁移实验中展现了出色的泛化能力,并在开放词汇和数据高效的场景中显示出巨大潜力。训练和评测过程仅需一块RTX 3090 GPU。
原文链接:https://arxiv.org/abs/2408.11811
图 1:与传统的3D SAM方法相比,ESAM采用2D掩码生成3D查询,并通过迭代细化来预测精确且几何上一致的3D掩码。利用3D查询,ESAM能够通过简单的矩阵操作快速合并不同帧中的3D掩码。以SAM3D为例,作者的ESAM在平均精度上超越了其15.7%,并且速度提升了20倍以上。
相关工作总结VFM辅助的3D场景分割
在二维视觉领域,视觉基础模型(Vision Foundation Models, VFM)经历了快速的发展。这些模型得益于大量标注的视觉数据,展现出了卓越的准确性和强大的泛化能力,特别是在零样本情境下的应用。鉴于在三维视觉领域中高质量标注数据相对缺乏,利用二维VFM辅助三维场景感知成为了一个充满希望的研究方向。例如,UnScene3D利用DINO的二维自监督特征来生成初始的伪掩码,并通过自训练的方式进行迭代细化。SAM3D采用SAM在二维图像上生成实例掩码,并通过深度信息和相机参数将这些掩码投影到三维空间,并根据几何信息进行融合。SAMPro3D将三维空间中的点映射到多视图二维图像上,形成三维提示,用以对齐SAM生成的二维掩码,并将这些点聚类成实例掩码。SAI3D则是在重建的三维网格上生成三维原语,并利用Semantic-SAM获取具有语义得分的二维掩码,再通过基于图的区域增长策略将它们与三维原语连接并融合。作者的方法同样采用了SAM以辅助三维实例分割,但与现有工作不同的是,作者使二维到三维的投影过程和三维掩码的融合过程变得可学习且在线化。这样的设计使得作者的EmbodiedSAM(ESAM)能够更准确地预测三维掩码,并能够应用于实际的实时在线任务。
在线3D场景感知
随着具身智能的发展,现实世界的应用场景,例如机器人导航和操纵,越来越受到重视。在线3D场景感知,即能够从流式的RGB-D视频中准确理解周围环境的三维场景,成为了这些机器人任务的视觉基础。早期的在线3D感知方法通常是分别处理二维图像,然后将预测结果投影到三维点云上,并通过融合步骤将不同帧的预测结果结合起来。但是,由于这些方法在二维图像上的预测缺乏几何和时间上的感知能力,导致融合步骤的准确性和效率受到影响。为了解决这一问题,Fusion-aware 3D-Conv和SVCNN构建了数据结构来维护先前帧的信息,并通过基于点的三维聚合来融合三维特征,以进行语义分割。INS-CONV扩展了稀疏卷积到增量CNN,以高效地提取全局三维特征,用于语义和实例分割。MemAda提出了一种在线3D场景感知的新范式,通过多模态基于记忆的适配器,为离线模型赋予了在线感知的能力。与之前的方法不同,作者的ESAM将SAM生成的二维掩码提升为精确的三维掩码及其对应的查询,从而实现了高准确率的快速帧间预测结果合并。
EmbodiedSAM方法详解
给定一系列RGB-D图像及其对应的已知姿态,作者的目标是在相应的3D场景中对任何实例进行分割。具体来说,对于每一帧,其中代表彩色图像,代表由深度图像通过姿态参数投影到3D空间得到的点云,作者的方法旨在预测对应于观察到的3D场景的实例掩码。此外,作者希望这一过程是在线进行的,即在任意时间点,作者无法预知未来的帧,但需要在每个时间点提供时间上一致的3D实例掩码。
概述:作者的方法概述如图2所示。作者以增量方式解决在线3D实例分割问题,以实现实时处理。在时间点,作者只预测当前帧的实例掩码。然后作者将与的先前实例掩码合并,得到的更新实例掩码。
图 2:展示了ESAM的工作原理。在每个新的时间点t,作者首先使用SAM生成2D实例掩码M_2d^t。作者设计了一个几何感知的查询提升模块,将2D掩码提升为3D查询,同时保留细节形状信息。然后通过双级解码器细化这些查询,以生成精细的点掩码M_cur^t。最后,将当前掩码合并到先前的掩码中,采用快速的查询合并策略。
查询提升与细化
在接收到第 个 RGB-D 帧 时,作者首先采用 SAM 来自动生成来自 的 2D 实例掩码 。在本节中,为了描述的简洁性,作者将省略下标 。
几何感知的查询提升。 SAM 不使用前一帧的信息,也不利用深度图像中的 3D 信息,直接将 投影到 上会导致不准确的 3D 掩码,并且这些掩码在时间上也不一致。作者的目标是将每个 2D 掩码提升为一个 3D 查询特征,这样作者就可以进一步细化这些查询,以生成 3D 实例掩码。由于 2D 掩码的信息较少,作者首先从场景中提取点云特征,然后使用 2D 掩码作为索引来将点云聚类成超点,查询可以直接从超点特征中选择。设点云 并且 中有 个掩码,作者首先根据颜色-深度对应关系将 映射到 上,得到超点索引 ,其中 中的每个元素都在范围 内。然后作者将点云 输入到一个带有基于记忆的适配器的 3D 稀疏 U-Net 中,以提取时间感知的 3D 特征 。有了 和 ,作者可以将点特征池化到超点特征 。
为了在每个超点内更好地保留点特征,作者考虑了每个超点的几何形状。对于超点 ,作者计算所有点 相对于超点中心 的归一化相对位置 。这样,集合 表示了这个超点的归一化形状,其直径为 1,中心位于原点。然后作者计算每个点的局部和全局特征:
其中,MLP 对每个单独的点执行操作,Agg 是通过通道最大池化实现的聚合函数。局部和全局特征表示点与形状的相关性,因此作者将这两个特征结合起来,并通过另一个 MLP 来预测点权重:
最后,作者使用加权平均池化将点特征 聚合到第 个超点:
通过 增强聚合后的超点特征,以完全结合形状级几何特征和场景级 3D U-Net 特征。每个超点的计算可以并行化,使用逐点 MLP 和 Scatter 函数,使得这种几何感知池化实际上是高效的。
双级查询解码器。 在池化之后, 中的 个 2D 实例掩码被提升为 3D 超点特征 。然后作者从 初始化一系列 3D 实例查询 ,并通过几个基于 Transformer 的查询解码器层迭代细化,用于预测 3D 掩码。在训练期间,作者随机采样 的一部分(0.5 到 1 之间)来构建 进行数据增强。而在推理时,作者简单地设置 。
每个查询解码器都采用蒙版交叉注意力机制,在查询和场景表示之间聚合每个查询的实例信息:
其中,点乘表示矩阵乘法, 是查询解码器层 的线性投影, 和 是场景表示 的线性投影。 可以是点特征 或超点特征 。 是根据预测的 3D 实例掩码 派生的注意力掩码。 表示第 个查询关注第 个点或超点。然后作者将 输入到自注意力层和前馈网络中,得到 ,接着通过掩码生成模块预测每个查询的实例掩码:
其中 是线性层。如果 , 是点掩码;否则,它是超点掩码。
查询解码器通常采用相同级别的场景表示来进行交叉注意力和掩码生成。但由于 SAM 已经输出了高级别语义感知掩码,作者观察到 。如果采用点特征 进行查询解码,交叉注意力操作将因点的数量大而消耗大量内存。而如果作者使用超点特征 ,预测的 3D 实例掩码将只是超点的组合,因此无法细化到更细粒度。为了两者兼得,作者的查询解码器设计为双级。在交叉注意力中,作者设置 以实现高效的交互;而在掩码预测时,作者设置 以实现细粒度掩码生成。为了支持蒙版注意力,作者在交叉注意力之前将点掩码池化到超点掩码:
其中 是几何感知池化。作者可以重用预先计算的权重来减少计算。通过 3 次查询解码器迭代后,作者获得了准确的点掩码 以及相应的查询 ,在后续小节中表示为 和 。作者在 上执行掩码 NMS 以过滤掉冗余掩码及其相应的查询。
高效在线查询合并
在完成了2D掩码到3D掩码的提升之后,接下来作者需要将这些掩码合并到先前的实例掩码中,以生成更新的实例掩码。对于的初始情况,作者有等于。然而,以往的实例掩码合并方法通常需要遍历中的所有掩码,并且与中的每个掩码进行逐一比较,这是一个非常耗时的过程。为了准确判断新掩码是否应该合并到先前的掩码中,这些方法需要计算两个掩码点云之间的几何相似性,例如交并比(IoU)或最近点距离,这些计算通常涉及每个掩码的所有点,导致计算复杂度高且难以并行化。
为了解决这个问题,作者提出了一种新的方法,通过固定大小的向量来表示每个掩码,并通过高效的矩阵运算来计算相似性。得益于作者的架构,和中的每个掩码都有对应的查询特征。查询特征本身是固定大小的向量表示,但直接计算它们之间的相似性可能信息量不足。因此,作者设计了几项辅助任务,基于查询特征学习不同度量的向量表示,用于计算几何、对比和语义相似性。
首先,对于几何相似性,作者发现模型能够通过部分观察学习到整个几何结构。但由于分割的限制,模型无法完全表达对整个几何形状的理解。因此,作者引入了一个辅助任务,使用多层感知器(MLP)基于每个查询的中心(即对应超点的中心)来预测边界框回归,得到边界框。然后,可以通过计算两个边界框的IoU来得到两个掩码之间的几何相似性。作者忽略了边界框的方向,因为两个轴对齐边界框集合之间的IoU矩阵可以通过简单的矩阵运算来计算。
第二,对于对比相似性,作者的目标是学习一种实例特定的表示,使得同一实例的特征应该被拉近,不同实例的特征则相互远离。这种表示可以通过相邻帧之间的对比训练来学习:作者使用MLP将查询特征映射到对比特征。对于在第帧和第帧中出现的实例,作者选择该实例的两个特征作为正例对,并从其他实例中采样特征作为负例对。详细的损失函数将在下一小节中展示。
最后,对于语义相似性,作者简单地采用MLP预测每个预定义类别的类别概率分布,其中是预定义类别的数量。也有其他的选择,例如,如果作者采用语义SAM代替SAM,作者可以直接使用2D掩码的语义预测作为相应查询的。
通过上述方式,作者可以高效地计算和之间的相似性矩阵:
其中,表示两组轴对齐边界框之间的IoU矩阵。作者通过将小于阈值的元素设置为来剪枝矩阵C。然后在和上执行代价为的二分图匹配,该匹配将中的每个掩码分配给中的一个掩码。如果一个新掩码未能与任何先前掩码匹配,作者将为该掩码注册一个新的实例。否则,作者将两个掩码及其对应的边界框B、对比特征f和语义分布S进行合并。掩码合并可以通过简单的并集实现,而其他表示则通过加权平均进行合并:
作者假设第个新掩码合并到第个先前掩码中。这里是合并计数,表示已合并到的掩码数量。
图 3:详细介绍了作者高效的查询合并策略。作者设计了三种代表性的辅助任务,分别生成几何、对比和语义的向量表示。然后,相似性矩阵可以通过矩阵乘法高效地计算。作者进一步剪枝相似性矩阵,并采用二分图匹配来合并实例。
损失函数
在作者的模型训练中,每个RGB-D帧都配备了语义和实例的标签。在一个RGB-D视频序列中,不同帧之间对应的实例标签是一致的。基于这些标签,作者针对每帧计算损失,这些损失是基于每个查询的预测结果来确定的。由于查询是直接从2D SAM掩码中一对一提升而来的,作者可以直接使用2D掩码的标签来监督对应查询的预测,省去了复杂的标签分配步骤。作者假设每个2D SAM掩码仅对应一个实例,因此可以为每个查询获取对应的真实语义标签和2D实例掩码。利用深度图像的像素对应关系,作者将2D实例掩码映射到3D点云上,并据此计算出真实的轴对齐边界框。利用这些标注信息,作者定义了以下损失函数:
分类损失:通过交叉熵计算,用以区分前景和背景实例的二元分类损失。
3D掩码损失:包括二元交叉熵损失和Dice损失,用于指导预测的3D掩码。
边界框损失:基于预测的边界框与真实边界框之间的IoU来计算损失。
语义预测损失:采用二元交叉熵损失来预测每个实例的语义类别。
除了每帧内的损失外,作者还引入了相邻帧之间的对比损失:
其中, 表示余弦相似度, 是帧中实例的总数。
最终,总损失函数被定义为:
这里, 和 被设置为0,以保证序列两端的边界条件。
实验结果和分析
在这一节中,作者将首先描述作者的实验设置和实现细节。然后,作者将比较作者的方法与现有的基于视觉基础模型(VFM)辅助的3D实例分割方法和在线3D分割方法,以验证其有效性。作者还将展示EmbodiedSAM(ESAM)在开放词汇和数据高效设置中的应用潜力。最后,通过消融研究,作者将提供对作者设计的综合分析。
基准测试与实现细节
作者的方法在以下四个数据集上进行了评估:ScanNet、ScanNet200、SceneNN和3RScan。ScanNet数据集包含1513个室内场景的3D重建,作者选取了其中的1201个序列用于训练,余下的312个用于测试。ScanNet200提供了更为细致的注释,涵盖了200多个类别。SceneNN由50个高质量的3D扫描场景组成,每个场景都带有实例和语义标签。依照文献,作者挑选了12个清洁序列用于测试。3RScan数据集更具挑战性,其RGB-D序列是通过快速移动的相机捕获的,作者使用了该数据集的测试分割部分,共包含46个场景。这些数据集都提供了带有标注的姿态RGB-D序列和重建的点云。
基准测试:作者首先在表1中与基于VFM的3D实例分割方法进行了比较。作者在ScanNet200的训练集上训练了不同的方法(如果需要),并在ScanNet200的验证集上以类别不可知的方式进行了评估。对于离线方法,输入是整个重建的点云和RGB-D视频,预测是在点云上直接进行的。对于在线方法,输入是连续的RGB-D视频流,作者将最终预测结果映射到重建的点云上,以便进行比较。
表 1:展示了不同方法在ScanNet200数据集上进行类别不可知的3D实例分割的结果。作者与常规聚类方法和基于VFM的3D场景感知方法进行了比较。速度单位为每帧的毫秒数,其中VFM和其他部分的速度分别报告。
由于某些方法如SAM3D无需训练即可使用,为了与可学习的方法进行公平的比较,作者还进一步在表2中评估了表1中的方法在SceneNN和3RScan数据集上的表现,且未进行微调。这一基准测试展示了不同方法的泛化能力。
表 2:展示了不同方法从ScanNet200迁移到SceneNN和3RScan数据集的结果。作者直接在这些数据集上评估了表1中的模型,以展示它们的泛化能力。
作者也在表3中与在线3D实例分割方法进行了比较。按照先前的研究,作者在ScanNet训练集上训练了不同的方法,并在ScanNet的验证集和SceneNN上进行了评估。
表 3:展示了不同方法在ScanNet和SceneNN数据集上的3D实例分割结果。
最后,作者在表4中评估了ESAM在ScanNet200数据集上198个类别的开放词汇3D实例分割能力。由于ESAM输出的是类别不可知的3D掩码,作者可以通过两种方式将其扩展到开放词汇的3D分割。第一种是将这些掩码输入到像OpenMask3D这样的开放词汇掩码分类模型中。第二种是使用开放词汇的2D分割模型来为每个2D掩码获取类别标签。由于ESAM中3D掩码和2D掩码之间存在一一对应关系,作者可以相应地为每个3D掩码获取类别标签。这里作者遵循SAI3D的方法,采用了第一种方式,并与之作了比较。
表 4:展示了在ScanNet200数据集上进行开放词汇3D实例分割的结果。
实现细节:作者按照文献的描述,分两个阶段训练ESAM。首先,在ScanNet(200)-25k子集上训练单视图感知模型,该子集包含单独的RGB-D帧,不包括基于记忆的适配器和三个辅助任务的损失。然后,在RGB-D序列上微调单视图感知模型,加入了适配器和全部损失。为了降低内存占用,作者在每次迭代中随机采样每个场景的8个相邻RGB-D帧。在超参数设置上,作者选择了,,,,和。
与SOTA比较
作者对比了三种版本的ESAM:标准版ESAM、采用FastSAM以提高推理速度的ESAM-E,以及ESAM-E+FF,后者不仅使用了FastSAM的2D掩码,还将其特征与点云数据进行了融合。作者也提供了一些可视化结果来定性评估不同方法的性能。
根据表1的结果,在3D实例分割的“segment anything task”中,ESAM在与先前方法的比较中表现出色,甚至超越了一些离线处理方法。值得注意的是,在线方法相较于离线方法在感知3D场景时面临更大的挑战,因为它们需要处理的是部分和噪声更大的视频帧。尽管如此,ESAM不仅在准确性上取得了领先,而且在推理速度上也有显著优势,每帧的处理时间仅为80毫秒,远快于需要超过1秒的传统方法。当使用FastSAM替代SAM后,ESAM-E能够在保持较高准确性的同时,实现约10 FPS的实时在线3D实例分割。
在泛化能力方面,ESAM同样表现优异。如表2所示,ESAM在未进行微调的情况下直接应用于其他数据集,其准确性依然领先于其他零样本方法。此外,作者还注意到,SAI3D在3RScan数据集上的表现不如SAM3D,这可能是因为SAI3D高度依赖于清晰且精确对齐的3D网格和RGB图像,而3RScan数据集中由于相机移动速度快,图像和姿态信息较为模糊。
图4展示了不同3D实例分割方法在ScanNet200数据集上的可视化结果。ESAM能够生成准确且细节丰富的3D实例分割掩码,并且能够实时处理连续的RGB-D视频流。作者还提供了在线可视化结果(见图5),进一步证明ESAM在实际应用中的有效性。更多细节请参考作者提供的视频演示。
图 4:展示了不同3D实例分割方法在ScanNet200数据集上的可视化结果。在红色框中突出显示了SAM3D预测的噪声掩码,以及SAI3D倾向于将单一实例过度分割为多个部分的问题。
图 5:展示了ESAM在ScanNet200数据集上的在线可视化结果。更多细节可以参考作者项目页面上的视频演示。
在表3和表4中,ESAM与现有的在线3D实例分割方法和开放词汇3D实例分割方法相比,也展现出了领先的性能。
ESAM分析
数据高效的学习。 在表5中,作者展示了ESAM在仅使用部分训练集时的性能表现。即使训练样本数量减少,ESAM的分类不可知性能在ScanNet200上的下降也相对有限。这表明,得益于2D VFM提供的优良初始化,ESAM的学习部分能够快速收敛。
表 5:展示了ESAM在仅使用部分训练集时的性能。作者报告了在ScanNet200上,使用不同比例的训练集大小训练时的类别不可知平均精度。
推理时间的分解。 表6进一步分解了ESAM的推理时间(不包括VFM部分)。结果显示,由于设计高效,ESAM的解码器和合并操作仅占用了总推理时间的一小部分。
表 6:展示了ESAM的推理时间分解(不包括VFM)。详细列出了3D U-Net适配器、解码器、相似性计算、匹配和更新各部分的时间消耗。
消融研究。 作者还对ESAM进行了消融研究,以验证所提出方法的有效性。在架构设计方面,作者在ScanNet200-25k上进行了实验,并在表7中报告了每种方法的类别不可知平均精度(AP)和平均推理延迟(不包括SAM)。结果显示,几何感知池化能够将性能提升1.4%,同时几乎不增加计算开销。作者还发现,ESAM的双级设计在保持与使用点特征FP策略相当的准确性的同时,相比使用超点特征FS的策略,仅略微增加了推理延迟。在合并策略方面,作者在表8中展示了不同设计对ScanNet200上平均精度的影响。结果表明,每个辅助任务对于掩码合并的质量都至关重要。特别是,几何相似性对最终性能有显著影响,因为大多数掩码对可以根据它们之间的距离被快速排除。
表 7:展示了ESAM架构设计的影响。在ScanNet200-25k上进行实验,并报告了每种设计选择的类别不可知平均精度和每帧的平均推理延迟。
表 8:展示了ESAM合并策略的影响。在ScanNet200上进行实验,并报告了不同设计选择对平均精度的影响。
辅助任务的可视化。 图6中的可视化结果进一步展示了作者的辅助任务预测。图6(a)显示了模型如何基于部分观察预测物体的完整几何形状。图6(b)中的t-SNE可视化验证了模型成功学习了用于实例匹配的区分性查询表示。最后,图6(c)中的语义分割结果表明,ESAM能够学习到令人满意的语义表示,并且可以扩展到3D语义分割任务。
图 6:展示了作者合并策略中辅助任务的可视化结果。(a) 展示了不同时间点上物体的3D边界框预测,用于几何相似性。(b) 展示了实例特定表示的t-SNE可视化,用于对比相似性,不同颜色代表不同的实例,不同点代表不同帧中的实例特征。
结论
在本项工作中,作者成功地提出了ESAM,这是一个高效的框架,它借助视觉基础模型(VFM)来实现在线、实时、细粒度、高度泛化,以及开放词汇的3D实例分割。作者的方法通过几何感知池化将2D掩码提升为3D查询,并利用双路径查询解码器进一步细化这些查询,以生成精确的3D实例掩码。此外,利用查询与掩码之间的对应关系,作者设计了三种辅助任务,用以在三种不同的向量空间中表示每个3D掩码的特征,从而实现高效的掩码合并。通过在四个不同的数据集上进行广泛的实验,作者证明了ESAM在性能、在线实时推理能力以及泛化能力方面均达到了领先水平。ESAM还显示出了在开放词汇识别和数据高效学习场景中的应用潜力。作者认为,ESAM为有效利用2D VFM进行具身感知任务提供了新的视角和方法。
ESAM的潜在局限性。 尽管ESAM在多个方面表现出色,但仍存在一些限制。首先,ESAM能否实现实时处理取决于所选用的VFM。目前,作者采用了SAM和FastSAM作为VFM,但只有FastSAM能够达到实时处理的要求。作者预期,随着未来2D VFM在效率和性能上的进一步提升,ESAM也将随之得到改进。其次,ESAM中的3D U-Net和基于记忆的适配器在特征提取方面相对较为复杂,占据了大部分的推理时间。如果能够优化这些组件,提高后端的效率,ESAM的处理速度将有潜力达到更高水平,这是作者未来研究工作的重点方向。
#首个开源混合运动规划框架
规划可解释和决策准确两大王牌
本文开发了一种新的混合运动规划方法,将环境和预测信息集成在Frenet坐标系中,提升了运动规划能力。本文将传统运动规划算法的可预测性和稳定性与RL的动态适应性相结合,从而形成了一个能够有效管理复杂情况并适应不断变化的环境条件的系统。
▲图1|运动规划代理的混合强化学习原理
本文介绍了一种自主运动规划的新方法,即在Frenet坐标系中使用强化学习(RL)代理来指导分析算法。这种组合直接解决了自动驾驶中的适应性和安全性问题。运动规划算法对于驾驭动态和复杂场景至关重要,然而,传统方法缺乏不可预测环境所需的灵活性,而机器学习技术,尤其是强化学习(RL),虽然具有适应性,但却存在不稳定和缺乏可解释性的问题。作者独特的解决方案将传统运动规划算法的可预测性和稳定性与RL的动态适应性相结合,从而形成了一个能够有效管理复杂情况并适应不断变化的环境条件的系统。
▲图2|Frenetix运动规划器
正如各种碰撞报告所记录的那样,自动驾驶技术在现实世界中的实施拥有极大挑战。这些挑战包括在复杂的城市环境中导航、管理不可预测的交通和行人行为以及在新环境中做出明智的决策。这种不可预测性要求运动规划领域采用高度复杂且适应性强的算法。
传统的分析规划方法通常不足以处理现实世界场景的动态性质,这强调了自动驾驶系统对增强决策能力和强大适应性以确保安全和效率的迫切需求。此外,分析基于规则的模型需要调整参数,这涉及识别和调整适合特定场景的各种设置和参数,这些调整通常是通过专家知识和数值评估技术进行的。值得注意的是,即使是微小的参数变化也会明显影响系统的行为。调整整个系统既低效又昂贵,在处理多种配置和变体时,这一点变得更加明显。
当代机器学习方法,尤其是强化学习,在复杂场景中有望实现出色的性能。然而,学习过程的有效性取决于所使用的特定环境和训练配置。尤其是在自动驾驶中,用于运动规划的机器学习模型成功率较低,或者只能在高速公路驾驶等特定环境和场景中取得成功。此外,复杂场景需要较长的训练时间,并且Sim2Real可能会出现失真问题。此外,这些代理的决策过程通常缺乏固有的透明度,需要在验证和实施安全措施方面付出相当大的努力,以确保其行动的可靠性和可信度。应对这些挑战至关重要,尤其是在安全性和可靠性至关重要的自动驾驶领域。
相比之下,结合分析和机器学习模型的混合方法有望在这两个领域都发挥优势。基于此,作者提出了一种使用两阶段代理进行运动规划的新方法,如图1所示。在这种方法中,分析模型的基础稳健性与机器学习算法的动态学习能力相结合,提高了驾驶行为环境中的性能和适应性。这种混合方法有效地弥补了理论构造与实际应用之间的差距,特别是在具有复杂、非线性数据模式的环境中。特别注意,这些混合模型通常需要较少的数据进行有效训练,在数据匮乏的情况下具有优势。另外,可以将安全方法和附加功能有效地集成到分析规划算法中。
▲表1|学习过程的观察空间
多年来,自动驾驶运动规划一直是研究的热门领域。目前,已有多种方法被开发用于解决自动驾驶的规划任务。规划方法大体可分为以下几类:
●基于图的算法通过节点和边的网络来寻找结构化路径;
●基于采样的方法通过生成大量可能性来探索各种轨迹;
●基于优化的规划方法则通过系统地评估各种约束和目标来找到最有效的轨迹,其通常使用线性规划、动态规划或基于梯度的优化等技术。
此外,利用人工智能的算法被开发出来用于在动态环境中提供高适应性。自动驾驶研究领域中已有几种机器学习模型可以学习控制方向盘和加速度,这些模型几乎完全使用特定场景进行训练,例如高速公路驾驶或决策代理。虽然这些模型体现出性能的改进,例如类似场景决策的准确性和决策制定的实时性都得到改进,但在更复杂的场景的成功率太低,特别是对于现实世界的应用。还通过逆强化学习研究了学习类似人类的行为。可以学习和采用某些特征的驾驶行为。然而,这并不能从根本上提高自动驾驶复杂场景行为规划成功率。
相关研究探讨了迭代学习和人类反馈如何改善自主机器人在复杂环境中的导航。通过将这些元素集成到传统导航系统中,该研究展示了潜在的性能改进,同时保持了系统的安全性和可解释性,这项研究为开发机器人自适应导航系统提供了一个值得注意的视角。结果虽然很有希望,但主要作为概念验证,它们没有纳入复杂的公共道路环境,也没有考虑到其他道路使用者的预测不确定性。此外,该方法没有集成复杂的分析规划算法;相反,它依靠机器学习来吸收基于专家知识的参数设置。
也有人提出了一种将RL与快速探索随机树相结合的自动驾驶汽车运动规划框架。它专注于有效控制车速和确保安全,使用深度学习技术适应不同的交通状况。该方法的主要问题是其在高维状态空间中的收敛速度慢,这损害了其实时适用性。此外,该方法仅适用于某些场景,限制了其通用性。其他研究采用 RL 通过分析模型确定执行动作的最佳切换点。这种方法适用于诸如定时车道变换和促进不同道路使用者之间的互动行为等场景。当前的研究表明,在探索一种将机器学习与强大的轨迹规划分析算法相结合的混合方法方面存在差距,这种方法可以确保高成功率、实时能力、可解释性和附加安全功能的集成。可以使用这种独立于监督学习数据集的概念来研究其优缺点。
▲图3|学习过程结构的类图
本节介绍了基于分析采样的轨迹规划器架构与RL设计的结合,以开发混合运动规划方法。
■4.1 基于采样的运动规划器
本文所用的分析轨迹规划算法是基于Frenet坐标系中采样方法,作者使用神经网络的算法来预测场景中的其他车辆。该算法在一个时间步内的流程如图2所示。该流程可归纳为以下主要阶段:
●车辆状态更新:车辆使用自我、预测和环境信息更新与Frenet坐标系有关的所有状态。
●轨迹采样:该算法根据采样矩阵对可能的轨迹进行采样。作者使用时间、速度和横向采样指标来创建取决于当前自我车辆状态的不同轨迹方案。
●轨迹运动学检查:根据单轨模型和车辆参数检查生成的轨迹的运动学可行性。
●轨迹成本计算:作者使用不同的成本指标(如碰撞概率、加速度、到参考路径的距离和速度偏移成本)来区分不同轨迹的性能。作者将碰撞概率成本与来自预测信息的其他障碍物相结合。轨迹生成采用C++实现,以减少计算时间并加速训练过程。
●轨迹碰撞检查:分析成本最低的轨迹是否可能与车道边界和其他障碍物发生碰撞。此步骤在成本计算步骤之后进行,以提高计算效率。
按绝对成本排序的第一个无碰撞轨迹是更新当前车辆状态的最佳轨迹。根据为每个连续时间步计算的最佳轨迹更新车辆的状态。轨迹涵盖3秒的范围。模拟的时间步离散化为0.1秒。
▲图4|轨迹损失观测空间
■4.2 强化学习过程
在本节中,作者将集成一个RL算法,该算法优化了后续提出的基于采样的轨迹规划器的轨迹选择过程。对于定制环境和训练过程,作者使用gymnasium4和stable-baselines35。对于代理的模拟环境,作者使用CommonRoad。优化由近端策略优化(PPO)执行,这是一种通过剪辑策略更新来平衡探索和利用的RL算法。它避免了可能导致性能下降的大型策略更新,从而使训练更加稳定和可靠。
该方程表示截断的替代目标函数,这对于PPO算法的效率和稳定性至关重要。这里,表示策略参数,是时间步长上的经验期望,表示新策略与旧策略下的概率比,表示时间时的估计优势,是控制目标函数中截断的关键超参数。作者使用MlpLstmPolicy的循环PPO优化来处理时间关系和信息。传统的PPO架构通过长短期记忆(LSTM)网络进行扩展,这是一种适用于动态时间序列数据的循环神经网络。这种方法在顺序数据和部分可观察环境中非常有效。
●LSTM状态更新:在每个时间步,LSTM根据当前输入、先前的隐藏状态和先前的单元状态更新其隐藏状态和单元状态,。
●策略和价值函数:更新后的隐藏状态随后被策略网络和价值网络使用,其中是动作,是时间的状态。这种集成使网络能够记住过去的状态,从而增强复杂环境中的决策能力。
▲表2|PPO训练过程的混合奖励
为了启动优化过程,首先需要设计几个关键组件:观察空间、终止标准、奖励系统的结构以及代理行动空间的定义。图3显示了类图,概述了训练过程中不可或缺的功能。
◆观测空间:观测空间分为表1中的类别和观测值。
◆类别可以分为各种类型:源自自我车辆的类别、与实现目标区域相关的类别、周围信息、轨迹细节以及与采样轨迹相关的成本信息。与其他仅假设直接车辆控制的系统不同,作者的方法提供了增强观察空间的补充数据。轨迹规划算法的数百条采样轨迹通过图2中的计算步骤包含附加信息。这些数据的关键要素包括运动学上可行的轨迹数量、每条轨迹的相关风险水平及其各自的成本分布。此外,作者使用图4中所示的概念来解决碰撞概率感知问题。
示意图显示了采样的轨迹。作者可以通过采用时间、速度和横向相关采样来构建网格。该网格使作者能够分析与最外层轨迹相关的碰撞概率成本的变化,从而丰富了观察空间。这种方法可以映射随时间变化的差异和相关性。在图中,正横向d方向的轨迹比负d方向的轨迹具有更高的碰撞概率成本。
◆动作空间:图1显示了分析轨迹规划器和RL代理之间的连接。代理学习动作,即轨迹规划器的成本权重。理论上,任何调整都可以传递给轨迹规划器。在作者的案例中,作者研究成本权重的调整来证明这一概念。为了实现和谐的行为,代理可以减少或增加轨迹规划器的当前成本权重。等式(2)显示了代理在时间步中关于每个成本项的动作空间。
考虑,它是范围内的浮点值。这里,和分别表示绝对成本项的预定义最小值和最大值。此外,表示来自前一个时间步的权重,而表示算法的当前动作。值得注意的是,每次执行后,成本项都会重置为其默认值。
▲表3|PPO算法超参数设定
◆奖励设计:训练过程需要奖励配置,这对成功和驾驶行为至关重要。作者在学习过程中使用的奖励如表 II 所示,作者使用混合奖励系统来提高训练效率,包括终止奖励和稀疏奖励。
终止奖励对于成功完成场景至关重要,而稀疏奖励则指导车辆行为。主要目标是尽量减少碰撞,尤其是受终止奖励影响的碰撞。此外,还需要稀疏奖励来优化驾驶性能和行为,例如满足舒适度指标或最大限度地降低整体驾驶风险。车辆可以通过六种不同的方式完成场景。每个场景都有一个不同的时间范围,这样的时间范围就是一个匹配可实现目标的窗口。这允许比分配的时间间隔更快或更慢地达到目标,具体取决于车辆的性能。场景可能会因与障碍物或道路边界相撞而结束,或者如果车辆在任何时间步都找不到有效的轨迹。此外,如果车辆未达到目标就停下来,场景将在超过特定时间限制后自动终止。最佳性能包括严格遵守参考路径、保持指定速度、最大限度地接近目标距离以及最大限度地降低风险。作者正在整合成本调节项,以增强车辆动作的稳定性。这一增加旨在防止动作过度波动,促进更平稳、更和谐的驾驶行为。作者使用当前动作与轨迹规划器的默认成本设置之间的绝对差。
▲图5|各种情景下自我风险和第三方风险的平均值
本节展示模型的训练、选定的测试场景和结果。作者定性和定量地探索了该模型,将研究独立默认分析轨迹规划器(DP)和建议的混合规划器(HP)之间的差异。
▲图6|HP(蓝色)和DP(橙色)左转,迎面驶来车辆
■5.1 实验环境和参数设置
作者使用T型路口场景(见图6)进行训练,因为它们与其他车辆表现出复杂且关键的交互动态。数据集中的各种场景提供了一定程度的可变性,以降低过度拟合的风险。对于模型的训练和执行,计算资源包括AMD 7950x处理器、NVIDIA GeForce RTX 4090显卡和128GB RAM。作者研究中使用的超参数如表III所示。
训练与核心数并行,大约需要24小时才能完成700万个时间步。数据分为训练集(75%)、验证集(15%)和测试集(10%)。根据一系列评估场景中的奖励函数选择最佳模型。训练在2-3百万个训练步骤后收敛,具体取决于设置。作者使用超参数调整,因为训练结果高度依赖于它。
▲图7|HP和DP的速度分布以及由于混合规划器的操作而导致的碰撞概率权重的相对变化
■5.2 风险感知轨迹规划
首先,作者研究学习到的代理的风险行为,并为此设置奖励(见表II)以优化代理的行为。除了成功率之外,自动驾驶中的风险也是评估算法安全性的决定性因素。随后,风险通过将轨迹的最大碰撞概率乘以造成的伤害来计算。
作者的评估涵盖了64种不同的场景来评估风险水平。通过计算所有场景的平均风险,作者获得了对整体安全状况的宝贵见解。值得注意的是,结果表明,自车和第三方道路使用者的风险降低,凸显了道路安全性的提高。图5显示了场景中的自车风险和第三方风险。蓝色表示HP,橙色表示DP。与DP相比,HP仅显示自车风险的33%左右。
▲图8|HP和DP算法的自车风险分布
代理降低风险的奖励对轨迹的选择过程具有可持续的影响。作者的分析表明,尽管目标变量众多,但车辆可以改变其行为。强调在此框架内仔细选择奖励条款的重要性至关重要。通过奖励机制过于激进地追求降低风险可能会导致车辆在某些情况下选择完全停止的情况。为了缓解这种情况,作者加入了一个特定的奖励条款,如表II所示,以确保遵守指定的目标速度,从而以可控的方式平衡安全性和运营效率。风险是根据所选轨迹计算的,取决于规划范围。DP在短时间内接受明显更高的风险,并且仅在识别出风险后才对降低做出反应。另一方面,此处介绍的模型通过环境和障碍物信息在风险发生之前识别风险情况。风险在绝对值和持续时间方面都显着降低。通过提前减速,还可以确定风险峰值的发生时间与DP的风险峰值有延迟。
■5.3 适应代理的驾驶行为
HP使得在运行时调整分析轨迹规划算法的驾驶行为成为可能。在下面的分析中,作者展示了所提出的模型和独立分析轨迹规划器在驾驶行为上的差异。图6分别以蓝色和橙色显示了相同场景中HP与DP的比较。
▲图9|DP与HP的比较,共547个场景:DP以不同的碰撞概率成本执行,以调查不同的设置。橙色表示发生碰撞的场景数量
从定性上讲,可以确定迎面驶来的车辆对驾驶行为的强烈适应性。根据时间戳点显示自车的中心位置。如蓝色轨迹所示,作者的方法证明了对指定参考路径的遵守有所改善,并辅以更早的制动启动。相比之下,DP行驶时偏离参考路径较大,但很快接近迎面驶来的车辆。
这种加速接近导致车辆在第74个时间步意外违反安全限制,从而导致与迎面驶来的车辆相撞。可以通过仔细更改DP的手动设置参数来完成该场景。然而,结果表明作者的HP可以避免手动调整参数。图7显示了DP和HP的速度以及HP代理在同一场景中调整规划器碰撞概率权重的操作。与DP相比,HP的速度明显降低,因此在这种情况下不会发生碰撞。这是通过代理的动作连续增加碰撞概率成本项的权重来实现的。RL模型甚至可以部分补偿成本函数中的概念错误,这可以从DP在这种情况下的强烈加速度中得出。
图8显示了场景中主动自我风险的降低。可以看出,在作者的模型中,风险总额明显较低。理论上计算的风险不一定反映碰撞的发生。然而,模型可以避免碰撞,并将计算出的潜在危害风险最小化。对物体的错误预测会导致导致DP碰撞的行为。结果表明,这些可以通过模型进行补偿。
▲表4|在不同场景下默认规划器和混合规划器之间的驱动特性测量
■5.4 场景性能评估
作者在DP中应用了不同的碰撞概率成本参数,以确保参数化的准确性。将结果与HP进行比较,如图9所示。可以看出,DP的成功率很高,但在每种配置中都会发生碰撞。适当设置碰撞概率成本对于平衡算法至关重要。成本设置得太低可能会导致过于激进的驾驶而发生碰撞。相反,过高的成本可能会因过于谨慎的行为而导致追尾碰撞。DP缺乏足够的灵活性,需要更多功能才能获得最佳性能。经过训练的HP表现非常出色,即使在以前未见过的测试场景中也没有观察到碰撞。可以从表IV中获得驾驶行为的差异。HP在与参考路径的最大允许偏差方面表现出色。此外,降低了最大和平均速度以改善T型路口场景的转弯机动。此外,与HP中的最佳轨迹相关的成本显示出更大的偏差。由于应用了可变权重,这种偏差的增加是可行的,为轨迹优化提供了更细致入微的方法。
▲图10|RL模型预测、轨迹束计算和整体模型每次迭代的执行时间
■5.5 执行时间评估
图10以箱线图形式说明了RL框架内三个关键组件每次迭代的执行时间(以秒为单位):RL模型预测执行、DP的采样步骤和整体模型执行。
计算时间基于十种不同的场景确定,代理预测执行的平均时间约为0.44毫秒。此步骤仅包括神经网络的执行,而不包括环境模型的更新。每个时间步长大约包含800条轨迹的生成、有效性检查和成本计算平均需要大约15.8毫秒。增加分析规划步骤中的轨迹数量对计算时间影响不大,因为由于C++包扩展,并行化过程是稳定的。运行整个模型每次迭代平均需要大约46毫秒的执行时间。
■5.6 结果讨论
结果表明,混合方法是有效的,并且可以显著改善分析模型,同时缩短执行时间。与其他纯RL模型相比,该模型的训练过程很快,成功率很高。通用性显著提高。虽然纯分析模型在某些情况下表现相对较好,但性能可能因情况而异。此外,通过正确的设置,所提出的模型可以补偿其他模型(例如预测算法)的误差。然而,对算法的重大修改需要对代理模型进行部分重新训练。该方法的设计也可以进行调整和增强。因此,方程(2)中的极限经常被利用,这表明该模型可以得到改进。此外,必须仔细考虑奖励值和场景的选择,这可能很耗时。总体而言,作者的概念展示了混合规划器提供的协同作用的有效利用,并通过更高的复杂性和在边缘场景中的适用性扩展了当前可用的方法
本文介绍了一种用于轨迹规划的混合运动规划器方法,以在变化的条件下增强车辆驾驶行为。针对传统分析轨迹规划器的低通用性,作者的方法将基于采样的规划器与RL代理相结合。该代理动态调整分析算法中的成本权重,提高其适应性。作者的方法利用观察空间,包括环境、语义地图和障碍物数据,这些数据对于混合代理学习车辆动力学至关重要。结果表明,代理的成功率显著提高,风险降低,同时保持了现实世界应用的高性能执行时间。且通过更广泛的调查,附加功能可以改善驾驶行为和模型性能。未来的工作可以使用RL优化分析规划器的采样参数,从而研究该算法在现实世界中的适用性。通过图形表示等方式纳入更全面的环境数据,可以进一步提高系统的稳定性和效率。
#Autoware高阶自动驾驶框架深度剖析
为什么国内的智能驾驶能快速落地?
近两年来国内的智能驾驶技术的落地可以说是遥遥领先于世界。究其原因,除了本土智能汽车的巨大市场需求和大批智驾开发者们的辛勤付出之外,还应该归功于以Autoware, Openpilot和Apollo为代表的开源智能驾驶软件,为智能驾驶工程化的前期摸索做出了重要贡献。
而Autoware作为世界上第一款开源自动驾驶框架, 在全球各地都具备一定的影响力。Autoware支持多种传感器,包括相机、激光雷达(LiDAR)、惯导(IMU)和GPS等,并提供了多种传感器的驱动和融合算法。其主要功能包括:
- 感知:通过传感器融合算法和深度神经网络等技术,实现汽车、行人、物体等的检测与跟踪。
- 定位:结合GNSS和IMU传感器的3D地图和SLAM算法来实现精确定位。
- 规划与控制:基于概率机器人技术和基于规则的系统,部分还使用深度神经网络,实现路径规划、路径跟随以及加速/制动/转向控制等功能。
Autoware的优势:
- 模块化架构:Autoware集成了自动驾驶所需的所有功能,如感知、定位、规划和控制,并采用模块化架构设计,具有清晰定义的接口和API,方便用户进行定制和扩展。
- 可扩展性:Autoware的开源软件设计用于跨广泛的自动应用程序的可扩展性,并通过应用最佳实践和标准来实现现实世界部署中的高质量和安全性。
- 不断进化:Autoware持续发展,提供更多功能,以实现从路边到路边的L4级自动驾驶。其最新版本已经开始基于ROS 2.0进行重新设计,以进一步提升性能和稳定性。
- 多种应用场景:Autoware支持多种自动驾驶的应用场景,如出租车、公交车、货运、物流、农业、建筑、采矿等,能够提供完整的自动驾驶体验。
Autoware.universe作为Autoware系列最新的版本,一经开源便受到了业界的广泛关注。
Autoware.universe能做什么?
- Autoware提供一套智能驾驶应用软件的完整解决方案
- Autoware整合了定位、感知、规控等算法
- Autoware具备良好的可维护性、可拓展性、可替换性
- Autoware优先实现功能,每个模块并不是特别完美
- Autoware并不能直接商用,需要进行二次开发
更详细地说,Autoware.Universe由以下七个核心模块组成:
Sensing:负责处理来自各种传感器的数据,如激光雷达(LiDAR)、摄像头、毫米波雷达(RADAR)等,将原始传感器数据转化为可以被其他模块理解和使用的格式。
Map:涉及高精度地图的使用和管理,包括静态地图信息的加载和动态地图元素的更新。地图数据对于路径规划和车辆定位至关重要。
Localization:专注于确定车辆在世界坐标系中的精确位置和姿态,通常使用GPS、IMU、轮速编码器和SLAM等技术实现。
Perception:负责环境的理解和识别,包括障碍物检测、行人和车辆识别、交通标志和信号灯的识别等。
Planning:负责制定车辆的行驶路线和轨迹,包括宏观的路径规划和微观的轨迹规划。
Control:接收Planning模块生成的轨迹指令,转化为车辆可以执行的控制信号,如转向角度、油门和刹车力度,实现闭环控制。
Vehicle Interface:充当软件和硬件之间的桥梁,负责将Control模块的控制信号发送给车辆的执行机构,并接收车辆状态反馈。
Autoware.Universe的内容十分丰富,功能和性能相较Autoware.Ai和Autoware.Auto两个前期版本有了质的飞跃。可以说当今各家装车智驾功能,如NOA和AVP,在工程化的过程中,都或多或少的有从Universe中进行过借鉴,找寻过灵感。在全球范围内,Autoware已经支持30余款车型,服务过500+公司,遍布20几个国家。
#OccLLaMA
世界模型大一统?清华&复旦提出:首个用于自动驾驶多任务的具身世界模型
近年来,整合了语言、图像、音频等各种模态的多模态大语言模型取得了重大的突破,极大的加快了具身人工智能领域技术的发展。虽然相关研究成果取得了较为不错的进展,但是能够处理现实世界中多项任务的通用智能体还并未出现。这本质上是因为现有的多模态大型语言模型通过学习的方式从感知到动作的直接映射来执行相应动作,忽略了世界的动态特性以及运动与世界动态之间的关系。相比之下,人类拥有使他们能够基于3D内部视觉表征模拟未来状态并据此规划行动的视觉模型。因此,探索如何构建智能体的世界模型对于具身智能的进步至关重要。
自动驾驶作为具身人工智能的一项非常具有代表性的应用,在世界范围内得到了广泛的讨论和研究,但是目前的自动驾驶世界模型专注于传感器相关的任务,如点云、视觉以及栅格预测任务,无法同时实现预测场景演变、语言推理和与现实世界的交互等内容。因此,我们希望提出一个能够统一视觉、语言和动作的模型,具有类似人类的能力。
考虑到最近提出的栅格预测网络可以作为一种通用的3D视觉任务,更加准确的描述细粒度的3D结构,同时还包含了高级语义信息,非常适合对齐空间和语义。同时,基于自回归语言模型的视觉生成的可行性已得到彻底验证,其性能可与扩散模型相当。
因此,在本文中,我们提出了统一的3D占用-语言-动作生成世界模型,该模型统一了VLA相关任务,包括但不限于场景理解、规划和 4D占用预测,我们将提出的模型称之为OccLLaMA,其整体效果如下图所示。
OccLLaMA支持包括场景理解和推理、4D占用预测和运动规划
网络模型的整体架构&细节梳理
在详细介绍本文提出的OccLLaMA算法模型之前,下图展示了OccLLaMA算法模型的整体网络结构。
OccLLaMA算法模型的整体网络结构
通过上图可以看出,OccLLaMA算法模型的核心组件包括Scene Tokenizer、Occupancy-Language-Action生成世界模型以及为了实现多任务引入的三阶段训练方案。具体而言,为了使OccLLaMA具有理解和生成视觉模态的能力,我们选择Occupancy作为通用的视觉表示,并引入一种新颖的Scene Tokenizer来有效地构建离散场景词汇,同时考虑到稀疏性和类别不平衡。通过结合场景词汇、语言词汇和动作词汇,我们为VLA任务构建了一个统一的多模态词汇,为在一个模型中集成VLA奠定了基础。
Scene Tokenizer
受到点云处理任务的启发,我们在编码器当中引入了一种稀疏的编码策略。同时我们将非占用类别与其他语义类别分离,从而实现更高效的场景重建。
编码器
我们用来代表原始的场景,我们将3D场景划分成了稠密的体素,同时每个体素被分配了一个语义标签。然后,通过将空的体素进行丢弃,并将占用体素表示为沿着BEV方向排列的一维伪点云集合,将原始的场景稀疏化为。每个点是一个高为同时语义标签为的向量。然后,我们使用pillars embedding来聚合伪点云的特征信息,并且采用了swin-transformer中的模块来获得BEV特征图,其中是降采样的比例,是特征维度大小。
量化
为了获得离散的表示,我们接下来通过矢量量化将转换为codebook的集合。可学习的codebook包含了个向量,每个向量的维度为。整个量化过程可以用下面的公式进行描述
解码器
由于量化后BEV的特征图中的高度信息丢失,解码器通过堆叠卷积块和上采样层来恢复密集的3D体素特征。具体来说,为了解决类别不平衡问题,我们分别实例化轻量级体素头和分类头,以解码占用的几何和语义信息。值得注意的是,体素头为分类头提供了一个占用掩码,使我们能够仅监督占用体素的语义。
Generative World Model统一词汇
使用scene tokenizer,可以将占用场景映射并展平为一个序列,其中允许与原始LLM中的类似语言词汇进行联合表示。具体而言,我们首先表示场景token为作为索引序列,其中对应于场景标记的代码索引号。
因此,我们建立了一个场景词汇,由于使用一般的LLM输出细粒度的数值结果并不容易,我们根据轨迹集合的统计数据,将航路点的坐标经验性地划分为N个bin,并将航路点映射到最近的bin中,用于构建动作词汇。除此之外,我们添加了几个特殊的功能化token,比如$,,来代表模态的边界;$来辅助下一个场景的预测。
通过这种方式,我们建立了一个统一的occupancy-language-action词汇来构建各种任务,其中输入和输出可以是三种模式之一或者三种模式的混合,这具体取决于要解决的具体任务类型。
场景预测
我们观察到语言和动作都是时间序列,这使得这些序列中的token自然适合具有原始的因果掩码和下一个token预测机制的时间注意力。具体而言,我们在与场景token对应的位置实现空间注意力,以更好地捕捉场景内的空间关系。相应地,我们初始化可学习的场景查询用于预测整个完整的场景,从而实现场景内token之间的更好交互并显著减少推理时间。在算法1中,详细解释了执行场景预测机制的算法流程,如下图所示。
场景预测的整体算法流程
训练阶段
我们的训练方案包括三个阶段,分别是scene tokenizer的训练过程,3D Occupancy-Language-Action的预训练过程,以及指令微调过程。
scene tokenizer的训练过程:我们首先专注于场景codebook的学习,以将占用率表示为离散的标记,并计算相关的loss损失进行优化。在优化后,scene tokenizer在整个流程的后续阶段始终保持不变。
3D Occupancy-Language-Action的预训练过程:在这个阶段,我们专注于对齐occupancy-language-action。我们使用世界模型目标和场景标题目标进行全参数预训练,前者监督占用和动作之间的对齐以学习世界的演变,后者监督占用和语言之间的对齐以学习3D场景的语义理解。
指令微调过程:在这个阶段,我们根据LoRA针对不同场景理解和规划任务的提示指令对模型进行微调。
实验结果&评价指标
为了展示我们提出的算法模型在4D占用预测、运动规划以及视觉问答任务中的性能,我们分别针对三个任务展开了一系列的相关实验。
4D占用预测任务
4D占用预测任务旨在根据一些历史占用输入预测未来的3D占用场景。具体来说,我们使用2秒的历史帧信息来预测接下来的3秒,并使用 mIoU和IoU作为主要的评估指标。相关的实验结果统计在下表当中。
我们在两种设置下将提出的OccLLaMA与最先进的方法OccWorld进行了比较:一种是使用真实3D占用信息(-O),另外一种是使用基于相机模型FBOCC的预测结果(-F)。
首先,我们观察到我们的scene tokenizer展现出了卓越的场景重建能力。此外,我们提出的OccLLaMA可以在1秒内实现了具有竞争力的预测结果,并且在更长时间内明显优于OccWorld算法模型,凸显了我们提出的算法模型其更强的长期预测能力。
此外,OccLLaMA-F可以被视为端到端的检测流程,因为它以相机为输入。尽管任务很复杂,但OccLLaMA始终表现出强大的预测性能。为了更加直观的展示我们算法模型的有效性,我们也进行了相关的可视化,如下图所示。
4D栅格预测任务的可视化结果
运动规划任务
我们将提出的OccLLaMA算法模型的运动规划能力与利用各种输入和监督的几个强基线算法模型进行了比较,相关的实验结果如下表所示。
我们还将提出的算法模型与OccWorld算法模型在不同设置下进行了比较,例如4D占用率预测任务中的设置。我们观察到UniAD算法模型提供了最佳的表现性能,而监督标记限制了其对大规模数据集的可扩展性。作为替代方案,OccLLaMA仅依靠3D语义占用就实现了具有竞争力的表现性能,展示了其作为自动驾驶基础模型的扩展潜力。与使用占用作为输入的方法相比,OccLLaMA的表现明显优于OccNet算法模型,进一步凸显了其自回归架构的优越性。此外,超越自回归的最先进的方法OccWorld算法模型,也从侧面证明了我们提出各个模块的有效性。此外,通过集成现有方法实现的卓越性能,展示了我们方法的通用性。值得注意的是,输出轨迹而不交替场景预测会导致性能下降,这表明世界模型范式具有更大的潜力。
视觉问答任务
据我们所知,我们是第一个利用占用数据和文本指令作为输入并在自动驾驶中实现一系列3D任务的多模态大型语言模型。我们选择在NuScenes-QA基准上最先进的算法模型Lidar-LLM,作为我们的主要比较基线。此外,我们分别使用深度图像和原始图像作为输入,在 NuScenes-QA基准上评估了强大的2D LLM。我们使用Top-1准确度指标评估模型的性能,并对不同类型的问题进行单独评估。
为了确保公平性,我们在LLaMA2-7b下实现了我们的整体算法模型,这是与LiDAR-LLM和LLaVA相同的基础模型。相关的实验结果汇总在如下的表格当中。
我们观察到提出的OccLLaMA算法模型总体上提供了最佳的表现性能。与LiDAR-LLM相比,提出的OccLLaMA算法模型可以更好地捕获3D空间中的语义信息,这对于与目标相关的问题至关重要。此外,OccLLaMA算法模型将空间信息作为输入,并自然地对齐语义和空间数据,这对涉及空间关系的问题很有帮助。
相关消融对比实验
此外我们也对提出的各个模块进行了相关的消融对比实验,用于验证我们提出的各个模块的有效性。
下表展示了不同超参数对scene tokenizer重建性能的影响,包括空间分辨率、特征维度和codebook的大小。
较大的codebook会导致算法模型的过度拟合和codebook的利用率下降。较小的codebook和特征维度无法有效地模拟场景分布。分辨率与重建能力呈正相关,影响最为显著。然而,分辨率越大,重建场景所需的token数量就越多,从而增加了预测的负担。
我们也比较了生成模型的不同组成部分对预测和规划性能的影响,相关实验结果汇总在下表当中。
没有空间注意力意味着一个场景中的标记基于扁平序列顺序保持其原始因果注意力。没有动作token化意味着航点由原始语言词汇中的标记连接而成。通过实验结果可以看出,使用特定于动作的标记,而不是依赖语言词汇,可以提高预测和规划的性能。这种改进可以归因于特定于动作的标记保留了航点的物理先验,同时避免了语言词汇中的归纳偏差。此外,我们发现使用空间注意力来模拟场景内的空间依赖关系对于预测至关重要。然而,它会导致规划性能略有下降,我们将其归因于空间注意力在局部扰乱了全局因果注意力。
结论
在本文中,我们提出了OccLLaMA算法模型,一种用于多任务的自动驾驶3D占用语言动作生成世界模型。通过对4D占用预测、运动规划和视觉问答等任务的大量实验,实验数据结果证明了我们提出的OccLLaMA算法模型在多任务上的有效性。未来,我们将增加数据多样性,以进一步增强OccLLaMA算法模型的功能。
#DiVE
原标题:DiVE: DiT-based Video Generation with Enhanced Control
论文链接:https://arxiv.org/pdf/2409.01595
项目链接:https://liautoad.github.io/DIVE/
代码链接:https://github.com/LiAutoAD/DIVE
作者单位:哈尔滨工业大学(深圳) 理想汽车 清华大学 Westlake University 新加坡国立大学
在自动驾驶场景中生成高保真、时间一致性的视频面临着显著的挑战,例如在极端情况(corner cases)下的问题操作(problematic maneuvers)。尽管最近提出了一些视频生成工作来解决上述问题,例如基于 Diffusion Transformers(DiT)的模型,但仍然缺乏专门探索多视角视频生成潜力的研究。值得注意的是,本文提出了首个基于DiT的框架,专门设计用于生成与给定鸟瞰图布局控制精确匹配的时间和多视角一致性视频。具体而言,所提出的框架利用无参数的 spatial view-inflated attention 来保证跨视角一致性,其中集成了 joint cross-attention modules 和ControlNet-Transformer 以进一步提高控制的精度。为了展示本文的优势,本文在nuScenes数据集上进行了广泛的定性比较,特别是在一些最具挑战性的极端情况下。总的来说,本文提出的方法在困难条件下生成长时间、可控且高度一致性视频方面被证明是有效的。
鸟瞰视角(Bird’s-Eye-View, BEV)感知在自动驾驶中引起了极大的关注,突显了其在3D目标检测等任务中的巨大潜力。最近的方法如StreamPETR 利用多视角视频进行训练,强调了广泛且良好标注的数据集的必要性。然而,在各种条件下收集和标注此类数据具有挑战性且成本高昂。为了解决上述挑战,生成模型的最新进展表明,合成数据可以有效地提高目标检测和语义分割等各种任务的性能。
由于时序数据在视频中的参与在相关感知任务中起着至关重要的作用,本文的重点转向生成高质量的真实感视频。实现现实世界的逼真度需要高视觉质量、跨视角和时间一致性以及精确的可控性。值得注意的是,最近方法的潜力受到限制,原因包括低分辨率、固定纵横比以及物体形状和颜色的不一致性。受Sora在生成高质量、时间一致性视频任务中成功表现的启发,本文在工作中采用 Diffusion Transformer (DiT) 进行可控的多视角视频生成。
本文提出的框架是首批在驾驶场景中使用 DiT 进行视频生成的工作之一,通过整合 BEV 布局和场景文本,实现了精确的内容控制。基于OpenSora架构,本文的方法嵌入了 joint cross-attention modules ,以管理来自鸟瞰视角的场景文本和实例布局。扩展ControlNet-Transformer方法以适应道路草图,本文通过无参数的 spatial view-inflated attention 确保多视角一致性。为了支持多分辨率生成、更快的推理以及不同的视频长度,本文采用了OpenSora的训练策略,并引入了一种新颖的无分类器指导技术,以增强控制和视频质量。
图1. 本文提出的方法中每个独立组件的结构实现。
本文的模型总体架构如图1所示。采用OpenSora 1.1提出的参数模型作为基线模型。为了实现对前景和背景信息的精确控制,本文将通过投影从3D几何数据中提取的布局条目和道路草图整合到布局条件视频生成过程中。本文提出的新模块和训练策略将在接下来的部分中分别介绍。
遵循OpenSora 1.1的做法,本文利用预训练并冻结的LDM变分自编码器,从输入的多视角视频片段中提取潜在特征 ,其中 代表视角数量, 表示帧序列长度, 和
Spatial View-Inflated Attention. 为了确保生成过程中的多视角一致性,本文用无参数的 view-inflated attention mechanism 替代了常用的跨视角注意模块。具体来说,本文将2D空间自注意力扩展以实现跨视角交互,通过将输入从 重塑为 ,并将
Caption-Layout Joint Cross-Atttention. 按照MagicDrive的方法,本文使用交叉注意力机制来整合场景描述(scene captions)和布局条目(layout entries)。布局条目(即实例的详细信息,如2D坐标、朝向和ID)经过傅里叶编码后合并为一个统一的嵌入。实例标题则使用预训练的CLIP模型进行编码。这些嵌入被连接并通过一个多层感知器(MLP)处理,生成最终的布局嵌入,该嵌入与场景描述嵌入一起作为交叉注意力机制的条件。
ControlNet-Transformer。深入细节,本文引入了ControlNet-Transformer,以确保对道路草图控制的精确性,灵感来自PixArt-δ。实际上,一个预训练的变分自编码器(VAE)从道路草图中提取潜在特征,这些特征然后通过 3D patch embedder 处理,以确保与本文主网络的一致性。为了参数化本文提到的设计,本文将13个重复块(duplicated block)与DiT架构的前13个基础块集成。每个重复块结合了道路草图特征和基础块输出,使用空间自注意力来减少计算开销。
可变分辨率和帧长度。遵循OpenSora的做法,本文采用了Bucket策略,以确保每个批次中的视频具有一致的分辨率和帧长度。
Rectified Flow。受OpenSora 1.2的启发,本文在后期训练阶段用校正流替代了IDDPM,以提高稳定性并减少推理步骤。校正流是一种基于 ODE 的生成模型,其定义了数据和正态分布之间的前向过程如下:
其中, 是一个数据样本,
其中 包含了三个条件。采样过程通过以下公式从 到 进行
前k帧掩码。为了实现任意长度的视频生成,本文提出了一种前k帧掩码策略,使模型能够从前面的帧中无缝预测未来的帧。形式上,给定一个二进制掩码 表示需要掩码的帧——未掩码的帧作为未来帧生成的条件——本文更新
损失仅在未掩码的帧上计算。在推理过程中,视频以自回归方式生成,前一个片段的最后k帧作为下一个片段的条件。
无分类器指导的多条件控制。本文观察到,将无分类器指导从文本条件扩展到布局条目和道路草图,可以增强条件控制的精度和视觉质量。在训练过程中,本文以5%的概率将文本条件 、布局条件 和草图条件 设置为 ,并强制所有三个条件同时设置为 的概率也为5%。指导尺度 、、
图2. 本文的模型与MagicDrive生成的多视角视频的定性比较。
图3. 场景编辑的使用案例。
表1. 与MagicDrive的定量比较。DTC、CTC和IQ分别代表DINO时间一致性、CLIP时间一致性和图像质量。最佳表现以粗体显示。
本文提出了首个针对驾驶场景的基于DiT的可控多视角视频生成模型。通过整合 ControlNet-Transformer 和 joint cross-attention ,实现对 BEV 布局的精确控制。Spatial view-inflated attention 结合全面的训练和推理策略,确保了高质量和一致性的视频生成。与MagicDrive的比较和各种可视化进一步展示了该模型在生成视频中的卓越控制和一致性。
#SuperDrive首试
8月底,地平线在北京开放了第一批面向媒体的高阶智驾方案SuperDrive体验。
预计到明年第三季度,SuperDrive将伴随主机厂客户的第一款量产车交付。
目前在国内,仅有英伟达和华为两家的平台基础上,有车企向用户成功交付了带有城区功能的高阶智驾方案。地平线「J6P + SuperDrive」的组合,希望成为日益火热的高阶市场中有力的竞争者。
这次SuperDrive开放体验有两个背景:
- 第一是今年4月在北京车展前夕,地平线发布了征程6系列产品,J6P是征程6系列最高阶的计算平台;
- 第二是据媒体报道,去年10月地平线内部针对智驾软件的研发做了战略调整。其将中阶的方案全部交由Tier 1合作伙伴来做,内部聚焦高阶,并且整合了原有内部中阶的团队。
从去年10月开始,地平线投入了超过1000人的团队,专门开发基于J6P软硬结合的高阶方案——SuperDrive。
招股书显示,截止2023年底,地平线约有雇员2066人,这意味着地平线将近一半的精锐部队都投到了SuperDrive的开发上。
招股书同时也披露,2023年地平线的研发投入是23.66亿元。
地平线希望通过「饱和式」的投入,打造出一套高度产品化的智驾方案SuperDrive,来拔高地平线整个商业生态的天花板。
如果SuperDrive大获成功,这也将大幅拔高国内智驾系统产品力的天花板。毕竟当前虽然中低阶的市场杀成红海,但真正能做高阶方案、开放的供应商仍然寥寥。
作为一套「初出茅庐」的高阶智驾系统,SuperDrive在地平线的积累和投入之上,以及车辆目前在北京、上海闹市区所展示出的能力,可以说一出场就有「比肩第一梯队」的实力。
对于SuperDrive当前的进展,余凯在沟通会上评价:超过预期。
不少国内和国际车企客户,也在体验SuperDrive之后给出了颇高的评价。
按照3A游戏标准打造的智驾HMI
过去很长一段时间,行业内都是将智能驾驶作为技术来开发,而SuperDrive立项的出发点就是「用产品思维做高阶智驾」,向车企和用户交付完整的高阶智驾产品体验。
我们可以先从智驾的HMI,来管窥一下地平线在SuperDrive上的产品探索。
SuperDrive的SR,对物理世界进行了高度还原。
从界面上可以看到丰富的细节:
SR界面与导航地图做了深度融合,它的底色是一层类似战争迷雾的效果,随着本车的行驶,呈现模拟探索认知的视角。
除了常见的车道、车辆目标之外,这套SR还会渲染道路两旁的树木以及天桥这样的建筑物。
由于采用的是无高精地图的方案,SuperDrive使用了世界模型来做实时的感知识别,再叠加激光雷达点云,来还原树木以及一些大的建筑。这样做可以让用户更容易对齐真实世界和虚拟世界的坐标,增加安全感。
由于在测试中经常会遇到遛狗的行人,地平线把包括小猫、小狗在内的小目标,也做到了SR上。
针对常见重叠的目标,比如等待过路口的行人、路边停放的车辆也专门做了感知优化,SR上被遮挡的目标仍能稳定追踪,物体结构清晰完整。
整个SR,无论动静态的目标,尤其路边的行人、两轮车,包括朝向、姿态在内都非常稳定,很少有「跳变」。
这些都展示了扎实的算法和工程功底。
一位地平线工程师告诉我们:这套SR,内部对于审美和产品细节有很高的标准。
首先,从元素展示上,作为深度研发智驾系统的供应商,他们最了解哪些信息对于用户理解智驾系统的行为、建立安全感是必要的。
过去,一些智驾系统的HMI开发由车企与供应商分开主导,智驾供应商缺乏对用户交互的理解,而车企则缺少智驾系统开发的经验,因此有时整个交互体验的一致性不够好,信息也不够完整。
地平线的这套SR希望帮助车企树立起一套高阶智驾交互的「标杆」。
实际上,内部还有一项目标是将这套SR,做到3A级游戏的标准。
世界模型 + 数据驱动的交互博弈
作为地平线最新一代的智驾方案,SuperDrive用上了时下最流行的大模型驱动的技术栈,也就是炙手可热的「端到端」技术。
并且,J6这代的BPU也对运行大参数模型做了底层优化。
它的前端以异构传感器与导航地图的信息作为输入,进入到一个「静态环境 + 动态目标 + 占用格栅」三网合一的感知世界模型。
世界模型向下游同时输出动静态的目标信息,这些目标信息同时用于SR的显示,并且世界模型同步向下游传输更丰富的无损高纬度特征信息。
而下游的决策规划,则包含了模型驱动和规则兜底的两套系统。
整套系统追求拟人化的驾驶体验,希望做到「优雅不怂」。
模型驱动的决策规划,是系统能做到「优雅不怂」的其中一个原因。
在开发的初期,地平线采集了一些国宾司机标准的驾驶数据来启动模型的训练;目前这套系统,已经学习了超过1万小时的高质量驾驶数据。
不过,余凯认为,端到端并不是智驾系统的终局解决方案,智驾产品也不存在一招鲜。
「真正的门槛来自千锤百炼的工程能力,在干脏活累活攒下的积累。」
比如地平线600万套征程家族的出货积累下的车辆纵向控制算法,「地平线拥有业界最丰富的纵向控制的数据库」。
在这批SuperDrive的试验车上,由于没有原厂开放的底盘控制信号,地平线是通过工程方法独立做的底盘控制。
在体验完SuperDrive后,这套系统在控制上的细腻程度让不少主机厂客户折服,评价地平线的团队是「懂车、懂底盘的」。
产品、技术、工程化
高阶智驾的铁人三项赛
在相当长一段时间内,智能驾驶都是作为先进技术被行业所研发推进。
而智驾的关键构成,比如计算机视觉、深度学习,都来自于学界的前沿研究。大家长期视最新的算法突破为瑰宝,而忽略了工程化的重要性。
工程化短板是后来很多年智驾科技公司在尝试商业落地时遇到的挑战,至今仍然如此。
至于产品化,则是非常稀缺的经验。
如果从高速NOA量产开始计算,智能驾驶真正开始被产品化并开始被用户大量使用,只有四五年时间。
而到了2024年,当智能驾驶的装配率开始快速上升,而智驾供应的格局开始急剧收敛时,高阶智驾的已经是「技术 + 工程 + 产品」全面的铁人三项赛事。
这也是余凯所说的,智能驾驶不可能做到一招鲜。
SuperDrive是以深度定制优化的硬件为基础,高度软硬协同的方案。
征程6系列最高阶的计算平台J6P,单片算力达到560 Tops;在地平线前3代计算平台的设计经验基础上,J6P集成了BPU、CPU、GPU、MCU、ISP和Codec等丰富的异构计算资源。
并且第三代BPU架构Nash,专门针对大参数模型进行优化,运行Transformer类算法相比于主流的竞品平台有9 - 11倍的FPS性能(每秒处理的图片帧数)提升。
在城区NOA加速普及的阶段,头部厂商都已经深刻意识到深度软硬结合的必要性。
比如英伟达在DRIVE计算平台的基础上,由吴新宙带领正在开发全栈的高阶智驾软件;而Momenta则是从软件算法的背景出发,正在快速推进自研芯片,核心目标也是针对大模型的底层硬件优化。
深度优化的计算硬件,600万套出货的工程积累和产品化思考,使SuperDrive一出场就站在了一个高起点上。
这一批的SuperDrive体验,地平线专门选择了在北京、上海闹市区,在高峰时段甚至夹杂着恶劣天气下,系统依然可以顺滑地完成路线的体验。
地平线希望这样的场景设置,能够尽可能地打磨出系统的上限,同时也在开展大规模的泛化测试。
预计最快到明年第三季度,我们将看到搭载SuperDrive的量产车上市。
2024年,中国市场L2辅助驾驶的新车装配率已经超过了50%,但大部分仍以基础辅助驾驶为主。
根据灼识咨询的预测,到2030年,中国智能汽车的销量将增加到815万台,而高阶智驾将成为主流的前装解决方案,其渗透占比预计将超过60%。
而SuperDrive就是要加速这样的目标普及,余凯预计在3 - 5年内,十几万级的车型搭载SuperDrive这样的系统,完全是可以预期的。