在自动驾驶系统中,感知任务是非常重要的一环,是自动驾驶后续下游轨迹预测以及运动规划任务的基础。作为一辆能够实现自动驾驶功能的汽车而言,其通常会配备环视相机传感器、激光雷达传感器以及毫米波雷达传感器。由于基于纯视觉的BEV感知算法需要更低的硬件以及部署成本,同时其输出的BEV空间感知结果可以很方便被下游任务所使用,受到了来自工业界和学术界的广泛关注。

随着目前感知任务需求的增长,比如要实现基于BEV空间的3D检测任务或者是基于BEV空间的语义分割任务,一个理想的感知算法是可以同时处理像3D检测或者语义分割等多个任务的。同时,目前的自动驾驶系统更加倾向于采用完全端到端的感知框架,从而简化整个系统的架构并降低感知算法实现的复杂性。

虽然端到端的多任务感知模型具有诸多的优势,但是目前依旧存在着诸多挑战:

  • 目前,绝大多数基于相机的3D感知算法,为了提高模型的检测性能,都会采用更高分辨率的输入图像、长时序的输入信息以及更强大的图像特征编码器。但是需要注意的是,在单任务的感知算法模型上同时采用这些技术会导致训练过程中巨大的训练成本。
  • 由于时序的输入信息可以更好的提升感知算法模型对于当前环境的理解和感知,目前很多工作都采用了这一策略。这些工作主要将不同帧的信息处理为BEV特征后,直接沿着通道的维度进行求和或者拼接来让模型能够获取到一段时间段内的环境元素信息,但收益却不是特别的理想。造成这一现象的主要原因是自车周围环境的运动物体在不同时刻沿着BEV的轨迹是不同的,并且分散在BEV的大片区域中。因此,我们需要引入动态对齐机制的思想来对运动物体的位置进行调整。
  • 对于目前已有的多任务学习框架而言,主要都是采用一个共享的图像编码网络来处理不同的感知任务。然而,通过这些论文中列举的相关实验结果我们发现,通过多任务联合学习的方式通常在不同任务上的表现要弱于每个任务单独训练的性能。

针对上述提到的端到端多任务感知模型存在的诸多挑战,在本文中,我们提出了一个用于端到端多任务3D感知的混合特征编码算法模型HENet,在nuScenes数据集上实现了多个任务的SOTA,如下图所示。

HENet_人工智能

与其他算法模型的语义分割和3D检测性能指标对比

原标题:HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras

论文链接:https://arxiv.org/pdf/2404.02517.pdf

代码链接:https://github.com/VDIGPKU/HENet

作者单位:北京大学 长安汽车 加州大学默塞德分校

多相机端到端多任务框架

论文思路:

多视角相机的三维感知是自动驾驶系统中的一个关键组成部分,涉及多项任务,如3D目标检测和鸟瞰图(BEV)语义分割。为了提高感知精度,最近的3D感知模型采用了大型图像编码器、高分辨率图像和长时序输入,带来了显著的性能提升。然而,由于计算资源的限制,这些技术在训练和推理场景中常常不兼容。此外,现代自动驾驶系统更倾向于采用端到端框架进行多任务3D感知,这可以简化整个系统架构并降低实施复杂性。然而,在端到端的3D感知模型中共同优化多个任务时,任务之间经常会出现冲突。为了缓解这些问题,本文提出了一个名为 HENet 的端到端多任务3D感知框架。具体来说,本文提出了一个混合图像编码网络,使用大型图像编码器处理短时序帧,使用小型图像编码器处理长时序帧。然后,本文引入了一个基于注意力机制的时序特征集成模块,用于融合两种混合图像编码器提取的不同帧的特征。最后,根据每个感知任务的特点,本文使用不同网格大小的BEV特征、独立的BEV编码器和不同任务的任务解码器。实验结果表明,HENet在nuScenes基准测试中实现了最先进的端到端多任务3D感知结果,包括3D目标检测和BEV语义分割。

主要贡献:

  • 本文提出了一个端到端的多任务3D感知框架,采用混合图像编码网络,以较小的训练成本利用高分辨率图像、长期输入和大型图像编码器的优势。
  • 本文引入了一个基于注意力机制的时序集成模块,用于融合多帧BEV特征,并实现移动物体的动态帧间对齐。
  • 本文分析了端到端多任务学习中的任务冲突,并提出了特征尺寸选择和独立特征编码来缓解这个问题。
  • 本文在nuScenes数据集上的端到端多任务学习中取得了最先进的结果,包括3D目标检测和BEV语义分割任务。

网络设计:

多视角相机高效且准确地感知周围环境对自动驾驶系统至关重要,它是随后轨迹预测和运动规划任务的基础。一个理想的3D感知系统应该能够同时处理多项任务,包括3D目标检测和鸟瞰图(BEV)语义分割。端到端多任务框架越来越受到重视,因为这样的系统有潜力简化整体架构并减轻实施复杂性。

然而,端到端的多任务3D感知面临以下挑战。首先,在设计基于相机的高性能3D感知模型时,研究人员通常会利用更高分辨率的图像、更长的时序输入和更大的图像编码器来提高3D感知的准确性。然而,将这些技术同时应用于单一的感知模型将导致训练成本极高。为了缓解这个问题,一些研究[32, 46]将过去的信息存储在 memory 中,但这样做有诸如时序特征不一致和数据增强效率低下等缺点。因此,许多最新的方法[26, 37, 44, 52]并没有采用这种策略,而是重新计算过去帧的特征,尽管这样做增加了训练成本。

其次,为了处理长期的时序输入,许多研究[11,17,18]直接在沿通道维度的鸟瞰图(BEV)中将不同帧的特征求和或连接起来,在更长的时间序列中表现出不尽人意的感知性能。原因在于,移动物体的特征在不同帧的鸟瞰图 (BEV) 中沿其轨迹错位并分散在较大区域内。因此,有必要引入动态对齐机制[28, 37]来校正移动物体的位置。

第三,对于端到端的多任务学习,现有的研究[8, 19, 28]使用一个共享的编码网络和多个解码器来处理不同的任务。然而,这些研究中的实验结果表明,端到端地共同学习多个任务往往并不是最优的,即多任务学习中每个任务的性能都低于单独训练。为了缓解这个问题,一些研究[28]提出了调整每个任务的损失权重,但没有全面分析任务之间存在冲突的原因。

本文提出了HENet,这是一个端到端的多任务3D感知框架,专为多视角相机设计。为了整合大型图像编码器、高分辨率图像和长期输入,本文提出了一种混合图像编码网络,它采用不同的分辨率和图像编码器处理不同的帧。具体来说,本文对短期帧使用高分辨率输入、大型图像主干网络和复杂的透视变换网络,以生成高精度的BEV特征。对于长期帧,选择低分辨率输入,并采用小型图像主干网络和简单的透视变换网络高效生成BEV特征。所提出的混合图像编码网络可以轻松地并入现有的感知模型中。然后,本文引入了一个时序整合模块,以动态地对齐和融合来自多帧的BEV特征。具体来说,在这个模块中,本文提出了一个带有相邻帧融合模块(AFFM)的时序前向和后向过程来聚合BEV特征,通过注意力机制解决了对齐移动物体的问题。最后,本文深入分析了多任务学习中3D目标检测与BEV语义分割之间的冲突,并发现不同任务偏好不同的BEV特征网格大小是关键问题。基于这一观察,本文为不同任务选择了不同网格大小的BEV特征。所选特征被送入独立的BEV编码网络和任务解码器,以进一步缓解任务冲突,从而获得最终的3D感知结果。

HENet_人工智能_02

图2:HENet的整体架构。i) 混合图像编码网络使用不同复杂度的图像编码器分别对长序列帧和短期图像进行编码。ii) 基于注意力机制的时序特征整合模块融合了来自多个图像编码器的多帧特征。iii) 根据不同任务的特点,本文选择了合适大小的BEV特征图,并对每个任务执行独立的BEV编码。

HENet_人工智能_03

图3:时序特征整合模块的架构。本文提出了相邻帧融合模块(AFFM),并采用了包含时序前向和后向过程的时序融合策略。

HENet_3D_04

图4:独立BEV特征编码的设计。通过独立的自适应特征选择和BEV编码,为每个任务解码器提供不同网格大小的BEV特征图。

HENet_编码器_05

实验结果:

HENet_3D_06

图1:在nuScenes验证集上端到端多任务结果的比较。 

HENet_多任务_07

图5:分析3D目标检测与BEV语义分割之间的相似性和差异。实验结果表明,每个任务都有适合的BEV网格大小。BEV语义分割的适宜网格大小 大于 3D目标检测的适宜网格大小。

HENet_人工智能_08

图6:HENet及基线在端到端多任务处理上的可视化结果。

总结:

本文提出了HENet,这是一个端到端的多任务3D感知框架。本文提出了一种混合图像编码网络和时序特征集成模块,以高效处理高分辨率和长期时间序列的图像输入。此外,本文采用了特定于任务的BEV网格大小、独立的BEV特征编码器和解码器来解决多任务冲突问题。实验结果表明,HENet在nuScenes上获得了最先进的多任务结果,包括3D目标检测和BEV语义分割。