多模态神经架构搜索 多模态识别_大数据

作者丨汽车人

标题:AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection

链接:https://arxiv.org/pdf/2207.10316.pdf

代码:https://github.com/zehuichen123/AutoAlignV2

1摘要

点云和RGB图像是自动驾驶中常用的两种感知数据来源,前者可以提供精确的目标定位,后者包括丰富的语义信息。针对3D目标检测中这两种模态的融合,之前提出的AutoAlign方法提出了一种可学习的范式,但由于全局注意力机制,计算开销很大。为了解决这个问题,本文提出了跨域的DeformCAFA模块,它更加关注跨域关系建模中的稀疏可学习采样点,提高了校准误差的容忍度,从而极大加快了不同模态特征间的融合。为了克服GT-AUG在多模态下的复杂设置,在给定深度信息的情况下,设计了一种简单而有效的交叉模态增强策略。而且,通过采用一种新颖的图像级dropout训练方案,模型能够以动态的方式进行推理。为此, 我们在AutoAlign基础上提出AutoAlignV2,一个更快更强的多模态3D目标检测框架。在nuScenes基准测试上的实验表明了AutoAlignV2的有效性和效率。作者的最佳模型在nuScenes测试排行榜上达到72.4 NDS ,一个新的SOTA,超过了现有已知的多模态3D目标检测器。

多模态神经架构搜索 多模态识别_算法_02

2方法

很多研究已经表明,点云数据与RGB图像数据融合可以显著提高3D目标检测效果,但针对如何有效的去融合它们的探索还不够。作者认为训练一个跨模态3D目标检测器的困难主要表现在两方面:一是RGB图像特征与点云特征需要对齐,这主要依赖激光雷达的投影矩阵将像素和点建立对应关系,AutoAlign方法使用了可学习的全局对齐模块,取得了较好效果,缺点就是复杂度高,计算成本高;二是数据增强,比如GT-AUG,可以有效提高3D目标检测效果,但是子剪切粘贴过程中,要保持图像和点云的同步。本文整体就是为了优化这两个问题,提出了一系列方法。

Deformable Feature Aggregation

AutoAlign提出的CAFA(Cross-Attention Feature Alignment),引入可学习的对齐映射来建立图像和雷达点云的映射关系,使得网络以动态和数据驱动的方式自动对齐非同质化的特征。但其缺点是将每个像素都作为可能的空间候选位置,计算代价很高,只能应用在网络的C5特征层,而FPN中其它几个高分辨率特征层里面的信息更加细粒度。针对CAFA的问题,作者提出Cross-Domain DeformCAFA,该算法大大减少了采样候选量,并为每个体素查询特征动态确定图像平面上的关键点区域。此方法显著减少了计算成本,方法具体如下图所示:

多模态神经架构搜索 多模态识别_大数据_03

后面作者又发现直接将体素特征作为token生成注意力权重和可变形偏移,检测算法效果不佳,分析下来主要token生成存在跨域知识翻译问题,跨域的注意力需要不同模态的信息,而不能只关注体素特征。于是作者利用一种建模方法,让图像特征和体素特征联合生成token,具体使用了一个FC层,聚合这些跨域的特征:

多模态神经架构搜索 多模态识别_编程语言_04

Depth-Aware GT-AUG

数据增强可以提升深度学习模型的泛化能力,但多模态3D目标检测中,由于遮挡或视角改变,数据增强中将点云与图像组合在一起时很难保持同步。为此我们提出了Depth-Aware GT-AUG方法,摒弃了复杂的点云过滤以及图像域对掩模精细标注的要求,而是基于MixUp的思路,利用3D目标标注的深度信息来混合图像区域。具体地,对于点云目标,和正常的GT-AUG 实现一致。对于图像目标,首先由远及近(深度信息)的规则进行排序,对每个要粘贴的目标,从原始图像中裁剪出相同的区域,并将它们与目标图像按照混合比例α结合起来(具体参考MixUp原理)。具体实现过程如下:

多模态神经架构搜索 多模态识别_大数据_05

Depth-Aware GT-AUG在点云域沿用了GT-AUG,而在图像域则是根据目标的深度信息,利用MixUp方法进行图像增强,这样不会完全去掉这个地方的目标特征。

Image-Level Dropout Training Strategy

实际场景中,RGB图像通常是可选的输入,并不是所有的3D目标检测系统都支持图像输入。因此,对于多模态检测,更现实适用的解决方案应该是采用动态融合的方式:当无图像输入时,模型基于原始点云检测目标;当有图像输入时,模型进行特征融合,得到更好的预测结果。为了实现这一目标,作者提出了一种图像级的dropout训练策略,在图像级随机删除融合的图像特征,并在训练过程中填充0,如下图所示。由于图像信息是间歇性缺失的,模型应该逐渐学会将2D特征作为可选输入。这种策略不仅大大加快了训练速度(每批处理的图像更少),而且提高了最终的性能。

多模态神经架构搜索 多模态识别_大数据_06

3实验结果

在nuScenes上不同方法使用AutoAlignV2的对比实验:

多模态神经架构搜索 多模态识别_大数据_07

与其它3D检测方法的对比:

多模态神经架构搜索 多模态识别_python_08

消融实验做的也很充分:

多模态神经架构搜索 多模态识别_算法_09

多模态神经架构搜索 多模态识别_编程语言_10

多模态神经架构搜索 多模态识别_编程语言_11

最后,多模态融合就是好,虽然慢了,但是涨点明显,AutoAlignV2也支持纯激光雷达,性能也能和CenterPoint保持一致,更贴合现实应用场景。

多模态神经架构搜索 多模态识别_python_12

4结论

本文作者提出一个动态、高效的多模态3D目标检测框架AutoAlignV2。它利用多层可变形交叉注意力网络从不同模态中提取和聚合特征,大大加快了融合过程。作者还设计了depth-aware GT-AUG策略,以简化多模态数据增强过程中2D和3D域之间的同步。并且AutoAlignV2更加灵活,可以以一种特殊的方式使用或不使用2D图像进行推理,这更适合于现实世界的自动驾驶系统。整体文章还是非常注重落地的。