多模态神经架构搜索多模态识别

转载

mob64ca141834d3 2024-01-22 14:09:26

文章标签 多模态神经架构搜索算法大数据编程语言 python 文章分类 架构后端开发

多模态神经架构搜索多模态识别_大数据

作者丨汽车人

标题：AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection

链接：https://arxiv.org/pdf/2207.10316.pdf

代码：https://github.com/zehuichen123/AutoAlignV2

1摘要

点云和RGB图像是自动驾驶中常用的两种感知数据来源，前者可以提供精确的目标定位，后者包括丰富的语义信息。针对3D目标检测中这两种模态的融合，之前提出的AutoAlign方法提出了一种可学习的范式，但由于全局注意力机制，计算开销很大。为了解决这个问题，本文提出了跨域的DeformCAFA模块，它更加关注跨域关系建模中的稀疏可学习采样点，提高了校准误差的容忍度，从而极大加快了不同模态特征间的融合。为了克服GT-AUG在多模态下的复杂设置，在给定深度信息的情况下，设计了一种简单而有效的交叉模态增强策略。而且,通过采用一种新颖的图像级dropout训练方案，模型能够以动态的方式进行推理。为此, 我们在AutoAlign基础上提出AutoAlignV2，一个更快更强的多模态3D目标检测框架。在nuScenes基准测试上的实验表明了AutoAlignV2的有效性和效率。作者的最佳模型在nuScenes测试排行榜上达到72.4 NDS ，一个新的SOTA，超过了现有已知的多模态3D目标检测器。

多模态神经架构搜索多模态识别_算法_02

2方法

很多研究已经表明，点云数据与RGB图像数据融合可以显著提高3D目标检测效果，但针对如何有效的去融合它们的探索还不够。作者认为训练一个跨模态3D目标检测器的困难主要表现在两方面：一是RGB图像特征与点云特征需要对齐，这主要依赖激光雷达的投影矩阵将像素和点建立对应关系，AutoAlign方法使用了可学习的全局对齐模块，取得了较好效果，缺点就是复杂度高，计算成本高；二是数据增强，比如GT-AUG，可以有效提高3D目标检测效果，但是子剪切粘贴过程中，要保持图像和点云的同步。本文整体就是为了优化这两个问题，提出了一系列方法。

Deformable Feature Aggregation

AutoAlign提出的CAFA(Cross-Attention Feature Alignment)，引入可学习的对齐映射来建立图像和雷达点云的映射关系，使得网络以动态和数据驱动的方式自动对齐非同质化的特征。但其缺点是将每个像素都作为可能的空间候选位置，计算代价很高，只能应用在网络的C5特征层，而FPN中其它几个高分辨率特征层里面的信息更加细粒度。针对CAFA的问题，作者提出Cross-Domain DeformCAFA，该算法大大减少了采样候选量，并为每个体素查询特征动态确定图像平面上的关键点区域。此方法显著减少了计算成本，方法具体如下图所示：

多模态神经架构搜索多模态识别_大数据_03

后面作者又发现直接将体素特征作为token生成注意力权重和可变形偏移，检测算法效果不佳，分析下来主要token生成存在跨域知识翻译问题，跨域的注意力需要不同模态的信息，而不能只关注体素特征。于是作者利用一种建模方法，让图像特征和体素特征联合生成token，具体使用了一个FC层，聚合这些跨域的特征：

多模态神经架构搜索多模态识别_编程语言_04

Depth-Aware GT-AUG

数据增强可以提升深度学习模型的泛化能力，但多模态3D目标检测中，由于遮挡或视角改变，数据增强中将点云与图像组合在一起时很难保持同步。为此我们提出了Depth-Aware GT-AUG方法，摒弃了复杂的点云过滤以及图像域对掩模精细标注的要求，而是基于MixUp的思路，利用3D目标标注的深度信息来混合图像区域。具体地，对于点云目标，和正常的GT-AUG 实现一致。对于图像目标，首先由远及近（深度信息）的规则进行排序，对每个要粘贴的目标，从原始图像中裁剪出相同的区域，并将它们与目标图像按照混合比例α结合起来（具体参考MixUp原理）。具体实现过程如下：

多模态神经架构搜索多模态识别_大数据_05

Depth-Aware GT-AUG在点云域沿用了GT-AUG，而在图像域则是根据目标的深度信息，利用MixUp方法进行图像增强，这样不会完全去掉这个地方的目标特征。

Image-Level Dropout Training Strategy

实际场景中，RGB图像通常是可选的输入，并不是所有的3D目标检测系统都支持图像输入。因此，对于多模态检测，更现实适用的解决方案应该是采用动态融合的方式：当无图像输入时，模型基于原始点云检测目标；当有图像输入时，模型进行特征融合，得到更好的预测结果。为了实现这一目标，作者提出了一种图像级的dropout训练策略，在图像级随机删除融合的图像特征，并在训练过程中填充0，如下图所示。由于图像信息是间歇性缺失的，模型应该逐渐学会将2D特征作为可选输入。这种策略不仅大大加快了训练速度(每批处理的图像更少)，而且提高了最终的性能。

多模态神经架构搜索多模态识别_大数据_06

3实验结果

在nuScenes上不同方法使用AutoAlignV2的对比实验：

多模态神经架构搜索多模态识别_大数据_07

与其它3D检测方法的对比：

多模态神经架构搜索多模态识别_python_08

消融实验做的也很充分：

多模态神经架构搜索多模态识别_算法_09

多模态神经架构搜索多模态识别_编程语言_10

多模态神经架构搜索多模态识别_编程语言_11

最后，多模态融合就是好，虽然慢了，但是涨点明显，AutoAlignV2也支持纯激光雷达，性能也能和CenterPoint保持一致，更贴合现实应用场景。

多模态神经架构搜索多模态识别_python_12

4结论

本文作者提出一个动态、高效的多模态3D目标检测框架AutoAlignV2。它利用多层可变形交叉注意力网络从不同模态中提取和聚合特征，大大加快了融合过程。作者还设计了depth-aware GT-AUG策略，以简化多模态数据增强过程中2D和3D域之间的同步。并且AutoAlignV2更加灵活，可以以一种特殊的方式使用或不使用2D图像进行推理，这更适合于现实世界的自动驾驶系统。整体文章还是非常注重落地的。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。