一 核心思想

本文提出的TANet方法,在pedestrain上表现很好。主要应用triple attention方法,对目标的特征进行权重的调整。网络主要分为两个框架,一个是Triple Attention框架和Coarse-to-Fine Regression框架。

1、Triple Attention。结合channel-wise注意力、point-wise注意力和voxel-wise注意力来增强目标的关键信息,并抑制不稳定的点。其中channel-wise注意力用于判断每个voxel中哪些channel更加重要;point-wise注意力用于判断一个体素中哪些point更加重要;voxel-wise注意力用于判断在所有voxel网格中哪些网格更加重要。

2、 Coarse-to-Fine Regression。采用两阶段回归的方法,将粗略回归的输出bbox作为精确回归的anchor,模块在不过度消耗计算成本的情况下提升定位准确率。

整个pipeline如下图所示:

目标检测注意力热图可视化 目标检测attention_3D

 

二 核心步骤

2.1 Stacked Triple Attention

目标检测注意力热图可视化 目标检测attention_目标检测注意力热图可视化_02

 本文主要借鉴PointPillars的划分网格点的操作,不对Z轴上进行grid划分。令N和C分别代表每个voxel中所含point的最大值和每个point feature的channel。令V表示样本划分的体素网格,K表示这个这个样本中划分的voxel的数量,则

目标检测注意力热图可视化 目标检测attention_3D_03

目标检测注意力热图可视化 目标检测attention_3D_04表示V中的第K个体素。这边需要注意:每一个TA Module可以表示为类似于VFE的结构,也就是形成体素特征的结构,只是加上Triple Attention机制。对于每一个TA Module中均有channel-wise注意力、point-wise注意力和voxel-wise注意力。

 

目标检测注意力热图可视化 目标检测attention_自然语言处理_05

 

2.1.1 Point-wise Attention

首先对每一个point feature,按照channel维度进行max pooling操作,得到

目标检测注意力热图可视化 目标检测attention_深度学习_06

,然后按照

目标检测注意力热图可视化 目标检测attention_深度学习_07

得到最终的point-wise attention参数。其中

目标检测注意力热图可视化 目标检测attention_自然语言处理_08

是ReLU activation function。

2.1.2 Channel-wise Attention

与上述类似,按照point的个数方向进行max pooling操作,得到

目标检测注意力热图可视化 目标检测attention_神经网络_09

,然后按照

目标检测注意力热图可视化 目标检测attention_3D_10

得到最终的channel-wise attention参数。其中

目标检测注意力热图可视化 目标检测attention_深度学习_11

是ReLU activation function。通过2.1.1和2.1.2,就可以得出第k个voxel的前两个attention参数,也就是最终的这个voxel的注意力参数:

目标检测注意力热图可视化 目标检测attention_深度学习_12

,其中

目标检测注意力热图可视化 目标检测attention_深度学习_13

表示sigmoid function。由此得出上图的上半部分的最终feature,也是第k个voxel的上半部分的特征

目标检测注意力热图可视化 目标检测attention_目标检测注意力热图可视化_14

,这个点乘表示矩阵对应位置相乘。

 2.1.3 Voxel-wise Attention

 上图的下半部分,Voxel center是每个voxel内所有点的坐标平均数。之后通过全连接层转化到高维空间空间,然后与上部分得到每个voxel 的特征目标检测注意力热图可视化 目标检测attention_神经网络_15一一对应相连。

 Voxel-wise attention为:

目标检测注意力热图可视化 目标检测attention_深度学习_16

,其中目标检测注意力热图可视化 目标检测attention_深度学习_17表示通过两层全连接压缩第k个voxel的channel-wise和point-wise得到的特征。(猜测这里应该是在channel-wise上用到了max pooling操作,将channel-wise压缩到1维,之后应该也用到了sigmoid function。) 最终,得到这个TAModule(Triple Attention Module)对于每一个voxel的输出

目标检测注意力热图可视化 目标检测attention_目标检测注意力热图可视化_18


 2.1.4 Stacked TA

正如总框架图所示,对于每个TA模块,我们将其输出与输入连接/求和,以融合更多的特征信息。然后通过全连通层获得高维特征表示。

最后采用max pooling操作聚合每个体素的所有点特征,将其作为CFR的输入。

 2.2 Coarse-to-Fine Regression

 

目标检测注意力热图可视化 目标检测attention_目标检测注意力热图可视化_19

 

这一个框架没有非常新颖的地方,对于每一个Block的ouput的维度分别为:

目标检测注意力热图可视化 目标检测attention_自然语言处理_20

,然后上采样为

目标检测注意力热图可视化 目标检测attention_自然语言处理_21


 CR module会先在anchor的基础上得到coarse的bbox, FR module会优化 coarse bbox得到fine bbox。

 2.3 Loss Function

目标检测注意力热图可视化 目标检测attention_目标检测注意力热图可视化_22

其中

目标检测注意力热图可视化 目标检测attention_神经网络_23

,表示anchor框底部的对角线长度。 

目标检测注意力热图可视化 目标检测attention_目标检测注意力热图可视化_24

 

上标与分别表示CR module和FR module。

三 总结

1、借鉴NLP和图像领域较火的注意力机制,采用此类万金油模块提取被关注目标的特征信息,设计了针对点云特性的Triple Attention模块,该模块联合考虑通道注意力、点注意力和体素注意力,并执行堆叠操作从而获得多级特征注意力,进而得到对象的判别表示;

2、考虑到在在噪声环境下,仅应用单个回归器模块做 3D 边界框定位的效果不佳。提出新型 coarse-to-fine regression 机制,基于粗糙回归结果,利用新型 Pyramid Sampling Aggregation融合方法得到跨层特征图,并细化基于融合后的跨层特征图实现,从而得到更精细的估计结果。

3、该方法在难度较高的噪声环境中取得了不错的实验结果,在 KITTI 基准数据集上的量化比较结果表明,TANet 方法获得了当前最优性能,且其推断速度很快。

该文主要解决了前面提到的两个问题:提高了难例检测的准确率;增强检测在噪声环境下的鲁棒性。

虽然实验结果的提升并没有太大的飞跃,但是这种注意力机制模块属于即插即用型,完全可以集成到其他更先进的网络结构中。二级回归的思想有点类似于Faster RCNN系列相对于YOLO系列的差别,在图像的两阶段检测中就是在第一阶段预测出前后背景,第二阶段针对某区域的前景在做位置的回归。

 参考文献

[1] Liu Z ,  Zhao X ,  Huang T , et al. TANet: Robust 3D Object Detection from Point Clouds with Triple Attention[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7):11677-11684.