作者:摩卡 编辑:学姐
论文解读
《CANet: Centerness-Aware Network for Object Detection in Remote Sensing Images》
Motivation
最近特征金字塔(Feature Pyramid Network, FPN)结构被广泛运用在遥感目标检测领域。
可是大多数FPN-based方法在训练过程中使用稠密的anchor boxes去覆盖目标对象的位置,然而anchor boxes机制是一个依赖额外参数的启发式机制,这会使得模型的性能对参数设置十分敏感,此外许多FPN-based方法通常通过在训练期间固定IoU阈值来实现anchor采样,这导致检测器对遥感对象的形状特征的描述不够充分。
对于遥感图片而言其都是鸟瞰角度且带有对称性的图片,然而目前的遥感目标检测模型没有充分使用对称性这一属性。
本文产生一个想法是:遥感目标几何中心周围的特征会提供该目标高质量的表示。所以本文想到利用注意力机制结合FPN使得模型更加关注目标中心的特征。
最终本文为了解决FPN-based模型anchor boxes问题和利用遥感目标对称性的特点提出了名为CANet的单阶段,anchor-free模型。
Method
CANet可以分成ResNet101 backbone, FPN以及Centerness-Aware Model(CAM)。其模型图如下所示:
图1.CANet框架图
其中最为重要的为CAM。CAM又可以分成三部分,分别是:
Multiscale Centerness Descriptor(MSCD),Centerness Detection Head(CDH),Feature Selective Module(FSM)。
MSCD是一个visual attention network,其由多个Centerness Descriptor(CD)构成,每个CD模块通过CNN处理不同level的特征金字塔feature map Pi 以生成相关的Centerness heatmap
接着通过指数函数操作(exp)产生指数heatmap
再与对应的Pi 通过Hadamard Product融合产生增强后的特征Ai。细节如图2所示。
图2.MSCD细节
在训练MSCD中的CNN时,将水平框包含的区域划分为3块,分别为:effective region,ignore region和negative region。这些区域的选择是通过对Ground Truth调整划分的。给定一个标注好的水平框
表示中心点的坐标,w,h分别代表框的宽和高。将该水平框映射到第ith级别的特征上,其被重新编码为
,effective region的中心点坐标与bp相同,其宽和高分别是bp的
,ignore region的中心点坐标与bp相同,其范围是
不包括在训练样本中,此外剩下的所有区域为negative region。因为是对像素级进行分类且只有两类,使用二元交叉熵函数作为损失函数且记为LCN。
CDH直接与MSCD相连接,接收由MSCD增强过的特征。CDH可以分为平行的两支,一支用来预测对象的类别,另一只用来确定对象在图片中的位置。结构如下图所示:
图2.CDH细节
分类预测支由4组卷积核大小为K*3*3步长为1的卷积构成,其中K为预测类别的个数。确定目标位置这一支也由4组步长为1的卷积构成,不过卷积核的大小为4*3*3。
每一个定位支最后都会产生4通道堆叠的特征图,此特征图包含了位置信息,用于最后的定位。在预测支训练时,会按照MSCD中区域分割方法进行分割,最终获得每一个像素的预测值。
因为按照MSCD分割时负样本的数量太多,会产生数据不平衡现象,所以采用focal loss为损失函数记为LFL。
在确定对象位置的分支中,本文首先提出了Generalized Intersection over Union(GIoU)的概念,并且重新调整了正负样本的划分(位置确定阶段的正样本与MSCD相同,但是负样本是MSCD中负样本与ignore region的组合),最终通过LGIOU损失函数进行训练。在对于对象位置的训练中,损失函数会驱动预测框不断变大,以减少与真实框间的差距,最终产生水平预测框。
FSM目前FPN-based方法是通过提前设置规则来选取最合适level feature的,但是本文发现通过上述方法即使两个有相同类别的实例其中心点周围表示相似也可能会分配到不同level的特征。因而这种启发式的搜索方法在选择特征的时候可能选择不到最优的特征。故本文提出了不预先设置规则的选择方法,将选择的权力交给模型。具体实现是通过模型反向传播最小化每一层的
,最终选取出最适合的level feature。Hybrid Loss Function 在CANet训练的过程中,采用混合损失函数的方法联合MSCD的损失LCN,CDH的损失LFL与LGIOU,再结合FSM选择最优特征的损失,记为
三者共同优化模型。
Results
CANet在NWPU VHR-(10)和RSOD 两个数据集上进行验证。
表1. CANet在NWPU VHR-(10)上的结果
表2. CANet在RSOD上的结果
实验结果表明CANet的性能达到了SOTA。