目录

  • 📝论文下载地址
  • 👨🎓论文作者
  • 📦模型讲解
  • [背景介绍]
  • [网络结构]
  • [定向框的表示]
  • [一步网络结构]
  • [自监督IE模块]
  • [损失函数]
  • [推理]
  • [结果分析]
  • [训练细节]
  • [与最先进方法的比较]
  • [消融研究]


📝论文下载地址

  [论文地址]

👨🎓论文作者


Youtian Lin,Pengming Feng,Jian Guan

📦模型讲解

[背景介绍]

  近年来,随着深度卷积神经网络的发展,目标检测在自然图像中取得了巨大的成功。使用主流目标检测方法(例如Faster-RCNN,YOLO,SSD),在遥感图像中检测也取得了重大进展。在遥感图像是向下观察目标的,并且目标始终是任意方向的,因此很难将传统检测方法应用于遥感和航空图像中的定向物体。此任务面临以下重大挑战:
  ①在遥感图像中,大多数目标具有比自然图像(例如房屋,车辆)相似的形状和更少的外观特征。这些目标可能会导致错误检测,因为在这种情况下目标形状比目标外观更明显。
  ②复杂的背景、目标的尺寸增加了目标检测的难度,尤其是对于小而密集的目标。
  ③遥感视图导致了目标的不同方向,因此该模型必须获取代表方向的参数。

[网络结构]

[定向框的表示]

voc数据集遥感图像目标检测 遥感图像 目标检测_深度学习。在表示中,voc数据集遥感图像目标检测 遥感图像 目标检测_深度学习_02描述对象水平边界框,参数voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_03表示对象边界框的方向角。但是,网络很难在这种表示形式中预测目标位置。因此,为了让网络准确地预测目标,我们使用几何变换来重建OBB的表示。
  如下图所示,作者首先通过一步网络回归HBB,它使用回归点计算预选框和HBB边界之间的偏移量。因此,voc数据集遥感图像目标检测 遥感图像 目标检测_深度学习_04分别表示为左,上,右,下。然后将方向角转换为voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_05。因此,将角度分为两个不同的预测任务。这样,原始的OBB表示为voc数据集遥感图像目标检测 遥感图像 目标检测_目标检测_06,便于网络预测。



voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_07


[一步网络结构]

  大多数遥感影像数据集都缺乏精度和数量。将backbone在ImageNet上进行预训练,并在目标数据集中进行微调,例如DOTA和HRSC2016。这样,网络能够从遥感图像中提取更精细的特征。



voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_08


KaTeX parse error: Expected '\right', got '}' at position 85: …lfloor\frac{s}2}̲\right\rfloor+y…其中voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_09是图像上的位置,voc数据集遥感图像目标检测 遥感图像 目标检测_深度学习_10是特征上的位置,voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_11表示特征图的数量。框回归分支预测对象的HBB偏移,这将输出四维向量,表示特征图中每个位置的voc数据集遥感图像目标检测 遥感图像 目标检测_深度学习_04。偏移量通过以下方式计算:
voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_13

voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_05,这也是表示目标方向的参数。此外,还分别使用两个卷积层来预测voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_05参数。将此分支称为方向分支,这是head上的第三个分支。此head设计为:



voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_16


  在上图中,作者使用IE模块从其他分支提取特征,并将其组合到方向特征,以生成最终特征以进行方向回归。

[自监督IE模块]

  为了提供更多的特征并提高定向预测的准确性,作者使用自注意模块构建了一个相互作用的分支,以获取来自分类和检测框回归分支的特征,这些特征可能会通过自注意机制进行重新安排。自注意可以建立这些特征图之间的关系,并确定哪个特征更适合定向回归。这些特征将与注意相结合,然后添加到定向分支中,如下图所示。



voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_17


voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_18将特征投影到三个特征空间,voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_19voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_20通过softmax函数一起形成注意力图。此外,注意力图指示输入特征的相对量,并给出在voc数据集遥感图像目标检测 遥感图像 目标检测_遥感图像_21的反馈,其呈现原始特征图的注意力。注意力由以下各项计算:voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_22其中voc数据集遥感图像目标检测 遥感图像 目标检测_目标检测_23输出是一个voc数据集遥感图像目标检测 遥感图像 目标检测_目标检测_24的特征图voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_11voc数据集遥感图像目标检测 遥感图像 目标检测_目标检测_26是特征图voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_27的数目。在voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_11中每一行使用softmax函数:
voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_29然后自注意层的输出voc数据集遥感图像目标检测 遥感图像 目标检测_遥感图像_30voc数据集遥感图像目标检测 遥感图像 目标检测_目标检测_26表示输入和输出特征图的数量。
voc数据集遥感图像目标检测 遥感图像 目标检测_目标检测_32注意层的输出乘以比例参数voc数据集遥感图像目标检测 遥感图像 目标检测_遥感图像_33并加回输入特征图,因此自注意模块的输出为:
voc数据集遥感图像目标检测 遥感图像 目标检测_目标检测_34

[损失函数]

  为了训练网络,作者给出了损失函数,该函数是在特征图上所有位置上计算的:
voc数据集遥感图像目标检测 遥感图像 目标检测_深度学习_35
  其中voc数据集遥感图像目标检测 遥感图像 目标检测_遥感图像_36表示正样本的数量。voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_37表示通过Focal Loss计算分类损失。计算回归损失voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_38voc数据集遥感图像目标检测 遥感图像 目标检测_目标检测_39
  在回归损失中构造中心损失,并且将标准二进制交叉熵损失用于中心点。中心损失的目的是希望网络预测接近目标中心点的回归。voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_40voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_41表示预测和真实HBB。 HBB的预测voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_40来自回归分支,作者进一步使用IOU来计算HBB。voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_43之间的IOU损失,其构造如下:voc数据集遥感图像目标检测 遥感图像 目标检测_深度学习_44  voc数据集遥感图像目标检测 遥感图像 目标检测_目标检测_45voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_46表示来自定向分支的预测结果和真实结果。作者还使用Smooth-L1损失和IOU损失,使用OBB计算IOU损失。因此,参数voc数据集遥感图像目标检测 遥感图像 目标检测_深度学习_04voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_05结合起来将HBB转换为OBB。因为计算OBB IOU在训练过程中的计算量太大,作者为OBB形成了不同版本的IOU,它是通过以下方式计算的内部框:voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_49其中voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_50表示内框偏移量。可以使用偏移量来计算OBB上IOU的简单版本。

[推理]

voc数据集遥感图像目标检测 遥感图像 目标检测_目标检测_26级特征图,并使用最后三层输出作为FPN的输入。FPN将三个特征图融合在一起,并为head生成最终特征图。head包含三个分支,每个分支完成不同的任务,分类分支用于分类任务,回归分支用于边界框预测任务,方向分支用于预测定向任务。head共享三个特征图。每个分支生成的预测的大小与backbone生成的特征图的大小相同,可以将每个预测结果上的位置投影到图像上的某个位置,选择分类置信度高于0.5的框作为结果。

[结果分析]

  作者在DOTA和HRSC2016挑战数据集上评估提出的IENet。

[训练细节]

  将数据集中的所有图像裁剪为1024×1024像素以提高存储效率,并且为了进行数据增强,还进行随机翻转和随机旋转(0,90,180,270),以避免数据集中类别之间的不平衡。
  ResNet-101用作backbone。批量大小设置为16,学习率以0.01初始化,使用随机梯度下降(SGD)进行100K次迭代,权重衰减和动量分别设置为0.0001和0.9。

[与最先进方法的比较]



voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_52

voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_53

voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_54


[消融研究]

几何变换 使用DCN训练FCOS,并直接回归OBB的五个参数。IENet将角度分为两个参数voc数据集遥感图像目标检测 遥感图像 目标检测_voc数据集遥感图像目标检测_05,有六个参数可以预测。



voc数据集遥感图像目标检测 遥感图像 目标检测_计算机视觉_56