十二篇基于Anchor free的目标检测方法

原创

wx5ba0c87f1984b 2021-08-13 09:42:17 博主文章分类：计算机视觉 ©著作权

文章标签 角点 sed 池化卷积流程图 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者wx5ba0c87f1984b的原创作品，请联系作者获取转载授权，否则将追究法律责任

1、UnitBox: An Advanced Object Detection Network

2、DenseBox: Unifying Landmark Localization and Object Detection

3、You Only Look Once (YOLO) for Object Detection

3、CornerNet: Detecting Objects as Paired Keypoints

4、ExtremeNet: Bottom-up Object Detection by Grouping Extreme and Center Points

5、FSAF: Feature Selective Anchor-Free Module

6、FCOS: Fully Convolutional One-Stage Object Detection

7、FoveaBox: Beyond Anchor-based Object Detector

8、Region Proposal by Guided Anchoring (GA-RPN)

9、CenterNet: Objects as Points

10、CenterNet: Object Detection with Keypoint Triplets

11、CornerNet-Lite：CornerNet-Saccade（attention mechanism）+ CornerNet-Squeeze

12、Center and Scale Prediction: A Box-free Approach for Object Detection

1、UnitBox: An Advanced Object Detection Network

主要思想：Intersection over Union (IoU) loss function for bounding box prediction

架构

IoU loss vs l2 loss

十二篇基于Anchor free的目标检测方法_流程图_03

l2 loss和IoU loss 结果比较

2、DenseBox: Unifying Landmark Localization and Object Detection

基本思想：直接预测目标框和目标类。

系统流水线：

图像金字塔.
类似编码器-解码器.
feature map 转换成 bounding boxes，加NMS处理.

DenseBox

十二篇基于Anchor free的目标检测方法_卷积_06

DenseBox with landmark localization

3、You Only Look Once (YOLO) for Object Detection

检测定义为一个张量的回归问题，直接通过张量的估计得到目标框位置和类别概率。

十二篇基于Anchor free的目标检测方法_角点_07

十二篇基于Anchor free的目标检测方法_sed_09

注：之后YOLO-2/3版采用了anchor方法，这里也加在一起参考。

YOLO9000: Better, Faster, Stronger

Darknet-19: 19 convolutional layers and 5 max-pooling layers

WordTree with 9418 classes

十二篇基于Anchor free的目标检测方法_卷积_10

Combining datasets using WordTree hierarchy

Bounding boxes with dimension priors and location prediction

Clustering box dimensions on VOC and COCO

十二篇基于Anchor free的目标检测方法_sed_13

结果

YOLOv3: An Incremental Improvement

Darknet-53

3、CornerNet: Detecting Objects as Paired Keypoints

把检测目标框变成一对关键点的问题，即左上角和右下角，这样就消除了锚框的设计麻烦。另外，采用的角点池化（corner pooling）技术帮助CNN更好地定位角点位置。下图给出了系统流程图：CNN模型输出两个关键点的各自热图（heatmap），同时各跟一个嵌入向量。同一个目标的角点，训练后的神经网络会预测类似的嵌入。

十二篇基于Anchor free的目标检测方法_卷积_15

Detect an object as a pair of bounding box corners grouped together

下图是定位的角点池化技术：每个特征图通道沿着两个方向取较大值，然后求和。

Corner pooling

“Ground-truth” heatmaps for training.

测试流程图：沙漏型的核心网络的后面跟着两个预测模块定位和聚类焦点。

十二篇基于Anchor free的目标检测方法_流程图_18

定义loss函数聚类corner：push和pull

4、ExtremeNet: Bottom-up Object Detection by Grouping Extreme and Center Points

5、FSAF: Feature Selective Anchor-Free Module

主要思想：基于特征金字塔网络(feature pyramid structure，FPN)的在线特征选择能力，在训练时可以动态分配每个实例到最适合的特征层，在推理时能够和带锚的模块分支一起工作，最后并行地输出预测。

anchor-based method

十二篇基于Anchor free的目标检测方法_角点_25

FSAF module plugged into anchor-based detection methods

下图展示一个特征层中的实例监督信号，其中两个损失函数：分类的focal loss 和目标框回归的IoU loss 。

Supervision signals for an instance in one feature level of the anchor-free branches

在线特征选择的操作如图：每个实例通过无锚框的所有层计算出所有有效区域的分类损失和回归损失，在最小损失的那层构建该实例的监督信号。

十二篇基于Anchor free的目标检测方法_sed_27

Online feature selection mechanism

十二篇基于Anchor free的目标检测方法_卷积_28

Network architecture of RetinaNet with FSAF module

6、FCOS: Fully Convolutional One-Stage Object Detection

主要思想：是分割，不需要锚框也不需要区域提议。这样，避免了锚框在模型训练中涉及的重叠计算和性能敏感的参数设计环。FCOS中定义了一个新损失函数“中心度（centerness）”，如下图（红和蓝对应 1 和 0，其他颜色位于其中）。

十二篇基于Anchor free的目标检测方法_卷积_30

十二篇基于Anchor free的目标检测方法_池化_31

The network architecture of FCOS

十二篇基于Anchor free的目标检测方法_sed_32

结果

7、FoveaBox: Beyond Anchor-based Object Detector

主要思想：直接学习目标存在的概率和目标框的坐标位置，其中包括预测类别相关的语义图和生成类别无关的候选目标框，目标框的大小和特征金字塔的表示相关（如图所示）。

FoveaBox object detector

FoveaNet的网络结构如图，一个基于ResNet的特征金字塔网络（FPN）送入两个子网络, 一个做分类，一个做预测。

FoveaBox network architecture

结果

8、Region Proposal by Guided Anchoring (GA-RPN)

利用语义特征指导抛锚，称为指导性的抛锚。一起预测感兴趣目标的中心位置以及不同位置的尺度和长宽比。有代码： //github.com/open-mmlab/m.

GA-RPN

对特征金字塔的每个输出特征图，采用带有两个分支的锚框生成模块分别预测锚位置和形状。一个特征适应模块对原始特征图处理，使其更能体现锚的形状。

Anchor location target

采用多级特征，根据其尺度把真实目标（ground truth objects）提供给不同特征级，相应定义 CR, IR和OR 。

十二篇基于Anchor free的目标检测方法_sed_38

性能比较

9、CenterNet: Objects as Points

把目标定义成一个单点，即目标框的中心点（下图），检测器采用关键点估计找到中心点并从其关键点的特征回归其他目标特性，如大小，3D位置，朝向和姿势。

object as the center point of its bounding box

(a) Standard anchor based detection. (b) Center point based detection

下面是CenterNet的模型框图，其中数字是步进（stride）量：(a) 沙漏网络；(b) 带转置卷积的ResNet，在每个上采样层前面加了个3 × 3 可变形卷积层（deformable convolutional layer）；(c) 语义分割的DLA-34 (Deep layer aggregation)；(d) 修正的 DLA-34，在可变形卷积层加更多的跳线（skip connections）上采样步骤。