1、图像金字塔

将图片进行不同尺度的缩放,得到图像金字塔,然后对每层图片提取不同尺度的特征,得到特征图。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。其通过梯次向下采样获得,直到达到某个终止条件才停止采样。我们将一层一层的图像比喻成金字塔,层级越高,则图像越小,分辨率越低。
特点:不同尺度的特征都可以包含很丰富的语义信息,精度高 ,但速度慢。

2、多尺度的卷积层

conv-3的低网络层,有更小的感受野,获取的是低层信息,对小目标的提取能力更好;而高层如conv-5,获取的是高层语义信息,对于大目标的检测更加准确。对于不同的输出层设计不同尺度的目标检测器,完成多尺度下的检测问题。卷积网络不同层得到的特征特点的不同,对不同层的特征采用不同的利用方式。

3、SSD

多尺度特征nlp 多尺度特征提取结构_语义信息

4、U-Net

多尺度特征nlp 多尺度特征提取结构_图像金字塔_02

6、FPN(特征金字塔)

FPN网络最开始是为目标检测而设计的,在之前的目标检测网络中通常是使用顶层特征做预测,但是低层语义信息少,对小目标检测不准确;后来有网络采用多尺度信息融合的方式,用融合后的特征做预测。FPN的特殊之处在于预测是在不同特征层独立进行的。

(a)图像金字塔,即将图像做成不同的scale,然后不同scale的图像生成对应的不同scale的特征。这种方法的缺点在于增加了时间成本。有些算法会在测试时候采用图像金字塔。

(b)像SPP net,Fast RCNN,Faster RCNN是采用这种方式,即仅采用网络最后一层的特征。

(c)像SSD(Single Shot Detector)采用这种多尺度特征融合的方式,没有上采样过程,即从网络不同层抽取不同尺度的特征做预测,这种方式不会增加额外的计算量。作者认为SSD算法中没有用到足够低层的特征(在SSD中,最低层的特征是VGG网络的conv4_3),而在作者看来足够低层的特征对于检测小物体是很有帮助的。

(d)本文作者是采用这种方式,顶层特征通过上采样和低层特征做融合,而且每层都是独立预测的。

多尺度特征nlp 多尺度特征提取结构_语义信息_03