Effective Receptive Field

1 Introduction

深层CNN中的基本概念之一是网路中某一层中单元的感受野。在完全连接的网络中,每个单元的值取决于对网络的整个输入,而卷积网络中的一个单元只取决于输入的一个区域,输入中的这个区域是该单元的感受野。

感受野的概念对于理解和诊断CNN工作非常重要,由于在单元感受野之外的输入图像中的任何地方都不影响该单元的值,因此必须仔细控制感受野,以确保其覆盖真个相关图像区域。对于很多任务来说,每个输出像素都必须有一个大的感受野,这样在进行预测时不会遗漏任何重要的信息。

一个单元的感受野大小可以通过多种方式增加,一种选择时堆叠更多的层数,这从理论上线性的增加了感受野的大小,因为每个额外的层都会根据内核的大小来增加感受野的大小。另一方面,sub_sampling以乘法方式增加了感受野的大小。现代CNN架构都使用了这些技术的结合。

本文对CNN的感受野进行了深入的研究。我们发现,感受野中并非所有像素对输出单元的响应都有相同的贡献。从直觉上看,在感受野中心的像素点对输出的影响更大。在前向传递的过程中,中心的像素可以通过许多不同的路径将信息传播到输出端,而感受野外部区域的像素只有很少的路径来传播其影响。在反向传播中,来自输出单元的梯度被传播到所有路径,因此中央像素对输出的梯度有更大的幅度。

这一观测的结果使我们进一步研究了感受野内对输出的影响分布。我们可以证明,在许多情况下,像素点影响的在感受野中的分布是呈高斯分布的,Note that in earlier work this Gaussian assumption about a receptive field is used without justification。我们发现感受野的有效区域只占理论感受野的一小部分,我们称为有效感受野,因为高斯分布通常从中心迅速衰减。

我们的有效感受野理论也与一些经验性的观测相关联,一个这样的经验性的观察是,目前常用的随机初始化导致一些深层CNN从一个小的有效感受野开始,然后再训练过程中生长,这可能说明这是一个错误的初始化bias。

2 Properties of Effective Receptive Fields

2.1 The simplest case: a stack of convolutional layers of weights all equal to one

2.5 Dropout, Subsampling, Dilated Convolution and Skip-Connections

dropout不会改变高斯ERF的形状,二次采样和空洞卷积是快速增加感受野大小的有效方法,skip-connection会使ERF变小。

3 Experiments

对于所有的ERF研究,我们再输出的平面的中心放置一个1的梯度信号,并且再其他地方设置0,然后通过网络反向传播这个梯度,得到输入梯度。

cross_fields和best_fields 效率问题 effective field_初始化

ERFs are Gaussian distributed:

如上图所示,对于没有非线性激活的均匀和随机加权卷积核,我们可以观察到完美的高斯形状,对于具有非线性的随机加权核,我们可以观察到接近高斯的形状。

cross_fields和best_fields 效率问题 effective field_初始化_02


√n absolute growth and 1/√n relative shrinkage:注意,我们使用两个标准差来测量ERF的大小,即任何一个像素,其值大于1-95.45% of center point,我们就把这个像素算作ERF,ERF大小由ERF内像素点的平方根表示,而理论RF大小是所有像素对输出像素有非零影响的正方形的边长。

cross_fields和best_fields 效率问题 effective field_初始化_03

Subsampling & dilated convolution increases receptive field:

下面的图像显示了subsampling和空洞卷积的效果。参考baseline是15个dense convolution层组成的Convnet。

cross_fields和best_fields 效率问题 effective field_初始化_04


3.2 How the ERF evolves during training我们分析了在分类CNN和语义分割CNN最上层单元的ERF是如何变化的,对于这两个任务,我们采用了ResNet架构,它广泛地使用了skip-connection。分析表明,该网络地ERF影明显小于理论感受野,这确实是我们在训练初期观察到的,但随着网络的学习,ERF变得越来越大,并且在训练结束时比最初的ERF要大的多。

cross_fields和best_fields 效率问题 effective field_初始化_05


4 Reduce the Gaussian Damage

New Initialization

Architectural changes