本文适用于那些参与CNN架构设计的工程师和研究人员,他们厌倦了盲目尝试和错误,可以从CNN主干中选择哪些特征图以改善其模型的性能,而宁愿从早期开始设计过程的步骤,以使特征图的空间比例轮廓与训练数据集中的对象尺寸相匹配。

抽象

在这篇文章中,我们使用派生的数学框架,对卷积层的接收场(感受野)和多尺度卷积特征图的特征进行了形式化处理。

使用发达的数学框架,我们在不同的卷积和合并操作下计算特征图的接受场和空间比例。

我们展示了池化操作的重要性,以确保特征图的空间比例作为层深度的函数呈指数增长。

此外,我们观察到,没有将池化操作嵌入到CNN中,特征图空间比例只会随着层深度的增加而线性增长。我们介绍空间尺度轮廓作为CNN的分层空间尺度表征,可用于评估特征图与训练数据集中的对象尺寸直方图的兼容性。通过计算ResNet-50的空间比例轮廓来说明此用例。

另外,我们解释了特征金字塔模块如何生成富含增强语义表示的多尺度特征图。最后,它显示了虽然扩张的卷积滤波器保留了特征图的空间尺寸,但与常规的卷积滤波器对应物相比,它们保持了更大的空间比例指数增长率。

阅读此文,您将对最近提出的用于各种视觉任务的CNN架构中的多尺度卷积特征图的用例背后的直觉有更深入的了解。以了解更多有关不同类型的图层如何影响特征图的空间比例和接受范围的信息。

介绍

通常的假设和理解是,由CNN的早期卷积层生成的特征图对基本语义表示(例如边和角)进行编码,而较深的卷积层在其输出特征图中对更复杂的语义表示(例如复杂的几何形状)进行编码。CNN生成具有多个语义级别的特征图的这种特性是其基于多层深度结构的分层表示学习能力的结果。具有不同语义级别的特征图对于CNN至关重要,原因有以下两个:

(1)复杂语义特征图是在基本语义特征图的基础上构建的,它们是其构建基块。

(2)许多视觉任务(例如实例和语义分段)都受益于基本语义特征图和复杂语义特征图。

基于视觉CNN的体系结构将图像作为输入,并将其通过几个卷积层,以生成与输入图像相对应的语义表示。特别地,每个卷积层都输出一个特征图,其中该特征图中的编码语义范围取决于该卷积层及其先前的卷积层的表示学习能力。并使其经过多个卷积层,以生成与输入图像相对应的语义表示。特别地,每个卷积层都输出一个特征图,其中该特征图中的编码语义范围取决于该卷积层及其先前的卷积层的表示学习能力。并使其经过多个卷积层,以生成与输入图像相对应的语义表示。特别地,每个卷积层都输出一个特征图,其中该特征图中的编码语义范围取决于该卷积层及其先前的卷积层的表示学习能力。

CNN特征图具有空间差异

CNN特征图的一个重要特征是它们是空间方差,这意味着CNN特征图具有空间尺寸,并且由给定特征图编码的特征可能仅对特征图的空间区域的子集有效。为了更好地了解CNN特征图的空间方差属性,首先,我们需要了解为什么由完全连接的图层生成的特征图不是空间方差。

全连接层生成的特征图(您可以将给定的全连接层的神经元激活视为其输出特征图)不具有空间维度,因为全连接层的每个神经元都连接到图的所有输入单元。全连接层。因此,不可能为神经元激活输出定义和考虑空间方面。

另一方面,CNN特征图的每次激活仅连接到几个输入单元,它们彼此在空间上相邻。

CNN特征图的这种特性引起了它们的空间方差特性,并且是由卷积滤波器的空间局部结构及其空间受限的接收场引起的。

下图显示了完全连接的层和卷积层之间的差异,其中一个导致空间上的不变,另一个导致空间上的差异,其中下图以绿色矩形表示输入图像,棕色矩形表示卷积特征图。同样,具有两个输出神经元的完全连接层由两个蓝色和灰色圆圈表示。如你看到的,




CNN输出图片_方差


该图说明了为什么由完全连接的图层生成的特征不是空间方差,而卷积层生成空间方差特征图的原因。绿色矩形表示输入图像,棕色矩形表示由CNN的卷积层生成的尺寸为5 x 7 x 1的特征图。另一方面,两个蓝色和灰色圆圈表示具有两个输出神经元的完全连接层的激活输出。

假设如果输入图像中有自行车,则完全连接层的蓝色神经元(特征)将变为活动状态,而如果输入图像中有汽车,则其灰色神经元(特征)将变为活动状态。换句话说,蓝色神经元是自行车特征,而灰色神经元是汽车特征。由于全连接层的性质,每个神经元的输出都会受到所有输入图像像素的影响,因此,全连接层的生成特征无法即开即用地编码任何定位信息,以告诉我们输入图像中的位置如果输入图像中有自行车。

另一方面,由卷积层生成的特征图是空间方差,因此,除了对象的存在信息外,它们还对定位信息进行编码。特别是,通过卷积层生成的尺寸为W x H x C的特征图包含C个不同特征的存在信息(每个通道,特征图的第三维,编码一个唯一特征的存在信息),其中特征的空间尺寸W x H告诉我们在输入图像的哪个位置激活了特征。在此示例中,棕色卷积特征图仅编码一个特征,因为它只有一个通道(其第三维等于一个)。假设此棕色特征图是自行车特征图,则仅当输入图像中该条目的接受域中有自行车时,此特征图的条目才会激活。换句话说,如果输入图像中有自行车,但在其特定的接收域中没有自行车,则该条目不会变为活动状态。卷积特征图的这种特性使它们不仅可以对有关输入图像中对象存在的信息进行编码,还可以对对象的定位信息进行编码。该功能已激活。在此示例中,棕色卷积特征图仅编码一个特征,因为它只有一个通道(其第三维等于一个)。假设此棕色特征图是自行车特征图,则仅当输入图像中该条目的接受域中有自行车时,此特征图的条目才会激活。换句话说,如果输入图像中有自行车,但在其特定的接收域中没有自行车,则该条目不会变为活动状态。

卷积特征图的这种特性使它们不仅可以对有关输入图像中对象存在的信息进行编码,而且可以对对象的定位信息进行编码。

在此示例中,棕色卷积特征图仅编码一个特征,因为它只有一个通道。假设此棕色特征图是自行车特征图,则仅当输入图像中该条目的接受域中有自行车时,此特征图的条目才会激活。换句话说,如果输入图像中有自行车,但在其特定的接收域中没有自行车,则该条目不会变为活动状态。卷积特征图的这种特性使它们不仅可以对有关输入图像中对象存在的信息进行编码,而且可以对对象的定位信息进行编码。