本文讲解的是Yunchao Gong发表在2014年的ECCV会议上的,“Multi-Scale Orderless Pooling of Deep Convolutional Activation Features”,中文译名是深度卷积激活特征的多尺度无序池化,其中提出了一种多尺度无序池化卷积神经网络,简称是MOP-CNN,下文称为MOP。

先谈核心思想,MOP是对CNN中的特征的有效改进。神经网络的倒数第二层出来的可以认为是特征,这个特征是整个image的特征,但是并不是十分理想的特征。为什么呢?因为卷积神经网络出来的特征的空间信息过强了。在卷积神经网络中的每一层,滤波器都是施加在空间邻近的神经元上。甚至有论文尝试从最后的深度特征恢复出原来的图片,还能得到比较相似的结果。特征的空间信息太强有什么坏处呢?可能会缺乏一些不变性。好的图像特征是要具备一些不变性的(invariant),比如旋转不变性,平移不变性,放缩不变性,亮度不变性,不变性的动机和意义在于,我们人眼识别物体,无论物体位置,距离物体远近,物体旋转的角度,物体受光照的情况,都能识别出物体,也就是说,理想情况下,物体的特征不受上述条件的变化而变化。

那现在空间信息过强,那么特征的几何不变性就会比较弱,比如旋转不变性,平移不变性。在比如场景分类的问题上,相似的场景应当具有一些同类的物体,而可能不限制这些物体的空间位置。但深度特征,由于空间信息过强,就可能隐式地限制了场景内物体的空间位置,可能会将具有同样物体的相似场景判为不相似的场景。为了改进,就要削弱一定的空间信息,将特征进行一定程度的扰乱,弱化空间上有序的程度,然后再重新组合成新的特征。