https://m.thepaper.cn/baijiahao_8690116
https://www.zhihu.com/question/289666926/answer/2954204725
https://zhuanlan.zhihu.com/p/130490034
自从ResNet开始,大家逐渐使用步长为2的卷积层替代Size为2的池化层,二者都是对特征图进行下采样的操作。池化层的主要意义(目前的主流看法,但是有相关论文反驳这个观点)在于invariance(不变性),这个不变性包括平移不变性、尺度不变性、旋转不变形。其过程如下图所示。
对于池化层和步长为2的卷积层来说,个人的理解是这样的,池化层是一种先验的下采样方式,即人为的确定好下采样的规则;而对于步长为2的卷积层来说,其参数是通过学习得到的,采样的规则是不确定的。下面对两种下采样方式进行一组对比实验,实验设计的可能不够严谨,欢迎大家在评论区讨论。
CNN 模型的提出取得了显著的成果并解决了许多问题,但是它在某些方面还是存在许多缺陷。CNN 最大的缺陷就是它不能从整幅图像和部分图像识别出姿势,纹理和变化。具体来说,由于 CNN 中的池化操作使得模型具有了空间不变性,因此模型就不具备等变(equivariant). 如下图所示,CNN 会把第一和第二幅图都识别为人脸,而把第三幅方向翻转的图识别为不是人脸。另外,池化操作使得特征图丢失了很多信息,它们因此需要更多训练数据来补偿这些损失。就特点上而言,CNN 模型更适合那些像素扰动极大的图像分类,但是对某些不同视角的图像识别能力相对较差。
在 2011 年,Hinton 和他的同事们提出了胶囊网络 (CapsNet) 作为 CNN 模型的替代。胶囊具有等变性并且输入输出都是向量形式的神经元而不是 CNN 模型中的标量值 [1]。胶囊的这种特征表示形式可以允许它识别变化和不同视角。在胶囊网络中,每一个胶囊都由若干神经元组成,而这每个神经元的输出又代表着同一物体的不同属性。这就为识别物体提供了一个巨大的优势,即能通过识别一个物体的部分属性来识别整体。
将传统的网络池化方法,提升为路由一致性算法(胶囊之间的联结),这个方法保留了实体的位置信息(以及其他信息)。
引入路由算法就是想替换CNNs中的池化操作
动态路由算法代替池化操作
作者:景略集智
链接:https://www.zhihu.com/question/267389576/answer/455840006
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
卷积神经网络有哪些问题
在分类和数据集非常接近的图像时,卷积神经网络的效果非常好,但如果图像存在翻转、倾斜或任何其它方向性问题时,卷积神经网络的表现就比较糟糕了。通过在训练期间为同一图像添加不同的变体可以解决这个问题。在 CNN 中,每个层都以粒度级别或更细小的级别上理解图像。我们用一个例子理解一下,假如你想分类船和马的图像,CNN 的第一层会理解图像的细小边缘和曲线,第二层可能会理解图像中的直线或更细小的形状,比如船的桅杆或马尾的弯曲度,更高的层级开始理解更复杂的形状,比如整个马尾或船体。最后的层会从更整体的层面查看图片是一艘船还是一匹马。我们在每一层后应用池化,以缩短计算时间,但也会造成位置数据丢失。
池化能帮网络具有位置不变性,不然 CNN 会只拟合与训练集非常接近的图像或数据。这种不变性也会触发图像的假阳性——它们包含了船的元素但顺序却不正确。因此系统会让上面右图去匹配上面左图。我们很明显可以看出来两者的差异。
但池化层的真正用途远不止如此,它应当为网络添加位置、方向和属性不变性。但我们应用这些不变性的方法却非常不成熟,在实际中会为网络添加各种位置不变性。这样就导致网络会将检测到的上面右图看作正确的船只。我们需要并非是不变性(invariance)而是同变性(equivariance)。不变性会让CNN忽略视野中的细小变化,而同变性能让CNN理解图像的旋转或属性变化并适应改变,这样图像中的空间位置信息就不会丢失。,如下图所示,即使船变小了,CNN也能缩小尺寸来检测物体。这就引来了本文所说的新进展——胶囊网络。
一、什么是胶囊网络
1.1普通CNN的缺点:CNN在提取特征时只在乎有没有,不在乎他具体的状态是如何的。
上面第一张图片是一个人像,CNN可以正常识别出来;第二张是一个五官错位的图片,CNN仍然将其识别成一张人脸。这是因为CNN是可以识别出人像所具有的具体特征,只要包含这些特征就将其判定为一张人脸。
1.2Hinton自己说过:最大池化层表现的如此优异是一个巨大的错误,是一场灾难。
从图中不难看出最大池化将一个4*4的矩阵池化为1*1的,会丢失大量的数据特征。
1.3胶囊网络的改进
1)使用向量代替单个数据,是输入是向量,输出也是向量。
普通CNN输出的是单个数据,丢失了大量的信息;Capsule输出的是一个向量,这个向量是关注数据位置空间信息的。
1.4胶囊网络的全貌:
输入一张图片,通过CNN进行简单的特征提取,然后通过8个并行的CNN进行深度的特征提取,在经过胶囊网络的动态路由输出预测结果。
重建过程:提取到特征向量后采用全连接的方式将其恢复为784的向量(因为初始图片是28*28的),然后将其还原为图片。
二、胶囊网络的概览
2.1.初始卷积:就是简单的CNNConv2d以及ReLu。
核心代码:
输入图片形状1*1*28*28(B*C*W*H)
Conv2d的处理参数为in_channels=1,out_channels=256,kernel_size=9*9,stride=1.1
输出:1*256*20*20(N=(W-F+2P)/S+1)
实现了图片------>张量的过程。
2.2.PrimaryCaps网络层:由8个并行的CNN过程,用于更新权重w的。
核心代码:
输入:1*256*20*20
这里是8个并行的Conv2d,步长为2
输出:一个CNN的输出是1*32*6*6,8个并行的输出是1*8*32*6*6---->1*8*1152
实现了普通特征---->深度特征&胶囊预处理的过程
2.3.DigitCaps网络层:数字胶囊层,这一层就是胶囊网络的核心,用于更新权重b。输入的是向量,输出也是向量。
输入:1*8*1152
这一层没有网络,他是一个新的操作,所以他的网络相当于自己手写的
输出:1*10*16*1
然后用Sigmoid()函数将其转化为1*10的预测概率
三、胶囊结构
3.1整体过程
C的求法
更新的原理:
更新过程: