卷积神经网络下采样的演示图片卷积神经网络降采样

转载

mob64ca13f7ecc9 2024-01-02 10:30:23

文章标签 卷积神经网络下采样的演示图片降采样上采样升采样插值 文章分类 midjourney AIGC

降采样

深度卷积神经网络中降采样的方法：

stride大于1的pooling
stride大于1的conv
stride大于1的reorg（reorganization改组整顿），由Joseph Redmond在YOLOv2中首次提出。

conv

用stride=2的conv降采样的卷积神经网络效果与使用pooling降采样的卷积神经网络效果相当；卷积神经网络小的时候，使用pooling降采样效果可能更好，卷积神经网络大的时候，使用stride=2的conv降采样效果更好。

pooling

pooling提供了一种非线性，这种非线性需要较深的conv叠加才能实现，因此当网络比较浅的时候，pooling有一定优势；但是当网络很深的时候，多层叠加的conv可以学到pooling所能提供的非线性，甚至能根据训练学习到比pooling更好的非线性，因此当网络比较深的时候，不使用pooling没多大关系，甚至更好。

pooling的非线性是固定的，不可学习的，这种非线性其实就是一种先验。

reorg

reorg降采样的优势在于能够较好的保留低层次的信息，pooling和conv的降采样方式，好处是抽取的特征具有更强的语义性，坏处是会丢失一些细节信息。reorg方式与pooling和conv方式相反，它提取的特征语义性不强，但是能保留大量细节信息。所以当既需要降采样，又需要不丢失细节信息的时候，reorg是一个非常合适的选择。

为了增强模型的效果，都会融合低层和高层的信息，这样融合后的特征既具有高层特征的抽象语意信息，又具有低层特征的细节信息。而低层特征feature map比高层特征feature map大，为了融合，需要将高层特征feature map放大到跟低层特征feature map一样大，放大feature map的过程就是升采样（upsample）过程。

升采样（上采样）

UnPooling

UnPooling操作与MaxPooling操作是对应的，在MaxPooling时记录每一个保留元素的位置，在UnPooling时将元素在之前保留的位置填充，其余位置补0即可。

卷积神经网络下采样的演示图片卷积神经网络降采样_降采样

UpSampling

插值方式包括最近邻（nearest-neighbor）插值、双线性插值（bilinear）、双立方插值（bicubic）。

nearest-neighbor
最近邻插值，是指将目标图像中的点，对应到源图像中后，找到最相邻的整数点，作为插值后的输出。如下图所示，P为目标图像对应到源图像中的点，Q11、Q12、Q21、Q22是P点周围的4个整数点，Q12与P距离最近，因此P点的值等于Q12的值。由于图像中像素具有邻域相关性，因此，用这种方法会产生明显的锯齿。

卷积神经网络下采样的演示图片卷积神经网络降采样_插值_02

bilinear interpolation
双线性插值使用周围4个点插值得到输出，双向性插值，是指在xy方向上，都是基于线性距离来插值的，如上图所示，目标图像中的一个点对应到源图像中点P（x，y），先在x方向上插值：

卷积神经网络下采样的演示图片卷积神经网络降采样_上采样_03

然后，进行y方向插值：

卷积神经网络下采样的演示图片卷积神经网络降采样_降采样_04

可以验证，先进行y方向插值再进行x方向插值，结果也是一样的。双线性插值在单个方向上是线性的，但对整福图像来说是非线性的。
bicubic

卷积神经网络下采样的演示图片卷积神经网络降采样_升采样_05

双三次曲线插值方法计算量较大，但后的图像效果最好。
各种插值方式的区别与联系
从nearest interpolation、bilinear interpolation到bicubic interpolation，插值所利用的信息越来越多，feature map越来越平滑，但是同时计算量也越来越大，nearest interpolation、bilinear interpolation、bicubic interpolation的区别与联系可见下图所示，其中黑色的点为预测值，其他彩色点为周围已知值，用来计算预测值。