卷积神经网络如何收敛卷积神经网络过程

转载

mob6454cc6f8e48 2023-11-29 13:04:48

文章标签 卷积神经网络如何收敛卷积卷积核过拟合 文章分类 midjourney AIGC

图像有4个通道，同时有2个卷积核w1和w2。对于卷积核w1，先在输入图像4个通道分别作卷积，再将4个通道结果加起来得到w1的卷积输出；卷积核w2类似。所以对于某个卷积层，无论输入图像有多少个通道，输出图像通道数总是等于卷积核数量！

对多通道图像做1x1卷积，其实就是将输入图像于每个通道乘以卷积系数后加在一起，即相当于把原图像中本来各个独立的通道“联通”在了一起。

假设输入feature map的维度为256维，要求输出维度也是256维。有以下两种操作：
256维的输入直接经过一个3×3×256的卷积层，输出一个256维的feature map，那么参数量为：256×3×3×256 = 589,824
256维的输入先经过一个1×1×64的卷积层，再经过一个3×3×64的卷积层，最后经过一个1×1×256的卷积层，输出256维，参数量为：256×1×1×64 + 64×3×3×64 + 64×1×1×256 = 69,632。足足把第一种操作的参数量降低到九分之一！
1×1卷积核也被认为是影响深远的操作，往后大型的网络为了降低参数量都会应用上1×1卷积核。

卷积神经网络如何收敛卷积神经网络过程_卷积神经网络如何收敛

3.图片的通道数和卷积核的深度

卷积神经网络如何收敛卷积神经网络过程_过拟合_02

卷积神经网络如何收敛卷积神经网络过程_卷积_03

卷积神经网络如何收敛卷积神经网络过程_卷积神经网络如何收敛_04

卷积过程中，输入层有多少个通道，滤波器就要有多少个通道，但是滤波器的数量是任意的，滤波器的数量决定了卷积后 featuremap 的通道数（与result区别）。

　　如果把输入当做一个立方体的话，那么 filter 也是一个立方体，它们卷积的结果也是一个立方体，并且上面中 input、filter、Result 的通道都是一致的。

但卷积过程的最后一步要包括生成 feature，很简单，将 Result 各个通道对应坐标的值相加就生成了 feature，相当于将多维的 Result 压缩成了 2 维的 feature。

卷积神经网络如何收敛卷积神经网络过程_卷积_05

假设没有全连接层，实际上我们对于输入图片的大小是没有任何限制的，大图小图一样都经过卷积池化激活。这种网络有人称为全卷积网络（FCN）。

5. 为什么CNN需要固定输入图像的尺寸（CNN图像尺寸输入限制问题）

可以看出，全连接层的输入是固定大小的，如果输入向量的维数不固定，那么全连接的权值参数的量也是不固定的，就会造成网络的动态变化，无法实现参数训练目的。

6. 防止过拟合，提高泛化能力

在训练数据不够多时，或者overtraining时，常常会导致overfitting（过拟合）。其直观的表现如下图所示，随着训练过程的进行，模型复杂度增加，在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集，对训练集外的数据却不work。

为了防止overfitting，可以用的方法有很多，下文就将以此展开。有一个概念需要先说明，在机器学习算法中，我们常常将原始数据集分为三部分：training data、validation data，testing data。这个validation data是什么？它其实就是用来避免过拟合的，在训练过程中，我们通常用它来确定一些超参数（比如根据validation data上的accuracy来确定early stopping的epoch大小、根据validation data确定learning rate等等）。那为啥不直接在testing data上做这些呢？因为如果在testing data做这些，那么随着训练的进行，我们的网络实际上就是在一点一点地overfitting我们的testing data，导致最后得到的testing accuracy没有任何参考意义。因此，training data的作用是计算梯度更新权重，validation data如上所述，testing data则给出一个accuracy以判断网络的好坏。

避免过拟合的方法有很多：early stopping、数据集扩增（Data augmentation）、正则化（Regularization）包括L1、L2（L2 regularization也叫weight decay），dropout。

7. l1 l2范数解释：

、从结构风险化角度，解释什么是正则化

经验风险其实就是样本本身带来的误差。
结构风险就是学习器带来的误差。
当假设空间、损失函数、训练集确定的情况下，经验风险可以确定；
如果样本量足够大，经验风险趋近于期望损失，经验风险最小化可以保证有很好的学习效果；
但是如果样本量小，经验风险最小化的效果未必好，容易造成过拟合，因此结构最小化是为了防止过拟合而提出来的策略。
正则化是结构风险最小化策略的实现。
正则化符合奥卡姆剃刀原理：在所有可能选择的模型，能够很好的解释已知数据并且十分简单才是最好的模型

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。