图像有4个通道,同时有2个卷积核w1和w2。对于卷积核w1,先在输入图像4个通道分别作卷积,再将4个通道结果加起来得到w1的卷积输出;卷积核w2类似。所以对于某个卷积层,无论输入图像有多少个通道,输出图像通道数总是等于卷积核数量!

对多通道图像做1x1卷积,其实就是将输入图像于每个通道乘以卷积系数后加在一起,即相当于把原图像中本来各个独立的通道“联通”在了一起。

2.

假设输入feature map的维度为256维,要求输出维度也是256维。有以下两种操作:
256维的输入直接经过一个3×3×256的卷积层,输出一个256维的feature map,那么参数量为:256×3×3×256 = 589,824
256维的输入先经过一个1×1×64的卷积层,再经过一个3×3×64的卷积层,最后经过一个1×1×256的卷积层,输出256维,参数量为:256×1×1×64 + 64×3×3×64 + 64×1×1×256 = 69,632。足足把第一种操作的参数量降低到九分之一!
1×1卷积核也被认为是影响深远的操作,往后大型的网络为了降低参数量都会应用上1×1卷积核。

卷积神经网络 如何收敛 卷积神经网络过程_卷积神经网络 如何收敛

 

3.图片的通道数和卷积核的深度

卷积神经网络 如何收敛 卷积神经网络过程_过拟合_02

卷积神经网络 如何收敛 卷积神经网络过程_卷积_03

卷积神经网络 如何收敛 卷积神经网络过程_卷积神经网络 如何收敛_04

 

 

卷积过程中,输入层有多少个通道,滤波器就要有多少个通道,但是滤波器的数量是任意的,滤波器的数量决定了卷积后 featuremap 的通道数(与result区别)。

 

  如果把输入当做一个立方体的话,那么 filter 也是一个立方体,它们卷积的结果也是一个立方体,并且上面中 input、filter、Result 的通道都是一致的。

但卷积过程的最后一步要包括生成 feature,很简单,将 Result 各个通道对应坐标的值相加就生成了 feature,相当于将多维的 Result 压缩成了 2 维的 feature。

4.

卷积神经网络 如何收敛 卷积神经网络过程_卷积_05

 

假设没有全连接层,实际上我们对于输入图片的大小是没有任何限制的,大图小图一样都经过卷积池化激活。这种网络有人称为全卷积网络(FCN)。

5. 为什么CNN需要固定输入图像的尺寸(CNN图像尺寸输入限制问题)


可以看出,全连接层的输入是固定大小的,如果输入向量的维数不固定,那么全连接的权值参数的量也是不固定的,就会造成网络的动态变化,无法实现参数训练目的。

6.  防止过拟合,提高泛化能力


在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。

 

为了防止overfitting,可以用的方法有很多,下文就将以此展开。有一个概念需要先说明,在机器学习算法中,我们常常将原始数据集分为三部分:training data、validation data,testing data。这个validation data是什么?它其实就是用来避免过拟合的,在训练过程中,我们通常用它来确定一些超参数(比如根据validation data上的accuracy来确定early stopping的epoch大小、根据validation data确定learning rate等等)。那为啥不直接在testing data上做这些呢?因为如果在testing data做这些,那么随着训练的进行,我们的网络实际上就是在一点一点地overfitting我们的testing data,导致最后得到的testing accuracy没有任何参考意义。因此,training data的作用是计算梯度更新权重,validation data如上所述,testing data则给出一个accuracy以判断网络的好坏。

避免过拟合的方法有很多:early stopping、数据集扩增(Data augmentation)、正则化(Regularization)包括L1、L2(L2 regularization也叫weight decay),dropout。

7. l1 l2范数解释:

、从结构风险化角度,解释什么是正则化

经验风险其实就是样本本身带来的误差。
结构风险就是学习器带来的误差。
当假设空间、损失函数、训练集确定的情况下,经验风险可以确定;
如果样本量足够大,经验风险趋近于期望损失,经验风险最小化可以保证有很好的学习效果;
但是如果样本量小,经验风险最小化的效果未必好,容易造成过拟合,因此结构最小化是为了防止过拟合而提出来的策略。
正则化是结构风险最小化策略的实现。
正则化符合奥卡姆剃刀原理:在所有可能选择的模型,能够很好的解释已知数据并且十分简单才是最好的模型