原文要点梳理

1、最近几年卷积神经网络中,激活函数往往不选择sigmoid或tanh函数,而是选择relu函数:f(x) = max(0, x)。

卷积神经网络里必须有激活层吗 卷积神经网络激活函数relu_卷积神经网络里必须有激活层吗

选择relu的原因:

1)速度快。计算代价小

2)减轻梯度消失问题:sigmoid函数的导数最大值为0.25,累乘之后越来越小。relu导数始终为1。因此relu可以支持更深的网络。

3)稀疏性:大脑在日常工作中只有大约5%激活。sigmoid激活函数激活率为50%。relu小于零完全不激活,因此可以获得一个更低的激活率。

第一个问题:有了全连接网络,为何要引入卷积网络。全连接层为何不适合图像识别任务?

答:

1)参数量太多

2)没有利用像素之间的位置信息:每个像素和其周围像素的联系比较紧密,如果把所有像素都等同看待,孤立之后意义不大。且每个元素连接之后,连接权重大量重复多余。低效。

3)网络层数限制:网络层数越多其表达能力越强,但是:全连接神经网络的梯度很难传递超过三层。所以通过梯度下降法训练深度模型很困难。

第二个问题:卷积网络怎么解决这个问题的?有哪些优化?

答:

1)局部连接:不再全连接。减少参数。

2)权值共享:一组连接可以共享同一个权重,而不是每个连接有一个不同的权重,这样又减少了很多参数

3)下采样:Pooling来减少每层的样本数。减少参数量,提升模型鲁棒性。

卷积神经网络组成:卷积层、Pooling层、全连接层。

第三个问题:卷积神经网络和全连接神经网络的层结构不同:

全连接网络:每层的神经元按照一维排列展开,排成一条线。

卷积神经网络:每层的神经元是按照三维排列的。排成一个长方体的样子,有宽度、高度、深度(通道数)。

卷积层有多少个卷积核组数。就相当于对图像提取了几组特征,下一层就有多少个特征图。也称通道数。

卷积动态图演示了卷积过程。Padding。

卷积神经网络里必须有激活层吗 卷积神经网络激活函数relu_卷积神经网络里必须有激活层吗_02

两点特别关注:一个局部连接和权值共享:每层神经元只和上一层部分神经元相连(卷积计算规则),且filter的权值对于上一层所有神经元都是一样的。

对于包含两个3*3*3的fitler的卷积层来说,其参数数量仅有(3*3*3+1)*2=56个,且参数数量与上一层神经元个数无关。与全连接神经网络相比,其参数数量大大减少了。(加1因为偏置。)

原文详细讲解了,梯度反向传播的计算过程。有空可以回头看看。