1.激活函数的选择以及特点

relu函数的替代者_卷积神经网络

左为 Sigmoid 函数,右为tanh 函数

Sigmoid 函数:输入实数值并将实数值挤压到0-1范围内。现在很少使用,因为函数的饱和使得梯度逐渐消失,梯度消失,神经元传递的信息就为0、

Sigmoid 的输出 不是零为中心,这样,,这个情况会影响梯度下降运作。反向传播过程中就会导致梯度的Z字形变化,要不全是正,要不全是负。具体看 F的形式、

tanh函数  是sigmodi 函数的放大。

relu函数的替代者_神经网络_02

。RELU函数:

relu函数的替代者_神经网络_02

。由于它的线性,非饱和,是他梯度下降收敛有更大的加速作用。

优点:没有指数运算,运算资源占得少。缺点:死亡。需要合理设置学习度来改良这个情况、

Leaky Relu:为了解决死亡问题而弄出的激活函数。

relu函数的替代者_卷积神经网络_04

其中

relu函数的替代者_relu函数的替代者_05

是一个小的常量。Maxout:

relu函数的替代者_卷积神经网络_06

  ,是 R上面 两个函数的集合,上面两个函数是这个函数的特殊情况、、  具有 上述两个函数的优点,但是参数数量增加了太多。

 

2.解释全连接层:全接连层是普通神将网络最常用的层数,层与层之间的神经元全部相互连接,但是层之间的神经元是不像话连接的。

3.表达能力的的探索:或者Michael Nielsen的这个直观解释。)中已经证明,给出任意连续函数

relu函数的替代者_激活函数_07

和任意

relu函数的替代者_激活函数_08

,均存在一个至少含1个隐层的神经网络

relu函数的替代者_神经网络_09

(并且网络中有合理选择的非线性激活函数,比如sigmoid),对于

relu函数的替代者_人工智能_10

,使得

relu函数的替代者_激活函数_11

。换句话说,神经网络可以近似任何连续函数。

4.层数 对神经网络的影响是什么样子的?


另外,在实践中3层的神经网络会比2层的表现好,然而继续加深(做到4,5,6层)很少有太大帮助。卷积神经网络的情况却不同,在卷积神经网络中,对于一个良好的识别系统来说,深度是一个极端重要的因素(比如数十(以10为量级)个可学习的层)。对于该现象的一种解释观点是:因为图像拥有层次化结构(比如脸是由眼睛等组成,眼睛又是由边缘组成),所以多层处理对于这种数据就有直观意义、