本文主要介绍多层感知器模型(MLP),它也可以看成是一种logister回归,输入层通过非线性转换,即通过隐含层把输入投影到线性可分的空间中。

如果我们在中间加一层神经元作为隐含层,则它的结构如下图所示

mlp回归公式 mlp 回归_前馈网络

 

mlp回归公式 mlp 回归_BP_02

,其中 D和L为输入向量和输出向量f(x)的大小。    隐含层与输出层神经元的值通过激活函数计算出来,例如下图:如果我们选用sigmoid作为激活函数,输入设为x,要求出隐含层的激活值a,公式如下。其中

mlp回归公式 mlp 回归_激活函数_03

 。

mlp回归公式 mlp 回归_mlp回归公式_04

mlp回归公式 mlp 回归_深度学习_05

    同理输出的h(x)可以用同样的公式得到,上述过程就是向前传导,因为这种联接图没有闭环或回路。

    我们可以用反向传播法(backpropagation)来训练上面这个神经网络。下面主要介绍backpropation算法。

    假设对于单个样例(x,y),它的代价函数(cost function)为

mlp回归公式 mlp 回归_mlp回归公式_06

 

mlp回归公式 mlp 回归_激活函数_07

,定义它的cost function为:

mlp回归公式 mlp 回归_BP_08

我们的目标是针对参数 

mlp回归公式 mlp 回归_mlp回归公式_09

 和 

mlp回归公式 mlp 回归_激活函数_10

 来求其函数 

mlp回归公式 mlp 回归_激活函数_11

 的最小值。为了求解神经网络,我们需要将每一个参数 

mlp回归公式 mlp 回归_前馈网络_12

 和 

mlp回归公式 mlp 回归_BP_13

 初始化为一个很小的、接近零的随机值(比如说,使用正态分布 

mlp回归公式 mlp 回归_前馈网络_14

 生成的随机值,其中 

mlp回归公式 mlp 回归_激活函数_15

 设置为 

mlp回归公式 mlp 回归_深度学习_16

 ),之后对目标函数使用诸如批量梯度下降法的最优化算法。关于w和b的初值,我根据这篇论文(Understanding the difficulty of training deep feedforward neuralnetworks)得出的结论:如果激活函数为tanh,我们设置为

mlp回归公式 mlp 回归_BP_17

之间的值,如果激活函数是sigmoid,则是 

mlp回归公式 mlp 回归_mlp回归公式_18


 


 

    关于反向传播算法的推导,UFLDL 中介绍的很清楚,我直接粘帖过来了。

    既然是用梯度下降法,我们先对代价函数J求关于w和b 的偏导数,直接写出结果:

mlp回归公式 mlp 回归_激活函数_19

    

反向传播算法的思路如下:给定一个样例 

mlp回归公式 mlp 回归_mlp回归公式_20

,我们首先进行"前向传导"运算,计算出网络中所有的激活值,包括 

mlp回归公式 mlp 回归_前馈网络_21

 的输出值。之后,针对第 

mlp回归公式 mlp 回归_mlp回归公式_22

 层的每一个节点 

mlp回归公式 mlp 回归_mlp回归公式_23

,我们计算出其"残差" 

mlp回归公式 mlp 回归_mlp回归公式_24

,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为 

mlp回归公式 mlp 回归_前馈网络_25

 (第 

mlp回归公式 mlp 回归_mlp回归公式_26

 层表示输出层)。对于隐藏单元我们如何处理呢?我们将基于节点(译者注:第 

mlp回归公式 mlp 回归_深度学习_27

 层节点)残差的加权平均值计算 

mlp回归公式 mlp 回归_BP_28

,这些节点以 

mlp回归公式 mlp 回归_激活函数_29

 作为输入。下面将给出反向传导算法的细节:

 

  1. 进行前馈传导计算,利用前向传导公式,得到 
  2. mlp回归公式 mlp 回归_深度学习_30

  3.  直到输出层 
  4. mlp回归公式 mlp 回归_mlp回归公式_31

  5.  的激活值。
  6. 对于第 
  7. mlp回归公式 mlp 回归_激活函数_32

  8.  层(输出层)的每个输出单元 
  9. mlp回归公式 mlp 回归_激活函数_33

  10. ,我们根据以下公式计算残差:

mlp回归公式 mlp 回归_深度学习_34

[译者注:

mlp回归公式 mlp 回归_深度学习_35

]

  1. 对 
  2. mlp回归公式 mlp 回归_深度学习_36

  3.  的各个层,第 
  4. mlp回归公式 mlp 回归_BP_37

  5.  层的第 
  6. mlp回归公式 mlp 回归_mlp回归公式_38

  7.  个节点的残差计算方法如下:

mlp回归公式 mlp 回归_深度学习_39

{译者注:

mlp回归公式 mlp 回归_BP_40

将上式中的

mlp回归公式 mlp 回归_mlp回归公式_41


mlp回归公式 mlp 回归_mlp回归公式_42

的关系替换为

mlp回归公式 mlp 回归_BP_43


mlp回归公式 mlp 回归_前馈网络_44

的关系,就可以得到:    

mlp回归公式 mlp 回归_mlp回归公式_45

以上逐次从后向前求导的过程即为"反向传导"的本意所在。 ]

  1. 计算我们需要的偏导数,计算方法如下:

        

mlp回归公式 mlp 回归_前馈网络_46

  最后,我们用矩阵-向量表示法重写以上算法。我们使用"

mlp回归公式 mlp 回归_前馈网络_47

" 表示向量乘积运算符(在Matlab或Octave里用".*"表示,也称作阿达马乘积)。若 

mlp回归公式 mlp 回归_深度学习_48

,则 

mlp回归公式 mlp 回归_BP_49

。在上一个教程中我们扩展了 

mlp回归公式 mlp 回归_mlp回归公式_50

 的定义,使其包含向量运算,这里我们也对偏导数 

mlp回归公式 mlp 回归_mlp回归公式_51

 也做了同样的处理(于是又有 

mlp回归公式 mlp 回归_深度学习_52

 )。

  那么,反向传播算法可表示为以下几个步骤:

  1. 进行前馈传导计算,利用前向传导公式,得到 
  2. mlp回归公式 mlp 回归_深度学习_53

  3. 直到输出层 
  4. mlp回归公式 mlp 回归_mlp回归公式_54

  5.  的激活值。
  6. 对输出层(第 
  7. mlp回归公式 mlp 回归_激活函数_55

  8.  层),计算:

    

mlp回归公式 mlp 回归_BP_56

  1. 对于 
  2. mlp回归公式 mlp 回归_前馈网络_57

  3.  的各层,计算:

    

mlp回归公式 mlp 回归_激活函数_58

  1. 计算最终需要的偏导数值:

    

mlp回归公式 mlp 回归_BP_59

实现中应注意:在以上的第2步和第3步中,我们需要为每一个 

mlp回归公式 mlp 回归_激活函数_60

 值计算其 

mlp回归公式 mlp 回归_前馈网络_61

。假设 

mlp回归公式 mlp 回归_激活函数_62

 是sigmoid函数,并且我们已经在前向传导运算中得到了 

mlp回归公式 mlp 回归_激活函数_63

。那么,使用我们早先推导出的 

mlp回归公式 mlp 回归_深度学习_64

表达式,就可以计算得到 

mlp回归公式 mlp 回归_前馈网络_65

。最后,我们将对梯度下降算法做个全面总结。在下面的伪代码中,

mlp回归公式 mlp 回归_mlp回归公式_66

 是一个与矩阵 

mlp回归公式 mlp 回归_前馈网络_67

 维度相同的矩阵,

mlp回归公式 mlp 回归_深度学习_68

 是一个与 

mlp回归公式 mlp 回归_激活函数_69

 维度相同的向量。注意这里"

mlp回归公式 mlp 回归_BP_70

"是一个矩阵,而不是"

mlp回归公式 mlp 回归_激活函数_71

 与 

mlp回归公式 mlp 回归_前馈网络_72

 相乘"。下面,我们实现批量梯度下降法中的一次迭代:

 

  1. 对于所有 
  2. mlp回归公式 mlp 回归_mlp回归公式_73

  3. ,令 
  4. mlp回归公式 mlp 回归_前馈网络_74

  5.  , 
  6. mlp回归公式 mlp 回归_BP_75

  7.  (设置为全零矩阵或全零向量)
  8. 对于    到   ,
  1. 使用反向传播算法计算 
  2. mlp回归公式 mlp 回归_前馈网络_76

  3.  和 
  4. mlp回归公式 mlp 回归_激活函数_77

  5. 计算 
  6. mlp回归公式 mlp 回归_mlp回归公式_78

  7. 计算 
  8. mlp回归公式 mlp 回归_mlp回归公式_79

  1. 更新权重参数:

    

mlp回归公式 mlp 回归_BP_80

    

    注意:为了使代价函数更快的收敛,首先要对输入数据进行归一化。

    上面忘了讲tanh激活函数,

mlp回归公式 mlp 回归_BP_81

,非线性数据围绕原点对称更容易很好的收敛代价函数,因为它们倾向于产生零均值输入到下一层,一般讲,tanh有更好的收敛性能。