(1)神经网络中的神经元的输出:

bp神经网络梯度下降法 神经网络梯度下降公式_机器学习

bp神经网络梯度下降法 神经网络梯度下降公式_神经网络_02

(2)梯度下降算法:

bp神经网络梯度下降法 神经网络梯度下降公式_bp神经网络梯度下降法_03

(3)随机梯度下降:(每次训练完一个batch后,进行一次参数更新)

bp神经网络梯度下降法 神经网络梯度下降公式_机器学习_04

(4)反向传播:

bp神经网络梯度下降法 神经网络梯度下降公式_bp神经网络梯度下降法_05

bp神经网络梯度下降法 神经网络梯度下降公式_概率分布_06

(5)momentum:

bp神经网络梯度下降法 神经网络梯度下降公式_机器学习_07

是梯度下降法中一种常用的加速技术。对于一般的SGD,其表达式为

bp神经网络梯度下降法 神经网络梯度下降公式_损失函数_08

,

bp神经网络梯度下降法 神经网络梯度下降公式_机器学习_09

沿负梯度方向下降。而带momentum项的SGD则写生如下形式:

bp神经网络梯度下降法 神经网络梯度下降公式_损失函数_10

bp神经网络梯度下降法 神经网络梯度下降公式_神经网络_11

(6)学习率:

bp神经网络梯度下降法 神经网络梯度下降公式_bp神经网络梯度下降法_12

(7)weight decay:

bp神经网络梯度下降法 神经网络梯度下降公式_机器学习_13

bp神经网络梯度下降法 神经网络梯度下降公式_概率分布_14

weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。

bp神经网络梯度下降法 神经网络梯度下降公式_机器学习_15

(8)


在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中,我们很难理解交叉熵的定义。下面举个例子来描述一下:


假设现在有一个样本集中两个概率分布p,q,其中p为真实分布,q为非真实分布。假如,按照真实分布p来衡量识别一个样本所需要的编码长度的期望为:


H(p)=

 


但是,如果采用错误的分布q来表示来自真实分布p的平均编码长度,则应该是:


H(p,q)=

 


此时就将H(p,q)称之为交叉熵。交叉熵的计算方式如下:


对于离散变量采用以下的方式计算:H(p,q)=

 


对于连续变量采用以下的方式计算:

 


可以看到上例中根据非真实分布q得到的平均编码长度H(p,q)大于根据真实分布p得到的平均编码长度H(p)。事实上,根据 Gibbs' inequality 可知,H(p,q)>=H(p)恒成立,当q为真实分布p时取等号。我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”:D(p||q)=H(p,q)-H(p)=

bp神经网络梯度下降法 神经网络梯度下降公式_神经网络_16

,其又被称为 KL散度 (Kullback–Leibler divergence,KLD) Kullback–Leibler divergence 。它表示2个函数或概率分布的差异性:差异越大则相对熵越大,差异越小则相对熵越小,特别地,若2者相同则熵为0。注意,KL散度的非对称性。

bp神经网络梯度下降法 神经网络梯度下降公式_神经网络_17


C=−∑