bp神经网络梯度下降法神经网络梯度下降公式

转载

huatechinfo 2023-10-30 23:13:40

文章标签 bp神经网络梯度下降法机器学习神经网络损失函数概率分布 文章分类 神经网络人工智能

（1）神经网络中的神经元的输出：

bp神经网络梯度下降法神经网络梯度下降公式_机器学习

bp神经网络梯度下降法神经网络梯度下降公式_神经网络_02

（2）梯度下降算法：

bp神经网络梯度下降法神经网络梯度下降公式_bp神经网络梯度下降法_03

（3）随机梯度下降：（每次训练完一个batch后，进行一次参数更新）

bp神经网络梯度下降法神经网络梯度下降公式_机器学习_04

（4）反向传播：

bp神经网络梯度下降法神经网络梯度下降公式_bp神经网络梯度下降法_05

bp神经网络梯度下降法神经网络梯度下降公式_概率分布_06

（5）momentum：

bp神经网络梯度下降法神经网络梯度下降公式_机器学习_07

是梯度下降法中一种常用的加速技术。对于一般的SGD，其表达式为

bp神经网络梯度下降法神经网络梯度下降公式_损失函数_08

bp神经网络梯度下降法神经网络梯度下降公式_机器学习_09

沿负梯度方向下降。而带momentum项的SGD则写生如下形式：

bp神经网络梯度下降法神经网络梯度下降公式_损失函数_10

bp神经网络梯度下降法神经网络梯度下降公式_神经网络_11

（6）学习率：

bp神经网络梯度下降法神经网络梯度下降公式_bp神经网络梯度下降法_12

（7）weight decay:

bp神经网络梯度下降法神经网络梯度下降公式_机器学习_13

bp神经网络梯度下降法神经网络梯度下降公式_概率分布_14

weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。

bp神经网络梯度下降法神经网络梯度下降公式_机器学习_15

（8）

在信息论中，交叉熵是表示两个概率分布p,q，其中p表示真实分布，q表示非真实分布，在相同的一组事件中，其中，用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中，我们很难理解交叉熵的定义。下面举个例子来描述一下：

假设现在有一个样本集中两个概率分布p,q，其中p为真实分布，q为非真实分布。假如，按照真实分布p来衡量识别一个样本所需要的编码长度的期望为：

H(p)=

但是，如果采用错误的分布q来表示来自真实分布p的平均编码长度，则应该是：

H(p,q)=

此时就将H(p,q)称之为交叉熵。交叉熵的计算方式如下：

对于离散变量采用以下的方式计算：H(p,q)=

对于连续变量采用以下的方式计算：

可以看到上例中根据非真实分布q得到的平均编码长度H(p,q)大于根据真实分布p得到的平均编码长度H(p)。事实上，根据 Gibbs' inequality 可知，H(p,q)>=H(p)恒成立，当q为真实分布p时取等号。我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”：D(p||q)=H(p,q)-H(p)=

bp神经网络梯度下降法神经网络梯度下降公式_神经网络_16