神经网络中施加权重有什么作用神经网络权重矩阵

转载

mob64ca13f70606 2023-11-16 14:23:11

文章标签 神经网络中施加权重有什么作用算法神经网络反向传播激活函数 文章分类 神经网络人工智能

训练神经网络基本采用反向传播+梯度下降来进行，具体过程如下：

全连接层神经元之间互相连接，假设第一层有三个节点，第二层有个节点，如下图所示：

神经网络中施加权重有什么作用神经网络权重矩阵_激活函数

我们通过w11,w12,w21,w22,w31,w32来分别表示神经网络中节点到节点的权重，实际上，这可以被表示为矩阵的形式：

神经网络中施加权重有什么作用神经网络权重矩阵_神经网络中施加权重有什么作用_02

因此，神经网络层与层之间的权重矩阵W在程序中就是通过这一个个矩阵表示出来的。而刚好每一层的神经元又可以采用向量的形式表示出来，故要求得第二层神经元的各个值，我们只需要将向量与矩阵相乘就行了。（上图中向量为1*3向量，而矩阵是3*2矩阵，两个相乘得到1*2向量，这个向量刚好对应第二层的两个神经元节点）

在训练开始时，W矩阵中的所有元素被设为随机初始值（一般为-0.5--0.5，因为全连接神经网络一般用sigmoid激活函数激活，选择-0.5--0.5的值有利于反向传播顺利进行）

首先由数据进入一个随机生成参数的网络，数据不断通过神经元及激活函数向前传播，直至到达输出层，在训练过程中，我们会有监督值t来监督这次前向传播的值是否正确，如果不正确，则监督值会传出一个误差值，告诉这个网络你的计算和我想要的差了多少。这个过程有点像猜数字游戏，A心里想好一个数，B来猜，B先猜是5，A说小了，那B就会说一个比5大的数。

神经网络的更新与此相似，但是输出层告诉整个神经网络的是一个精准的误差值，而整个神经网络要调整的是整个权重矩阵的参数，而不是像猜数字那样，只用对一个数字进行增大或减小，具体就是告诉整个矩阵中的每一个数是该变大还是变小，而且由于矩阵是一个整体，你必须要考虑矩阵中的所有数变大变小的程度，而不是说矩阵中的每一个数都增加或减少一个定值。那怎么确定一个矩阵中的每个权重值变大还是变小，又各自改变多少呢？这就是梯度下降要做的事。

梯度是多元函数微分中的概念，相当于分别求得矩阵中各个变量下降最快的方向，那么，用这个方向乘以一定的步长就可以粗略的作为该次反向传播w权值的更新结果。

原理如下：我们通过监督值t减去网络给出的输出值得到误差，但我们一般采用均方误差：

神经网络中施加权重有什么作用神经网络权重矩阵_激活函数_03