神经网络的layer 神经网络的基本原理

转载

mob6454cc636c54 2023-08-08 07:39:42

文章标签 神经网络的layer 机器学习神经网络权值深度学习 文章分类 神经网络人工智能

第五章-神经网络

神经网络，其原理便是模仿大脑神经元工作，对任何问题都可以进行学习，最终达到预测目的。

定义：由具有适应性简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。

原理：其最基本的成分是神经元（neuron）。神经元工作原理为：当它“兴奋”时，会向相连的神经元发送化学物质，从而改变这些神经元内的电位。如果神经元内的电位超过了某一个阈值，它就会被激活，“兴奋”起来，向其他神经元发送化学物质。

神经网络的layer 神经网络的基本原理_神经网络的layer

上图所示即为最基本的单个神经元的工作原理：接受来自“树突”的n个刺激，每一个树突都有相应的权值w，最终通过阈值的计算，完成输出y。常用的阈值函数为sigmoid函数，其具有良好的性质。

$\operatorname{sigmoid}(x)=\frac{1}{1+e^{-x}}$

由两层神经元构成的，称为感知机，其具有两层结构，“输入”、“输出”层，其能够完成较简单的工作。

神经网络的layer 神经网络的基本原理_深度学习_03

由多层神经元构成的，称为神经网络。下图为BP神经网络，误差逆传播算法。

神经网络的layer 神经网络的基本原理_深度学习_04

其具有中间层（隐层），通过不断得矫正各神经元间连接权重，从而获得模型。

那么如何获得矫正呢？下面为笔者的推算，思考。

首先，我们确定误差函数

$J(\theta )$

，即用于计算每次预测值与实际误差。假定我们使用

$\log h_{\theta}\left(x^{(i)}\right)$

确定本次预测为正例的可能性，

$h_{\theta}$

为sigmoid函数，

$J(\theta )$

后面半截为本次预测为反例的可能性。要根据其逐层的权值，对其求导，即可得出误差最小值。

神经网络的layer 神经网络的基本原理_神经网络_09

神经网络的layer 神经网络的基本原理_权值_10

上述推导过程也很直观地体现在西瓜书中，我们可以通过这一系列推导得到权值的更新公式：

神经网络的layer 神经网络的基本原理_神经网络_11

$\begin{array}{l} {\Delta w_{h j}=\eta g_{j} b_{h}} \\ {\Delta \theta_{j}=-\eta g_{j}} \\ {\Delta v_{i h}=\eta e_{h} x_{i}} \\ {\Delta \gamma_{h}=-\eta e_{h}} \end{array}$

（与手推过程字母表示不同）注意：

$\eta$

为学习速率

在不断更新权值的过程中，模型不断和真实值拟合。由于其强大的表示能力，常常发生过拟合的现象，通常有两种解决方案：

早停，将数据分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值。
正则化，其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分，例如连接权值的平方和，即：不能太复杂，太复杂往往会发生过拟合。

全局最小与局部最小

神经网络的layer 神经网络的基本原理_权值_14