连载｜神经网络（上）

原创

二哥不像程序员 2023-03-03 01:37:44 博主文章分类：数据挖掘 ©著作权

文章标签 神经网络深度学习人工智能机器学习 python 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者二哥不像程序员的原创作品，请联系作者获取转载授权，否则将追究法律责任

神经网络（上）

文末送书福利进行中～

人工神经元结构

受生物神经元的启发，1943年心理学家McCulloch和数学家Pitts提出了人工神经元模型（Artificial Neuron，简称AN），人们也常用它们两个名字的首字母来命名这个人工神经元模型，称之为M-P模型，这种模型也一直沿用至今。M-P模型的结构如下：

连载｜神经网络（上）_神经网络

在M-P模型中神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将与神经元的阈值比较，然后通过“激活函数（activation function）”处理以产生神经元的输出。

最终我们把许多个神经元按一定的层次连接起来，就得到了神经网络，简单的神经网络模型如下：

连载｜神经网络（上）_深度学习_02

激活函数

如果你不了解甚至没接触过神经网络，那么激活函数这个词语就会显得很陌生了，激活函数的作用是为了在神经网络中引入非线性的学习和处理能力。简单的说激活函数就是用来展示输入输出之间的映射关系用的，当数值经过激活函数处理后，会被压缩到一个范围区间内，数值的大小将会决定神经元到底是处于活跃状态还是抑制状态，最后将输出结果传递给下一个神经元。典型的神经元激活函数如下图所示：

连载｜神经网络（上）_人工智能_03

通常理想中的激活函数是由上图中（a）所示的阶跃函数，他将输入值映射为输出值“0”或“1”，显然“1”对应于神经元活跃，“0”对应着抑制，但是阶跃函数具有不连续、不光滑等不太好的性质，因此在实际中我们经常用上图中（b）所示的sigmoid函数来作为激活函数，sigmoid函数把可能在较大范围内变化的输入值挤压到（0，1）输出值范围内，因此有时也称为“挤压函数”。

后面再让我们用单独的一篇文章来详细了解常用的激活函数。

感知机（单层神经网络）

感知机仅由两层神经元组成，如下图所示，输入层用于接受外界输入信号后传递给输出层，输出是M-P神经元，亦称阈值逻辑单元。

连载｜神经网络（上）_人工智能_04

感知机能够轻易的实现逻辑“与”，“或”，“非”的运算，对于输出 $连载｜神经网络（上）_神经网络_05$ ，假定f是我们上面提到过的阶跃函数，则有：

“与” $连载｜神经网络（上）_深度学习_06$ ：令 $连载｜神经网络（上）_深度学习_07$ ，则 $连载｜神经网络（上）_机器学习_08$ ，仅在 $连载｜神经网络（上）_深度学习_09$ 时 $连载｜神经网络（上）_机器学习_10$ 。
“或” $连载｜神经网络（上）_神经网络_11$ ：令 $连载｜神经网络（上）_python_12$ ，则 $连载｜神经网络（上）_人工智能_13$ ，仅在 $连载｜神经网络（上）_机器学习_14$ 或 $连载｜神经网络（上）_人工智能_15$ 时 $连载｜神经网络（上）_机器学习_10$ 。
“非” $连载｜神经网络（上）_人工智能_17$ ：令 $连载｜神经网络（上）_神经网络_18$ ，则 $连载｜神经网络（上）_机器学习_19$ ，当 $连载｜神经网络（上）_机器学习_14$ 时 $连载｜神经网络（上）_python_21$ ，当 $连载｜神经网络（上）_人工智能_22$ 时， $连载｜神经网络（上）_机器学习_10$ 。

通常情况下，给定训练数据集，权重 $连载｜神经网络（上）_机器学习_24$ 以及阈值 $连载｜神经网络（上）_神经网络_25$ 可以通过学习得到，阈值可以看作是一个固定输入为-1的“结点”所对应的连接权重为 $连载｜神经网络（上）_机器学习_26$ ，这样权重和阈值的学习就能够统一为权重的学习了。感知机的学习规则非常简单，对训练样例 $连载｜神经网络（上）_人工智能_27$ ，若当前感知机输出为 $连载｜神经网络（上）_深度学习_28$ ，则感知机的权重就会做如下的调整：

$连载｜神经网络（上）_深度学习_29$

$连载｜神经网络（上）_神经网络_30$

和梯度下降一样，这里的 $连载｜神经网络（上）_深度学习_31$ 我们也称之为学习率，从上式中可以看出，若感知机对训练样例 $连载｜神经网络（上）_人工智能_27$ 预测正确，则 $连载｜神经网络（上）_神经网络_33$ ，则感知机不发生变化，否则将根据错误的程度进行权重的调整。

多层神经网络

对于简单的感知机，我们可以看出只有输出层的神经元进行了激活函数的处理，这也使得它的学习能力很有限，上述我们提到的”与或非“的问题都属于线性可分的问题，如果遇到了非线性可分的问题（比如异或问题），这种简单感知机的表现就不尽人意了，具体的情况如下所示：

连载｜神经网络（上）_深度学习_34

如果有一定经验的同学在这里可能会想到把感知机优化为SVM去解决此类问题，利用神经网络的结构，我们想要解决非线性可分问题，需要考虑使用多层功能神经元，这里引入一个存在于输入层和输出层之间的一层神经元，被叫做隐藏层（hidden layer），隐藏层和输出层的神经元都是拥有激活函数的功能神经元。加入隐藏层后的神经网络结构如下所示：

连载｜神经网络（上）_神经网络_35

对于上图这样的结构，每层神经元与下层神经元全部相连，神经元之间不存在同层连接，也不存在跨层连接，这样的神经网络结构通常称为“多层前馈神经网络”（multi-layer feedforward neural networks），其中输入层神经元接收外界的输入，隐藏层和输出层对神经元信号进行加工，最终结果由输出层神经元输出。

注：我们在定义神经网络的层数的时候，通常只计算含有激活函数的功能神经层的个数，例如对于上图的神经网络层数可以定义为3层（hidden1、hidden2、output）。

我们了解了多层神经网络，对于上文所述的“异或”问题就有了如下的解决方案：

连载｜神经网络（上）_深度学习_36