5.1 神经元模型
神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,最基本的成分是神经元模型。M-P神经元模型如下:
从计算机科学角度看,将神经网络视为包含了许多参数的数学模型,这个模型是若干函数,例如
相互嵌套而得。
5.2 感知机与多层网络
感知机由两层神经元组成,输出层是M-P 神经元,亦称“阈值逻辑单元”
感知机能实现与、或、非运算,与、或、非问题是线性可分问题
若两类模式是线性可分的,即存在一个线性超平面能将他们分开。则感知机的学习过程一定会收敛而求得适当的权向量;否则感知机学习过程将会发生震荡。
感知机不能解决异或问题,异或问题是非线性可分的问题。
要解决非线性可分问题,需考虑使用多层功能神经元,如 两层感知机就能解决异或问题,能解决异或问题的两层感知机如下:
多层前馈神经网络:每层神经元与下一层神经元全互联,神经元之间不存在同层连接,也不存在跨层连接;前馈并不意味着网络中信号不能向后传,而是指网络拓扑结构上不存在环或回路。
其中输入层神经元接收外接输入,隐层与输出层神经元对信号进行加工,最终结果由输出层神经元输出;输入层神经元仅是接受输入,不进行函数处理,隐层与输出层包含功能神经元。
5.3 误差逆传播算法
亦称 反向传播算法
离散数据需先进性处理:若属性值间存在序关系则可进行连续化,否则转化为k维向量,K为属性值数
B-P算法:
网络在
上的均方误差为
,1/2是为了求导方便网络在训练集D上的累计误差为
加入正则化项后
标准BP算法每次更新只针对单个样例,累计BP算法直接针对累计误差最小化。两者区别类似于随机梯度下降与 标准梯度下降之间的区别
只需一个包含足够多神经元的隐层,多层前馈网络就能以任意精度逼近任意复杂度的连续函数。
由于其强大表示能力,BP神经网络经常遭遇过拟合,其训练误差持续降低,但测试误差却可能上升。有两种策略来缓解BP网络的过拟合。
第一种策略:早停,将数据分成训练集和验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值。
第二种策略是正则化,其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权与阈值的平方和。
5.4 全局最小与局部最小
对
,局部极小
,都有
全局最小
,都有
“跳出”局部极小,进一步接近全局最小方法:
以多组不同参数值初始化多个神经网络,按标准方法训练后,取其中误差最小的解作为最终参数
使用模拟退火技术
使用随机梯度下降
遗传算法
5.5 其他常见神经网络
1、RBF网络
径向基函数网络
具有足够多隐藏层神经元的RBF网络能以任意精度逼近任意连续函数
通常采用两步过程来训练RBF网络:第一步,确定神经元中心Ci,常用的方式包括随机采样、聚类等;第二步,利用BP算法等来确定参数Wi和βi。
2、ART网络
竞争型学习是一种常用的无监督学习策略,在使用该策略时,网络的输出神经元相互竞争,每一时刻仅有一个竞争获胜的神经元被激活,其他神经元的状态被抑制
ART网络是竞争学习的重要代表。该网络由比较层、识别层、识别阈值、重置模块构成。
ART比较好的缓解了竞争型学习中的“可塑性-稳定性窘境”。
ART可进行增量学习或在线学习
3、SOM网络
是一种竞争学习型的无监督神经网络,能将高维输入数据映射到低维空间(通常为二维),同时保持输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。
4、级联相关网络
结构自适应网络
5、Elman网络
是常用的递归神经网络(rnn),sigmoid激活函数,推广的BP算法训练
6、Boltzmann机
最小化能量函数
显层与隐层