1. 感知机模型

给定训练样本集

感知机算法分类原理学习笔记_梯度下降法

感知机算法分类原理学习笔记_损失函数_02

若存在超平面,使下面等式成立:

感知机算法分类原理学习笔记_感知机_03

若某一样本满足超平面不等式:

感知机算法分类原理学习笔记_感知机_04

则该样本为正样本;

若另一样本满足平面不等式:

感知机算法分类原理学习笔记_迭代_05

为了简化该模型,我们使用向量x表示样本,向量w表示参数,并用sign函数表示不等式,则有:

感知机算法分类原理学习笔记_损失函数_06

函数sign(x)的含义为:

感知机算法分类原理学习笔记_迭代_07

上述这一模型就是我们熟知的感知机模型,如下图:

感知机算法分类原理学习笔记_误分类_08

2. 感知机模型的损失函数

若我们知道了感知机模型的超平面,我们定义误分类点到超平面的距离为该样本点的损失函数。

误分类点的含义为感知机模型错误分类的点,如下图:

感知机算法分类原理学习笔记_迭代_09

误分类点满足下式:

感知机算法分类原理学习笔记_迭代_10

误分类样本的损失函数为该样本点到超平面的距离:

感知机算法分类原理学习笔记_梯度下降法_11

我们发现,当分子参数 w 增加N倍时,分母参数的L2范数也会相应的增加N倍,因此误分类样本可以简化为:

感知机算法分类原理学习笔记_损失函数_12

损失函数为误分类点到超平面的距离之和:

感知机算法分类原理学习笔记_误分类_13

3. 感知机模型损失函数的优化过程

由上节可知,损失函数为误分类点到超平面的距离之和:

感知机算法分类原理学习笔记_误分类_13

损失函数相对于参数w的偏导数为:

感知机算法分类原理学习笔记_梯度下降法_15

梯度下降法更新模型参数:

感知机算法分类原理学习笔记_梯度下降法_16

即:

感知机算法分类原理学习笔记_损失函数_17

其中λ为学习率。

梯度下降法迭代过程中止条件:当参数 w 迭代过程中,没有任何的误分类点,则迭代结束。

4. 感知机模型的算法对偶形式

若样本容量为N,每一个样本的迭代次数为感知机算法分类原理学习笔记_感知机_18,模型参数的初始值为0,由梯度下降法可得:

感知机算法分类原理学习笔记_迭代_19

我们容易知道正确分类样本的迭代次数等于0。

感知机算法分类原理学习笔记_损失函数_20

有:

感知机算法分类原理学习笔记_误分类_21

上式就是参数 w 的表达式。

对于某一个样本感知机算法分类原理学习笔记_误分类_22,若:

感知机算法分类原理学习笔记_感知机_23

则该样本为误分类点,需要用梯度下降法更新参数。

若:

感知机算法分类原理学习笔记_误分类_24

则该样本为正确分类的点,不需要更新参数。

为了加快算法运行速度,我们首先计算每个样本间的Gram矩阵,在感知机对偶形式的内积计算时直接调用Gram矩阵的元素,节省了样本内积计算的时间。

6.感知机分类模型的缺点

感知机模型的超平面不是唯一的,超平面与误分类点的计算顺序、初始值以及学习率相关,如下两个超平面,都能使损失函数等于0。

    

感知机算法分类原理学习笔记_梯度下降法_25

               

分类模型肯定会有最佳的超平面,感知机模型不能得到最优超平面,支持向量机在感知机模型的基础上得到最优超平面,下节将介绍支持向量机。

欢迎扫码关注:

感知机算法分类原理学习笔记_感知机_26