支持向量机Spambase垃圾邮件数据集

转载

mob64ca140c75c7 2024-09-23 12:16:33

文章标签 机器学习支持向量机算法感知机最优化 文章分类 机器学习人工智能

文章目录

线性可分支持向量机（硬间隔）
线性不可分支持向量机（软间隔）
非线性支持向量机与核函数

支持向量机和感知机的差别仅在与损失函数不同而已（有间隔最大的要求）。它也是一种二分类模型。

支持向量机Spambase垃圾邮件数据集_算法

数据点就叫支撑向量。当数据线性可分时，就使得所有点到直线距离最大化的直线，让直线变成

唯一的。两个支撑超平面H之间没有数据点，两个支撑超平面之间的距离称为

硬间隔（不允许有数据点出现在支撑超平面之间），也有

软间隔（允许点出现在支撑超平面之间，如果点出现在分离超平面另一边也就是错分类，需要加个惩罚）。支撑超平面确定了分离超平面。上图中，支持向量机的目标就是令

硬间隔最大，也就是令点到分离超平面的

几何距离最大（这里不能用

函数距离，只有给定超平面比较不同点到同一个超平面的距离时才能用函数距离）。支持向量机要做的事情，从数学上表述就是：令距离分离超平面最小的点到超平面的距离最大化。就是说最大化那个最近点的几何距离，而其他点的几何距离都必须比这个点要大。

线性可分支持向量机（硬间隔）

$支持向量机Spambase垃圾邮件数据集_感知机_02$
这里标签 $支持向量机Spambase垃圾邮件数据集_算法_03$ 为正负1， $支持向量机Spambase垃圾邮件数据集_感知机_04$ 是几何距离。极小极大化，一下子就可以想到拉格朗日对偶性来解决问题。先对上式转变一下，处理成如下形式（这里省略 $支持向量机Spambase垃圾邮件数据集_机器学习_05$ ， $支持向量机Spambase垃圾邮件数据集_感知机_06$ 为函数距离，其取值并不影响最优化问题的解）
$支持向量机Spambase垃圾邮件数据集_感知机_07$
通过上式来确定w和b，如何确定？就用到了拉格朗日对偶性。先定义拉格朗日函数
$支持向量机Spambase垃圾邮件数据集_最优化_08$
这里的拉格朗日乘子 $支持向量机Spambase垃圾邮件数据集_机器学习_09$ 。于是求极大极小问题
$支持向量机Spambase垃圾邮件数据集_支持向量机_10$
（1）先求min，分别对w和b求偏导数并令其为0，得到
$支持向量机Spambase垃圾邮件数据集_支持向量机_11$

$支持向量机Spambase垃圾邮件数据集_最优化_12$

然后将上面两个式子代入拉格朗日函数

$支持向量机Spambase垃圾邮件数据集_算法_13$

所以

$支持向量机Spambase垃圾邮件数据集_最优化_14$

再来求上面表达式的max，最终就得到下面的问题

$支持向量机Spambase垃圾邮件数据集_感知机_15$

这样就可以求解出一组 $支持向量机Spambase垃圾邮件数据集_算法_16$ ，于是可以通过 $支持向量机Spambase垃圾邮件数据集_算法_16$ 得到最优化问题的解，也就是那条分隔超平面的两个参数

$支持向量机Spambase垃圾邮件数据集_机器学习_18$

所以分隔超平面的表达式为

$支持向量机Spambase垃圾邮件数据集_最优化_19$

整个过程在《统计学习方法》中描述如下

支持向量机Spambase垃圾邮件数据集_最优化_20

线性不可分支持向量机（软间隔）

和硬间隔相比，引入一个松弛变量 $支持向量机Spambase垃圾邮件数据集_最优化_21$ ，表示允许有一些点可以越过支撑平面 $支持向量机Spambase垃圾邮件数据集_算法_22$ 的距离，但是越过就需要有惩罚系数C，于是目标函数就变为

$支持向量机Spambase垃圾邮件数据集_机器学习_23$

代表了只要满足上面宽松的条件，这个新的宽松模型的分类效果就还是可以接受的。

于是最优化问题就可被描述为

$支持向量机Spambase垃圾邮件数据集_机器学习_24$

原始问题永远是极小极大，对偶问题就是极大极小。求对偶问题往往简单，先求极小，拉格朗日函数为

$支持向量机Spambase垃圾邮件数据集_支持向量机_25$

其中，偏导为0得

$支持向量机Spambase垃圾邮件数据集_最优化_26$

代入拉格朗日函数

$支持向量机Spambase垃圾邮件数据集_机器学习_27$

于是对偶问题为

$支持向量机Spambase垃圾邮件数据集_机器学习_28$

后面三个约束统一写为

$支持向量机Spambase垃圾邮件数据集_机器学习_29$

由此解得 $支持向量机Spambase垃圾邮件数据集_算法_30$ ，代入求得w和b得出分隔平面。

支持向量机Spambase垃圾邮件数据集_最优化_31

如果 $支持向量机Spambase垃圾邮件数据集_感知机_32$ ，则 $支持向量机Spambase垃圾邮件数据集_支持向量机_33$ ，支持向量恰好落在间隔边界上；若 $支持向量机Spambase垃圾邮件数据集_最优化_34$ ，则分类正确，支持向量在间隔边界与分离超平面之间；若 $支持向量机Spambase垃圾邮件数据集_支持向量机_35$ ，则支持向量在分离超平面上；若 $支持向量机Spambase垃圾邮件数据集_感知机_36$ ，则支持向量位于分离超平面误分类一侧。此外，上面的最优化问题等价于优化正则的合页损失函数