建立原始的线性支持向量机并手动计算最优分割超平面线性支持向量机原理

转载

技术极先锋 2024-05-29 00:56:05

一、简介

支持向量机（support vector machines）是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。由简至繁的模型包括：

当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；
当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机；
当训练样本线性不可分时，通过核技巧和软间隔最大化，学习一个非线性支持向量机；

二、线性可分支持向量机

1、间隔最大化和支持向量

如果一个线性函数能够将样本分开，称这些数据样本是线性可分的。那么什么是线性函数呢？其实很简单，在二维空间中就是一条直线，在三维空间中就是一个平面，以此类推，如果不考虑空间维数，这样的线性函数统称为超平面。我们看一个简单的二维空间的例子，O代表正类，X代表负类，样本是线性可分的，但是很显然不只有这一条直线可以将样本分开，而是有无数条，我们所说的线性可分支持向量机就对应着能将数据正确划分并且间隔最大的直线。

建立原始的线性支持向量机并手动计算最优分割超平面线性支持向量机原理_SVM

那么我们考虑第一个问题，为什么要间隔最大呢？一般来说，一个点距离分离超平面的远近可以表示分类预测的确信度，如图中的A B两个样本点，B点被预测为正类的确信度要大于A点，所以SVM的目标是寻找一个超平面，使得离超平面较近的异类点之间能有更大的间隔，即不必考虑所有样本点，只需让求得的超平面使得离它近的点间隔最大。

接下来考虑第二个问题，怎么计算间隔？只有计算出了间隔，才能使得间隔最大化。在样本空间中，划分超平面可通过如下线性方程来描述：

建立原始的线性支持向量机并手动计算最优分割超平面线性支持向量机原理_支持向量机_02

其中w为法向量，决定了超平面的方向，b为位移量，决定了超平面与原点的距离。假设超平面能将训练样本正确地分类，即对于训练样本(xi,yi)(xi,yi) 相当于最小化 ||w||，为了计算方便，将公式（6）转化成如下：

建立原始的线性支持向量机并手动计算最优分割超平面线性支持向量机原理_特征空间_03

公式（7）即为支持向量机的基本型。

2、对偶问题

公式（7）本身是一个凸二次规划问题，可以使用现有的优化计算包来计算，但我们选择更为高效的方法。对公式（7）使用拉格朗日乘子法得到其对偶问题，该问题的拉格朗日函数可以写为：

建立原始的线性支持向量机并手动计算最优分割超平面线性支持向量机原理_SVM_04

公式（8）分别对 w 和 b求偏导：

建立原始的线性支持向量机并手动计算最优分割超平面线性支持向量机原理_SVM_05

令其分别为0，可以得到：

建立原始的线性支持向量机并手动计算最优分割超平面线性支持向量机原理_SVM_06

将公式（9）（10）代入公式（8），可得：

建立原始的线性支持向量机并手动计算最优分割超平面线性支持向量机原理_核函数_07

此时，原问题就转化为以下仅关于 αα，

若 αi=0αi=0，即该样本一定在边界上，是一个支持向量。

这里显示出了支持向量机的重要特征：当训练完成后，大部分样本都不需要保留，最终模型只与支持向量有关。

三、非线性支持向量机和核函数

对于非线性问题，线性可分支持向量机并不能有效解决，要使用非线性模型才能很好地分类。先看一个例子，如下图，很显然使用直线并不能将两类样本分开，但是可以使用一条椭圆曲线（非线性模型）将它们分开。非线性问题往往不好求解，所以希望能用解线性分类问题的方法求解，因此可以采用非线性变换，将非线性问题变换成线性问题。

建立原始的线性支持向量机并手动计算最优分割超平面线性支持向量机原理_支持向量机_08