机器学习:最小二乘支持向量机(Least Squares Support Vector Machine)

参考文献
《A Novel Method for Energy Consumption Prediction of Underwater Gliders Using Optimal LSSVM with PSO Algorithm》

一、最小二乘支持向量机(LSSVM)

LSSVM是Suykens等人提出的一种机器学习算法。LSSVM作为一种基于统计理论的改进型支持向量机,具有先进的完备理论体系,能够将二次优化问题的解转化为线性方程组的求解,从而简化了问题的求解。因此,它已成功地应用于多个领域,包括数据回归、模式识别、时间序列预测等。

对于给定的训练数据(xi,yi),其中xi=(xi1,xi2,…,xid)T是d维的输入向量,yi是相应的输出数据,N是训练数据的总数。为了将输入空间映射到特征空间,采用非线性函数φ(xi),非线性函数估计建模的形式如下:

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_核函数

其中w是权重向量,b是偏置项和符号<·>指内积操作。

基于结构化风险最小化原则,评估问题被描述为优化问题:

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_支持向量机_02

γ是用于确定模型复杂度和精度之间权衡的正则化参数,ei表示输出的实际值和预测值之间的回归误差。

为了解决上述优化问题,构造了相应的拉格朗日函数:

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_核函数_03

αi是拉格朗日乘数。

通过将w、b、ei、αi导数设为零,可以得到问题最优解的条件。

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_核函数_04

通过消除w和ei,四个线性问题可以简化为:

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_核函数_05

其中y=[y1,…,yN]T,α=[α1,…,αN]T,E=[1,…,1]T,和Ω是一个N×N核函数的对称矩阵:

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_数据_06

其中K(xi,xj)是核函数,满足Meser的条件。核函数具有降低高维空间计算复杂度的能力,在构造高性能最小二乘支持向量机中起着重要作用。

那么,LSSVM模型可以表示为:

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_核函数_07

径向基函数(RBF)核是一种被广泛采用的核函数,如下:

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_数据_08

σ是核函数的带宽。

其中,两个超参数γ以及σ,是对LSSVM模型的性能有很大影响的参数,需要仔细确定。

二、文献提出的LSSVM-PSO模型框架

本文建立适应度函数以评估模型的性能,其形式为:

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_数据_09

采用粒子群优化算法对这些超参数进行优化,使适应度函数最大化。LSSVM–PSO模型的结构如图1所示。基于该模型的预测模型实现如下。

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_数据_10

  • 数据划分为训练集、验证集和测试集,其功能描述如下:

训练集:训练LSSVM模型。
验证集:为PSO算法的适应度计算提供数据。
测试集:替换新的输入数据,以评价本文提出的LSSVM-PSO模型的性能。

  • 建立LSSVM-PSO模型的初始参数
  • 基于粒子群优化算法,通过最大化适应度函数优化LSSVM超参数组合
  • 建立具有最优超参数的LSSVM模型
  • 利用测试集对最优LSSVM-PSO模型的性能进行评估

拓展

模型评价指标:平均绝对百分比误差(MAPE)、平均绝对误差(MAE)和均方根误差(RMSE)

BP神经网络 向量机 最小二乘法哪个最简单 最小二乘向量机算法_数据_11