本文包含大量不严谨的公式写法,只是推式子时候打草记录一下…

线性模型(Linear Model)是机器学习中应用最广泛的模型,指通过样本特征的线性组合来进行预测的模型。给定一个线性模型-优化方法及推导过程_人工智能维的样本特征的线性组合来进行预测的模型,给定一个线性模型-优化方法及推导过程_人工智能维样本线性模型-优化方法及推导过程_样本集_03,其线性组合函数为:
线性模型-优化方法及推导过程_样本集_04
其中线性模型-优化方法及推导过程_线性回归_05线性模型-优化方法及推导过程_人工智能维的权重向量,线性模型-优化方法及推导过程_样本集_07为偏置。上式子可以用于用于线性回归模型:线性模型-优化方法及推导过程_人工智能_08,其输出为连续值,因此适用于回归预测任务。但是在分类任务中,由于输出目标是离散标签,无法直接进行预测,此时一般引入一个非线性的决策函数线性模型-优化方法及推导过程_逻辑回归_09来预测输出目标:
线性模型-优化方法及推导过程_样本集_10
线性模型-优化方法及推导过程_损失函数_11又称为判别函数。

如果线性模型-优化方法及推导过程_逻辑回归_09的作用是将线性模型-优化方法及推导过程_样本集_13函数值挤压/映射到某一值域内,那么线性模型-优化方法及推导过程_逻辑回归_09称为激活函数。

1.线性回归

这个属于很基础的模型了,它的任务很简单,就是预测连续的标签。

对于给定的样本线性模型-优化方法及推导过程_损失函数_15,我们可以用线性模型-优化方法及推导过程_人工智能_16线性模型-优化方法及推导过程_线性回归_17表示其特征,那么可以将原始样本映射称为一个线性模型-优化方法及推导过程_人工智能_16元的特征向量线性模型-优化方法及推导过程_样本集_19。因此,我们可以将线性回归模型的初始模型表示为如下的线性组合形式:
线性模型-优化方法及推导过程_样本集_20
其中,线性模型-优化方法及推导过程_逻辑回归_21为参数向量。

参数学习方法

定义损失函数为平方误差损失函数:
线性模型-优化方法及推导过程_损失函数_22
令训练样本集的特征矩阵为线性模型-优化方法及推导过程_人工智能_23。相应的训练样本标签值为线性模型-优化方法及推导过程_样本集_24,可将上述损失函数转化为:
线性模型-优化方法及推导过程_线性回归_25
因此,线性回归模型的构造就转化为如下最优化问题:
线性模型-优化方法及推导过程_逻辑回归_26
线性模型-优化方法及推导过程_逻辑回归_27对参数向量线性模型-优化方法及推导过程_线性回归_28各分量求偏导数:
线性模型-优化方法及推导过程_损失函数_29
根据多元函数求极值的方式,我们令线性模型-优化方法及推导过程_逻辑回归_27对参数向量线性模型-优化方法及推导过程_线性回归_28各分量的偏导数为线性模型-优化方法及推导过程_人工智能_32,即:
线性模型-优化方法及推导过程_线性回归_33
展开,移项,可得:
线性模型-优化方法及推导过程_人工智能_34
这便是直接利用最小二乘法求解线性回归模型的式子。可以发现里面涉及到了矩阵求逆的操作,这使得最小二乘法自带了明显的限制性:要求线性模型-优化方法及推导过程_损失函数_35的行向量之间线性无关,即不同样本的属性标记值之间不能存在线性相关性。

但实际应用中大多数样本中都存在这个问题,所以常用另一种方法来优化参数:梯度下降法。

梯度下降算法可以用于求解多元函数极值问题,具体来说,对于函数线性模型-优化方法及推导过程_线性回归_36,设其在某点的梯度为线性模型-优化方法及推导过程_样本集_37,为一矢量,则线性模型-优化方法及推导过程_线性回归_36方向导数沿该方向取得最大值,即线性模型-优化方法及推导过程_线性回归_36沿该方向变化最快(增大)。那么在该点沿梯度负方向减小最快。我们可以从该点沿梯度方向下降一小段(即为线性模型-优化方法及推导过程_样本集_40,实际上我们称之为步长/学习率),到达下一个点,再沿新店的梯度反方向继续下降,如此往复求得函数极值:
线性模型-优化方法及推导过程_人工智能_41
以上便是线性回归常用的参数学习方法。

2.Logistic回归

Logistic回归用于解决二分类问题,而不是回归问题。

回到线性分类模型:
线性模型-优化方法及推导过程_样本集_10
线性模型-优化方法及推导过程_逻辑回归_09函数在此处的作用是激活函数,用于对函数值进行映射。在线性模型-优化方法及推导过程_损失函数_44回归中,使用线性模型-优化方法及推导过程_线性回归_45函数作为激活函数:
线性模型-优化方法及推导过程_线性回归_46
该函数的图像为:

线性模型-优化方法及推导过程_逻辑回归_47

可以发现线性模型-优化方法及推导过程_线性回归_48将原函数值域映射到了线性模型-优化方法及推导过程_损失函数_49之间。

其对线性模型-优化方法及推导过程_逻辑回归_50的导数为:
线性模型-优化方法及推导过程_逻辑回归_51
在二分类问题中,我们假设标签取线性模型-优化方法及推导过程_损失函数_52,则标签线性模型-优化方法及推导过程_样本集_53的后验概率为:
线性模型-优化方法及推导过程_人工智能_54
(线性模型-优化方法及推导过程_线性回归_28为增广权值向量,线性模型-优化方法及推导过程_逻辑回归_50为增广特征向量,包含偏置)

则标签线性模型-优化方法及推导过程_损失函数_57的后验概率为:
线性模型-优化方法及推导过程_线性回归_58
结合上述两个公式,我们可以发现:
线性模型-优化方法及推导过程_逻辑回归_59
可以发现线性模型-优化方法及推导过程_线性回归_60的值等于样本正反例后验概率比值的对数,也就是对数几率。所以Logistic回归可以看作预测值为标签的对数几率的回归模型。

参数学习方法

Logistic回归解决分类问题,使用交叉熵作为损失函数,使用梯度下降更新参数。

对于给定的线性模型-优化方法及推导过程_损失函数_61个训练样本线性模型-优化方法及推导过程_线性回归_62,用线性模型-优化方法及推导过程_损失函数_44回归模型对每个样本进行预测,输出其标签为线性模型-优化方法及推导过程_逻辑回归_64的后验概率,记作线性模型-优化方法及推导过程_损失函数_65

由于线性模型-优化方法及推导过程_样本集_66,样本线性模型-优化方法及推导过程_样本集_67的真实条件概率可以表示为:
线性模型-优化方法及推导过程_样本集_68
构造损失函数(交叉熵):
线性模型-优化方法及推导过程_人工智能_69
应用经验风险最小化原则,线性模型-优化方法及推导过程_逻辑回归_27关于参数线性模型-优化方法及推导过程_线性回归_28的偏导数为:
线性模型-优化方法及推导过程_样本集_72
采用梯度下降法,线性模型-优化方法及推导过程_损失函数_44回归的训练过程为:初始化线性模型-优化方法及推导过程_逻辑回归_74,然后通过下式来迭代更新参数:
线性模型-优化方法及推导过程_逻辑回归_75
其中线性模型-优化方法及推导过程_线性回归_76是学习率,线性模型-优化方法及推导过程_线性回归_77是当参数为线性模型-优化方法及推导过程_逻辑回归_78时,Logistic回归模型的输出。

3.Softmax回归

Softmax回归可以看作多分类的Logistic回归。

Softmax函数:
线性模型-优化方法及推导过程_逻辑回归_79
线性模型-优化方法及推导过程_线性回归_17的偏导数为:
线性模型-优化方法及推导过程_损失函数_81

对于多分类问题线性模型-优化方法及推导过程_线性回归_82可以有线性模型-优化方法及推导过程_损失函数_83个取值,给定一个样本线性模型-优化方法及推导过程_逻辑回归_50,Softmax回归预测的属于类别线性模型-优化方法及推导过程_人工智能_85的条件概率为:
线性模型-优化方法及推导过程_逻辑回归_86
在Softmax回归中,模型的输出为一个线性模型-优化方法及推导过程_损失函数_83维的向量,分别表示对属于每个类别的概率的预测值。因此决策函数可以写作:
线性模型-优化方法及推导过程_逻辑回归_88

参数学习方法

Softmax回归同样使用交叉熵作为损失函数,用梯度下降来优化参数。

线性模型-优化方法及推导过程_损失函数_83维​​​one-hot​​​向量线性模型-优化方法及推导过程_线性回归_90来表示类别标签,对于类别线性模型-优化方法及推导过程_人工智能_85,其类别标签向量为:
线性模型-优化方法及推导过程_人工智能_92
根据定义构造风险函数:
线性模型-优化方法及推导过程_逻辑回归_93
风险函数线性模型-优化方法及推导过程_逻辑回归_27关于线性模型-优化方法及推导过程_线性回归_28的梯度:
线性模型-优化方法及推导过程_逻辑回归_96
求解过程:

根据上文Softmax导数的结果,将其改写为向量式:
线性模型-优化方法及推导过程_线性回归_97
若上式线性模型-优化方法及推导过程_人工智能_98,则线性模型-优化方法及推导过程_损失函数_99为第线性模型-优化方法及推导过程_人工智能_85列为线性模型-优化方法及推导过程_逻辑回归_50,其余为线性模型-优化方法及推导过程_人工智能_32的矩阵,即:
线性模型-优化方法及推导过程_损失函数_103
线性模型-优化方法及推导过程_损失函数_104,那么根据链式求导法则:线性模型-优化方法及推导过程_样本集_105关于线性模型-优化方法及推导过程_人工智能_106的导数为:
线性模型-优化方法及推导过程_损失函数_107

故:
线性模型-优化方法及推导过程_线性回归_108
采用梯度下降法,则训练过程为:初始化线性模型-优化方法及推导过程_逻辑回归_74,迭代更新:
线性模型-优化方法及推导过程_样本集_110
线性模型-优化方法及推导过程_线性回归_76为学习率。

4.感知机

感知机是一种基于错误驱动在线学习的简单二分类线性模型。
线性模型-优化方法及推导过程_逻辑回归_112
给定线性模型-优化方法及推导过程_损失函数_61个样本的训练集:线性模型-优化方法及推导过程_线性回归_62,其中线性模型-优化方法及推导过程_人工智能_115,感知机尝试找到一组参数线性模型-优化方法及推导过程_线性回归_116,使得对于每个样本线性模型-优化方法及推导过程_样本集_67有:
线性模型-优化方法及推导过程_逻辑回归_118

参数学习方法

感知机的参数学习方法是直接定义的:初始化权重向量线性模型-优化方法及推导过程_人工智能_119,每分错一个样本线性模型-优化方法及推导过程_样本集_120时,就用这个样本来更新权重:
线性模型-优化方法及推导过程_样本集_121
根据以上定义反推感知机的损失函数:
线性模型-优化方法及推导过程_逻辑回归_122
采用随机梯度下降更新参数,每次更新的梯度为:
线性模型-优化方法及推导过程_样本集_123

5.支持向量机

支持向量机(Support Vector Machine, SVM)是一个经典的二分类算法,其找到的分割超平面具有更好的鲁棒性,因此广泛应用在很多任务上,并表现出很强优势。

给定一个二分类器数据集线性模型-优化方法及推导过程_线性回归_124,其中线性模型-优化方法及推导过程_人工智能_125,如果两类样本是线性可分的,即存在一个超平面:
线性模型-优化方法及推导过程_样本集_126
将两类样本分开,那么对于每个样本都有线性模型-优化方法及推导过程_损失函数_127

数据集线性模型-优化方法及推导过程_逻辑回归_128中每个样本线性模型-优化方法及推导过程_线性回归_129到分割超平面的距离为:
线性模型-优化方法及推导过程_损失函数_130
我们定义间隔线性模型-优化方法及推导过程_样本集_131为整个数据集线性模型-优化方法及推导过程_逻辑回归_128中所有样本到分割超平面的最短距离:
线性模型-优化方法及推导过程_损失函数_133
如果间隔线性模型-优化方法及推导过程_样本集_131越大,其分割超平面对两个数据集的划分越稳定,不容易受到噪声等因素的干扰。支持向量机的目标是寻找一个超平面线性模型-优化方法及推导过程_损失函数_135使得线性模型-优化方法及推导过程_样本集_131最大,即下列约束问题:
线性模型-优化方法及推导过程_人工智能_137
由于同时对线性模型-优化方法及推导过程_人工智能_138缩放不会改变样本线性模型-优化方法及推导过程_线性回归_129到分割超平面的距离,我们可以限制线性模型-优化方法及推导过程_损失函数_140,则公式等价于:
线性模型-优化方法及推导过程_损失函数_141
数据集中所有满足线性模型-优化方法及推导过程_样本集_142的样本点,都称为支持向量。

参数学习方法

将支持向量积的公式改写为凸优化形式:
线性模型-优化方法及推导过程_样本集_143
使用拉格朗日乘数法,构造拉格朗日函数:
线性模型-优化方法及推导过程_损失函数_144
计算线性模型-优化方法及推导过程_损失函数_145关于线性模型-优化方法及推导过程_逻辑回归_146的导数:
线性模型-优化方法及推导过程_损失函数_147

线性模型-优化方法及推导过程_损失函数_148

线性模型-优化方法及推导过程_损失函数_145关于线性模型-优化方法及推导过程_逻辑回归_146的导数等于线性模型-优化方法及推导过程_人工智能_32,可得:
线性模型-优化方法及推导过程_人工智能_152
结合拉格朗日函数及上式:原问题等价于:
线性模型-优化方法及推导过程_逻辑回归_153
构造拉格朗日对偶函数:
线性模型-优化方法及推导过程_人工智能_154
根据线性模型-优化方法及推导过程_损失函数_155条件中的互补松弛条件,最优解满足:
线性模型-优化方法及推导过程_逻辑回归_156
如果样本线性模型-优化方法及推导过程_线性回归_129不在约束边界上线性模型-优化方法及推导过程_逻辑回归_158,约束失效;如果在约束边界上,样本点即支持向量,即距离决策平面最近的点。

只要得到线性模型-优化方法及推导过程_样本集_159即可通过得到线性模型-优化方法及推导过程_线性回归_160,则最优参数的支持向量机决策函数为:
线性模型-优化方法及推导过程_样本集_161