线性模型-优化方法及推导过程

原创

wx58438afac3cd5 2022-12-24 00:31:30 博主文章分类：机器学习ML ©著作权

文章标签 人工智能逻辑回归线性回归损失函数样本集 文章分类 云平台云计算

©著作权归作者所有：来自51CTO博客作者wx58438afac3cd5的原创作品，请联系作者获取转载授权，否则将追究法律责任

本文包含大量不严谨的公式写法，只是推式子时候打草记录一下…

线性模型(Linear Model)是机器学习中应用最广泛的模型，指通过样本特征的线性组合来进行预测的模型。给定一个 $线性模型-优化方法及推导过程_人工智能$ 维的样本特征的线性组合来进行预测的模型，给定一个 $线性模型-优化方法及推导过程_人工智能$ 维样本 $线性模型-优化方法及推导过程_样本集_03$ ，其线性组合函数为：
$线性模型-优化方法及推导过程_样本集_04$
其中 $线性模型-优化方法及推导过程_线性回归_05$ 为 $线性模型-优化方法及推导过程_人工智能$ 维的权重向量， $线性模型-优化方法及推导过程_样本集_07$ 为偏置。上式子可以用于用于线性回归模型： $线性模型-优化方法及推导过程_人工智能_08$ ，其输出为连续值，因此适用于回归预测任务。但是在分类任务中，由于输出目标是离散标签，无法直接进行预测，此时一般引入一个非线性的决策函数 $线性模型-优化方法及推导过程_逻辑回归_09$ 来预测输出目标：
$线性模型-优化方法及推导过程_样本集_10$
$线性模型-优化方法及推导过程_损失函数_11$ 又称为判别函数。

如果 $线性模型-优化方法及推导过程_逻辑回归_09$ 的作用是将 $线性模型-优化方法及推导过程_样本集_13$ 函数值挤压/映射到某一值域内，那么 $线性模型-优化方法及推导过程_逻辑回归_09$ 称为激活函数。

1.线性回归

这个属于很基础的模型了，它的任务很简单，就是预测连续的标签。

对于给定的样本 $线性模型-优化方法及推导过程_损失函数_15$ ，我们可以用 $线性模型-优化方法及推导过程_人工智能_16$ 个 $线性模型-优化方法及推导过程_线性回归_17$ 表示其特征，那么可以将原始样本映射称为一个 $线性模型-优化方法及推导过程_人工智能_16$ 元的特征向量 $线性模型-优化方法及推导过程_样本集_19$ 。因此，我们可以将线性回归模型的初始模型表示为如下的线性组合形式：
$线性模型-优化方法及推导过程_样本集_20$
其中， $线性模型-优化方法及推导过程_逻辑回归_21$ 为参数向量。

参数学习方法

定义损失函数为平方误差损失函数：
$线性模型-优化方法及推导过程_损失函数_22$
令训练样本集的特征矩阵为 $线性模型-优化方法及推导过程_人工智能_23$ 。相应的训练样本标签值为 $线性模型-优化方法及推导过程_样本集_24$ ，可将上述损失函数转化为：
$线性模型-优化方法及推导过程_线性回归_25$
因此，线性回归模型的构造就转化为如下最优化问题：
$线性模型-优化方法及推导过程_逻辑回归_26$
$线性模型-优化方法及推导过程_逻辑回归_27$ 对参数向量 $线性模型-优化方法及推导过程_线性回归_28$ 各分量求偏导数：
$线性模型-优化方法及推导过程_损失函数_29$
根据多元函数求极值的方式，我们令 $线性模型-优化方法及推导过程_逻辑回归_27$ 对参数向量 $线性模型-优化方法及推导过程_线性回归_28$ 各分量的偏导数为 $线性模型-优化方法及推导过程_人工智能_32$ ，即：
$线性模型-优化方法及推导过程_线性回归_33$
展开，移项，可得:
$线性模型-优化方法及推导过程_人工智能_34$
这便是直接利用最小二乘法求解线性回归模型的式子。可以发现里面涉及到了矩阵求逆的操作，这使得最小二乘法自带了明显的限制性：要求 $线性模型-优化方法及推导过程_损失函数_35$ 的行向量之间线性无关，即不同样本的属性标记值之间不能存在线性相关性。

但实际应用中大多数样本中都存在这个问题，所以常用另一种方法来优化参数：梯度下降法。

梯度下降算法可以用于求解多元函数极值问题，具体来说，对于函数 $线性模型-优化方法及推导过程_线性回归_36$ ，设其在某点的梯度为 $线性模型-优化方法及推导过程_样本集_37$ ，为一矢量，则 $线性模型-优化方法及推导过程_线性回归_36$ 方向导数沿该方向取得最大值，即 $线性模型-优化方法及推导过程_线性回归_36$ 沿该方向变化最快(增大)。那么在该点沿梯度负方向减小最快。我们可以从该点沿梯度方向下降一小段(即为 $线性模型-优化方法及推导过程_样本集_40$ ，实际上我们称之为步长/学习率)，到达下一个点，再沿新店的梯度反方向继续下降，如此往复求得函数极值：
$线性模型-优化方法及推导过程_人工智能_41$
以上便是线性回归常用的参数学习方法。

2.Logistic回归

Logistic回归用于解决二分类问题，而不是回归问题。

回到线性分类模型：
$线性模型-优化方法及推导过程_样本集_10$
$线性模型-优化方法及推导过程_逻辑回归_09$ 函数在此处的作用是激活函数，用于对函数值进行映射。在 $线性模型-优化方法及推导过程_损失函数_44$ 回归中，使用 $线性模型-优化方法及推导过程_线性回归_45$ 函数作为激活函数：
$线性模型-优化方法及推导过程_线性回归_46$
该函数的图像为：

线性模型-优化方法及推导过程_逻辑回归_47

可以发现 $线性模型-优化方法及推导过程_线性回归_48$ 将原函数值域映射到了 $线性模型-优化方法及推导过程_损失函数_49$ 之间。

其对 $线性模型-优化方法及推导过程_逻辑回归_50$ 的导数为：
$线性模型-优化方法及推导过程_逻辑回归_51$
在二分类问题中，我们假设标签取 $线性模型-优化方法及推导过程_损失函数_52$ ，则标签 $线性模型-优化方法及推导过程_样本集_53$ 的后验概率为：
$线性模型-优化方法及推导过程_人工智能_54$
( $线性模型-优化方法及推导过程_线性回归_28$ 为增广权值向量， $线性模型-优化方法及推导过程_逻辑回归_50$ 为增广特征向量，包含偏置)

则标签 $线性模型-优化方法及推导过程_损失函数_57$ 的后验概率为：
$线性模型-优化方法及推导过程_线性回归_58$
结合上述两个公式，我们可以发现：
$线性模型-优化方法及推导过程_逻辑回归_59$
可以发现 $线性模型-优化方法及推导过程_线性回归_60$ 的值等于样本正反例后验概率比值的对数，也就是对数几率。所以Logistic回归可以看作预测值为标签的对数几率的回归模型。

参数学习方法

Logistic回归解决分类问题，使用交叉熵作为损失函数，使用梯度下降更新参数。

对于给定的 $线性模型-优化方法及推导过程_损失函数_61$ 个训练样本 $线性模型-优化方法及推导过程_线性回归_62$ ，用 $线性模型-优化方法及推导过程_损失函数_44$ 回归模型对每个样本进行预测，输出其标签为 $线性模型-优化方法及推导过程_逻辑回归_64$ 的后验概率，记作 $线性模型-优化方法及推导过程_损失函数_65$ ：

由于 $线性模型-优化方法及推导过程_样本集_66$ ，样本 $线性模型-优化方法及推导过程_样本集_67$ 的真实条件概率可以表示为：
$线性模型-优化方法及推导过程_样本集_68$
构造损失函数(交叉熵)：
$线性模型-优化方法及推导过程_人工智能_69$
应用经验风险最小化原则， $线性模型-优化方法及推导过程_逻辑回归_27$ 关于参数 $线性模型-优化方法及推导过程_线性回归_28$ 的偏导数为：
$线性模型-优化方法及推导过程_样本集_72$
采用梯度下降法， $线性模型-优化方法及推导过程_损失函数_44$ 回归的训练过程为：初始化 $线性模型-优化方法及推导过程_逻辑回归_74$ ，然后通过下式来迭代更新参数：
$线性模型-优化方法及推导过程_逻辑回归_75$
其中 $线性模型-优化方法及推导过程_线性回归_76$ 是学习率， $线性模型-优化方法及推导过程_线性回归_77$ 是当参数为 $线性模型-优化方法及推导过程_逻辑回归_78$ 时，Logistic回归模型的输出。

3.Softmax回归

Softmax回归可以看作多分类的Logistic回归。

Softmax函数：
$线性模型-优化方法及推导过程_逻辑回归_79$
对 $线性模型-优化方法及推导过程_线性回归_17$ 的偏导数为：
$线性模型-优化方法及推导过程_损失函数_81$

对于多分类问题 $线性模型-优化方法及推导过程_线性回归_82$ 可以有 $线性模型-优化方法及推导过程_损失函数_83$ 个取值，给定一个样本 $线性模型-优化方法及推导过程_逻辑回归_50$ ，Softmax回归预测的属于类别 $线性模型-优化方法及推导过程_人工智能_85$ 的条件概率为：
$线性模型-优化方法及推导过程_逻辑回归_86$
在Softmax回归中，模型的输出为一个 $线性模型-优化方法及推导过程_损失函数_83$ 维的向量，分别表示对属于每个类别的概率的预测值。因此决策函数可以写作：
$线性模型-优化方法及推导过程_逻辑回归_88$

参数学习方法

Softmax回归同样使用交叉熵作为损失函数，用梯度下降来优化参数。

用 $线性模型-优化方法及推导过程_损失函数_83$ 维one-hot向量 $线性模型-优化方法及推导过程_线性回归_90$ 来表示类别标签，对于类别 $线性模型-优化方法及推导过程_人工智能_85$ ，其类别标签向量为：
$线性模型-优化方法及推导过程_人工智能_92$
根据定义构造风险函数：
$线性模型-优化方法及推导过程_逻辑回归_93$
风险函数 $线性模型-优化方法及推导过程_逻辑回归_27$ 关于 $线性模型-优化方法及推导过程_线性回归_28$ 的梯度：
$线性模型-优化方法及推导过程_逻辑回归_96$
求解过程：

根据上文Softmax导数的结果，将其改写为向量式：
$线性模型-优化方法及推导过程_线性回归_97$
若上式 $线性模型-优化方法及推导过程_人工智能_98$ ，则 $线性模型-优化方法及推导过程_损失函数_99$ 为第 $线性模型-优化方法及推导过程_人工智能_85$ 列为 $线性模型-优化方法及推导过程_逻辑回归_50$ ，其余为 $线性模型-优化方法及推导过程_人工智能_32$ 的矩阵，即：
$线性模型-优化方法及推导过程_损失函数_103$
令 $线性模型-优化方法及推导过程_损失函数_104$ ，那么根据链式求导法则： $线性模型-优化方法及推导过程_样本集_105$ 关于 $线性模型-优化方法及推导过程_人工智能_106$ 的导数为：
$线性模型-优化方法及推导过程_损失函数_107$

故:
$线性模型-优化方法及推导过程_线性回归_108$
采用梯度下降法，则训练过程为：初始化 $线性模型-优化方法及推导过程_逻辑回归_74$ ，迭代更新：
$线性模型-优化方法及推导过程_样本集_110$
$线性模型-优化方法及推导过程_线性回归_76$ 为学习率。

4.感知机

感知机是一种基于错误驱动在线学习的简单二分类线性模型。
$线性模型-优化方法及推导过程_逻辑回归_112$
给定 $线性模型-优化方法及推导过程_损失函数_61$ 个样本的训练集： $线性模型-优化方法及推导过程_线性回归_62$ ，其中 $线性模型-优化方法及推导过程_人工智能_115$ ，感知机尝试找到一组参数 $线性模型-优化方法及推导过程_线性回归_116$ ，使得对于每个样本 $线性模型-优化方法及推导过程_样本集_67$ 有：
$线性模型-优化方法及推导过程_逻辑回归_118$

参数学习方法

感知机的参数学习方法是直接定义的：初始化权重向量 $线性模型-优化方法及推导过程_人工智能_119$ ，每分错一个样本 $线性模型-优化方法及推导过程_样本集_120$ 时，就用这个样本来更新权重：
$线性模型-优化方法及推导过程_样本集_121$
根据以上定义反推感知机的损失函数：
$线性模型-优化方法及推导过程_逻辑回归_122$
采用随机梯度下降更新参数，每次更新的梯度为：
$线性模型-优化方法及推导过程_样本集_123$

5.支持向量机

支持向量机(Support Vector Machine, SVM)是一个经典的二分类算法，其找到的分割超平面具有更好的鲁棒性，因此广泛应用在很多任务上，并表现出很强优势。

给定一个二分类器数据集 $线性模型-优化方法及推导过程_线性回归_124$ ，其中 $线性模型-优化方法及推导过程_人工智能_125$ ，如果两类样本是线性可分的，即存在一个超平面：
$线性模型-优化方法及推导过程_样本集_126$
将两类样本分开，那么对于每个样本都有 $线性模型-优化方法及推导过程_损失函数_127$ 。

数据集 $线性模型-优化方法及推导过程_逻辑回归_128$ 中每个样本 $线性模型-优化方法及推导过程_线性回归_129$ 到分割超平面的距离为：
$线性模型-优化方法及推导过程_损失函数_130$
我们定义间隔 $线性模型-优化方法及推导过程_样本集_131$ 为整个数据集 $线性模型-优化方法及推导过程_逻辑回归_128$ 中所有样本到分割超平面的最短距离：
$线性模型-优化方法及推导过程_损失函数_133$
如果间隔 $线性模型-优化方法及推导过程_样本集_131$ 越大，其分割超平面对两个数据集的划分越稳定，不容易受到噪声等因素的干扰。支持向量机的目标是寻找一个超平面 $线性模型-优化方法及推导过程_损失函数_135$ 使得 $线性模型-优化方法及推导过程_样本集_131$ 最大，即下列约束问题：
$线性模型-优化方法及推导过程_人工智能_137$
由于同时对 $线性模型-优化方法及推导过程_人工智能_138$ 缩放不会改变样本 $线性模型-优化方法及推导过程_线性回归_129$ 到分割超平面的距离，我们可以限制 $线性模型-优化方法及推导过程_损失函数_140$ ，则公式等价于：
$线性模型-优化方法及推导过程_损失函数_141$
数据集中所有满足 $线性模型-优化方法及推导过程_样本集_142$ 的样本点，都称为支持向量。

参数学习方法

将支持向量积的公式改写为凸优化形式：
$线性模型-优化方法及推导过程_样本集_143$
使用拉格朗日乘数法，构造拉格朗日函数：
$线性模型-优化方法及推导过程_损失函数_144$
计算 $线性模型-优化方法及推导过程_损失函数_145$ 关于 $线性模型-优化方法及推导过程_逻辑回归_146$ 的导数：
$线性模型-优化方法及推导过程_损失函数_147$

$线性模型-优化方法及推导过程_损失函数_148$

令 $线性模型-优化方法及推导过程_损失函数_145$ 关于 $线性模型-优化方法及推导过程_逻辑回归_146$ 的导数等于 $线性模型-优化方法及推导过程_人工智能_32$ ，可得：
$线性模型-优化方法及推导过程_人工智能_152$
结合拉格朗日函数及上式：原问题等价于：
$线性模型-优化方法及推导过程_逻辑回归_153$
构造拉格朗日对偶函数：
$线性模型-优化方法及推导过程_人工智能_154$
根据 $线性模型-优化方法及推导过程_损失函数_155$ 条件中的互补松弛条件，最优解满足：
$线性模型-优化方法及推导过程_逻辑回归_156$
如果样本 $线性模型-优化方法及推导过程_线性回归_129$ 不在约束边界上 $线性模型-优化方法及推导过程_逻辑回归_158$ ，约束失效；如果在约束边界上，样本点即支持向量，即距离决策平面最近的点。