【机器学习笔记】第三章：线性模型

原创

浪里摸鱼 2023-03-09 06:42:20 博主文章分类：机器学习 ©著作权

文章标签 python 机器学习深度学习西瓜书线性回归 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者浪里摸鱼的原创作品，请联系作者获取转载授权，否则将追究法律责任

3.1 一元线性回归

线性模型试图学得一个通过属性的线性组合来进行预测的函数，即 $【机器学习笔记】第三章：线性模型_机器学习$ 一般用向量形式写成 $【机器学习笔记】第三章：线性模型_线性回归_02$ 其中 $【机器学习笔记】第三章：线性模型_西瓜书_03$ . $【机器学习笔记】第三章：线性模型_python_04$ 和 $【机器学习笔记】第三章：线性模型_西瓜书_05$

线性模型的优点：
形式简单，易于建模；
具有很好的可解释性；
$【机器学习笔记】第三章：线性模型_python_04$

3.2 多元线性回归

线性回归训练一个尽可能准确地预测输出的线性模型
确定 $【机器学习笔记】第三章：线性模型_西瓜书_07$ 的关键在于如何衡量 $【机器学习笔记】第三章：线性模型_机器学习_08$ 与 $【机器学习笔记】第三章：线性模型_深度学习_09$ 之间的差别，均方误差是最常用的性能度量（损失函数），即 $【机器学习笔记】第三章：线性模型_python_10$ 基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中，最小二乘法就是试图找到一条直线，使得所有样本到直线上的欧式距离之和最小。
求解 $【机器学习笔记】第三章：线性模型_西瓜书_07$ 使 $【机器学习笔记】第三章：线性模型_机器学习_12$ 最小化的过程，称为线性回归模型的最小二乘 “参数估计”。
$【机器学习笔记】第三章：线性模型_深度学习_13$ 对 $【机器学习笔记】第三章：线性模型_西瓜书_07$ 分别求导得到：
$【机器学习笔记】第三章：线性模型_深度学习_15$

$【机器学习笔记】第三章：线性模型_线性回归_16$

令（3.5）（3.6）为0可得 $【机器学习笔记】第三章：线性模型_西瓜书_07$ 最优的闭式解
$【机器学习笔记】第三章：线性模型_西瓜书_18$

$【机器学习笔记】第三章：线性模型_python_19$
其中， $【机器学习笔记】第三章：线性模型_python_20$ 为 $【机器学习笔记】第三章：线性模型_深度学习_21$ 的均值。
延伸而来， $【机器学习笔记】第三章：线性模型_机器学习_22$

类似的，可利用最小二乘法对 $【机器学习笔记】第三章：线性模型_线性回归_23$ 进行估计。令 $【机器学习笔记】第三章：线性模型_python_24$ ，数据集 $【机器学习笔记】第三章：线性模型_机器学习_25$ 表示为一个 $【机器学习笔记】第三章：线性模型_线性回归_26$ 的矩阵 $【机器学习笔记】第三章：线性模型_深度学习_27$ ：

$【机器学习笔记】第三章：线性模型_西瓜书_28$

再把标记写成向量形式 $【机器学习笔记】第三章：线性模型_python_29$ ，则有 $【机器学习笔记】第三章：线性模型_深度学习_30$ 令 $【机器学习笔记】第三章：线性模型_线性回归_31$ ，对 $【机器学习笔记】第三章：线性模型_python_32$ 求导可得： $【机器学习笔记】第三章：线性模型_python_33$
令上式为0即为 $【机器学习笔记】第三章：线性模型_python_34$ 最优解的闭式解。

做简单讨论：
当 $【机器学习笔记】第三章：线性模型_深度学习_35$ 为满秩矩阵或者正定矩阵时，令（3.10）为0可得：

$【机器学习笔记】第三章：线性模型_西瓜书_36$
其中， $【机器学习笔记】第三章：线性模型_python_37$ 是 $【机器学习笔记】第三章：线性模型_线性回归_38$ 的逆矩阵，令 $【机器学习笔记】第三章：线性模型_线性回归_39$ ，则最终学得的多元线性回归模型为： $【机器学习笔记】第三章：线性模型_python_40$
但现实任务中， $【机器学习笔记】第三章：线性模型_python_41$ 往往不是满秩矩阵（例如变量数超过样例数），此时可以解出多个 $【机器学习笔记】第三章：线性模型_python_34$ ，均满足均方误差最小化的要求，对于解的选择将由学习算法的归纳偏好决定，常见的做法是引入正则化项。
广义的线性模型： $【机器学习笔记】第三章：线性模型_python_43$
其中 $【机器学习笔记】第三章：线性模型_线性回归_44$ 称为“联系函数”，为1时就是最简单的一元线性模型， $【机器学习笔记】第三章：线性模型_线性回归_45$ 时就是对数线性回归。

3.3 对数几率回归

对于分类任务，只需找到一个单调可微函数将分类任务的真是标记 $【机器学习笔记】第三章：线性模型_深度学习_09$ 与线性回归模型的预测值联系起来。

考虑二分类任务，其输出标记 $【机器学习笔记】第三章：线性模型_线性回归_47$ ，而线性回归模型产生的预测值 $【机器学习笔记】第三章：线性模型_线性回归_48$ 是实值，需将实值 $【机器学习笔记】第三章：线性模型_西瓜书_49$ 转换为0/ 1 值. 最理想的是"单位阶跃函数" $【机器学习笔记】第三章：线性模型_线性回归_50$

但是单位阶跃函数不连续，不能直接用作 $【机器学习笔记】第三章：线性模型_机器学习_51$ ，因此需要找到一个可以近似替代且单调可微函数–>对数几率函数： $【机器学习笔记】第三章：线性模型_西瓜书_52$ 代入线性模型可得： $【机器学习笔记】第三章：线性模型_机器学习_53$ 整理可得： $【机器学习笔记】第三章：线性模型_机器学习_54$ 若将 $【机器学习笔记】第三章：线性模型_深度学习_09$ 视为样本 $【机器学习笔记】第三章：线性模型_深度学习_56$ 作为正例的可能性，则 $【机器学习笔记】第三章：线性模型_西瓜书_57$ 则是反例可能性，两者的比值 $【机器学习笔记】第三章：线性模型_深度学习_58$ 称为“几率”，取对数则得到“对数几率” $【机器学习笔记】第三章：线性模型_机器学习_59$ -->实际上式（3.18）是在用线性回归模型预测结果去逼近真实标记的对数几率。

虽然名字是回归，但其实这是一种分类学习方法，具有较多优点：

无需事先假设数据分布，直接对分类可能性建模；
得到近似概率预测，对需要利用概率辅助决策很有用；
对率函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解.
将 $【机器学习笔记】第三章：线性模型_深度学习_09$ 视为类后验概率 $【机器学习笔记】第三章：线性模型_深度学习_61$ ，则 $【机器学习笔记】第三章：线性模型_西瓜书_62$ 显然有 $【机器学习笔记】第三章：线性模型_深度学习_63$

$【机器学习笔记】第三章：线性模型_深度学习_64$

-->可以通过极大似然估计来估计 $【机器学习笔记】第三章：线性模型_线性回归_65$ 。 $【机器学习笔记】第三章：线性模型_python_66$ 令 $【机器学习笔记】第三章：线性模型_西瓜书_67$ ， $【机器学习笔记】第三章：线性模型_线性回归_68$ ，则 $【机器学习笔记】第三章：线性模型_西瓜书_69$ 可简化为 $【机器学习笔记】第三章：线性模型_线性回归_70$ 。再令 $【机器学习笔记】第三章：线性模型_深度学习_71$ ，则（3.25）中的似然项可写为 $【机器学习笔记】第三章：线性模型_机器学习_72$

将（3.26）代入（3.25），并根据（3.23）和（3.24）可知，最大化（3.25）等价于最小化 $【机器学习笔记】第三章：线性模型_线性回归_73$ 式(3.27)是关于 $【机器学习笔记】第三章：线性模型_西瓜书_74$ 的高阶可导连续凸函数，根据凸优化理论，经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解，于是就得到 $【机器学习笔记】第三章：线性模型_python_75$

3.4 线性判别分析

思想：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的直线上，再根据投影点位置来确定新的样本的类别。

给定数据集 $【机器学习笔记】第三章：线性模型_深度学习_76$ ，令 $【机器学习笔记】第三章：线性模型_python_77$ 分别表示第 $【机器学习笔记】第三章：线性模型_线性回归_78$ 类示例的集合、均值向量、协方差矩阵.若将数据投影到直线 $【机器学习笔记】第三章：线性模型_python_79$ 上，则两类样本的中心在直线上的投影分别为 $【机器学习笔记】第三章：线性模型_西瓜书_80$ 和 $【机器学习笔记】第三章：线性模型_线性回归_81$ ; 若将所有样本点都投影到直线上，则两类样本的协方差分别为 $【机器学习笔记】第三章：线性模型_机器学习_82$ 和 $【机器学习笔记】第三章：线性模型_深度学习_83$ 。由于直线是一维空间，因此投影和协方差均为实数。

同类样例投影点尽可能接近：协方差尽可能小；

异类样例投影点尽可能远离：类中心之间的距离尽可能大；即 $【机器学习笔记】第三章：线性模型_python_84$ 尽可能大。

两者结合，则可得到欲最大化的目标 $【机器学习笔记】第三章：线性模型_python_85$

定义"类内散度矩阵"： $【机器学习笔记】第三章：线性模型_深度学习_86$

以及“类间散度矩阵”： $【机器学习笔记】第三章：线性模型_线性回归_87$

则（3.32）可重写为 $【机器学习笔记】第三章：线性模型_机器学习_88$

由于（3.35）分子分母都是关于 $【机器学习笔记】第三章：线性模型_python_79$ 的二次项，所以解与 $【机器学习笔记】第三章：线性模型_python_79$ 的长度无关，只与其方向有关。令 $【机器学习笔记】第三章：线性模型_线性回归_91$ ，则（3.35）等价于 $【机器学习笔记】第三章：线性模型_西瓜书_92$ 由拉格朗日乘子法，上式等价于 $【机器学习笔记】第三章：线性模型_python_93$ 其中 $【机器学习笔记】第三章：线性模型_线性回归_94$ 是拉格朗日乘子。注意到 $【机器学习笔记】第三章：线性模型_深度学习_95$ 的方向恒为 $【机器学习笔记】第三章：线性模型_机器学习_96$ ，不妨令 $【机器学习笔记】第三章：线性模型_深度学习_97$ 代入（3.37）可得 $【机器学习笔记】第三章：线性模型_python_98$ LDA可从贝叶斯决策理论的角度来阐释，并可证明当类数据同先验、满足高斯分布且协方差相等时，LDA可达到最有分类。

$【机器学习笔记】第三章：线性模型_深度学习_99$ 其中， $【机器学习笔记】第三章：线性模型_西瓜书_100$ 表示矩阵的迹。（3.44）可以通过如下广义特征值问题求解： $【机器学习笔记】第三章：线性模型_线性回归_101$ W的闭式解是 $【机器学习笔记】第三章：线性模型_机器学习_102$ 的N-1个最大广义特征值所对应的特征向量组成的举证。