目录

  • ​​3.1 一元线性回归​​
  • ​​3.2 多元线性回归​​
  • ​​3.3 对数几率回归​​
  • ​​3.4 线性判别分析​​

3.1 一元线性回归

线性模型试图学得一个通过属性的线性组合来进行预测的函数,即 【机器学习笔记】第三章:线性模型_机器学习 一般用向量形式写成 【机器学习笔记】第三章:线性模型_线性回归_02 其中【机器学习笔记】第三章:线性模型_西瓜书_03. 【机器学习笔记】第三章:线性模型_python_04【机器学习笔记】第三章:线性模型_西瓜书_05

线性模型的优点:
形式简单,易于建模;
具有很好的可解释性;
【机器学习笔记】第三章:线性模型_python_04

3.2 多元线性回归

线性回归训练一个尽可能准确地预测输出的线性模型
​ 确定【机器学习笔记】第三章:线性模型_西瓜书_07的关键在于如何衡量【机器学习笔记】第三章:线性模型_机器学习_08【机器学习笔记】第三章:线性模型_深度学习_09之间的差别,均方误差是最常用的性能度量(损失函数),即 【机器学习笔记】第三章:线性模型_python_10​ 基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到直线上的欧式距离之和最小。
​ 求解【机器学习笔记】第三章:线性模型_西瓜书_07使【机器学习笔记】第三章:线性模型_机器学习_12最小化的过程,称为线性回归模型的最小二乘 “参数估计”
【机器学习笔记】第三章:线性模型_深度学习_13【机器学习笔记】第三章:线性模型_西瓜书_07 分别求导得到:
【机器学习笔记】第三章:线性模型_深度学习_15

【机器学习笔记】第三章:线性模型_线性回归_16

​ 令(3.5)(3.6)为0可得【机器学习笔记】第三章:线性模型_西瓜书_07最优的闭式解
【机器学习笔记】第三章:线性模型_西瓜书_18

【机器学习笔记】第三章:线性模型_python_19
其中,【机器学习笔记】第三章:线性模型_python_20【机器学习笔记】第三章:线性模型_深度学习_21的均值。
延伸而来, 【机器学习笔记】第三章:线性模型_机器学习_22

​类似的,可利用最小二乘法对【机器学习笔记】第三章:线性模型_线性回归_23进行估计。令【机器学习笔记】第三章:线性模型_python_24,数据集【机器学习笔记】第三章:线性模型_机器学习_25表示为一个【机器学习笔记】第三章:线性模型_线性回归_26的矩阵【机器学习笔记】第三章:线性模型_深度学习_27

【机器学习笔记】第三章:线性模型_西瓜书_28

再把标记写成向量形式【机器学习笔记】第三章:线性模型_python_29,则有 【机器学习笔记】第三章:线性模型_深度学习_30【机器学习笔记】第三章:线性模型_线性回归_31,对【机器学习笔记】第三章:线性模型_python_32求导可得: 【机器学习笔记】第三章:线性模型_python_33
令上式为0即为【机器学习笔记】第三章:线性模型_python_34最优解的闭式解。

做简单讨论:
​ 当【机器学习笔记】第三章:线性模型_深度学习_35为满秩矩阵或者正定矩阵时,令(3.10)为0可得:

【机器学习笔记】第三章:线性模型_西瓜书_36
其中,【机器学习笔记】第三章:线性模型_python_37【机器学习笔记】第三章:线性模型_线性回归_38的逆矩阵,令【机器学习笔记】第三章:线性模型_线性回归_39,则最终学得的多元线性回归模型为: 【机器学习笔记】第三章:线性模型_python_40
但现实任务中,【机器学习笔记】第三章:线性模型_python_41往往不是满秩矩阵(例如变量数超过样例数),此时可以解出多个【机器学习笔记】第三章:线性模型_python_34,均满足均方误差最小化的要求,对于解的选择将由学习算法的归纳偏好决定,常见的做法是引入正则化项。
​广义的线性模型: 【机器学习笔记】第三章:线性模型_python_43
其中【机器学习笔记】第三章:线性模型_线性回归_44称为“联系函数”,为1时就是最简单的一元线性模型,【机器学习笔记】第三章:线性模型_线性回归_45时就是对数线性回归。

3.3 对数几率回归

对于分类任务,只需找到一个单调可微函数将分类任务的真是标记【机器学习笔记】第三章:线性模型_深度学习_09与线性回归模型的预测值联系起来。

​ 考虑二分类任务, 其输出标记【机器学习笔记】第三章:线性模型_线性回归_47,而线性回归模型产生的预测值【机器学习笔记】第三章:线性模型_线性回归_48 是实值,需将实值【机器学习笔记】第三章:线性模型_西瓜书_49 转换为0/ 1 值. 最理想的是"单位阶跃函数" 【机器学习笔记】第三章:线性模型_线性回归_50

但是单位阶跃函数不连续,不能直接用作【机器学习笔记】第三章:线性模型_机器学习_51,因此需要找到一个可以近似替代且单调可微函数–>对数几率函数: 【机器学习笔记】第三章:线性模型_西瓜书_52​ 代入线性模型可得: 【机器学习笔记】第三章:线性模型_机器学习_53 整理可得: 【机器学习笔记】第三章:线性模型_机器学习_54​ 若将【机器学习笔记】第三章:线性模型_深度学习_09视为样本【机器学习笔记】第三章:线性模型_深度学习_56作为正例的可能性,则【机器学习笔记】第三章:线性模型_西瓜书_57则是反例可能性,两者的比值 【机器学习笔记】第三章:线性模型_深度学习_58 称为“几率”,取对数则得到“对数几率” 【机器学习笔记】第三章:线性模型_机器学习_59 -->实际上式(3.18)是在用线性回归模型预测结果去逼近真实标记的对数几率。

虽然名字是回归,但其实这是一种分类学习方法,具有较多优点:

无需事先假设数据分布,直接对分类可能性建模;
得到近似概率预测,对需要利用概率辅助决策很有用;
对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解.
​ 将【机器学习笔记】第三章:线性模型_深度学习_09视为类后验概率【机器学习笔记】第三章:线性模型_深度学习_61,则 【机器学习笔记】第三章:线性模型_西瓜书_62​ 显然有 【机器学习笔记】第三章:线性模型_深度学习_63

【机器学习笔记】第三章:线性模型_深度学习_64

​ -->可以通过极大似然估计来估计【机器学习笔记】第三章:线性模型_线性回归_65【机器学习笔记】第三章:线性模型_python_66​ 令【机器学习笔记】第三章:线性模型_西瓜书_67【机器学习笔记】第三章:线性模型_线性回归_68,则【机器学习笔记】第三章:线性模型_西瓜书_69可简化为【机器学习笔记】第三章:线性模型_线性回归_70。再令【机器学习笔记】第三章:线性模型_深度学习_71,则(3.25)中的似然项可写为 【机器学习笔记】第三章:线性模型_机器学习_72

​ 将(3.26)代入(3.25),并根据(3.23)和(3.24)可知,最大化(3.25)等价于最小化 【机器学习笔记】第三章:线性模型_线性回归_73​ 式(3.27)是关于【机器学习笔记】第三章:线性模型_西瓜书_74 的高阶可导连续凸函数,根据凸优化理论,经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解,于是就得到 【机器学习笔记】第三章:线性模型_python_75

3.4 线性判别分析

思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点位置来确定新的样本的类别。

​ 给定数据集【机器学习笔记】第三章:线性模型_深度学习_76, 令【机器学习笔记】第三章:线性模型_python_77分别表示第【机器学习笔记】第三章:线性模型_线性回归_78 类示例的集合、均值向量、协方差矩阵.若将数据投影到直线【机器学习笔记】第三章:线性模型_python_79上,则两类样本的中心在直线上的投影分别为【机器学习笔记】第三章:线性模型_西瓜书_80【机器学习笔记】第三章:线性模型_线性回归_81; 若将所有样本点都投影到直线上,则两类样本的协方差分别为【机器学习笔记】第三章:线性模型_机器学习_82【机器学习笔记】第三章:线性模型_深度学习_83由于直线是一维空间,因此投影和协方差均为实数

同类样例投影点尽可能接近:协方差尽可能小;

异类样例投影点尽可能远离:类中心之间的距离尽可能大;即【机器学习笔记】第三章:线性模型_python_84尽可能大。

​ 两者结合,则可得到欲最大化的目标 【机器学习笔记】第三章:线性模型_python_85

定义"类内散度矩阵": 【机器学习笔记】第三章:线性模型_深度学习_86

以及“类间散度矩阵”: 【机器学习笔记】第三章:线性模型_线性回归_87

则(3.32)可重写为 【机器学习笔记】第三章:线性模型_机器学习_88

​由于(3.35)分子分母都是关于【机器学习笔记】第三章:线性模型_python_79的二次项,所以解与【机器学习笔记】第三章:线性模型_python_79的长度无关,只与其方向有关。令【机器学习笔记】第三章:线性模型_线性回归_91,则(3.35)等价于 【机器学习笔记】第三章:线性模型_西瓜书_92 由拉格朗日乘子法,上式等价于 【机器学习笔记】第三章:线性模型_python_93 其中【机器学习笔记】第三章:线性模型_线性回归_94是拉格朗日乘子。注意到【机器学习笔记】第三章:线性模型_深度学习_95的方向恒为【机器学习笔记】第三章:线性模型_机器学习_96,不妨令 【机器学习笔记】第三章:线性模型_深度学习_97 代入(3.37)可得 【机器学习笔记】第三章:线性模型_python_98 LDA可从贝叶斯决策理论的角度来阐释,并可证明当类数据同先验、满足高斯分布且协方差相等时,LDA可达到最有分类。

【机器学习笔记】第三章:线性模型_深度学习_99​ 其中,【机器学习笔记】第三章:线性模型_西瓜书_100表示矩阵的迹。(3.44)可以通过如下广义特征值问题求解: 【机器学习笔记】第三章:线性模型_线性回归_101​ W的闭式解是【机器学习笔记】第三章:线性模型_机器学习_102的N-1个最大广义特征值所对应的特征向量组成的举证。

若将W 视为一个投影矩阵,则多分类LDA 将样本投影到N-1 维空间,N-1 通常远小子数据原有的属性数.于是,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术