目录
- 3.1 一元线性回归
- 3.2 多元线性回归
- 3.3 对数几率回归
- 3.4 线性判别分析
3.1 一元线性回归
线性模型试图学得一个通过属性的线性组合来进行预测的函数,即 一般用向量形式写成 其中. 和
线性模型的优点:
形式简单,易于建模;
具有很好的可解释性;
3.2 多元线性回归
线性回归训练一个尽可能准确地预测输出的线性模型
确定的关键在于如何衡量与之间的差别,均方误差是最常用的性能度量(损失函数),即 基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到直线上的欧式距离之和最小。
求解使最小化的过程,称为线性回归模型的最小二乘 “参数估计”。
对 分别求导得到:
令(3.5)(3.6)为0可得最优的闭式解
其中,为的均值。
延伸而来,
类似的,可利用最小二乘法对进行估计。令,数据集表示为一个的矩阵:
再把标记写成向量形式,则有 令,对求导可得:
令上式为0即为最优解的闭式解。
做简单讨论:
当为满秩矩阵或者正定矩阵时,令(3.10)为0可得:
其中,是的逆矩阵,令,则最终学得的多元线性回归模型为:
但现实任务中,往往不是满秩矩阵(例如变量数超过样例数),此时可以解出多个,均满足均方误差最小化的要求,对于解的选择将由学习算法的归纳偏好决定,常见的做法是引入正则化项。
广义的线性模型:
其中称为“联系函数”,为1时就是最简单的一元线性模型,时就是对数线性回归。
3.3 对数几率回归
对于分类任务,只需找到一个单调可微函数将分类任务的真是标记与线性回归模型的预测值联系起来。
考虑二分类任务, 其输出标记,而线性回归模型产生的预测值 是实值,需将实值 转换为0/ 1 值. 最理想的是"单位阶跃函数"
但是单位阶跃函数不连续,不能直接用作,因此需要找到一个可以近似替代且单调可微函数–>对数几率函数: 代入线性模型可得: 整理可得: 若将视为样本作为正例的可能性,则则是反例可能性,两者的比值 称为“几率”,取对数则得到“对数几率” -->实际上式(3.18)是在用线性回归模型预测结果去逼近真实标记的对数几率。
虽然名字是回归,但其实这是一种分类学习方法,具有较多优点:
无需事先假设数据分布,直接对分类可能性建模;
得到近似概率预测,对需要利用概率辅助决策很有用;
对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解.
将视为类后验概率,则 显然有
-->可以通过极大似然估计来估计。 令,,则可简化为。再令,则(3.25)中的似然项可写为
将(3.26)代入(3.25),并根据(3.23)和(3.24)可知,最大化(3.25)等价于最小化 式(3.27)是关于 的高阶可导连续凸函数,根据凸优化理论,经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解,于是就得到
3.4 线性判别分析
思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点位置来确定新的样本的类别。
给定数据集, 令分别表示第 类示例的集合、均值向量、协方差矩阵.若将数据投影到直线上,则两类样本的中心在直线上的投影分别为和; 若将所有样本点都投影到直线上,则两类样本的协方差分别为 和。由于直线是一维空间,因此投影和协方差均为实数。
同类样例投影点尽可能接近:协方差尽可能小;
异类样例投影点尽可能远离:类中心之间的距离尽可能大;即尽可能大。
两者结合,则可得到欲最大化的目标
定义"类内散度矩阵":
以及“类间散度矩阵”:
则(3.32)可重写为
由于(3.35)分子分母都是关于的二次项,所以解与的长度无关,只与其方向有关。令,则(3.35)等价于 由拉格朗日乘子法,上式等价于 其中是拉格朗日乘子。注意到的方向恒为,不妨令 代入(3.37)可得 LDA可从贝叶斯决策理论的角度来阐释,并可证明当类数据同先验、满足高斯分布且协方差相等时,LDA可达到最有分类。
其中,表示矩阵的迹。(3.44)可以通过如下广义特征值问题求解: W的闭式解是的N-1个最大广义特征值所对应的特征向量组成的举证。
若将W 视为一个投影矩阵,则多分类LDA 将样本投影到N-1 维空间,N-1 通常远小子数据原有的属性数.于是,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。