1-1 线性建模
首先,通过一个实际的例子来考虑机器学习最直接的学习问题——线性建模:在属性与响应之间学习的线性关系。
其基本形式为:
一般用向量形式写成:
其中W=(w1;w2;w3;.....wd) ,W和b学得之后,模型就得以确定。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。许多功能更为强大的非线性模型(nonlinear model)可在线性模型的基础上通过引入层级结构或高维映射而得。
1-2 线性回归
给定数据集
,其中
“线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。形式化为:
使得
其结果越接近真实值,我们就说这个模型越好。但是如何确定W和b呢? 显然在于如何衡量f(x)与y之间的差别。这里可以使用平方损失(亦可称作均方误差)度量回归任务中的性能,并试图让平方损失误差最小化,即损失函数L(w,b)最小化:
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”(least square method)。在线性回归中,最小二乘法就是试图找到一条直线,是所有样本到直线的欧式距离之和最小。
求解W和b使L(w,b)最小化的过程称为线性回归模型的最小二乘“参数估计”(parameter estimation)。我们将L(w,b)分别对W和b求偏导,得到:
然后分别令上式结果分别等于0,求解W和b,结果即为最优解的闭式解。
推导过程:
由与令上两个偏导式子为0可以得到:
又
所以:
得到这些已知代入上式可得:
又
带入上式最终的证:
多元线性回归
推广到多元的情况,如在开头的数据集D,样本由d个属性描述,此时我们试图学得:
,使得
此时
同理,利用求导的方式来求解W的最优闭式解即:
令
,对W求导得到:
当
为满秩矩阵或正定矩阵时,令上式为0,最终解得
。令
,则最终学得的多元线性回归模型为:
。,然而,现实任务中的
往往不是满秩矩阵。例如在许多任务中我们会遇到大量的变量,其数目甚至超过样例数,导致X的列数多余行数,
显然不是满秩。此时可以解出多个W^,它们都能使均方误差最小化。选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的作法是引入正则化。
一个散点图拟合线性回归拟合例子:
所拟合的直线为最优直线,此后可根据此直线来估计结果(图中估计结果为:Winning time)
我想根据已知数据来进行建模,到最后获得一个最优的模型去预测未知数据的结果这便是机器学习的核心所在,建立一个模型,在属性与响应之间去学习。最终自己根据属性去给出响应。
线性模型虽然简单,却有丰富的变化,但其核心的本质无谓就是所给出的结果要更加接近真实的结果。
参考:《机器学习》 --周志华
《机器学习基础教程》 --(英)Simon Rogers,Mark Girolami