线性回归
线性回归简洁的说就是将输入项分别乘以一些常量,再将结果加起来,得到输出。
求解回归系数:选择使得平方误差最小的W(回归系数)。
平方误差可以写作:
∑i=1m(yi−xTiw)2
用矩阵表示还可以写做
(y−Xw)T(y−Xw)。如果对W求导,得到
XT(Y−Xw),令其等于0,解出W如下:
w^=(XTX)−1XTy
w上方的hat标记表示这是当前可以估计出的w的最优解。
求解最优w还可以使用OLS,意思是“普通最小二乘法”。
度量回归方程的好坏:可以使用预测值和原始值的相关度来进行度量。
优点:结果易于理解
缺点:对非线性的数据拟合不好
适用数据类型:数值型和标称型数据
局部加权线性回归
线性加权存在欠拟合现象。因此,在有些方法中允许在估计中引入一些偏差,从而降低预测的均方误差。局部加权线性回归就是其中的一个方法。
局部加权线性回归:每次预测均需要事先选取出对应的数据子集,给定待预测点附近的每个点赋予一定的权重,在这个自己上基于最小均方差来进行普通的回归。
回归系数w的形式如下:
w^=(XTWX)−1XTWy
其中,W是一个矩阵,用来给每个数据的赋予权重。
局部线性回归使用“核”来对附近的赋予更高的权重。核的类型可以自由选择,最常使用的就是高斯核,高斯核对应的权重如下:
w(i,i)=exp(∣∣xi−x∣∣−2k2)
这样就构建了一个只含对角元素的权重矩阵W,并且点x与x(i)越近,w(i,i)将会越大。其中参数k(
平滑值)决定了对附近的点赋予多大的权重。
优点:一定程度的解决了线性回归的欠拟合问题。
缺点:计算量大,每次必须在整个数据集上运行。也就是说为了做出预测,必须保存所有的训练数据。
岭回归
为了解决特征比样本点还多的问题,也就是瘦输入数据的矩阵X不是满秩矩阵的问题,即无法求逆的问题。引入了岭回归的概念。
岭回归:在矩阵XTX上加入一个λI从而使得矩阵非奇异,进而能对XTX+λI求逆。其中I是一个m*m的单位矩阵,对角线上的元素全为1,其他元素全为0。而λ是一个由用户定义的数值,通过多次实验,选择使得预测误差最小的λ。
回归系数的计算公式变为:
w^=(XTX+λI)−1XTy
岭回归的应用:1)特征数目多余样本数目的情况;2)在估计中加入偏差,从而得到更好的估计。通过增加罚项,可以减少不重要的参数,即
缩减。
还有一些其他的缩减方法,如lasso,LAR,PCA回归以及子集选择等。与岭回归一样,这些方法不仅能提高预测精确率,而且可以解释回归系数。