线性回归

线性回归简洁的说就是将输入项分别乘以一些常量,再将结果加起来,得到输出。
求解回归系数:选择使得平方误差最小的W(回归系数)。
平方误差可以写作:


∑i=1m(yi−xTiw)2


用矩阵表示还可以写做

(y−Xw)T(y−Xw)。如果对W求导,得到 XT(Y−Xw),令其等于0,解出W如下:

w^=(XTX)−1XTy


w上方的hat标记表示这是当前可以估计出的w的最优解。

求解最优w还可以使用OLS,意思是“普通最小二乘法”。
度量回归方程的好坏:可以使用预测值和原始值的相关度来进行度量。

优点:结果易于理解
缺点:对非线性的数据拟合不好
适用数据类型:数值型和标称型数据

局部加权线性回归

线性加权存在欠拟合现象。因此,在有些方法中允许在估计中引入一些偏差,从而降低预测的均方误差。局部加权线性回归就是其中的一个方法。
局部加权线性回归:每次预测均需要事先选取出对应的数据子集,给定待预测点附近的每个点赋予一定的权重,在这个自己上基于最小均方差来进行普通的回归。
回归系数w的形式如下:


w^=(XTWX)−1XTWy


其中,W是一个矩阵,用来给每个数据的赋予权重。

局部线性回归使用“”来对附近的赋予更高的权重。核的类型可以自由选择,最常使用的就是高斯核,高斯核对应的权重如下:


w(i,i)=exp(∣∣xi−x∣∣−2k2)


这样就构建了一个只含对角元素的权重矩阵W,并且点x与x(i)越近,w(i,i)将会越大。其中参数k(

平滑值)决定了对附近的点赋予多大的权重。

优点:一定程度的解决了线性回归的欠拟合问题。
缺点:计算量大,每次必须在整个数据集上运行。也就是说为了做出预测,必须保存所有的训练数据。

岭回归

为了解决特征比样本点还多的问题,也就是瘦输入数据的矩阵X不是满秩矩阵的问题,即无法求逆的问题。引入了岭回归的概念。

岭回归:在矩阵XTX上加入一个λI从而使得矩阵非奇异,进而能对XTX+λI求逆。其中I是一个m*m的单位矩阵,对角线上的元素全为1,其他元素全为0。而λ是一个由用户定义的数值,通过多次实验,选择使得预测误差最小的λ。
回归系数的计算公式变为:


w^=(XTX+λI)−1XTy


岭回归的应用:1)特征数目多余样本数目的情况;2)在估计中加入偏差,从而得到更好的估计。通过增加罚项,可以减少不重要的参数,即

缩减

还有一些其他的缩减方法,如lasso,LAR,PCA回归以及子集选择等。与岭回归一样,这些方法不仅能提高预测精确率,而且可以解释回归系数。