总平方和回归平方和残差平方和解释回归平方和,残差平方和

转载

laokugonggao 2024-05-03 13:55:24

文章标签 总平方和回归平方和残差平方和解释统计学习方法机器学习回归线性回归 文章分类 机器学习人工智能

线性回归

线性回归简洁的说就是将输入项分别乘以一些常量，再将结果加起来，得到输出。
求解回归系数：选择使得平方误差最小的W(回归系数)。
平方误差可以写作：

∑i=1m(yi−xTiw)2

用矩阵表示还可以写做

(y−Xw)T(y−Xw)。如果对W求导，得到 XT(Y−Xw),令其等于0，解出W如下：

w^=(XTX)−1XTy

w上方的hat标记表示这是当前可以估计出的w的最优解。

求解最优w还可以使用OLS,意思是“普通最小二乘法”。
度量回归方程的好坏：可以使用预测值和原始值的相关度来进行度量。

优点：结果易于理解
缺点:对非线性的数据拟合不好
适用数据类型：数值型和标称型数据

局部加权线性回归

线性加权存在欠拟合现象。因此，在有些方法中允许在估计中引入一些偏差，从而降低预测的均方误差。局部加权线性回归就是其中的一个方法。
局部加权线性回归：每次预测均需要事先选取出对应的数据子集，给定待预测点附近的每个点赋予一定的权重，在这个自己上基于最小均方差来进行普通的回归。
回归系数w的形式如下：

w^=(XTWX)−1XTWy

其中，W是一个矩阵，用来给每个数据的赋予权重。

局部线性回归使用“核”来对附近的赋予更高的权重。核的类型可以自由选择，最常使用的就是高斯核，高斯核对应的权重如下：

w(i,i)=exp(∣∣xi−x∣∣−2k2)

这样就构建了一个只含对角元素的权重矩阵W，并且点x与x(i)越近，w(i,i)将会越大。其中参数k（

平滑值）决定了对附近的点赋予多大的权重。

优点：一定程度的解决了线性回归的欠拟合问题。
缺点：计算量大，每次必须在整个数据集上运行。也就是说为了做出预测，必须保存所有的训练数据。

岭回归

为了解决特征比样本点还多的问题，也就是瘦输入数据的矩阵X不是满秩矩阵的问题，即无法求逆的问题。引入了岭回归的概念。

岭回归：在矩阵XTX上加入一个λI从而使得矩阵非奇异，进而能对XTX+λI求逆。其中I是一个m*m的单位矩阵，对角线上的元素全为1，其他元素全为0。而λ是一个由用户定义的数值，通过多次实验，选择使得预测误差最小的λ。
回归系数的计算公式变为：

w^=(XTX+λI)−1XTy

岭回归的应用：1）特征数目多余样本数目的情况；2）在估计中加入偏差，从而得到更好的估计。通过增加罚项，可以减少不重要的参数，即

缩减。

还有一些其他的缩减方法，如lasso，LAR，PCA回归以及子集选择等。与岭回归一样，这些方法不仅能提高预测精确率，而且可以解释回归系数。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java 解析psd图层信息 java解析dicom

下一篇：Wireshark怎么查看IP数据报的分片个数利用wireshark分析ip数据报

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯