回归分析
预备:回归分析的应用场景和作用:回归分析主要运用在预测连续目标变量,有助于解决科学工作以及工业应用中的许多问题,有助于理解变量之间的关系,评估或预测趋势。
1.线性回归
定义:针对一个或多个特征与连续目标变量之间的关系建模
简单线性回归:
目的:针对单个特征(解释变量x)和连续响应值(目标变量y)之间的关系建模。
方程定义如下:y=w0+w1x
方程解释:w0代表y轴截距,w1为解释变量的加权系数
目标:学习线性方程的权重,以描述解释变量和目标变量之间的关系,然后预测训练集里面从未见过的心的响应变量。
理解:线性回归可以理解为通过采样点找到最佳的拟合直线,这条最佳的拟合直线被称为回归线,从回归线到样本点的垂直线就是所谓误差或者残差
多元线性回归:
定义:从单个解释变量推广到多个解释变量
公式:如下
公式解释:w0是当x0=1时的y轴截距。
画图技巧:散点图适用于多维空间的数据展示
关联矩阵:可以理解为协方差矩阵的修订。协方差矩阵是包含皮尔森积矩相关系数r的正方形矩阵,用来度量特征对之间的线性依赖关系。相关系数在-1和1之间,如果r=1,则两个特征之间呈现完全的正相关,如果r=0,两者之间没有关系;如果r=-1,则两者之间呈现完全相反的关系。
相关系数r的计算公式如下:协方差除以标准差的乘积。
关联矩阵:
普通最小二乘线性回归模型的实现:
1.定义:普通最小二乘法(OLS)用于估计线性回归参数,从而使样本点的垂直距离(残差或误差)之和最小化
2.求解方法:
a梯度下降法求解回归参数
回顾方法:批量梯度下降法(GD)和随机梯度下降(SGD)
OLS中的成本函数:
*
这里, y~为 y~=wTx的预测值 (注意 1/2只是为了方便推导GD的更新规则),OLS回归基本上可以理解为没有单位阶跃函数Adaline,这样就可以得到连续的目标值,而不是分类标签1或者-1
b.正规方程
y1=w1x1+w2x2+…+w0
y2=w1x11+w2x22+ +w0
…
yi=w1xi1+w2xi2+…+w0
写为线性方程组的形式
XW=Y
XTXW=XTY
(XTX)-1XTXW=(XTX)-1XTY
EW=(XTX)-1XTY
W=(XTX)-1XTY
此方法优点:方便简洁,一次性求出结果,保证能通过分析找到最优解。
缺点:求逆的算法复杂度为O^3,只能针对非奇异矩阵(方阵+不是满秩即其行列式为0,也是其可逆)
评价线性回归模型的性能:
方法一:(定性)残差图
定义:绘制残差(实际值和预测值之间的差异或者垂直距离)和预测值来判断回归模型。
作用:有助于检查非线性和异常值,并检查这些错误是否随机分布,同时可以检测离群点
方法二:(定量)均方误差MSE
定义:将SSE成本均值最小化
作用:对比较不同的回归模型或通过网络搜索和交叉验证调整其参数很有用,因为通过调整样本比例尺寸使得SSE归一化。
报告决定系数(R^2):均方误差的标准版,目的是为了更好地解释模型的性能。报告决定系数是模型捕获到的响应方差函数的一部分。
公式解释:R^2的取值范围是0-1之间,但是也可能是负值,如果其等于1,相当于MSE=0,模型完美拟合数据,如果其等于0,模型比较差,小于0,模型更差。
加入正则化进行回归:
岭回归:一个L2惩罚模型,只需要把加权平方添加到最小二乘代价函数后
作用:加入正则项,收缩了模型权重(不要正则化w0)避免了过拟合,减少模型风险。
LASSO:可以导致稀疏模型的方法
弹性网络:处于岭回归和LASSO之间的方案,L1正则惩罚产生稀疏性,L2正则惩罚克服:LASSO的一些限制
多项式回归:运用多项式回归模拟非线性关系