线性回归
- 线性回归介绍及误区
- OLS(最小二乘法)
- 线性回归的假设
- 一 线性模型
- 二 残差期望为0
- 三 Homoscedasticity 同方差性
- 四 No autocorrelation
- 五 exogeneity 假设
- 六 残差是正态分布的
- 线性回归类型
- 单元线性回归
- 多元线性回归
线性回归介绍及误区
统计学前面干的是都是去通过统计单一变量的样本去估计总体值,但现实中更为重要的是如何去估计两个变量或者多个变量的关系,比如,有人关心工资与学历的关系,这两个变量真的有关系吗?有关系的话怎么判断他们关系的程度,于是用到线性回归。
线性回归是判断线性关系及其程度的方法,但其实这里的线性是指参数和误差的模型是线性的而并不是变量(统计量)的线性,也就是说把每个变量取对数平方等操作都是可以的,所以实际上并不只是“线性关系”。
还有一个误区,为什么这里我用“关系”这个怪怪的词,因为线性回归是不带因果的,也就是说我们研究工资和学历的关系的时候,并不是研究学历对关系的影响,也就是说把两个变量的位置反一反也是可以的。那可能的错误在哪里呢,在于当线性回归出来的结果是两者的关系很小,并不是说明一个因素不影响另一个因素,而有可能是间接的作用。(这一点在多元回归中非常明显。)
OLS(最小二乘法)
注意本文不大做数学公式的推导,有些人纠结于这一点,事实上我就比较纠结数学公式的推导问题,但实际它对模型的理解的真实的帮助较小却会占用较大的时间,大家在学习中不知道是否有相同的看法,简单的说就是有点强迫症。
回到线性回归的起点,首先要假设它是线性关系,然后找到最“线性”(也就是平常说的拟合)的一个系数,然后就是很自然的思维了,怎么样才是最线性?
平方差最小!怎么说。对于每一个x,根据我们假设的线性的模型,,就有一个对应的,它于观察值有一个差值,这个差值的平方最小时的,就是我们想要的最线性时的参数值了。
然后提供一下解出来的结果,,就根据他两平均值带进去减一下,不打了,太麻烦。
然后OLS还有一些概念,SSE(残差平方和,就是上面那个)、SSR(回归平方和,)、SST(完全平方差,,可以证明SST= SSR+SSE,这条公式并不显然但是可以证明的。还有一个回归系数R要知道一下,,越大说明残差小回归好。
线性回归的假设
在说假设前,再重复一下概念,上面提到的残差有人喜欢单独列出来,这其实也是描述没被考虑的因素所带来的误差,这一项其实对模型很重要。它的均值在OLS下为0,因为已经把它处理掉了。但注意,它的波动也就是方差与R仍然存在。
一 线性模型
线性回归的第一个假设是这是一个关于参数和残差的线性模型,前面已经提到了,变量也就是X,Y可以做任何你想要的处理都是可以的,所以使线性回归应用很普遍。
二 残差期望为0
在OLS下,取了一个,这实际就是除了所考虑变量之外的变量影响的期望,减去它之后使得影响有正有负而且期望为0,其实也就是人为影响的结果。
三 Homoscedasticity 同方差性
如果有异方差,那么会影响到它的标准差,最后总会满足同方差性
四 No autocorrelation
就是说残差本身没有自相关性,
五 exogeneity 假设
这一假设是最容易被违反的假设,也同时是实验数据好于观测数据所在。
六 残差是正态分布的
线性回归类型
单元线性回归
多元线性回归
写不完了,下次再说吧,考试去。有兴趣的评论即可。