线性回归

  • 线性回归介绍及误区
  • OLS(最小二乘法)
  • 线性回归的假设
  • 一 线性模型
  • 二 残差期望为0
  • 三 Homoscedasticity 同方差性
  • 四 No autocorrelation
  • 五 exogeneity 假设
  • 六 残差是正态分布的
  • 线性回归类型
  • 单元线性回归
  • 多元线性回归


线性回归介绍及误区

统计学前面干的是都是去通过统计单一变量的样本去估计总体值,但现实中更为重要的是如何去估计两个变量或者多个变量的关系,比如,有人关心工资与学历的关系,这两个变量真的有关系吗?有关系的话怎么判断他们关系的程度,于是用到线性回归。
线性回归是判断线性关系及其程度的方法,但其实这里的线性是指参数和误差的模型是线性的而并不是变量(统计量)的线性,也就是说把每个变量取对数平方等操作都是可以的,所以实际上并不只是“线性关系”。
还有一个误区,为什么这里我用“关系”这个怪怪的词,因为线性回归是不带因果的,也就是说我们研究工资和学历的关系的时候,并不是研究学历对关系的影响,也就是说把两个变量的位置反一反也是可以的。那可能的错误在哪里呢,在于当线性回归出来的结果是两者的关系很小,并不是说明一个因素不影响另一个因素,而有可能是间接的作用。(这一点在多元回归中非常明显。)

OLS(最小二乘法)

注意本文不大做数学公式的推导,有些人纠结于这一点,事实上我就比较纠结数学公式的推导问题,但实际它对模型的理解的真实的帮助较小却会占用较大的时间,大家在学习中不知道是否有相同的看法,简单的说就是有点强迫症。
回到线性回归的起点,首先要假设它是线性关系,然后找到最“线性”(也就是平常说的拟合)的一个系数,然后就是很自然的思维了,怎么样才是最线性?
平方差最小!怎么说。对于每一个x统计 线性回归 统计学线性回归_统计学,根据我们假设的线性的模型,统计 线性回归 统计学线性回归_统计 线性回归_02,就有一个对应的统计 线性回归 统计学线性回归_统计 线性回归_03,它于观察值统计 线性回归 统计学线性回归_线性回归_04有一个差值,这个差值的平方最小时的统计 线性回归 统计学线性回归_统计学_05,统计 线性回归 统计学线性回归_线性回归_06就是我们想要的最线性时的参数值了。
然后提供一下解出来的结果,统计 线性回归 统计学线性回归_统计 线性回归_07统计 线性回归 统计学线性回归_统计学_05就根据他两平均值带进去减一下,不打了,太麻烦。
然后OLS还有一些概念,SSE(残差平方和,就是上面那个)、SSR(回归平方和,统计 线性回归 统计学线性回归_统计 线性回归_09)、SST(完全平方差,统计 线性回归 统计学线性回归_统计学_10,可以证明SST= SSR+SSE,这条公式并不显然但是可以证明的。还有一个回归系数R要知道一下,统计 线性回归 统计学线性回归_线性规划_11,越大说明残差小回归好。

线性回归的假设

在说假设前,再重复一下概念,上面提到的残差有人喜欢单独列出来统计 线性回归 统计学线性回归_线性回归_12,这其实也是描述没被考虑的因素所带来的误差,这一项其实对模型很重要。它的均值在OLS下为0,因为统计 线性回归 统计学线性回归_统计学_05已经把它处理掉了。但注意,它的波动也就是方差与R仍然存在。

一 线性模型

线性回归的第一个假设是这是一个关于参数和残差的线性模型,前面已经提到了,变量也就是X,Y可以做任何你想要的处理都是可以的,所以使线性回归应用很普遍。

二 残差期望为0

在OLS下,取了一个统计 线性回归 统计学线性回归_统计学_05,这实际就是除了所考虑变量之外的变量影响的期望,减去它之后使得影响有正有负而且期望为0,其实也就是人为影响的结果。

三 Homoscedasticity 同方差性

统计 线性回归 统计学线性回归_线性规划_15
如果有异方差,那么会影响到它的标准差,最后总会满足同方差性

四 No autocorrelation

就是说残差本身没有自相关性,统计 线性回归 统计学线性回归_线性回归_16

五 exogeneity 假设

这一假设是最容易被违反的假设,也同时是实验数据好于观测数据所在。

六 残差是正态分布的

线性回归类型

单元线性回归

多元线性回归

写不完了,下次再说吧,考试去。有兴趣的评论即可。