文章目录

  • 一元线性回归
  • 相关关系
  • 相关关系的分类
  • 最小二乘法
  • 拟合优度检验
  • 显著性检验
  • 回归预测
  • 残差分析
  • 多元线性回归
  • 多重共线性
  • 变量选择与逐步回归
  • 参考
  • 总结


一元线性回归

相关关系

相关关系是值变量的数值之间存在这依存关系,即一个变量的数值会随着另一个变量或几个变量的数值变化而呈现出一定的变化规律。

例如:人的身高和体重的关系,居民收入增长率与物价指数的关系等等

相关关系的分类

根据相关关系的强度分类:分为完全相关,弱相关和不相关三种。

根据相关关系的方向分类:分为正相关和负相关两种。

根据相关关系的形态分类:分为线性相关关系和非线性相关关系。

偏相关分析与多元线性回归区别 偏相关和回归_偏相关分析与多元线性回归区别


也可根据相关关系的变量个数分类:分为单相关关系、复相关关系和偏相关关系。

单相关关系是指两个变量之间的关系,分为自变量和因变量,也称为二元变量相关分析;
复相关关系是指三个或三个以上变量之间的关系,即一个因变量对两个或两个以上自变量的相关关系,也称多重相关关系;
偏相关关系是指在一个因变量与多个自变量相关的情况下,只关心因变量与其中一个自变量的关系,屏蔽其他自变量对因变量的影响。

最小二乘法

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。
利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

比如温度与冰淇淋销量的关系,参考大神博客如何理解最小二乘法

偏相关分析与多元线性回归区别 偏相关和回归_统计_02


把上述的值画在笛卡尔坐标系中,温度为横坐标,销量为纵坐标,分别记作偏相关分析与多元线性回归区别 偏相关和回归_回归_03,此时温度与销量的关系看上去像是呈线性关系,如下图:

偏相关分析与多元线性回归区别 偏相关和回归_统计_04


可假设这种线性关系为

偏相关分析与多元线性回归区别 偏相关和回归_线性回归_05

最小二乘法思想: 每个点都向y 做垂线,垂线的长度就是$| y-y_i|$,可以理解为测量值和真实值之间的误差。

因为误差是长度,还要取绝对值,计算起来比较麻烦,所以用平方来代表误差:

偏相关分析与多元线性回归区别 偏相关和回归_回归_06

偏相关分析与多元线性回归区别 偏相关和回归_统计_07


当误差值最小时,得到的偏相关分析与多元线性回归区别 偏相关和回归_线性回归_08值便时真值。

误差最小时,分别对a,b求偏导,

偏相关分析与多元线性回归区别 偏相关和回归_回归_09

带入上面温度与销量的数据,可解出:

偏相关分析与多元线性回归区别 偏相关和回归_线性回归_10


即下面这条直线:

偏相关分析与多元线性回归区别 偏相关和回归_统计_11

得到线性关系后,我们还可以对其他温度下冰淇淋的销量做预测。

拟合优度检验

拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度,是用来测量模型的回归程度好坏的。
拟合优度检验是假设检验的一种,用来检测观测数与根据模型计算得到的理论数之间的一种假设检验,以便于判断该假设或模型是否与实际观测数吻合。
具体步骤可参考:拟合优度检验

显著性检验

我们知道,在假设检验中有两类错误:

1.原假设实际为真,但根据样本数据判别为拒绝,此类错误被称为“弃真”错误,即将真的当作假的。
2.原假设实际为假,但根据样本数据判别为接受,此类错误被称为“取伪”错误,即将假的当作真的。

通常把第一类错误出现的概率记为α,第二类错误出现的概率记为β。通常只限定犯第一类错误的最大概率α, 不考虑犯第二类错误的概率β。我们把这样的假设检验称为显著性检验,并且称概率α称为显著性水平。

回归预测

回归分析预测法,是在分析市场现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量,关系大多表现为相关关系。

回归预测法的步骤:

1.根据预测目标,确定自变量和因变量
明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。

2.建立回归预测模型
  依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。

3.进行相关分析
  回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。

4.检验回归预测模型,计算预测误差
  回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。

5.计算并确定预测值
  利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。

残差分析

残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差。
在回归分析中,测定值与按回归方程预测的值之差,并且残差服从正态分布,通常可以根据分析残差的分布情况来校验模型的合理性。参考残差分析

多元线性回归

多重共线性

在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,Xk中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。

解决方法可参考多重共线性问题的几种解决方法

变量选择与逐步回归

在建立回归模型时,首要问题是如何确定回归自变量,若遗漏了重要的变量,回归方程的效果肯定不会太好,但是当变量过多时,某些变量可能会重叠,某些程度上会增大计算量,回归方程稳定性也差,直接影响到回归方程的使用。
逐步回归是变量选择里面的一种方法,基本步骤如图:

偏相关分析与多元线性回归区别 偏相关和回归_回归_12

参考

关于显著性检验,你想要的都在这儿了!!(基础篇)

如何理解最小二乘法?

回归分析预测法

为啥一定要用残差图检查你的回归分析?

自变量选择与逐步回归

总结

这一章的理论性比较强,后面需要参考例题进行应用。