简介

回归的目的是通过研究自变量X与因变量Y之间的相互关系

  • 识别重要的变量,剔除次要的变量,即逐步回归的思想
  • 判断相关性的方向,正还是负
  • 估计变量的权重,即回归系数
  • 在x=x0处对y做预测,对y做区间估计

常见的回归分析有五类:线性回归(OLS, GLS)、0-1回归(Logistic 回归)、定序回归(probit 定序回归)、计数回归(Possion 回归)和生存回归,其划分的依据均为因变量Y的类型。

因变量的类型:

连续数值型,如GDP

0-1型:如是否按时还款

定序变量:如客户的满意程度

计数变量:如一定时间内的车流量

一元线性回归

一元线性回归模型


包含了所有与y相关,但未添加到回归模型中的变量,如果这些变量和我们已经添加的自变量相关,则存在内生性,导致回归系数估计的不准确。

但通常来说满足外生性的条件极为苛刻,我们可以弱化该条件。

将解释变量区分为核心解释变量控制变量两类。

  • 核心解释变量:最感兴趣的变量,即希望对其回归系数进行无偏估计
  • 控制变量:我们可能对于这些变量本身无太大兴趣;而之所以把它们也放入回归方程,主要是为了“控制住”那些对被解释变量有影响的遗漏因素

因此我们只需要保证核心解释变量与扰动项不相关即可

对数据进行取对数的好处

  • 减弱数据的异方差性
  • 如果变量不符合正态分布,取对数之后可能渐进服从正态分布
  • 模型的需要,使之更具有经济学意义

一元线性回归

y=ax+b,解释为x每增加1个单位,y平均变化b个单位

双对数模型

lny=a+blnx+u,解释为x每增加1%,y平均变化b%

半对数模型

y=a+blnx,解释为x每增加1%,y平均变化b/100个单位

lny=a+bx,解释为x每增加1个单位,y平均变化(100b)%

特殊的自变量——虚拟变量X

如果自变量中有定性的变量,如性别,地域等

回归方程的显著性检验

对回归方程

,检验回归系数显著不为零。

MATLAB实现

使用matlab的regress函数可以方便的对数据进行回归分析

[b,bint,r,rint,stats]=regress(X,Y,alpha);%
% b返回回归系数,bint返回回归系数的置信区间
% r返回残差,rint返回残差的置信区间
% stats返回拟合优度,F统计量,p检验值和均方误差
rcoplot(r,rint)%可以画出残差图,进行离群检验,剔除异常值