多元逐步回归 python 多元逐步回归和logistic回归

转载

mob64ca13f772f3 2024-02-01 08:43:41

文章标签 多元逐步回归 python 线性回归回归机器学习控制变量 文章分类 Python 后端开发

简介

回归的目的是通过研究自变量X与因变量Y之间的相互关系

识别重要的变量，剔除次要的变量，即逐步回归的思想
判断相关性的方向，正还是负
估计变量的权重，即回归系数
在x=x0处对y做预测，对y做区间估计

常见的回归分析有五类：线性回归(OLS, GLS)、0-1回归(Logistic 回归)、定序回归(probit 定序回归)、计数回归(Possion 回归)和生存回归，其划分的依据均为因变量Y的类型。

因变量的类型：

连续数值型，如GDP

0-1型：如是否按时还款

定序变量：如客户的满意程度

计数变量：如一定时间内的车流量

一元线性回归

一元线性回归模型

，

包含了所有与y相关，但未添加到回归模型中的变量，如果这些变量和我们已经添加的自变量相关，则存在内生性，导致回归系数估计的不准确。

但通常来说满足外生性的条件极为苛刻，我们可以弱化该条件。

将解释变量区分为核心解释变量和控制变量两类。

核心解释变量：最感兴趣的变量，即希望对其回归系数进行无偏估计
控制变量：我们可能对于这些变量本身无太大兴趣；而之所以把它们也放入回归方程，主要是为了“控制住”那些对被解释变量有影响的遗漏因素

因此我们只需要保证核心解释变量与扰动项不相关即可

对数据进行取对数的好处

减弱数据的异方差性
如果变量不符合正态分布，取对数之后可能渐进服从正态分布
模型的需要，使之更具有经济学意义

一元线性回归

y=ax+b，解释为x每增加1个单位，y平均变化b个单位

双对数模型

lny=a+blnx+u，解释为x每增加1%，y平均变化b%

半对数模型

y=a+blnx，解释为x每增加1%，y平均变化b/100个单位

lny=a+bx，解释为x每增加1个单位，y平均变化(100b)%

特殊的自变量——虚拟变量X

如果自变量中有定性的变量，如性别，地域等

回归方程的显著性检验

对回归方程

,检验回归系数显著不为零。

MATLAB实现

使用matlab的regress函数可以方便的对数据进行回归分析

[b,bint,r,rint,stats]=regress(X,Y,alpha);%
% b返回回归系数，bint返回回归系数的置信区间
% r返回残差，rint返回残差的置信区间
% stats返回拟合优度，F统计量，p检验值和均方误差
rcoplot(r,rint)%可以画出残差图，进行离群检验，剔除异常值

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。