OLS估计
OLS非线性曲线,但参数是线性的 为了对比 真实值与OLS预测值,使用 wls_prediction_std
** 虚拟变量处理** dummy = sm.categorical(groups, drop=True)
共线性问题 数据集Longley是众所周知的拥有强共线性现象的数据集,也就是自变量之间拥有较高的相关性。
因变量TOTEMP
自变量
-
GNPDEFL
-
GNP
-
UNEMP
-
ARMED
-
POP
-
YEAR
共线性问题会影响ols参数估计的稳定性。
summary末尾Warnings提醒我们模型的condition number很大,可能存在很强的多重共线性问题或者其他问题
Condition number condition number可以用来评估多重共线性问题的大小。
当该值大于20, 基本可以确定是存在多重共线性问题(参考Greene 4.9)
删除观测值 Greene也指出即使移除一个观测值,也可能会对ols估计产生巨大的影响
我们也可以查看DFBETAS,即当移除某个观测值后,每个参数的会因此发生的改变(标准化)
We can also look at formal statistics for this such as the DFBETAS – a standardized measure of how much each coefficient changes when that observation is left out.
大致上,我们可以认为DBETAS的绝对值大于
现在statsmodels正在持续开发中,未来python的计量分析方面的应用会越来越好用,期待ing