OLS估计

OLS非线性曲线,但参数是线性的 为了对比 真实值与OLS预测值,使用 wls_prediction_std

** 虚拟变量处理** dummy = sm.categorical(groups, drop=True)

共线性问题 数据集Longley是众所周知的拥有强共线性现象的数据集,也就是自变量之间拥有较高的相关性。

因变量TOTEMP

自变量

  • GNPDEFL

  • GNP

  • UNEMP

  • ARMED

  • POP

  • YEAR

共线性问题会影响ols参数估计的稳定性。

summary末尾Warnings提醒我们模型的condition number很大,可能存在很强的多重共线性问题或者其他问题

Condition number condition number可以用来评估多重共线性问题的大小。

当该值大于20, 基本可以确定是存在多重共线性问题(参考Greene 4.9)

删除观测值 Greene也指出即使移除一个观测值,也可能会对ols估计产生巨大的影响

我们也可以查看DFBETAS,即当移除某个观测值后,每个参数的会因此发生的改变(标准化)

We can also look at formal statistics for this such as the DFBETAS – a standardized measure of how much each coefficient changes when that observation is left out.

大致上,我们可以认为DBETAS的绝对值大于

现在statsmodels正在持续开发中,未来python的计量分析方面的应用会越来越好用,期待ing