回归预测的置信区间Python 回归估计的置信区间_方差


第一节是一元回归统计推断在多元回归中的推广,主要针对的是单个系数的假设检验和置信区间,除了在假设阶段有所不同(比如是在固定其他变量的情况下,被检验变量对因变量没有影响),基本步骤是一样的,理论基础也都是“OLS估计量在原假设下服从大样本正态分布,其中均值为假设的真值而方差具有一致估计量”(后半句我并没有看懂,前半句是告诉我们要牢记“这些抽样的不确定性的量化方法只有在大样本情况下才有效”)。有意思的是,书中对该章节举例的解释非常精彩,特别是关于‘每个学生分摊预算’变量的纳入与‘学区内的资金分配已经很有效’的结果解释。

由于多元回归设计多个变量和多个系数,那么可不可以同时假设两个或多个系数都为0呢?旧的单系数检验假设行不通了,这时就得有联合假设以及F统计量检验来解决新问题。前述的假设可以数学表达为:


,其中


是一个

约束(restriction)

也是一个约束(一共

q个约束,

),因为它们限制了



的取值。一个假设中(对回归系数)有两个或两个以上的约束(

q个约束,

),我们就称之为

联合假设(joint hypothesis)。联合假设一定要用新工具F统计量来检验吗?书里面讨论了“一次检验一个系数”的情况,认为该方法“过多地拒绝了原假设”,有两种改良方法——一个是针对 “‘一次一个’检验方法的水平不正确,即原假设下的拒绝率不等于要求的显著水平”进行修改,使其 “采用不同的临界值以确保其水平等于显著水平,也就是Bonferroni方法”(这种方法还是有缺点——“势较低,当备择假设为真时通常无法拒绝原假设”,我没懂这是什么意思,然后作者强调了另一种方法更好,我想还是把精力放到“更好的方法”上面吧);另一种就是基于 F统计量的方法,作者声称该方法 “更有效,尤其当回归变量间呈现高度相关时检验联合假设”

针对上一段中的例子,F统计量公式为:


,其中



的t统计量,同理可知



表示两个t统计量的相关系数估计量。要理解

F统计量,先从一种简单的假设开始:假设该例中的


不相关,那么


就为0,于是

F统计量的公式简化为

,即

F统计量是t统计量平方的均值,因为当


不相关时,



是独立的标准正在分布,所以此时的F统计量服从


分布(可以回顾第二章中的F分布)。既然简单的

F统计量公式就可以讲的通,为什么段首的 F统计量公式会如此复杂呢?因为一般情况下 t统计量是相关的,所以简单的情况很难复合现实,为了解决t统计量相关带来的影响,简单的 F统计量公式通过

修改得到复杂的

F统计量公式,使得F统计量“不论t统计量是否相关,在大样本下都服从

分布”。后面作者又花了一小节的篇幅介绍仅同方差适用的F统计量(homoskedasicity-only

F-statistic),并与异方差稳健F统计量(heteroskedasticity-robust F-statistic)进行比较(说实话,我不太懂为什么要讲适用性不足的同方差F统计量,异方差稳健F统计量不是更适用吗?)。

前面提到的例子,约束有一个特点,就是一次只约束一个系数(如


中的第一个约束仅约束了系数


,第二个约束只约束了系数


)。如果

一次约束多个系数呢?比如如下假设:

。该假设只有一个约束(


),但是涉及了两个系数(



)。有两种解决办法,一种是用软件(哈哈哈)得出F统计量,例中


所以原假设中该统计量服从


分布,而标准正态随机分布的平方服从上述分布,所以上述分布的95%分位数为


。另一种方法是巧妙的把多系数约束转化为单系数约束,过程就不细述了。


单个系数可以用置信区间表示包含系数真值的概率,多个系数呢?类似的,叫做置信集,置信集是一个椭圆。本文第一个例子中原假设为


(



的联合原假设),5%显著水平下



的任意取值


构造一个置信椭圆,只要在坐标轴中的点(0, 0)不被该椭圆覆盖,“就意味着在5%显著水平下,利用

F统计量拒绝这两个系数都为零的原假设”(这一段看着有点绕,但是书本上即简短又明了——一图胜千言)。

在上一章中我们提到的多元回归模型,有一个基本问题需要回答:既然多元回归模型涉及多个变量,那么我们该选取哪些变量进入模型呢?用一种更具操作思维的话来说,如果漏掉一些重要的变量(指“1.决定


;2.与模型中已纳入的回归变量相关”的变量),那么多元回归系数的OLS估计量存在遗漏变量偏差——该如何防止OLS估计量的偏差呢?这里,进一步将回归变量分为目标变量和控制变量两类:目标变量是你感兴趣的变量,而控制变量是其他被纳入回归的遗漏变量们,这些变量需要被控制住也就是保持不变,以观察此情况下目标变量对因变量的影响。具体的做法,就是

从只包含目标变量的模型到包含多个遗漏变量的模型都建立一遍,然后放在一个表中对比各种系数参数。遗漏变量从哪里找?“基于专业判断、经济理论和数据收集的方法”,嘻嘻,这听上去像玄学——其实就是经验、常识。当然这只是第一步。本节最后还讨论了一下


的含义:除了越大能说明越好的预测因变量之外,即不能一定表示加入的变量在统计上显著、也不能表示回归变量是因变量的真实原因,也不能表示不存在其他的遗漏变量,也不能表示当前的回归变量选取是最合适的(似乎更加说明了选取变量是一种玄学)。


当然,下一节举了一个例子,包括如何用表格展示基础设定形式与备选设定形式的回归结果(见封面图片),以及如何解读该结果表格。文中就例子给出了三条结论,分别是针对变量系数的变化、



的含义、以及最重要的——

哪些变量是多余的——通过系数的不显著来判断。就这三条结论而言,最后一条结论似乎是一种筛选合适的遗漏变量的好方法。当然,文中还提及变量的不同单位有着如何的含义异同(该如何选择变量的单位)。看到案例中的表格,你就能知道多元回归模型中一个变量的增减会带来哪些系数和参数的变化。

最后一节,文章提出一个久远假设的质疑:之前的所有章节的讨论,都是基于一种“没有”“理由”的“线性”“假定”。如果总体回归线是非线性的呢?下一章讲讨论一些非线性总体回归线的情况。