回归分析

这是一个回归分析的例子。 这个数据集收集了200名高中生的各科成绩,包括science、math、reading 和social studies。 变量female是一个二分类变量,1为女,0为男。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))

regress science math female socst read

      Source |       SS       df       MS              Number of obs =     200
-------------+------------------------------           F(  4,   195) =   46.69
       Model |  9543.72074     4  2385.93019           Prob > F      =  0.0000
    Residual |  9963.77926   195  51.0963039           R-squared     =  0.4892
-------------+------------------------------           Adj R-squared =  0.4788
       Total |     19507.5   199  98.0276382           Root MSE      =  7.1482

------------------------------------------------------------------------------
     science |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        math |   .3893102   .0741243     5.25   0.000      .243122    .5354983
      female |  -2.009765   1.022717    -1.97   0.051    -4.026772    .0072428
       socst |   .0498443    .062232     0.80   0.424    -.0728899    .1725784
        read |   .3352998   .0727788     4.61   0.000     .1917651    .4788345
       _cons |   12.32529   3.193557     3.86   0.000     6.026943    18.62364
------------------------------------------------------------------------------

方差分析表

Python 拐点检验 拐点分析stata_方差

A.Source –这是方差,模型,残差,总计的来源。 总方差被划分为可以用自变量解释的方差部分(模型)和无法用自变量解释的部分(残差)。

B.SS这些是与三个方差源相关的平方和,即总方差(Total)、模型方差(Model)和残差方差(Residual)。这些可以用许多方法计算。从概念上讲,这些公式可以表示为:

  • SSTotlal 与均值的偏差的平方和。\(\sum{(Y-\overline Y)}^2\)
  • SSResidual 与预测值偏差的平方和。\(\sum{(Y-\widehat Y)}^2\)
  • SSModel 通过使用Y的预测值而不仅仅是使用Y的平均值进行预测估计。因此此项数据相当于Y的预测值与平均值之间的平方差异。\(\sum{(\overline Y - \widehat Y)}^2\)

同时,可以从另外一个角度去看,\(SSModel = SSTotal – SSResidual\),另外,发现\(SSModel / SSTotal =0.4892\)与\(R-squared\)的数值一致。\(R-squared\)为自变量解释的方差比例,因此\(R-squared\)可以通过\(SSModel / SSTotal\)计算。

C.DF这些是与方差来源相关的自由度。 总方差具有N-1个自由度。在这个例子总,样本为200,自由度即为\(200-1=199\)。模型自由度为预测变量数\(K-1\),次模型预测变量为4个独立变量(math, female, socstread)和1个常数项(即截距,进行回归的时候可以选择没有截距),则模型的自由度为\(4+1-1=4\),剩余的自由度为\(199-4=195\)。

D.MS此为均方,是平方和除以各自的自由度(DF)。 对于模型来说,\(9543.72 / 4 = 2385.93\);对于残差来说,\(9963.78 / 195 = 51.096\)。这些数都是通过计算得到的,并由此可以计算\(F\)比,来测试模型中预测变量的显著性。

整体模型拟合

Python 拐点检验 拐点分析stata_stata_02

E.Number of obs – 分析涉及对象个数。

F. FProb > F – \(F =MSModel/MSResidual=46.69\)。 与这个\(F\)值关联的\(P\)值非常小\((0.0000)\)。 将\(P\)值与\(\alpha\)值\((0.01;0.05;0.1)\)比较,通常情况下与\(0.05\)相比较,如果\(P\)值小于\(0.05\),说明自变量组与因变量之间在统计上的显著关系,这组自变量可以用来对因变量进行可靠的预测。需要注意的是,这个\(P\)值代表的是一组自变量整体与因变量的显著关系,单个自变量与因变量的显著关系以及预测能力将在下表阐述。

G.R-squared–R方是可以从自变量(math, female, socstread)中预测的因变量(science)的方差比例。这个数值表明\(48.92\%\)的science分数方差可以通过变量math,female,socst和read来预测。需要注意的是,这个也是对关联强度的整体度量,并不反映某个独特的自变量与因变量的关联程度。

H.Adj R-squared –调整后的R方。预测变量添加到模型中会提高自变量解释因变量的能力。即便是R方的增加只是源自样本的偶然变化。调整后的R方目的在于产生一个更真实的估计结果,采用公式\(1-\frac{(1-R_sq)(N-1)}{(N-k-1)}\)来计算,从公式本身看,观测数据越少、自变量越多时R方与调整后的R方差别越大。

i. Root MSE-误差的标准差,是均方残差(或者误差)的平方根。

参数估计

Python 拐点检验 拐点分析stata_回归分析_03

J.scicence-这一栏显示的是顶部的因变量(science)和下边的预测变量(math,female,cocst,read和常数项)。最后一个变量(cons)是常数项,在几何意义上是Y的截距,是拟合的回归线与y轴的交点。

K.Coef.-项的系数,即拟合的回归方程预测变量的系数。预测的回归方程可展示如下:

\[Y_{predicted}=b_0+b_1*x_1+b_2*x_2+b_3*x_3+b_4*x_4 \]

在本例中,预测的回归方程如下:

\[science_{predicted}=12.32529+.3893102*math + -2.009765*female+.0498443*socst+.3352998*read \]

预测的回归方程表明,方程中任一项自变量的增加1的单位,预测因变量就会有相对应系数的增加量。但需要注意的时候,需要参考P值,来判断自变量是否显著。

L.Std. Err.是与系数有关的标准误差。标准误差是用来测试参数是否与0 有显著差异。具体的方法是用参数估计值除以标准误差,会得到一个t值。标准误差也可以用来生成系数的置信区间。

M.t and P>|t|-这两个列代表的是t值和双尾检验的P值,是用于检验零假设系数为0的假设。在双尾检验中,需要预设\(\alpha\)值,然后将P值与\(\alpha\)值比较,当P值比\(\alpha\)值小的时候,对应的系数具有统计学意义。在此案例中,socst的p值为0.424明显大于预设的0.05,所以此系数不具有统计学上的意义,故不显著。

N. [95% Conf. Interval]-95%置信区间。这个置信区间代表的是估计的系数的范围,置信区间与P值有一定的关联,如果置信区间包含0,说明对应的系数在统计学意义上不显著。例如socst的置信区间为[-0.073,0.173],包含0,同时P值为0.424明显大于预设的0.05。