Python 拐点检验拐点分析stata

转载

mob64ca140dc73b 2023-09-04 22:19:35

文章标签 Python 拐点检验 stata 回归分析名词解释方差 文章分类 Python 后端开发

回归分析

这是一个回归分析的例子。这个数据集收集了200名高中生的各科成绩，包括science、math、reading 和social studies。变量female是一个二分类变量，1为女，0为男。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))

regress science math female socst read

      Source |       SS       df       MS              Number of obs =     200
-------------+------------------------------           F(  4,   195) =   46.69
       Model |  9543.72074     4  2385.93019           Prob > F      =  0.0000
    Residual |  9963.77926   195  51.0963039           R-squared     =  0.4892
-------------+------------------------------           Adj R-squared =  0.4788
       Total |     19507.5   199  98.0276382           Root MSE      =  7.1482

------------------------------------------------------------------------------
     science |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        math |   .3893102   .0741243     5.25   0.000      .243122    .5354983
      female |  -2.009765   1.022717    -1.97   0.051    -4.026772    .0072428
       socst |   .0498443    .062232     0.80   0.424    -.0728899    .1725784
        read |   .3352998   .0727788     4.61   0.000     .1917651    .4788345
       _cons |   12.32529   3.193557     3.86   0.000     6.026943    18.62364
------------------------------------------------------------------------------

方差分析表

Python 拐点检验拐点分析stata_方差

A.Source –这是方差，模型，残差，总计的来源。总方差被划分为可以用自变量解释的方差部分（模型）和无法用自变量解释的部分（残差）。

B.SS这些是与三个方差源相关的平方和，即总方差（Total）、模型方差（Model）和残差方差（Residual）。这些可以用许多方法计算。从概念上讲，这些公式可以表示为：

SSTotlal 与均值的偏差的平方和。\(\sum{(Y-\overline Y)}^2\)
SSResidual 与预测值偏差的平方和。\(\sum{(Y-\widehat Y)}^2\)
SSModel 通过使用Y的预测值而不仅仅是使用Y的平均值进行预测估计。因此此项数据相当于Y的预测值与平均值之间的平方差异。\(\sum{(\overline Y - \widehat Y)}^2\)

同时，可以从另外一个角度去看，\(SSModel = SSTotal – SSResidual\),另外，发现\(SSModel / SSTotal =0.4892\)与\(R-squared\)的数值一致。\(R-squared\)为自变量解释的方差比例，因此\(R-squared\)可以通过\(SSModel / SSTotal\)计算。

C.DF这些是与方差来源相关的自由度。总方差具有N-1个自由度。在这个例子总，样本为200，自由度即为\(200-1=199\)。模型自由度为预测变量数\(K-1\)，次模型预测变量为4个独立变量（math, female, socst 和 read）和1个常数项（即截距，进行回归的时候可以选择没有截距），则模型的自由度为\(4+1-1=4\)，剩余的自由度为\(199-4=195\)。

D.MS此为均方，是平方和除以各自的自由度（DF）。对于模型来说，\(9543.72 / 4 = 2385.93\)；对于残差来说，\(9963.78 / 195 = 51.096\)。这些数都是通过计算得到的，并由此可以计算\(F\)比，来测试模型中预测变量的显著性。

整体模型拟合

Python 拐点检验拐点分析stata_stata_02

E.Number of obs – 分析涉及对象个数。

F. F和Prob > F – \(F =MSModel/MSResidual=46.69\)。与这个\(F\)值关联的\(P\)值非常小\((0.0000)\)。将\(P\)值与\(\alpha\)值\((0.01;0.05;0.1)\)比较，通常情况下与\(0.05\)相比较，如果\(P\)值小于\(0.05\)，说明自变量组与因变量之间在统计上的显著关系，这组自变量可以用来对因变量进行可靠的预测。需要注意的是，这个\(P\)值代表的是一组自变量整体与因变量的显著关系，单个自变量与因变量的显著关系以及预测能力将在下表阐述。

G.R-squared–R方是可以从自变量（math, female, socst 和read）中预测的因变量（science）的方差比例。这个数值表明\(48.92\%\)的science分数方差可以通过变量math，female，socst和read来预测。需要注意的是，这个也是对关联强度的整体度量，并不反映某个独特的自变量与因变量的关联程度。

H.Adj R-squared –调整后的R方。预测变量添加到模型中会提高自变量解释因变量的能力。即便是R方的增加只是源自样本的偶然变化。调整后的R方目的在于产生一个更真实的估计结果，采用公式\(1-\frac{(1-R_sq)(N-1)}{(N-k-1)}\)来计算，从公式本身看，观测数据越少、自变量越多时R方与调整后的R方差别越大。

i. Root MSE-误差的标准差，是均方残差（或者误差）的平方根。

参数估计

Python 拐点检验拐点分析stata_回归分析_03

J.scicence-这一栏显示的是顶部的因变量（science）和下边的预测变量（math，female，cocst，read和常数项）。最后一个变量（cons）是常数项，在几何意义上是Y的截距，是拟合的回归线与y轴的交点。

K.Coef.-项的系数，即拟合的回归方程预测变量的系数。预测的回归方程可展示如下：

\[Y_{predicted}=b_0+b_1*x_1+b_2*x_2+b_3*x_3+b_4*x_4 \]

在本例中，预测的回归方程如下：

\[science_{predicted}=12.32529+.3893102*math + -2.009765*female+.0498443*socst+.3352998*read \]

预测的回归方程表明，方程中任一项自变量的增加1的单位，预测因变量就会有相对应系数的增加量。但需要注意的时候，需要参考P值，来判断自变量是否显著。

L.Std. Err.是与系数有关的标准误差。标准误差是用来测试参数是否与0 有显著差异。具体的方法是用参数估计值除以标准误差，会得到一个t值。标准误差也可以用来生成系数的置信区间。

M.t and P>|t|-这两个列代表的是t值和双尾检验的P值，是用于检验零假设系数为0的假设。在双尾检验中，需要预设\(\alpha\)值，然后将P值与\(\alpha\)值比较，当P值比\(\alpha\)值小的时候，对应的系数具有统计学意义。在此案例中，socst的p值为0.424明显大于预设的0.05，所以此系数不具有统计学上的意义，故不显著。

N. [95% Conf. Interval]-95%置信区间。这个置信区间代表的是估计的系数的范围，置信区间与P值有一定的关联，如果置信区间包含0，说明对应的系数在统计学意义上不显著。例如socst的置信区间为[-0.073,0.173]，包含0，同时P值为0.424明显大于预设的0.05。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。