多元线性回归知识总结

模型:

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x

   (i=1,...,n)

其中

stats回归不包含x 为什么stata回归后没有f值_方差分析_02

为个体i的第k个解释变量(共有n个个体,k个解释变量)。

由于绝大多数回归方程都有常数项,故

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x_03

(恒为1)。

拟合优度:

stats回归不包含x 为什么stata回归后没有f值_方差分析_04

(可决系数) 

stats回归不包含x 为什么stata回归后没有f值_开发语言_05

 ,

stats回归不包含x 为什么stata回归后没有f值_方差分析_04

越大,样本回归线对数据的拟合效果越好。

拟合优度的缺点:如果解释变量的数目增加时,则

stats回归不包含x 为什么stata回归后没有f值_方差分析_04

只增不减,因为至少可以让新增解释变量的系数为0而保持

stats回归不包含x 为什么stata回归后没有f值_方差分析_04

不变。为此引入校正拟合优度。

校正拟合优度:

stats回归不包含x 为什么stata回归后没有f值_开发语言_09

(对解释变量过多进行惩罚)

对线性假设的F检验(又称联合显著检验)

目的:整个回归方程是否显著,即除常数项之外,所有回归系数是否都为0。

原假设H0: 

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x_10

F检验方法(一):

  1. 计算显著水平下的临界值,其中m为线性假设的个数,n为总个体数,k为解释变量的个数,的定义为;
  2. Stata中给出F,若F<,即落入左边接受域(接受原假设),反之落入右边拒绝域(拒绝原假设)。

 F检验方法(二):

利用stata中给出的p值

这里要明确p值的意义:原假设可被拒绝的最小显著性水平为此假设检验问题的p值。

 若p>

stats回归不包含x 为什么stata回归后没有f值_开发语言_11

 ,则说明原假设可被拒绝的最小显著性水平大于选定的显著性水平

stats回归不包含x 为什么stata回归后没有f值_开发语言_11

或者默认的0.05,故可以接受原假设;

 若p<

stats回归不包含x 为什么stata回归后没有f值_开发语言_11

 ,则说明原假设可被拒绝的最小显著性水平小于 选定的显著性水平

stats回归不包含x 为什么stata回归后没有f值_开发语言_11

或者默认的0.05,故拒绝原假设。

 实例练习

stats回归不包含x 为什么stata回归后没有f值_方差分析_15

 先打开数据集,输入命令d来查看数据的一些信息

stats回归不包含x 为什么stata回归后没有f值_线性回归_16

  

 (1)stata命令: reg airq vala rain coast density income

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x_17

 (上表各项的含义要掌握!!!)

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x_18

回归结果:

stats回归不包含x 为什么stata回归后没有f值_线性回归_19

 

(2) 检验原假设“平均收入对空气质量没有影响”

H0=

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x_20

stata命令:test income=0

stats回归不包含x 为什么stata回归后没有f值_拟合_21

用上述两种方法检验:(

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x_22

stats回归不包含x 为什么stata回归后没有f值_拟合_23

 =4.26,由于F值0.43<4.26,落入接受域,故接受原假设H0,即平均收入对空气质量没有影响。

p值0.5205>0.05,接受原假设,即平均收入对空气质量没有影响。

(3) 上面的知识回顾中有介绍F检验又称联合显著性检验。

检验density和income的联合显著性,即H0: 

stats回归不包含x 为什么stata回归后没有f值_方差分析_24

 

stata命令: test density income

stats回归不包含x 为什么stata回归后没有f值_方差分析_25

 

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x_22

 

stats回归不包含x 为什么stata回归后没有f值_开发语言_27

为 3.40,F值0.38<3.40,落入左侧接受域,接受原假设,即空气质量指数airq与density和income无关。

p值0.6857大于0.05,接受原假设,即空气质量指数airq与density和income无关。

(4) 检验coast和rain的联合显著性,即H0: 

stats回归不包含x 为什么stata回归后没有f值_开发语言_28

stata命令: test rain coast

stats回归不包含x 为什么stata回归后没有f值_开发语言_29

 

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x_22

stats回归不包含x 为什么stata回归后没有f值_开发语言_27

 为3.40,F值5.12>3.40,落入右侧拒绝域,拒绝原假设,即空气质量指数airq与rain和coast都有关。

 p值0.0141小于0.05,拒绝原假设,即空气质量指数airq与rain和coast都有关。 

(5)所有解释变量的联合显著性检验就是第(1)问方差分析图右上角圈起来的部分

也可再次使用test vala rain coast density income命令

stats回归不包含x 为什么stata回归后没有f值_线性回归_32

 

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x_22

stats回归不包含x 为什么stata回归后没有f值_stats回归不包含x_34

 为2.62 ,F值2.98大于2.62,落入拒绝域,拒绝原假设,即airq与vala、rain、coast、density、income都有关系。

p值0.0313小于0.05,拒绝原假设,即airq与vala、rain、coast、density、income都有关系。

stats回归不包含x 为什么stata回归后没有f值_方差分析_35

 

 (1)stata命令: reg y competitors pop income

stats回归不包含x 为什么stata回归后没有f值_方差分析_36

回归结果 :

stats回归不包含x 为什么stata回归后没有f值_开发语言_37

 (2)由第一问的方差分析表可知拟合优度为0.6182(越接近1,拟合效果越佳),该模型

stats回归不包含x 为什么stata回归后没有f值_开发语言_37

 可以较好的拟合已知数据。

competitors变量的p值为0,小于0.05,拒绝

stats回归不包含x 为什么stata回归后没有f值_开发语言_39

的假设,即competitors对y是有反向影响的。

pop变量的p值为0,小于0.05,拒绝

stats回归不包含x 为什么stata回归后没有f值_线性回归_40

,即pop对y有影响。

income变量的p值为0.025,小于0.05,拒绝

stats回归不包含x 为什么stata回归后没有f值_线性回归_40

,即pop对y有影响。

(3)由回归系数可知,competitors对y毛销售收入有较强的反向影响 ,pop的系数小于1,income的系数大于1,故三英里居民人数pop对y的影响远小于三英里家庭平均收入。在选址时,应优先选择周围竞争者少的,然后考虑三英里内家庭平均收入(选income大的),在兼顾以上两个主要因素后,最后考虑pop三公里居民人数。