多元线性回归知识总结
模型:(i=1,...,n)
其中为个体i的第k个解释变量(共有n个个体,k个解释变量)。
由于绝大多数回归方程都有常数项,故(恒为1)。
拟合优度:(可决系数)
,
越大,样本回归线对数据的拟合效果越好。
拟合优度的缺点:如果解释变量的数目增加时,则只增不减,因为至少可以让新增解释变量的系数为0而保持
不变。为此引入校正拟合优度。
校正拟合优度:(对解释变量过多进行惩罚)
对线性假设的F检验(又称联合显著检验)
目的:整个回归方程是否显著,即除常数项之外,所有回归系数是否都为0。
原假设H0:F检验方法(一):
- 计算显著水平下的临界值,其中m为线性假设的个数,n为总个体数,k为解释变量的个数,的定义为;
- Stata中给出F,若F<,即落入左边接受域(接受原假设),反之落入右边拒绝域(拒绝原假设)。
F检验方法(二):
利用stata中给出的p值
这里要明确p值的意义:原假设可被拒绝的最小显著性水平为此假设检验问题的p值。
若p>,则说明原假设可被拒绝的最小显著性水平大于选定的显著性水平
或者默认的0.05,故可以接受原假设;
若p<,则说明原假设可被拒绝的最小显著性水平小于 选定的显著性水平
或者默认的0.05,故拒绝原假设。
实例练习
先打开数据集,输入命令d来查看数据的一些信息
(1)stata命令: reg airq vala rain coast density income
(上表各项的含义要掌握!!!)
回归结果:
(2) 检验原假设“平均收入对空气质量没有影响”
H0=stata命令:test income=0
用上述两种方法检验:()
=4.26,由于F值0.43<4.26,落入接受域,故接受原假设H0,即平均收入对空气质量没有影响。
p值0.5205>0.05,接受原假设,即平均收入对空气质量没有影响。
(3) 上面的知识回顾中有介绍F检验又称联合显著性检验。
检验density和income的联合显著性,即H0:
stata命令: test density income
为 3.40,F值0.38<3.40,落入左侧接受域,接受原假设,即空气质量指数airq与density和income无关。
p值0.6857大于0.05,接受原假设,即空气质量指数airq与density和income无关。
(4) 检验coast和rain的联合显著性,即H0:stata命令: test rain coast
为3.40,F值5.12>3.40,落入右侧拒绝域,拒绝原假设,即空气质量指数airq与rain和coast都有关。
p值0.0141小于0.05,拒绝原假设,即空气质量指数airq与rain和coast都有关。
(5)所有解释变量的联合显著性检验就是第(1)问方差分析图右上角圈起来的部分
也可再次使用test vala rain coast density income命令
为2.62 ,F值2.98大于2.62,落入拒绝域,拒绝原假设,即airq与vala、rain、coast、density、income都有关系。
p值0.0313小于0.05,拒绝原假设,即airq与vala、rain、coast、density、income都有关系。
(1)stata命令: reg y competitors pop income
回归结果 :
(2)由第一问的方差分析表可知拟合优度为0.6182(越接近1,拟合效果越佳),该模型
可以较好的拟合已知数据。
competitors变量的p值为0,小于0.05,拒绝
的假设,即competitors对y是有反向影响的。
pop变量的p值为0,小于0.05,拒绝
,即pop对y有影响。
income变量的p值为0.025,小于0.05,拒绝
,即pop对y有影响。
(3)由回归系数可知,competitors对y毛销售收入有较强的反向影响 ,pop的系数小于1,income的系数大于1,故三英里居民人数pop对y的影响远小于三英里家庭平均收入。在选址时,应优先选择周围竞争者少的,然后考虑三英里内家庭平均收入(选income大的),在兼顾以上两个主要因素后,最后考虑pop三公里居民人数。