多元线性回归
1.估计系数(estimating coefficient)
选择Beta0,Beta1使残差平方和最小。
Bj 解释为在所有其他预测变量保持不变的情况下,Xj增加一个单位对Y产生的平均效果。
“在将温度变量纳入模型之后,同时用冰激凌销量和温度对鲨鱼攻击量建立多元回归模型,与直觉相符的结论才能产生出来,冰激凌销量这一预测变量变得不再显著”————解释了多元线性回归优于简单线性回归的原因。
2.假设检验:确定响应变量和预测变量是否相关
(1)零假设: H0: B1 = B2 = B3… = Bp = 0
(2)备择假设: Ha: 至少有一个Bj不为0
这个假设检验需要用到F统计量(F-statistic)。
当响应变量与预测变量无关,F统计量应该接近1;否则,F大于1.Q: 当F统计量更接近于1时,F需要多大才能拒绝H0?
补:若F统计量的p值几乎为零,则表明至少有一个广告变量与响应变量有关。
要判断某个预测变量是否与响应变量是否有关,不仅要看该预测变量对应的p值,(如果任意变量的p值很小,那么至少有一个预测变量与响应变量相关),还要看整体的F统计量*(因为当预测变量的数目很大的时候,必定会出现某个变元的p值<0.05)*。
3.选定重要变量
Q: 如何在诸多预测变量中,剔除与响应变量无关的变量,挑选出真正与预测变量相关的子集呢?(变量选择在第6章中有进一步研究)
4.模型拟合
衡量模型拟合优劣的指标是RSE和R^2(方差的解释比例)。
①R^2:
若假如新的预测变量x后,模型的 R ^2 较未加入变元x的 R ^2大幅增加,则表明加入后模型的预测能力更强。【应该注意的是,当更多的变量进入模型时,即使新加入的变量与响应变量的关联很弱, R^2也一定会增加】
若R^2值接近1,则表明该模型能解释响应变量的大部分方差。
②RSE:
若假如新的预测变量x后,模型的RSE 较未加入变元x的 RSE减少,则表明加入后模型的预测能力更强。
5.预测
置信区间: 确定 yh 与线性模型f(X)的接近程度。
置信区间说明 这个区间有95%的概率包括f(X)的真实值;
预测区间:
预测区间说明 这个区间有95%的概率包含预测响应变量Y。