- 参见
- 简介
- 流程
- 模型假设
- 关于回归模型ybeta_0beta_1xbeta_2xbeta_pepsilon的误差项epsilon的假设
- 检验方法
- 残差分析
- 异常值判断标准
- 正太性判断标准
- 回归方程总体显著性检验
- 系数显著性检验
- 预测
- 示例及分析
- matlab进行回归分析及预测
- 线性回归
- 残差分析
- 预测值置信区间计算
- SPSS进行回归分析及预测
参见
- 利用spss进行线性回归分析
- MATLAB预测之回归分析
- 线性回归基本假设
简介
线性回归分析是基于一系列对残差的假设而进行的回归过程,因此只得到回归方程并不是完整的回归分析,还需要进行一系列的分析和有效性检验:残差分析(P-P图)、拟合优度检验(R)、回归方程显著性检验(F检验)、回归系数显著性检验(t检验)等。如果有不能通过的假设项,我们需要删除异常值、筛选变量等方法重新建立模型。
流程
Created with Raphaël 2.1.0 模型假定 简单线性拟合 残差分析 方程显著性(F检验) 系数显著性(t检验) 预测 Mean(yes),individual(no) 平均值预测值及区间 点预测值及区间 yes no yes no yes no yes no
模型假设
关于回归模型y=β0+β1x+β2x+...+βp+ϵ的误差项ϵ的假设:
- 随机误差服从均值为0;
- 随机误差方差一致;
- 随机误差相互独立;
- 随机误差是正太分布的随机变量;
基于上述假设,回归模型可以简化为y=β0+β1x+β2x+...+βp
检验方法
残差分析
异常值判断标准
- 残差图(matlab中residual case order plot,残差-case number图):残差区间线段在残差零点间较均匀分布;
正太性判断标准
- 标准化残差图(standardized residual,标准化残差-x图):大约有95%的标准化残差在-2~+2区间
- 正太概率图(normal probability plot,标准化残差-正太分数图):较多的点聚集在45°直线附近
回归方程总体显著性检验
总体显著性的F检验
原假设H0:β1=β2=...=βp=0
备择假设Ha:至少有一个参数不为0拒绝法则
p-Value≤α,则拒绝H0,得出结论:y与x1,x2,...xp之间存在一个显著关系。
系数显著性检验
单个系数显著性的t检验
对于任意参数βi
原假设H0:βi=0
备择假设Ha:βi≠0
拒绝法则
p-Value≤α,则拒绝H0,得出结论:βi在统计上是显著的。
预测
得到估计的回归方程后,可以进行估计和预测y值置信区间。
y的平均值的置信区间
y的一个个别值的置信区间
示例及分析
matlab进行回归分析及预测
线性回归
- regress:输入变量y、x及α,输出系数阵b及置信区间bint,残差阵r及置信区间rint,统计信息stats(R2、F检验结果、t检验结果)
- polyfit:polyfit输入变量x,y及n,输出系数矩阵p及误差项S;
残差分析
- rcoplot:输入残差阵r及置信区间rint,输出残差图
预测值置信区间计算
- polyval:polyval输入p、S,预测y的置信区间为y±DETA;
- polyconf:输入p、S,得到y的置信区间为y±DETA;
结合上述matlab方法,以regress+rcoplot进行回归分析,polyfit(没办法?)+polyconf进行预测。
eg1:
品牌重量价格FF517.82100PP16.16250OOG14.98370EME17.24000BRU13.18600BU15.96200CST16.26000GTA17.12580WTGT17.63400SSAT14.18000
建立一个估计的回归方程,并评价拟合优度,估计重量为15时的价格;
%%散点观测
x=[17.8,16.1,14.9,15.9,17.2,13.1,16.2,17.1,17.6,14.1];
y=[2100,6250,8370,6200,4000,8600,6000,2580,3400,8000];
scatter(x,y);
X=[ones(size(x,2),1),x'];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,X,alpha);%%观察stats,判断优度、方程总体显著性及方程系数显著性
rcoplot(r,rint);%观察残差分布,检出异常值
[p,S]=polyfit(x,y,1);
[Y,Deta]=polyconf(p,X,S);%Y±Deta即为预测值置信区间;
SPSS进行回归分析及预测
- 利用SPSS分析工具(线性回归)对原始数据进行分析:
- 设置自变量和应变量
- 添加正太概率分布图
- 设置均值、单一y值置信区间计算
- 获得拟合优度R2和ANOVA表中F检验对应p-Value
- 获得残差概率分布图
- 新增列分别为平均值的置信区间上下限、单一y值的置信区间上下限