• 参见
  • 简介
  • 流程
  • 模型假设
  • 关于回归模型ybeta_0beta_1xbeta_2xbeta_pepsilon的误差项epsilon的假设
  • 检验方法
  • 残差分析
  • 异常值判断标准
  • 正太性判断标准
  • 回归方程总体显著性检验
  • 系数显著性检验
  • 预测
  • 示例及分析
  • matlab进行回归分析及预测
  • 线性回归
  • 残差分析
  • 预测值置信区间计算
  • SPSS进行回归分析及预测


参见

  • 利用spss进行线性回归分析
  • MATLAB预测之回归分析
  • 线性回归基本假设

简介

线性回归分析是基于一系列对残差的假设而进行的回归过程,因此只得到回归方程并不是完整的回归分析,还需要进行一系列的分析和有效性检验:残差分析(P-P图)、拟合优度检验(R)、回归方程显著性检验(F检验)、回归系数显著性检验(t检验)等。如果有不能通过的假设项,我们需要删除异常值、筛选变量等方法重新建立模型。

流程


Created with Raphaël 2.1.0 模型假定 简单线性拟合 残差分析 方程显著性(F检验) 系数显著性(t检验) 预测 Mean(yes),individual(no) 平均值预测值及区间 点预测值及区间 yes no yes no yes no yes no


模型假设

关于回归模型y=β0+β1x+β2x+...+βp+ϵ的误差项ϵ的假设:

  • 随机误差服从均值为0;
  • 随机误差方差一致;
  • 随机误差相互独立;
  • 随机误差是正太分布的随机变量;
    基于上述假设,回归模型可以简化为y=β0+β1x+β2x+...+βp

检验方法

残差分析

异常值判断标准
  • 残差图(matlab中residual case order plot,残差-case number图):残差区间线段在残差零点间较均匀分布;
正太性判断标准
  • 标准化残差图(standardized residual,标准化残差-x图):大约有95%的标准化残差在-2~+2区间
  • 正太概率图(normal probability plot,标准化残差-正太分数图):较多的点聚集在45°直线附近

回归方程总体显著性检验

总体显著性的F检验
原假设H0:β1=β2=...=βp=0
备择假设Ha:至少有一个参数不为0

拒绝法则
p-Value≤α,则拒绝H0,得出结论:y与x1,x2,...xp之间存在一个显著关系。

系数显著性检验

单个系数显著性的t检验
对于任意参数βi
原假设H0:βi=0
备择假设Ha:βi≠0
拒绝法则
p-Value≤α,则拒绝H0,得出结论:βi在统计上是显著的。

预测

得到估计的回归方程后,可以进行估计和预测y值置信区间。

y的平均值的置信区间
y的一个个别值的置信区间

示例及分析

matlab进行回归分析及预测

线性回归
  • regress:输入变量y、x及α,输出系数阵b及置信区间bint,残差阵r及置信区间rint,统计信息stats(R2、F检验结果、t检验结果)
  • polyfit:polyfit输入变量x,y及n,输出系数矩阵p及误差项S;
残差分析
  • rcoplot:输入残差阵r及置信区间rint,输出残差图
预测值置信区间计算
  • polyval:polyval输入p、S,预测y的置信区间为y±DETA;
  • polyconf:输入p、S,得到y的置信区间为y±DETA;

结合上述matlab方法,以regress+rcoplot进行回归分析,polyfit(没办法?)+polyconf进行预测。

eg1:

品牌重量价格FF517.82100PP16.16250OOG14.98370EME17.24000BRU13.18600BU15.96200CST16.26000GTA17.12580WTGT17.63400SSAT14.18000

建立一个估计的回归方程,并评价拟合优度,估计重量为15时的价格;

%%散点观测
x=[17.8,16.1,14.9,15.9,17.2,13.1,16.2,17.1,17.6,14.1];
y=[2100,6250,8370,6200,4000,8600,6000,2580,3400,8000];
scatter(x,y);
X=[ones(size(x,2),1),x'];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,X,alpha);%%观察stats,判断优度、方程总体显著性及方程系数显著性
rcoplot(r,rint);%观察残差分布,检出异常值

[p,S]=polyfit(x,y,1);
[Y,Deta]=polyconf(p,X,S);%Y±Deta即为预测值置信区间;

SPSS进行回归分析及预测

  1. 利用SPSS分析工具(线性回归)对原始数据进行分析:
  1. 设置自变量和应变量
  2. 添加正太概率分布图
  3. 设置均值、单一y值置信区间计算
  4. 获得拟合优度R2和ANOVA表中F检验对应p-Value
  5. 获得残差概率分布图
  6. 新增列分别为平均值的置信区间上下限、单一y值的置信区间上下限