SPSS多元线性回归

在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际,因此多元线性回归被广泛运用。今天大家一起来学习吧!

案例阐述



python多元回归模型近似预测区间 多元回归预测spss_数据


养分含量与产量的回归分析

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归模型_02

土壤和植被养分是作物产量的重要影响因素。为探讨土壤和叶片养分元素含量对作物产量的影响,一项研究测定了某区域30个样地的作物产量、土壤pH值、有机质含量(SOM)、碱解氮含量(SAN)、速效磷含量(SAP)和叶片氮含量(STN)及磷含量(STP),部分数据如下:

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归数据_03

注:表中数据均为随机生成,不可他用。

该研究想建立变量(pH、SOM、SAN等)与产量之间的回归方程,此时我们可以考虑采用多元线性回归分析。



python多元回归模型近似预测区间 多元回归预测spss_数据


数据分析

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归模型_02

值得注意的是,多元线性回归分析需要数据满足以下4个假设:

(1)需要至少2个自变量,且自变量之间互相独立(本次6个);

(2)因变量为为连续变量(本案例产量为连续变量);

(3)数据具有方差齐性、无异常值和正态分布的特点(检验方法);

(4)自变量间不存在多重共线性。

前2个假设可根据试验设计直接判断;假设(3)的检验在之前的教程中已有呈现,点击“检验方法”即可查看。

关于假设(4)的检验方法如下:

1. 点击 分析 → 回归 → 线性。

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归matlab代码_06

2.将pH等自变量选入自变量框,将产量选入因变量框,点击统计。

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归模型_07

3.在统计窗口选择共线性诊断,点击继续,然后再主页面点击确定即可。

python多元回归模型近似预测区间 多元回归预测spss_数据_08

4.结果判断:在结果中我们关注系数表即可,当VIF值大于等于10时,我们认为变量间存在严重的共线性,当VIF值小于10时,我们认为数据基本符合多元线性分析的假设(4),即不存在多重共线性问题。

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归数据_09

因此,本案例数据均满足以上4个假设,可以进行多元线性回归的运算。

SPSS分析步骤


一、准备工作

SPSS软件(我使用的是IBM SPSS Statistics 25 中文版,其实各个版本格局上都是相似的,如果大家需要我的版本可以直接点击(安装包)下载;Excel数据整理。

 

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归模型_10


二、分析数据

1. 点击 分析 → 回归 → 线性

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归matlab代码_11

2.将pH等自变量选入自变量框,将产量选入因变量框,点击统计。

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归模型_07

3.在统计界面勾选如下选项,点击继续

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归模型_13

4.点击主页面的保存,然后在新窗口中勾选如下选项,然后点击继续。

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归matlab代码_14

5.点击主页面中的“确定”即可得到分析结果。

python多元回归模型近似预测区间 多元回归预测spss_数据_15

结果阐述


一、描述性统计结果

这是对各变量数据的简单指标的描述,SPSS分别对各指标的数据求了平均值和标准偏差,并统计了每个组的数据个数。

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归模型_16


二、模型纳入变量表

输入/除去的变量:

我们可以从这个表中看到该研究的基本信息:(1) 输入的变量栏显示该研究纳入的自变量包括LTP、PH、SOM、SAP、SAN和LTN;(2) 方法栏显示纳入方法为输入(区别于逐步回归分析);(3) 该回归模型是模型1。

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归matlab代码_17


三、模型摘要

下表是本次回归模型的模型摘要表

(1)下表中R为多重相关系数,主要用于判断自变量和因变量的线性关系,同时也是回归模型的拟合程度指标,可做模型优度的参考指标;

(2)R方和调整后R方是指回归分析中因变量变异对自变量的解释度,一般我们采用调整后R方来衡量。本案例中可以解释为:土壤pH值等6项指标能解释产量变化的90.7%(0.907),这表明本案例中测定的土壤和叶片养分指标能较好的解释作物产量的变异,土壤和叶片养分含量对作物产量具有较高的影响强度。

python多元回归模型近似预测区间 多元回归预测spss_python多元回归模型近似预测区间_18


四、ANOVA表

此表是模型显著性的检验。

该表中F值=48.177,为F检验的结果;

P值<0.001,根据F值计算而来,P<0.05则表明提示因变量和自变量之间存在线性相关。

这个检验的零假设是多重相关系数R=0。如果P<0.05,就说明多重线性回归模型中至少有一个自变量的系数不为零。同时,回归模型有统计学意义也说明相较于空模型,纳入自变量有助于预测因变量;或说明该模型优于空模型。

python多元回归模型近似预测区间 多元回归预测spss_python多元回归模型近似预测区间_19


五、回归系数表

(1)此表为回归模型系数表:①为模型系数;②为标准化系数;③为变量在模型中的显著性检验;④为之前提到的共线性检验结果VIF值。

(2)本案例中我们的回归模型可以假设为:

产量 = B0(常量) + B1*PH + B2*SOM + B3*SAN + B4*SAP + B5*LTN + B6*LTP

(3)首先我们看各自变量在模型中的显著性检验结果。当P>0.05时,该自变量在本模型中没有统计学意义,应当在回归模型中删除相应变量;当P<0.05时该变量在模型中具有统计学意义,应当保留。

(4)本案例中仅SOM和LTP的显著性检验结果小于0.05,因此本案例的回归模型为:产量 = 27.188*SOM + 807.02*LTP

python多元回归模型近似预测区间 多元回归预测spss_多元线性回归模型_20


五、结果描述

本案例以土壤pH值、SOM、SAN、SAP含量和叶片LTN及LTP含量为自变量,笋产量为因变量进行多元线性回归分析。结果表明,回归模型具有显著的统计学意义(F=48.177,P<0.001),自变量能解释作物产量变化的90.7%,具有较高的解释度。显著性检验结果表明,SOM和LTP含量对作物产量的影响具有统计学意义(P<0.05,如下表)。

python多元回归模型近似预测区间 多元回归预测spss_python多元回归模型近似预测区间_21

当然,关于结果的论述大家还是要多看文献啦!这只是一个参考,希望大家进步多多!

END

本次教程就到这里,公众号还会持续更新有关SPSS数据分析与Excel、Wrod和PPT小技巧的教程,大家想先学习什么知识可以直接在公众号回复哦。