简单线性回归模型用于分析1个自变量对1个因变量的影响,或者说是由1个自变量预测1个因变量。但是事物间的联系往往是多方面的,因变量的变化往往不是由单个自变量的变化造成的。

探索多个自变量对1个因变量的影响时,可以采用:多重线性回归分析。

适用条件与简单线性回归分析类似,包括:线性趋势、独立性、正态性、方差齐性。

但是对样本量有要求,样本量太少时,可能会出现检验效能不足,回归结果可靠性降低等问题。一般要求样本量要超过自变量数的20倍。


案例:根据多个步态指标预测老年人动态平衡能力

实验对象:60岁左右的老年人。

测试内容:老年人平衡分数,以及步态指标。

· 时间类指标:双支撑时间、单支撑时间。

· 空间类指标:步长、步向角、左右侧COP、前后侧COP。

研究目的:根据步态参数预测老年人平衡能力。

本次分析目的:采用多个步态指标预测老年人的动态平衡能力

部分数据:




python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_线性回归

图1



1.SPSS步骤:

1)分析-回归-线性




python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_特征值_02

图2



2)"动态平衡得分"选入"因变量";"步长、步向角、左右测COP、前后侧COP、双支撑时间、单支撑时间"选入"自变量"。




python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_线性回归_03

图3



3)按下图勾选。




python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_标准差_04

图4



2.结果




python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_spss非线性回归分析步骤_05

图5



图5给出了各指标的均值、标准差。




python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_特征值_06

图6



图6,共建立3个回归模型,同时给出了依次输入的变量,由于引入新变量后,原来模型中引入的自变量仍然有统计学意义,因此没有自变量被除去。




python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_spss非线性回归分析步骤_07

图7



(1)复相关系数R,表示模型中所有自变量与因变量之间的线性回归关系的密切程度。实际上是yi与估计值y^的简单线性回归系数。取值范围(0,1)。

复相关系数在评价多重线性回归模型优劣时存在不足,即使向模型中增加的变量没有统计学意义,R值仍会增大。

R值多大合适?不同的学科有不同的判断标准。社会科学类研究一般要求大于0.4,自然科学一般要求大于0.8。

(2)决定系数R2,表示因变量y的总变异可由回归模型中自变量解释的部分所占比例。

(3)调整后的决定系数R2adj。即使向模型中增加的变量没有统计学意义,R2值仍会增大,因此需要对其调整,形成调整后的决定系数R2adj。当模型中增加没有统计学意义的变量时,R2adj会变小,因此,R2adj是衡量模型好坏的重要指标之一。R2adj越大,模型的效果越好。

案例模型的R2adj=0.768,模型效果较好。




python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_标准差_08

图8



回归模型的方差分析结果显示,三个模型的P值均小于0.05,说明回归模型有统计学意义。

剩余标准差是误差均方的算术平方根,反映建立的模型预测因变量的精度。剩余标准差越小,模型的预测效果就越好。




python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_特征值_09


python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_特征值_10

图9


给出了各模型自变量的偏回归系数估计值、标准化后的偏回归系数,以及回归系数的显著性检验结果。回归方程:


python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_线性回归_11


标准化偏回归系数:由于不同自变量的偏回归系数的量纲不同,需要比较各自变量对因变量影响程度时,无法根据偏回归系数值的大小直接进行比较。标准化偏回归系数是偏回归系数标准化的结果,排除了量纲和自变量离散程度差异的影响,可以根据绝对值的大小判断自变量的重要程度。

标准化偏回归系数分别为0.780,0.708,-0.233。


多重共线性。

多重共线性指自变量间存在线性相关关系,也就是一个自变量可以用其他一个或几个自变量的线性表达式进行表示。存在多重共线性时,模型可能会有以下表现:

(1)模型检验结果为P≤α,但是各自变量的偏回归系数的检验结果却为P>α。

(2)专业上认为应该有统计学意义自变量检验结果却无统计学意义。

(3)自变量的偏回归系数的取值大小甚至符号明显与实际情况相违背,难以解释。

(4)增加或删除一个自变量或一个案例,自变量偏回归系数发生较大变化。

以上情况使回归模型,特别是其中的回归系数难以有合乎专业知识的解释。

要强调的是,多重共线性的存在不一定必然影响模型的使用价值。理论上,共线性不应当降低模型的预测效果,主要影响的是偏回归系数,导致模型无法用专业知识解释。

多重共线性的识别

(1)容忍度(tolerance)。某自变量的容忍度等于1减去以该自变量为因变量,以模型中其他自变量为自变量的线性回归模型的决定系数。容忍度越小,多重共线性就越严重。一般容忍度小于0.1时,认为存在严重的多重共线性。

案例中的容忍度都偏大,说明不存在多重共线性(图9) 。

(2)方差膨胀因子(VIF),容忍度的倒数。VIF越大,多重共线性越严重。一般认为VIF要大于5或大于10时多重共线性较严重。

案例中的方差膨胀因子都不大于2,进一步说明模型不存在多重共线性(图9) 。

(3)特征值。对模型所有常数项及所有自变量提取主成分,如果自变量间存在较强的线性相关关系,则前面几个主成分特征值偏大,后面的主成分特征值偏小,甚至接近0。

(4)条件指数。为最大主成分特征值与当前主成分特征值比值的算术平方根。所以第1个主成分的条件指数为1,如果条件指数偏大(如大于30),则存在多重共线性。

(5)变异构成。回归模型中各项(包括常数项)的变异能够被主成分解释的比例,或者说各主成分对模型中各项的贡献。如果某个主成分同时对两个或多个自变量的贡献都比较大,则说明这几个自变量间存在一定程度的共线性。


python计算人口老龄化对医疗保险支出的回归 spss人口老龄化分析_spss非线性回归分析步骤_12



多重共线性的处理

(1)逐步回归法。只能在一定程度上解决多重共线性问题。

(2)岭回归。能有效解决。

(3)主成分回归。从存在多重共线性的自变量中提取主成分,然后将特征根较大的(如大于1)几个主成分与其他自变量一起进行多重线性回归,得出主成分回归系数,再根据主成分表达式反推出原始自变量的参数估计值。代价是提取主成分时丢失了一部分信息,收益是大大降低了共线性对参数估计值的扭曲,而且多重共线性越强,主成分丢失的信息越少,越适合做主成分回归。