回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。

多元回归分析的由来: 在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互相作用的关系。 在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更好。

逐步回归法:逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。

依据上述思想,可利用逐步回归筛选并剔除引起多重共线性的变量。

其具体步骤如下

python多元逐步回归 拟合 预测 多元逐步回归分析步骤_线性回归

可以解决的实际问题

  1. 收入水平与受教育程度、所在行业、工作 年限、工作种类的关系。
  2. 公路客运量与人口增长量、私家车保有量、 国民生产总值、国民收入、工农业总产值、 基本建设投资额、城乡居民储蓄额、铁路 和水运客运量等因素的关系。

Q:以陕西省长武地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例, 建立蚜传病毒病情指数的逐步回归模型, 说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情指数影响显著的因子,从而建立相应的模型。

python多元逐步回归 拟合 预测 多元逐步回归分析步骤_数学建模_02

 

以excel文件的形式导入spss

此时的年份作为label,x1作为因变量,其他因素作为自变量(按住shift同时拉入多个因素)。

【分析】-【回归】-【线性】-【方法】步进【选项】设置F-enter and F-remove-【输出】

输入/除去的变量a

模型

输入的变量

除去的变量

方法

1

x16

.

步进(条件:要输入的 F 的概率 <= .150,要除去的 F 的概率 >= .200)。

2

x17

.

步进(条件:要输入的 F 的概率 <= .150,要除去的 F 的概率 >= .200)。

a. 因变量:x1

 

模型摘要c

模型

R

R 方

调整后 R 方

标准估算的错误

德宾-沃森

1

.762a

.581

.539

22.08153

 

2

.844b

.713

.649

19.26609

2.313

a. 预测变量:(常量), x16

b. 预测变量:(常量), x16, x17

c. 因变量:x1

 

ANOVAa

模型

平方和

自由度

均方

F

显著性

1

回归

6760.381

1

6760.381

13.865

.004b

残差

4875.941

10

487.594

 

 

总计

11636.322

11

 

 

 

2

回归

8295.681

2

4147.841

11.175

.004c

残差

3340.641

9

371.182

 

 

总计

11636.322

11

 

 

 

a. 因变量:x1

b. 预测变量:(常量), x16

c. 预测变量:(常量), x16, x17

此时的两个模型则分别是对应x16以及x16、x17为变量的线性回归方程。

 

系数a

模型

未标准化系数

标准化系数

t

显著性

B

标准错误

Beta

1

(常量)

-16.055

9.917

 

-1.619

.137

x16

.985

.265

.762

3.724

.004

2

(常量)

-33.139

12.059

 

-2.748

.023

x16

.753

.257

.583

2.924

.017

x17

.257

.126

.405

2.034

.072

a. 因变量:x1

第一步对x16做简单线性回归:y = 0.985x16-16.005

第二步对x16、x17做线性回归:y = 0.753x16+0.257x17-33.139

 

排除的变量a

模型

输入 Beta

t

显著性

偏相关

共线性统计

容差

1

x2

-.132b

-.584

.573

-.191

.881

x3

-.028b

-.127

.902

-.042

.942

x4

-.027b

-.125

.903

-.042

.997

x5

-.050b

-.203

.844

-.068

.751

x6

.024b

.113

.913

.038

.999

x7

-.033b

-.133

.897

-.044

.744

x8

.213b

1.037

.327

.327

.985

x9

-.030b

-.132

.898

-.044

.901

x10

.130b

.609

.558

.199

.979

x11

.200b

.953

.365

.303

.957

x12

-.121b

-.560

.589

-.183

.963

x13

.095b

.438

.672

.144

.978

x14

.225b

1.020

.334

.322

.856

x15

-.137b

-.648

.533

-.211

.992

x17

.405b

2.034

.072

.561

.803

x18

.302b

1.192

.264

.369

.626

x19

-.327b

-1.754

.113

-.505

.999

x20

-.132b

-.623

.549

-.203

.988

x21

-.353b

-1.632

.137

-.478

.769

2

x2

-.085c

-.422

.684

-.148

.868

x3

-.038c

-.197

.849

-.069

.941

x4

-.103c

-.544

.601

-.189

.958

x5

-.026c

-.119

.909

-.042

.749

x6

.006c

.030

.976

.011

.996

x7

.059c

.265

.798

.093

.710

x8

.238c

1.383

.204

.439

.981

x9

-.094c

-.473

.649

-.165

.877

x10

.225c

1.252

.246

.405

.928

x11

.184c

1.007

.344

.335

.955

x12

.016c

.076

.941

.027

.836

x13

.080c

.424

.683

.148

.976

x14

.067c

.294

.776

.103

.693

x15

-.139c

-.754

.473

-.257

.992

x18

.231c

1.010

.342

.336

.608

x19

-.168c

-.728

.487

-.249

.631

x20

.007c

.032

.975

.011

.847

x21

-.230c

-1.056

.322

-.350

.662

a. 因变量:x1

b. 模型中的预测变量:(常量), x16

c. 模型中的预测变量:(常量), x16, x17

 

残差统计a

 

最小值

最大值

平均值

标准偏差

个案数

预测值

-13.3111

85.9252

12.2325

27.46184

12

残差

-31.99095

28.60478

.00000

17.42684

12

标准预测值

-.930

2.683

.000

1.000

12

标准残差

-1.660

1.485

.000

.905

12

a. 因变量:x1

最终得出:

python多元逐步回归 拟合 预测 多元逐步回归分析步骤_python多元逐步回归 拟合 预测_03