数学建模回归预测题数学建模回归方程

转载

mob64ca14017c37 2024-03-18 07:19:36

文章标签 数学建模回归预测题数学建模数据拟合方差 文章分类 机器学习人工智能

数学建模之回归分析

应用场景
1. 建立回归模型

1.1 筛选变量

1.1.1 确定样本空间
1.1.2 对数据进行标准化处理
1.1.3 变量筛选
1.1.4 调整复判定系数

1.2 最小二乘估计

2. 回归模型假设检验
3. 回归参数假设检验和区间估计
4. 拟合效果分析

4.1 残差的样本方差(MSE)
4.2 判定系数（拟合优度）

5. 利用回归模型进行预测
其他

偏相关系数（净相关系数）
复共线性和有偏估计方法

小结

应用场景

简单地说，回归分析是对拟合问题做的一种统计分析。
P.S. 曲线拟合问题的特点是，根据得到的若干有关变量的一组数据，寻找因变量与（一个或几个）自变量之间一个函数，使这个函数对那组数据拟合得最好。通常。函数的形式可以由经验、先验知识或对数据的直接观察决定，要做的工作是由数据用最小二乘法计算函数中的待定系数。

具体地说，回归分析在一组数据的基础上研究以下问题：

建立因变量 $数学建模回归预测题数学建模回归方程_数学建模回归预测题$ 与自变量 $数学建模回归预测题数学建模回归方程_数据_02$ 之间的回归模型（经验公式）；
对回归模型的可信度进行检验；
判断每个自变量 $数学建模回归预测题数学建模回归方程_拟合_03$ 对 $数学建模回归预测题数学建模回归方程_数学建模回归预测题$ 的影响是否显著；
诊断回归模型是否适合这组数据；
利用回归模型对 $数学建模回归预测题数学建模回归方程_数学建模回归预测题$ 进行预报或控制。

1. 建立回归模型

1.1 筛选变量

1.1.1 确定样本空间

$数学建模回归预测题数学建模回归方程_数据_06$ 个变量，对它们分别进行了 $数学建模回归预测题数学建模回归方程_数据_07$ 次采样（或观测），得到 $数学建模回归预测题数学建模回归方程_数据_07$ 个样本点，
$数学建模回归预测题数学建模回归方程_数学建模回归预测题_09$
所构成的数据表可以写成一个 $数学建模回归预测题数学建模回归方程_数学建模回归预测题_10$ 维的矩阵。

1.1.2 对数据进行标准化处理

（1）数据的中心化处理
实际上就是平移变化，即 $数学建模回归预测题数学建模回归方程_数学建模_11$

这种处理，可以是样本的均值为 $数学建模回归预测题数学建模回归方程_拟合_12$ ，同时它既不改变样本点的相互位置，也不改变变量间的相关性，但变换后，有许多技术上的便利。
（2）数据的无量纲化处理
在实际问题中，不同变量的测量单位往往是不同的。
为了消除变量的量纲效应，使每个变量都具有同等的表现力，数据分析中常用的消量纲的方法，是对不同的变量进行所谓的压缩处理——使每个变量的方差为1
即， $数学建模回归预测题数学建模回归方程_拟合_13$

当然，也有其他消量纲的方法，此处不一一列举。
（3）数据的标准化处理——对数据同时进行“中心化-压缩”处理
即， $数学建模回归预测题数学建模回归方程_方差_14$

1.1.3 变量筛选

——选择哪些变量作为因变量的解释变量：

一方面，希望尽可能不遗漏重要的解释变量
一方面，遵循参数节省原则(自变量数目过大时，模型计算复杂，且往往会扩大估计方差，降低模型精度)，使自变量的个数尽可能少

（1）穷举法
列举出所有可能的潜在变量，再根据自变量的不同组合，选取合适的模型。
假设有 $数学建模回归预测题数学建模回归方程_数据_06$ 个潜在变量，则需要拟合与比较的方程个数为 $数学建模回归预测题数学建模回归方程_数学建模_16$ ——当 $数学建模回归预测题数学建模回归方程_数据_06$ 较大时不现实

（2）向前选择变量法

Created with Raphaël 2.2.0 初始：模型中没有任何解释变量分别考虑y与每一个自变量的一元线性回归模型对所有的这m个模型进行F检验，选择F值最高者作为第一个进入模型的自变量对剩下的变量分别进行偏F检验至少有一个xi通过了偏F检验？在所有通过偏F检验的自变量中，选择Fj值最大者作为下一个被选入模型的自变量结束 yes no

缺点：
一旦某个自变量被选入模型，它就永远留在模型中。然鹅，随着其他变量的引入，由于变量之间相互传递的相关关系，一些先进入模型的变量的解释作用可能会变得不再显著。

（3）向后删除变量法

Created with Raphaël 2.2.0 初始：所有自变量都在模型中（起始的全模型）分别对模型中剩余的每一个自变量做偏F检验（以去掉xj的模型为减模型）所有的变量都通过了偏F检验？选择Fj值最小的自变量，将它从模型中删除结束 yes no

缺点：
一旦某个自变量被删除后，它就永远被排斥在模型之外。但是，随着其它变量的被删除，它对 y 的解释作用也可能会显著起来。

（4）逐步回归法——最常用

综合向前选择和向后删除，采取边进边退的方法：

对于模型外部的变量，只要它还可以提供显著的解释信息，就可以再次进入模型
对于已在内部的变量，只要它的偏F检验不能通过，则还可能从模型中删除

具体流程见书，此处不再赘述。

另外，为了避免变量的进出循环，一般取偏F检验拒绝域的临界值为： $数学建模回归预测题数学建模回归方程_数学建模回归预测题_18$ ，式中， $数学建模回归预测题数学建模回归方程_方差_19$ 为选入变量时的临界值， $数学建模回归预测题数学建模回归方程_数学建模回归预测题_20$ 未删除变量时的临界值。

在所有标准的统计软件中都有逐步回归的程序。 $数学建模回归预测题数学建模回归方程_方差_19$ 和 $数学建模回归预测题数学建模回归方程_数学建模回归预测题_20$ 的检验水平值也可以自定，也可以是备择的。常见的检验水平值为 $数学建模回归预测题数学建模回归方程_数据_23$ ， $数学建模回归预测题数学建模回归方程_拟合_24$

1.1.4 调整复判定系数

——一般的统计软件常在输出中同时给出 $数学建模回归预测题数学建模回归方程_数学建模_25$ 和 $数学建模回归预测题数学建模回归方程_数学建模_26$ ，如果两者相差过大，则应考虑减少或调整变量【个人认为，可用于检验逐步回归的结果】

统计学家主张在回归建模时，采用尽可能少的自变量，不要盲目地追求复判定系数 $数学建模回归预测题数学建模回归方程_数据_27$ 的提高。
当变量增加时，残差项的自由度就会减少 $数学建模回归预测题数学建模回归方程_拟合_28$ ，自由度越小，数据的统计趋势就越不容易显现，故而定义了一个调整复判定系数：

$数学建模回归预测题数学建模回归方程_数据_29$

此外， $数学建模回归预测题数学建模回归方程_数学建模_26$ 还可以用于判断是否可以再增加新的变量：
若增加一个变量，

$数学建模回归预测题数学建模回归方程_数学建模_31$ 明显增加，，可考虑增加此变量
$数学建模回归预测题数学建模回归方程_数学建模_31$ 无明显变化，不必增加此变量

1.2 最小二乘估计

一元线性回归、多元线性回归——略。

2. 回归模型假设检验

——检查自变量与因变量之间能否用一个线性关系模型表示（ $数学建模回归预测题数学建模回归方程_数学建模回归预测题_33$ 检验）

具体检验方法见书，此处不再赘述。

3. 回归参数假设检验和区间估计

——检查每一个自变量对因变量的影响是否显著（ $数学建模回归预测题数学建模回归方程_拟合_34$

具体检验方法见书，此处不再赘述。

4. 拟合效果分析

4.1 残差的样本方差(MSE)

$数学建模回归预测题数学建模回归方程_数据_35$
可以计算残差的样本均值 $数学建模回归预测题数学建模回归方程_数据_36$
记， $数学建模回归预测题数学建模回归方程_数学建模_37$
$数学建模回归预测题数学建模回归方程_方差_38$ 越小，拟合效果越好

4.2 判定系数（拟合优度）

——指可解释的变异占总变异的百分比，用 $数学建模回归预测题数学建模回归方程_数学建模_25$ 表示
$数学建模回归预测题数学建模回归方程_数学建模_40$
其中，
$数学建模回归预测题数学建模回归方程_数据_41$
$数学建模回归预测题数学建模回归方程_数据_42$
$数学建模回归预测题数学建模回归方程_数学建模回归预测题_43$
$数学建模回归预测题数学建模回归方程_数学建模_44$