多元回归模型的预测多元回归模型预测stata

转载

mob6454cc747bda 2024-03-15 15:17:07

文章标签 多元回归模型的预测 Stata 数学建模数据控制变量 文章分类 机器学习人工智能

多元线性回归分析

回归分析
数据分类 --- 通过数据类别选择合适的建模方法
数据网站
线性回归 --- 横截面数据

对线性的理解

用新变量替换时求对应的值可以使用Excel

回归系数

回归系数解释
使用回归前，要检验扰动项是否满足某些条件 --- 重点
扰动项 $\mu$ 的内生性

解决外生性 --- 核心解释变量和控制变量

当式子中有对数时，对回归系数的解释
总结：四类模型回归系数的解释

多变量时

变量

定性变量变为定量变量 --- 引入虚拟变量

虚拟变量解释
设置虚拟变量

含有交互项的自变量
在论文对变量解释介绍

一元线性回归

Stata对数据描述性统计

定量数据
定性数据 --- 生成虚拟变量

Excel画出变量的频率扇形图

Stata 回归 --- 分析各个变量与因变量的关系

使用回归前，要检验扰动项是否满足某些条件 --- 重点
对定量变量回归

联合显著性检验 --- $Prob>F$ 的值看模型是否合理
分析的变量选择 --- 回归系数显著
回归系数解释

对定性变量回归

联合显著性检验 --- $Prob>F$ 的值看模型是否合理
分析的变量选择 --- 回归系数显著
回归系数的解释

Stata对回归分析结果用文档保存

Stata标准化回归 --- 分析各个变量对因变量的影响程度

求出的拟合优度 $R^2$ 较低时

拟合优度和调整后的拟合优度

回归分析

研究X与Y的相关性

多元回归模型的预测多元回归模型预测stata_控制变量

X — 自变量， Y — 因变量
回归的分类

解释性回归
预测性回归

回归分析的任务
通过研究X和Y的相关关系，尝试去解释Y的形成机制，进而达到通过去预测Y的目的
使用目的

判断那些X是与Y真的相关
相关的X与Y是正相关还是负相关
不同X有不同的权重(不同的回归系数)，可以得到不同变量之间的相对重要性

回归分析的分类
不同数据处理方法

数据分类 — 通过数据类别选择合适的建模方法

横截面数据 — 在某一时间点收集的不同对象的数据
比如：某年各省的GDP
时间序列数据 — 对统一对象在不同时间所得数据
比如：一个省每年的GDP
面板数据 — 横截面数据与时间序列数据综合起来
比如： 2008-2018，各省份GDP

数据网站

【简道云汇总】110+数据网站【汇总】数据来源/大数据平台大数据工具导航大数据查询导航

线性回归 — 横截面数据

对线性的理解

自变量和因变量可以通过变量变换而转化为线性模型

多元回归模型的预测多元回归模型预测stata_数据_02

例如：将 $多元回归模型的预测多元回归模型预测stata_Stata_03$ 中的 $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_04$ 用一个新变量进行替换

用新变量替换时求对应的值可以使用Excel

多元回归模型的预测多元回归模型预测stata_数据_05

回归系数

回归系数解释

多元回归模型的预测多元回归模型预测stata_控制变量_06

多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_07

使用回归前，要检验扰动项是否满足某些条件 — 重点

多元线性回归扰动项满足的条件

扰动项 $多元回归模型的预测多元回归模型预测stata_数据_08$ 的内生性

误差项 $多元回归模型的预测多元回归模型预测stata_数据_09$ 与自变量 $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_10$ 相关
扰动项 $多元回归模型的预测多元回归模型预测stata_数据_09$ 中包含了与 $多元回归模型的预测多元回归模型预测stata_Stata_12$ 有关但没有放到模型中的变量

多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_13

1.对于扰动项 $多元回归模型的预测多元回归模型预测stata_数据_08$ 满足一定的条件为：不存在内生性，不存在异方差

2. 例如：在仅有变量 $多元回归模型的预测多元回归模型预测stata_控制变量_15$ 为产品品质时，会出现内生性

$多元回归模型的预测多元回归模型预测stata_控制变量_16$ 会有价钱也与 $多元回归模型的预测多元回归模型预测stata_控制变量_17$ 有关，因为没有添加到模型中(即存在于 $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_18$ 中)，而价格于品质 $多元回归模型的预测多元回归模型预测stata_控制变量_19$ 有关
$多元回归模型的预测多元回归模型预测stata_Stata_20$ 产生了内生性
外生性很难满足
$多元回归模型的预测多元回归模型预测stata_Stata_21$ 为了降低了条件 — 引入核心解释变量和控制变量

解决外生性 — 核心解释变量和控制变量

多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_22

仅仅保证核心解释变量与 $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_18$ 无关，而不用保证控制变量与 $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_18$ 无关

$多元回归模型的预测多元回归模型预测stata_数学建模_25$ 控制变量就是为了控制那些对核心解释变量影响的遗漏的变量(这些变量在 $多元回归模型的预测多元回归模型预测stata_数据_08$ 中)

当式子中有对数时，对回归系数的解释

多元回归模型的预测多元回归模型预测stata_数学建模_27

总结：四类模型回归系数的解释

多元回归模型的预测多元回归模型预测stata_Stata_28

多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_29

多变量时

加一句：在控制其他自变量不变的情况下

变量

定性变量变为定量变量 — 引入虚拟变量

多元回归模型的预测多元回归模型预测stata_数据_30

虚拟变量解释

例如研究性别与工资影响：
$多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_31$

$多元回归模型的预测多元回归模型预测stata_数学建模_32$ ：表示第 $多元回归模型的预测多元回归模型预测stata_数据_33$ 个样本为女性
$多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_34$ ：表示第 $多元回归模型的预测多元回归模型预测stata_数据_33$ 个样本为男性
核心解释变量: $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_36$
控制变量: $多元回归模型的预测多元回归模型预测stata_数据_37$

设置虚拟变量

为了避免完全多重共线性的影响，引入虚拟变量的个数一般为分类数 - 1
比如：定性变量（男/女），有两个分类，所以设置一个虚拟变量
当出现完全多重共线性时，回归系数无法计算

含有交互项的自变量

因变量受到一个核心解释变量和另一个核心解释变量共同影响

多元回归模型的预测多元回归模型预测stata_数据_38

在论文对变量解释介绍

多元回归模型的预测多元回归模型预测stata_Stata_39

一元线性回归

与一元线性函数拟合本质类似
仅有一个自变量

多元回归模型的预测多元回归模型预测stata_控制变量_40

Stata对数据描述性统计

定量数据

summarize  变量1 变量2 ... 变量n

多元回归模型的预测多元回归模型预测stata_数学建模_41

如果放入论文中，需要先放到Excel中，变成三线表，然后将三线表放到论文中

定性数据 — 生成虚拟变量

// 得到出现的次数(Freq)
tabulate 变量

该函数每次仅对一个变量进行分析

多元回归模型的预测多元回归模型预测stata_Stata_42

tab 变量 ,gen(A)

生成对应变量的虚拟变量 $多元回归模型的预测多元回归模型预测stata_数据_43$

多元回归模型的预测多元回归模型预测stata_数学建模_44

例如图中，有两种配方，有两个虚拟变量 $多元回归模型的预测多元回归模型预测stata_数学建模_45$
当为第一种配方的时候， $多元回归模型的预测多元回归模型预测stata_数据_46$
当为第二种配方的时候， $多元回归模型的预测多元回归模型预测stata_Stata_47$

Excel画出变量的频率扇形图

插入 -> 数据透视表
选择所需字段

可以选择值显示的方式(数字或百分比)
画出扇形图
分析 -> 数据透视图

在图中加入数字
为了让画出来的图有美感
可以先进行排序后再画开始 -> 排序
可以进行颜色的变更：页面布局 -> 颜色

Stata 回归 — 分析各个变量与因变量的关系

使用回归前，要检验扰动项是否满足某些条件 — 重点

多元线性回归扰动项满足的条件

对定量变量回归

regress y x1 x2 ...

多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_48

Model: 代表SSR，回归平方和
Residual: 代表SSR，误差平方和
Total: 代表SST

上面三个对应的值在SS列中

R-squared: 代表 $多元回归模型的预测多元回归模型预测stata_数据_49$ ，拟合优度
$多元回归模型的预测多元回归模型预测stata_数学建模_50$
Adj R-squared: 代表调整后的拟合优度

多元回归模型的预测多元回归模型预测stata_数据_51

df: 代表自由度

联合显著性检验 — $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_52$ 的值看模型是否合理

$多元回归模型的预测多元回归模型预测stata_Stata_53$ 对应的值要 $多元回归模型的预测多元回归模型预测stata_数据_54$ ，否则模型设置不合理

多元回归模型的预测多元回归模型预测stata_控制变量_55

检验回归系数使用的 $多元回归模型的预测多元回归模型预测stata_控制变量_56$

Coef: 估计出来的回归系数
cons: 常数项的估计值
最后一列为置信区间

分析的变量选择 — 回归系数显著

只需要分析回归系数显著的变量(看 $多元回归模型的预测多元回归模型预测stata_Stata_57$ ,当值 $多元回归模型的预测多元回归模型预测stata_数学建模_58$ 代表在 $多元回归模型的预测多元回归模型预测stata_Stata_59$ 置信水平下，回归系数显著异于 $多元回归模型的预测多元回归模型预测stata_数学建模_60$ )

回归系数解释

多元回归模型的预测多元回归模型预测stata_数据_61

在其他变量不变的情况下，团购价元每增加1，会导致评价量减少35.49873

对定性变量回归

使用tab 变量 ,gen(A)产生的虚拟变量 $多元回归模型的预测多元回归模型预测stata_数据_62$
再使用regress y A1 A2 ...An

为了避免多重共线性的影响，会自动将某个虚拟变量设置为对照组

例如图中将G4看为对照组：

多元回归模型的预测多元回归模型预测stata_数学建模_63

联合显著性检验 — $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_52$ 的值看模型是否合理

$多元回归模型的预测多元回归模型预测stata_Stata_53$ 对应的值要 $多元回归模型的预测多元回归模型预测stata_数据_54$ ，否则模型设置不合理

图中含义：

多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_67

检验回归系数使用的 $多元回归模型的预测多元回归模型预测stata_控制变量_56$

Coef: 估计出来的回归系数
cons: 常数项的估计值
最后一列为置信区间

分析的变量选择 — 回归系数显著

只需要分析回归系数显著的变量(看 $多元回归模型的预测多元回归模型预测stata_Stata_57$ ,当值 $多元回归模型的预测多元回归模型预测stata_数学建模_58$ 代表在 $多元回归模型的预测多元回归模型预测stata_Stata_59$ 置信水平下，回归系数显著异于0)

回归系数的解释

例如：
有四个段位，观察段位与评价量的关系

reg 评价量 G1 G2 G3 G4

多元回归模型的预测多元回归模型预测stata_数学建模_72

解释回归系数：

G1回归系数（Coef对应的那列）
在控制其他变量不变的情况下，段位1与段位4比较，评价量相差 $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_73$

Stata对回归分析结果用文档保存

regress 评价量 团购价元 商品毛重kg
// 下面的语句可帮助我们把回归结果保存在Word文档中
// 在使用之前需要运行下面这个代码来安装下这个功能包（运行一次之后就可以注释掉了）
// ssc install reg2docx, all replace
// 将模型保存为m1
est store m1
reg2docx m1 using m1.docx, replace
// *** p<0.01  ** p<0.05 * p<0.1

注意加上
$多元回归模型的预测多元回归模型预测stata_数学建模_74$
对生成的文档注意修改字体：
全选后选宋体，再全选后选新罗马字体

Stata标准化回归 — 分析各个变量对因变量的影响程度

只关注显著的回归系数
即需要分析回归系数显著的变量(看 $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_75$ ,当值 $多元回归模型的预测多元回归模型预测stata_数据_54$ 代表在 $多元回归模型的预测多元回归模型预测stata_多元回归模型的预测_77$ 置信水平下，回归系数显著异于0)