连续变量回归值连续变量做logit回归

转载

mob64ca14116c53 2024-04-01 02:02:08

文章标签 连续变量回归值回归学习机器学习数据挖掘 文章分类 机器学习人工智能

1.线性概率模型（Linear Probability Model,PLM）

2.Logistic回归与Logit模型

1.PLM

线性回归模型在定量分析中比较流行，但是在分析分类变量的时候，会遇到困难，比如因变量是分类变量。在现实生活中，人们也会将连续变量转化成分类变量进行分析，如将成绩这个连续因变量转化成能否考上大学的二分类变量。

在线性回归模型中，对自变量的限定性并不强，只规定了自变量不能是其他变量的完全线性组合，并且自变量不能与误差项相关。自变量可以是连续变量，也可以是分类变量。但是线性回归模型中，对因变量做了限定，规定其只能是连续变量。

用一个例子阐述在线性回归模型中因变量不能是分类变量的原因。

假设用OLS解释家庭扫地机器人的购买情况（因变量是二分类变量）。

为了方便叙述，只考虑一个自变量，回归模型如下：

连续变量回归值连续变量做logit回归_数据挖掘

其中

表示第 i 个家庭的收入，

是二分类变量，当

= 1时，表示购买，否则

= 0。假设x独立于残差项

(残差：实际观测值与估计值（拟合值）之差)，残差项

是一个均值为0且独立于

的随机变量（意味着残差项之间相互独立）在给定

的条件下，

的期望为：

连续变量回归值连续变量做logit回归_学习_02

由于

的取值为0或1，

的期望实际上就是

连续变量回归值连续变量做logit回归_学习_03

可以解释为对第 i 个家庭购买扫地机器人的概率。公式（2 ）左侧可以作为事件的发生概率来解释，因此，因变量是二分类变量的线性回归模型称为线性概率模型（LPM）。其中

每增加一个单位总是导致事件的发生概率增加一个固定的量，回归系数

代表相应于

变化一个单位时的概率增量。

对应的事件 i 不发生的概率为：

连续变量回归值连续变量做logit回归_回归_04

由公式（1）可以得出残差的表达式为：

连续变量回归值连续变量做logit回归_连续变量回归值_05

当

= 0时，

连续变量回归值连续变量做logit回归_连续变量回归值_06

当

= 1 时，

连续变量回归值连续变量做logit回归_连续变量回归值_07

令 f（

）为残差的密度函数，定义：当

= 0时，有

连续变量回归值连续变量做logit回归_数据挖掘_08

当

= 1 时，有

连续变量回归值连续变量做logit回归_机器学习_09

因此残差的期望值为：

连续变量回归值连续变量做logit回归_连续变量回归值_10

因为残差的期望值为0，所以有：

连续变量回归值连续变量做logit回归_回归_11

而对于残差

的方差为：

连续变量回归值连续变量做logit回归_连续变量回归值_12

从公式可以看出残差的方差依赖于条件概率的测量值，因而也就是依赖于因变量的变动，于是不同的观测值便有不同的方差（方差的非齐性）。

因此，当使用OLS对因变量时二分类变量进行预测的时候，会有以下的问题：

由于在PLM中残差的非齐性，参数的估计的估计方差将是有偏差的。因此在任何的假设检验中，如t检验、f检验中，无论样本多大，都是无效的。
由线性概率模型估计的事件的概率值，在遇到较大或者较小的x值时，可能会超出[0,1]区间。
在线性回归模型中，回归系数和都应是常数，然而在因变量为二分类变量时，系数却是变化的。

2.Logistic 回归与Logit回归

由于OLS对于二分类因变量的不适用，因此使用非线性函数对其分析。在二分类因变量的分析中，常用的回归模型分别是以logistic为分布函数的logisti回归（又可称为logit回归），和以标准正态分布为分布函数的probit回归。

下面主要阐述logistic回归与logit回归之间的关联。其两者在本质上是相同的，不过前者估测的是事件 i 发生的概率，后者估测的是事件 i 的发生比。而当发生概率增加的时候，也就意味着发生比增大，反之亦然。

假设存在连续反应变量

$y_{i}^{*}$

代表事件 i 发生的可能性，其值域为负无穷到正无穷。当该变量跨越某一阈值c(假设c=0)，便代表事件 i 发生，因此有

连续变量回归值连续变量做logit回归_数据挖掘_14

因变量可以表示为：

连续变量回归值连续变量做logit回归_学习_15

因此：

连续变量回归值连续变量做logit回归_数据挖掘_16

其中 F 为

$\varepsilon _{i}$

的分布函数。当F服从logistic分布时，回归模型是logistic回归，当服从标准正态分布时，是probit回归。为了使累积分布函数有一个较为简单的公式，令logistic分布的均值为0，方差为

连续变量回归值连续变量做logit回归_回归_18

因此公式（2）有：

连续变量回归值连续变量做logit回归_学习_19

其图像如下：

连续变量回归值连续变量做logit回归_学习_20

无论

$\varepsilon _{i}$

取何值，P的取值总在（0，1）之间。因此，logistic 模型的概率总在0-1之间，这样便可以解释章节1的例子了。

一个家庭购买扫地机器人的概率并不是收入每增加一个单位，概率便增加一个固定的量。实际上，家庭收入在某一段区间内变化时，才会对概率有较大的影响。收入过低或者过高，都不会对概率有较大的影响。原因是收入较低的家庭不会考虑购买扫地机器人，而收入较高家庭早已经购买扫地机器人了。

由上述可知 logistic 回归模型可以写成如下形式：

连续变量回归值连续变量做logit回归_数据挖掘_22

其实质是

$\varepsilon _{i}$

取值为（

$\alpha +\beta\cdot x_{i}$

）的分布函数,

$\varepsilon _{i}$

的表达式如下：

连续变量回归值连续变量做logit回归_数据挖掘_26

其中

$x_{i}$

为自变量，

$\alpha$

和

$\beta$

分别为回归截距和回归系数。令

$p_{i}$

为第 i 个案例发生的概率，

$p_{i}$

有如下形式：

连续变量回归值连续变量做logit回归_机器学习_32

事件 i 不发生的概率为：

连续变量回归值连续变量做logit回归_学习_33

因此事件的发生比odds为：

连续变量回归值连续变量做logit回归_回归_34

两边取对数有：

连续变量回归值连续变量做logit回归_机器学习_35

此处的对数变换称为 y 的 Logit 变换，既 logit(y)，因此 logit(y) 便可以利用许多线性回归模型的性质。

Logit 模型的系数

$\alpha$

和

$\beta$

可以按照一般的回归模型来解释。既一个变量的作用如果增加了事件的发生比，也就提高了事件的发生概率。

根据文献资料可知，有时人们将“logistic 回归模型”、“logistic模型”、“logit模型”这些称谓相互混用。但此处，logit回归模型与logistic回归模型两者并不相同，前者估测事件的发生比的对数值，后者估测事件发生的概率。

注意：logit回归虽然是线性形式，但其与线性回归是完全不同的。

线性回归的因变量（结果变量、反应变量）与其自变量之间的关系是线性的，而Logit回归中的因变量和自变量的关系是非线性的，尽管这里将其变换成了线性的关系。
在线性回归中，通常假设对应的自变量的某个值，因变量的观测分布是正态分布的，但是在Logit回归中，因变量却为二分类变量。
在logit回归中，不存在线性回归模型中含有的残差项（公式9）

多元变量

当自变量的个数为K（K>2）时，事件 i 的发生概率为

连续变量回归值连续变量做logit回归_回归_38

其 logit 回归形式如下：

连续变量回归值连续变量做logit回归_学习_39

因此只要拥有了参数的估计值，样本观测值，便能分析事件的发生比以及发生概率。

参考文献：

王济川，郭志刚. Logistic 回归模型——方法与应用[M]

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：ansible用法inventory_hostname in groups ansible fact

下一篇：lua进阶之路进阶之路是啥意思

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯