回归变量指标回归模型变量

转载

ghpsyn 2024-05-07 19:32:47

文章标签 回归变量指标机器学习算法 Logistic Regression 拟合似然函数 文章分类 机器学习人工智能

转自别处有很多与此类似的文章也不知道谁是原创因原文由少于错误所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白并且有些复杂，后面的运行流程依据前面的得出的算子进行分类)

初步接触

谓LR分类器(Logistic Regression Classifier)，并没有什么神秘的。在分类的情形下，经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm.
当测试样本集中的测试数据来到时，这一组权值按照与测试数据线性加和的方式，求出一个z值：

z = w0+w1*x1+w2*x2+...+wm*xm。 ① （其中x1,x2,...,xm是某样本数据的各个特征，维度为m）

之后按照sigmoid函数的形式求出：

σ(z) = 1 / (1+exp(z)) 。②

由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。因此最基本的LR分类器适合于对两类目标进行分类。

那么LR分类器的这一组权值w0,w1,...,wm是如何求得的呢？这就需要涉及到极大似然估计MLE和优化算法的概念了。

我们将sigmoid函数看成样本数据的概率密度函数，每一个样本点，都可以通过上述的公式①和②计算出其概率密度

详细描述

1.逻辑回归模型

1.1逻辑回归模型

考虑具有p个独立变量的向量

回归变量指标回归模型变量_机器学习算法

,设条件概率

回归变量指标回归模型变量_Logistic Regression_02

为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为

回归变量指标回归模型变量_拟合_03

　　　　　　　　　（1.1）

上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。

回归变量指标回归模型变量_似然函数_04

其中

回归变量指标回归模型变量_机器学习算法_05

。如果含有名义变量，则将其变为dummy变量。一个具有k个取值的名义变量，将变为k-1个dummy变量。这样，有

回归变量指标回归模型变量_拟合_06

（1.2）

　　定义不发生事件的条件概率为

回归变量指标回归模型变量_回归变量指标_07

（1.3）

那么，事件发生与事件不发生的概率之比为

回归变量指标回归模型变量_机器学习算法_08

（1.4）

这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数，即得到线性函数，

回归变量指标回归模型变量_机器学习算法_09

　　　　　　（1.5），

1.2极大似然函数

　　假设有n个观测样本，观测值分别为

回归变量指标回归模型变量_Logistic Regression_10

设

回归变量指标回归模型变量_Logistic Regression_11

为给定条件下得到yi=1（原文

回归变量指标回归模型变量_Logistic Regression_12

）的概率。在同样条件下得到yi=0（

回归变量指标回归模型变量_Logistic Regression_13

）的条件概率为

回归变量指标回归模型变量_拟合_14

。于是，得到一个观测值的概率为

回归变量指标回归模型变量_Logistic Regression_15

(1.6) -----此公式实际上是综合前两个等式得出，并无特别之处

因为各项观测独立，所以它们的联合分布可以表示为各边际分布的乘积。

回归变量指标回归模型变量_Logistic Regression_16

上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是，最大似然估计的关键就是求出参数

回归变量指标回归模型变量_拟合_17

，使上式取得最大值。

对上述函数求对数

回归变量指标回归模型变量_机器学习算法_18

（1.8）上式称为对数似然函数。为了估计能使

回归变量指标回归模型变量_似然函数_19

取得最大的参数

回归变量指标回归模型变量_回归变量指标_20

的值。

对此函数求导，得到p+1个似然方程。

回归变量指标回归模型变量_拟合_21

（1.9）

回归变量指标回归模型变量_Logistic Regression_22

，j=1,2,..,p.-----p为独立向量个数

上式称为似然方程。为了解上述非线性方程，应用牛顿－拉斐森(Newton-Raphson)方法进行迭代求解。

1.3　牛顿－拉斐森迭代法

　　对

回归变量指标回归模型变量_Logistic Regression_23

求二阶偏导数，即Hessian矩阵为

回归变量指标回归模型变量_拟合_24

回归变量指标回归模型变量_机器学习算法_25

（1.10）

如果写成矩阵形式，以Ｈ表示Hessian矩阵，Ｘ表示

回归变量指标回归模型变量_Logistic Regression_26

（1.11）

令

回归变量指标回归模型变量_Logistic Regression_27

（1.12）则

回归变量指标回归模型变量_拟合_28

。再令

回归变量指标回归模型变量_机器学习算法_29

(注：前一个矩阵需转置)，即似然方程的矩阵形式。

得牛顿迭代法的形式为

回归变量指标回归模型变量_回归变量指标_30

（1.13）注意到上式中矩阵Ｈ为对称正定的，求解

回归变量指标回归模型变量_回归变量指标_31

即为求解线性方程ＨＸ＝Ｕ中的矩阵Ｘ。对Ｈ进行cholesky分解。最大似然估计的渐近方差（asymptotic variance）和协方差(covariance)可以由信息矩阵（information matrix）的逆矩阵估计出来。而信息矩阵实际上是

回归变量指标回归模型变量_似然函数_32

二阶导数的负值，表示为

回归变量指标回归模型变量_机器学习算法_33

。估计值的方差和协方差表示为

回归变量指标回归模型变量_Logistic Regression_34

，也就是说，估计值回归变量指标回归模型变量_似然函数_35 的方差为矩阵Ｉ的逆矩阵的对角线上的值，而估计值回归变量指标回归模型变量_拟合_36 和回归变量指标回归模型变量_回归变量指标_37 的协方差(和的协方差等于

回归变量指标回归模型变量_机器学习算法_33

？不解。。。)为除了对角线以外的值。然而在多数情况，我们将使用估计值回归变量指标回归模型变量_回归变量指标_41 的标准方差，表示为

回归变量指标回归模型变量_似然函数_42

，for j=0,1,2,…,p （1.14）

-----------------------------------------------------------------------------------------------------------------------------------------------

２.显著性检验

下面讨论在逻辑回归模型中自变量回归变量指标回归模型变量_Logistic Regression_43 是否与反应变量显著相关的显著性检验。零假设回归变量指标回归模型变量_回归变量指标_44 ：回归变量指标回归模型变量_似然函数_45 ＝0（表示自变量对事件发生可能性无影响作用）。如果零假设被拒绝，说明事件发生可能性依赖于回归变量指标回归模型变量_回归变量指标_47 的变化。

2.1 Wald test

对回归系数进行显著性检验时，通常使用Wald检验，其公式为

回归变量指标回归模型变量_机器学习算法_48

（2.1）其中,

回归变量指标回归模型变量_Logistic Regression_49

为回归变量指标回归模型变量_似然函数_50 的标准误差。这个单变量Wald统计量服从自由度等于１的回归变量指标回归模型变量_似然函数_51 分布。　　如果需要检验假设回归变量指标回归模型变量_拟合_52 ：

回归变量指标回归模型变量_拟合_53

＝0,计算统计量

回归变量指标回归模型变量_机器学习算法_54

（2.2）其中，回归变量指标回归模型变量_回归变量指标_55 为去掉回归变量指标回归模型变量_Logistic Regression_56 所在的行和列的估计值，相应地，

回归变量指标回归模型变量_拟合_57

为去掉回归变量指标回归模型变量_回归变量指标_58 所在的行和列的标准误差。这里，Wald统计量服从自由度等于p的回归变量指标回归模型变量_机器学习算法_59 分布。如果将上式写成矩阵形式，有

回归变量指标回归模型变量_Logistic Regression_60

（2.3）矩阵Ｑ是第一列为零的一常数矩阵。例如，如果检验

回归变量指标回归模型变量_回归变量指标_61

，则

回归变量指标回归模型变量_似然函数_62

。

　　然而当回归系数的绝对值很大时，这一系数的估计标准误就会膨胀，于是会导致Wald统计值变得很小，以致第二类错误的概率增加。也就是说，在实际上会导致应该拒绝零假设时却未能拒绝。所以当发现回归系数的绝对值很大时，就不再用Wald统计值来检验零假设，而应该使用似然比检验来代替。

2.2　似然比（Likelihood ratio test）检验

　　在一个模型里面，含有变量回归变量指标回归模型变量_回归变量指标_63 与不含变量回归变量指标回归模型变量_似然函数_64 的对数似然值乘以-2的结果之差，服从回归变量指标回归模型变量_机器学习算法_65 分布。这一检验统计量称为似然比(likelihood ratio)，用式子表示为

回归变量指标回归模型变量_拟合_66

（2.4）

计算似然值采用公式（1.8）。

倘若需要检验假设回归变量指标回归模型变量_回归变量指标_67 ：

回归变量指标回归模型变量_回归变量指标_68

＝0,计算统计量

回归变量指标回归模型变量_似然函数_69

（2.5）式中，回归变量指标回归模型变量_机器学习算法_70 表示回归变量指标回归模型变量_似然函数_71 ＝0的观测值的个数，而回归变量指标回归模型变量_回归变量指标_72 表示回归变量指标回归模型变量_回归变量指标_73 ＝１的观测值的个数，那么n就表示所有观测值的个数了。实际上，上式的右端的右半部分

回归变量指标回归模型变量_Logistic Regression_74

表示只含有回归变量指标回归模型变量_拟合_75 的似然值。统计量G服从自由度为p的回归变量指标回归模型变量_Logistic Regression_76 分布

2.3 Score检验

　　在零假设回归变量指标回归模型变量_回归变量指标_77 ：回归变量指标回归模型变量_似然函数_78 ＝0下，设参数的估计值为回归变量指标回归模型变量_机器学习算法_79 ，即对应的回归变量指标回归模型变量_Logistic Regression_80 ＝0。计算Score统计量的公式为

回归变量指标回归模型变量_Logistic Regression_81

　　　　　　　　　　（2.6）上式中，

回归变量指标回归模型变量_机器学习算法_82

表示在回归变量指标回归模型变量_回归变量指标_83 ＝0下的对数似然函数（1.9）的一价偏导数值，而

回归变量指标回归模型变量_似然函数_84

表示在回归变量指标回归模型变量_Logistic Regression_85 ＝0下的对数似然函数（1.9）的二价偏导数值。Score统计量服从自由度等于１的回归变量指标回归模型变量_拟合_86 分布。

2.4　模型拟合信息

　　模型建立后，考虑和比较模型的拟合程度。有三个度量值可作为拟合的判断根据。

(1)-2LogLikelihood

回归变量指标回归模型变量_拟合_87

（2.7）

(2) Akaike信息准则（Akaike Information Criterion,简写为AIC）

回归变量指标回归模型变量_回归变量指标_88

(2.8)

　其中Ｋ为模型中自变量的数目，Ｓ为反应变量类别总数减１，对于逻辑回归有S=2-1=1。-2LogL的值域为0至回归变量指标回归模型变量_Logistic Regression_89 ，其值越小说明拟合越好。当模型中的参数数量越大时，似然值也就越大，-2LogL就变小。因此，将２(K+S)加到AIC公式中以抵销参数数量产生的影响。在其它条件不变的情况下，较小的AIC值表示拟合模型较好。

(3)Schwarz准则

　　这一指标根据自变量数目和观测数量对-2LogL值进行另外一种调整。SC指标的定义为

回归变量指标回归模型变量_Logistic Regression_90

(2.9)

其中ln(n)是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在其它条件相同时，一个模型的AIC或SC值越小说明模型拟合越好。

3.回归系数解释

3.1发生比

odds=[p/(1-p)]

回归变量指标回归模型变量_拟合_91

，即事件发生的概率与不发生的概率之比。而发生比率(odds ration),即

回归变量指标回归模型变量_Logistic Regression_92

(1)连续自变量。对于自变量回归变量指标回归模型变量_似然函数_93 ，每增加一个单位，odds ration为

回归变量指标回归模型变量_似然函数_94

(3.1)

(2)二分类自变量的发生比率。变量的取值只能为0或1，称为dummy variable。当回归变量指标回归模型变量_拟合_95 取值为1，对于取值为0的发生比率为

回归变量指标回归模型变量_回归变量指标_96

(3.2)

亦即对应系数的幂。

(3)分类自变量的发生比率。

如果一个分类变量包括m个类别，需要建立的dummy variable的个数为m-1,所省略的那个类别称作参照类(reference category)。设dummy variable为回归变量指标回归模型变量_Logistic Regression_97 ，其系数为回归变量指标回归模型变量_回归变量指标_98 ，对于参照类，其发生比率为回归变量指标回归模型变量_机器学习算法_99 。

3.2 逻辑回归系数的置信区间

　　对于置信度１- 回归变量指标回归模型变量_拟合_100 ，参数回归变量指标回归模型变量_拟合_101 的100%（１- 回归变量指标回归模型变量_Logistic Regression_102 ）的置信区间为

回归变量指标回归模型变量_Logistic Regression_103

（3.3）　　上式中，回归变量指标回归模型变量_似然函数_104 为与正态曲线下的临界Ｚ值（critical value）,

回归变量指标回归模型变量_机器学习算法_105

为系数估计回归变量指标回归模型变量_似然函数_106 的标准误差，

回归变量指标回归模型变量_拟合_107

和

回归变量指标回归模型变量_机器学习算法_108

两值便分别是置信区间的下限和上限。当样本较大时，回归变量指标回归模型变量_Logistic Regression_109 ＝0.05水平的系数回归变量指标回归模型变量_回归变量指标_110 的95%置信区间为

回归变量指标回归模型变量_Logistic Regression_111

（3.4）

-----------------------------------------------------------------------------------------------------------------------------------------------

4.变量选择

4.1前向选择（forward selection）：在截距模型的基础上，将符合所定显著水平的自变量一次一个地加入模型。

　　具体选择程序如下

（1）常数（即截距）进入模型。

（2）根据公式（2.6）计算待进入模型变量的Score检验值，并得到相应的P值。

（3）找出最小的p值，如果此p值小于显著性水平回归变量指标回归模型变量_机器学习算法_112 ,则此变量进入模型。如果此变量是某个名义变量的单面化(dummy)变量，则此名义变量的其它单面化变理同时也进入模型。不然，表明没有变量可被选入模型。选择过程终止。

（4）回到(2)继续下一次选择。

4.2 后向选择（backward selection）：在模型包括所有候选变量的基础上，将不符合保留要求显著水平的自变量一次一个地删除。

具体选择程序如下

(1) 所有变量进入模型。

(2) 根据公式（2.1）计算所有变量的Wald检验值，并得到相应的p值。

(3) 找出其中最大的p值，如果此P值大于显著性水平回归变量指标回归模型变量_拟合_113 ，则此变量被剔除。对于某个名义变量的单面化变量，其最小p值大于显著性水平回归变量指标回归模型变量_似然函数_114 ，则此名义变量的其它单面化变量也被删除。不然，表明没有变量可被剔除，选择过程终止。

(4) 回到(2)进行下一轮剔除。

4.3逐步回归(stepwise selection)

(1)基本思想：逐个引入自变量。每次引入对Ｙ影响最显著的自变量，并对方程中的老变量逐个进行检验，把变为不显著的变量逐个从方程中剔除掉，最终得到的方程中既不漏掉对Ｙ影响显著的变量，又不包含对Ｙ影响不显著的变量。

(2)筛选的步骤：首先给出引入变量的显著性水平回归变量指标回归模型变量_拟合_115 和剔除变量的显著性水平回归变量指标回归模型变量_似然函数_116 ，然后按下图筛选变量。

回归变量指标回归模型变量_回归变量指标_117

(3)逐步筛选法的基本步骤

逐步筛选变量的过程主要包括两个基本步骤：一是从不在方程中的变量考虑引入新变量的步骤；二是从回归方程中考虑剔除不显著变量的步骤。

假设有p个需要考虑引入回归方程的自变量.

① 设仅有截距项的最大似然估计值为回归变量指标回归模型变量_回归变量指标_118 。对p个自变量每个分别计算Score检验值，

设有最小p值的变量为回归变量指标回归模型变量_回归变量指标_119 ，且有

回归变量指标回归模型变量_机器学习算法_120

，对于单面化(dummy)变量，也如此。若

回归变量指标回归模型变量_Logistic Regression_121

，则此变量进入模型，不然停止。如果此变量是名义变量单面化(dummy)的变量，则此名义变量的其它单面化变量也进入模型。其中回归变量指标回归模型变量_回归变量指标_122 为引入变量的显著性水平。② 为了确定当变量回归变量指标回归模型变量_似然函数_123 在模型中时其它p-1个变量也是否重要，将

回归变量指标回归模型变量_回归变量指标_124

分别与回归变量指标回归模型变量_机器学习算法_125 进行拟合。对p-1个变量分别计算Score检验值，其p值设为回归变量指标回归模型变量_Logistic Regression_126 。设有最小p值的变量为回归变量指标回归模型变量_似然函数_127 ，且有

回归变量指标回归模型变量_Logistic Regression_128

.若

回归变量指标回归模型变量_回归变量指标_129

，则进入下一步，不然停止。对于单面化变量，其方式如同上步。③ 此步开始于模型中已含有变量回归变量指标回归模型变量_回归变量指标_130 与回归变量指标回归模型变量_回归变量指标_131 。注意到有可能在变量回归变量指标回归模型变量_似然函数_132 被引入后，变量回归变量指标回归模型变量_Logistic Regression_133 不再重要。本步包括向后删除。根据(2.1)计算变量回归变量指标回归模型变量_拟合_134 与的Wald检验值，和相应的p值。设为具有最大p值的变量，即=max( 回归变量指标回归模型变量_机器学习算法_138 ),