statemodels 逻辑回归逻辑回归建模

转载

cnolnic 2024-08-20 22:27:08

文章标签 statemodels 逻辑回归线性回归数据类方法 文章分类 机器学习人工智能

逻辑回归模型(Logistic Regression, LR)基础

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上，套用了一个逻辑函数，但也就由于这个逻辑函数，使得逻辑回归模型成为了机器学习领域一颗耀眼的明星，更是计算广告学的核心。本文主要详述逻辑回归模型的基础，至于逻辑回归模型的优化、逻辑回归与计算广告学等，请关注后续文章。

1 逻辑回归模型

回归是一种极易理解的模型，就相当于y=f(x)，表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切，之后判定病人是否生病或生了什么病，其中的望闻问切就是获取自变量x，即特征数据，判断是否生病就相当于获取因变量y，即预测分类。

最简单的回归是线性回归，在此借用Andrew NG的讲义，有如图1.a所示，X为数据点——肿瘤的大小，Y为观测值——是否是恶性肿瘤。通过构建线性回归模型，如h_θ(x)所示，构建线性回归模型后，即可以根据肿瘤大小，预测是否为恶性肿瘤h_θ(x)≥.05为恶性，h_θ(x)<0.5为良性。

statemodels 逻辑回归逻辑回归建模_线性回归

图1 线性回归示例

然而线性回归的鲁棒性很差，例如在图1.b的数据集上建立回归，因最右边噪点的存在，使回归模型在训练集上表现都很差。这主要是由于线性回归在整个实数域内敏感度一致，而分类范围，需要在[0,1]。逻辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型，其回归方程与回归曲线如图2所示。逻辑曲线在z=0时，十分敏感，在z>>0或z<<0处，都不敏感，将预测值限定为(0,1)。

statemodels 逻辑回归逻辑回归建模_数据_02

图2 逻辑方程与逻辑曲线

statemodels 逻辑回归逻辑回归建模_statemodels 逻辑回归_03

对于训练数据集，特征数据x={x₁, x₂, … , x_m}和对应的分类数据y={y₁, y₂, … , y_m}。构建逻辑回归模型f(θ)，最典型的构建方法便是应用极大似然估计。首先，对于单个样本，其后验概率为：

statemodels 逻辑回归逻辑回归建模_类方法_04

statemodels 逻辑回归逻辑回归建模_线性回归_05

statemodels 逻辑回归逻辑回归建模_线性回归_06

2 梯度下降

由第1节可知，求逻辑回归模型f(θ)，等价于：

statemodels 逻辑回归逻辑回归建模_类方法_07

statemodels 逻辑回归逻辑回归建模_数据_08

statemodels 逻辑回归逻辑回归建模_statemodels 逻辑回归_09

3 模型评估

对于LR分类模型的评估，常用AUC来评估，关于AUC的更多定义与介绍，可见参考文献2，在此只介绍一种极简单的计算与理解方法。

对于下图的分类：

statemodels 逻辑回归逻辑回归建模_statemodels 逻辑回归_10

AUC正是衡量分类正确度的方法，将训练集中的label看两类{0，1}的分类问题，分类目标是将预测结果尽量将两者分开。将每个0和1看成一个pair关系，团中的训练集共有5*5=25个pair关系，只有将所有pair关系一至时，分类结果才是最好的，而auc为1。在训练方法1中，与10相关的pair关系完全正确，同样9、8、7的pair关系也完全正确，但对于6，其pair关系(6，5)关系错误，而与4、3、2、1的关系正确，故其auc为(25-1)/25=0.96；对于分类方法2，其6、7、8、9的pair关系，均有一个错误，即(6,1)、(7,1)、(8,1)、(9,1)，对于数据点10，其正任何数据点的pair关系，都错误，即(10,1)、(10,2)、(10,3)、(10,4)、(10,5)，故方法2的auc为(25-4-5)/25=0.64，因而正如直观所见，分类方法1要优于分类方法2。