1.1    逻辑回归原理详解

1.1.1  LR原理讲解+公式推导

从公式推导中详细讲解逻辑回归算法的原理。

 

线性回归模型: 

survey包 逻辑回归 l逻辑回归_人工智能

 

逻辑回归是用来估计一个实例属于某个特定类别的概率,是一个二分类算法,如果预估概率大于等于50%,则模型预测该实例为正类,反之,则预测为负类。

则需要把y从负无穷大到正无穷大映射为概率p从0到1,可以设置为:

survey包 逻辑回归 l逻辑回归_人工智能_02

则:

survey包 逻辑回归 l逻辑回归_极大似然估计_03

 

两边取e,整理后,得到逻辑函数

survey包 逻辑回归 l逻辑回归_人工智能_04

 

一旦逻辑回归模型估算出实例x属于正类的概率为p,那么就可以轻松推断出y值。

survey包 逻辑回归 l逻辑回归_极大似然估计_05

假设:

survey包 逻辑回归 l逻辑回归_人工智能_06

 

则:

survey包 逻辑回归 l逻辑回归_人工智能_07

我们需要对系数θ估计,可以采用极大似然估计(MLE),通过最大化对数似然值来估计参数。

注:极大似然估计定义见下文详细讲解。

 

survey包 逻辑回归 l逻辑回归_极大似然估计_08

 

 

两边取对数,连乘会改为连加。

 

survey包 逻辑回归 l逻辑回归_数据结构与算法_09

 

单个训练实例的成本函数:

survey包 逻辑回归 l逻辑回归_公式推导_10

 

当p接近于0时,-log(p)就会变得非常大,如果模型估计一个正类的概率接近于0,成本将会变得很高。同理,估计一个负类实例的概率接近于1,成本也会变得非常高。

整个训练集的成本函数即为训练实例的平均成本。逻辑回归成本函数表示如下。

逻辑回归成本函数(log损失函数)

survey包 逻辑回归 l逻辑回归_公式推导_11

 

这是一个凸函数,通过梯度上升能够找出全局最大值。(只要学习率不是太高,又可以长时间等待)

对logL求某个系数θ的偏导:

survey包 逻辑回归 l逻辑回归_数据结构与算法_12

 

 

 

手写过程如下所示:

survey包 逻辑回归 l逻辑回归_人工智能_13

即:逻辑回归成本函数的偏导数为每个实例真实值与预测值的误差,将其乘以第j个特征值,并求和。

那么怎么获得系数呢?通过

survey包 逻辑回归 l逻辑回归_数据结构与算法_14

这个函数开口向下,使用梯度上升算法,获得全局最大值。 

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_15

survey包 逻辑回归 l逻辑回归_数据结构与算法_16

:学习率,自己给定,为固定值,可调整,不宜过高。

survey包 逻辑回归 l逻辑回归_人工智能_17

:对求偏导

θ:初始化一个任意值

 

θ初始化一个值后,可以计算得到预测的y值,计算预测误差,得到偏导,通过梯度上升算法更新θ值。

 

我们反过来回顾下:

通过梯度上升算法获得拟合效果最好的系数θ,根据sigmoid函数,输入特征X代入,得到概率p值,通过P值是否大于0.5,最终得到预测结果y。

 

1.1.2  逻辑回归的应用场景和优缺点

1.1.2.1 应用场景
  • Logistic回归是一种用于解决二分类问题的机器学习方法,是一种判别模型:表现为直接对条件概率P(y|x)建模,而不关心背后的数据分布P(x,y)
  • 用于估计某种事物的可能性。比如某用户购买某商品的可能性、某病人患有某种疾病的可能性、以及某广告被用户点击的可能性等。

 

1.1.3  优缺点

1.1.3.1 优点
  • 系数表示该特征的权重大小,可解释性强,原理基于线性回归,易于理解。
  • 计算代价不高

 

1.1.3.2 缺点
  • 容易欠拟合,分类精度可能不高

 

1.1.4  专业名词介绍

1.1.4.1 极大似然估计

极大似然估计,又称最大似然估计。

极大似然估计的原理,用一张图片来说明,如下图所示:

survey包 逻辑回归 l逻辑回归_公式推导_18

 

 

试验是取出一个球是黑球,第一印象就是这个黑球最像是从乙箱取出来的,这个推断符合人们的经验事实。“最像”就是“最大似然”之意,就是概率性是最大的。

 

总而言之,极大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。以下仅介绍总体X为离散型的情况。

若总体X(即输入特征)属离散型,其分布律

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_19

已知(即输出结果y已知), θ为待估参数,设

survey包 逻辑回归 l逻辑回归_公式推导_20

为来自X的样本,则

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_21

的联合分布律为

survey包 逻辑回归 l逻辑回归_公式推导_22

 又设

survey包 逻辑回归 l逻辑回归_人工智能_23

是相应于样本

survey包 逻辑回归 l逻辑回归_公式推导_20

的一个样本值,即事件

survey包 逻辑回归 l逻辑回归_人工智能_25

发生的概率为:

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_26

 如果

survey包 逻辑回归 l逻辑回归_人工智能_27

是参数空间中能使似然函数

survey包 逻辑回归 l逻辑回归_人工智能_28

最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量。它是样本集的函数,记作: 

survey包 逻辑回归 l逻辑回归_数据结构与算法_29

 

survey包 逻辑回归 l逻辑回归_数据结构与算法_30

称作极大似然函数估计值。

 

1.1.4.2 凸函数、凹函数
1.1.4.2.1       函数凹凸性定义

以下为国内的凹凸性定义,与国外凹凸性定义相反。


survey包 逻辑回归 l逻辑回归_公式推导_31

在区间I上有定义(1)       若对任意的

survey包 逻辑回归 l逻辑回归_公式推导_32

,有 

survey包 逻辑回归 l逻辑回归_公式推导_33

则称

survey包 逻辑回归 l逻辑回归_数据结构与算法_34

在 

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_35

内为凸函数,如图1-3-3所示。 

survey包 逻辑回归 l逻辑回归_公式推导_36

 

(2)       若对任意的 

survey包 逻辑回归 l逻辑回归_公式推导_32

,有 

survey包 逻辑回归 l逻辑回归_极大似然估计_38

 

则称

survey包 逻辑回归 l逻辑回归_数据结构与算法_34

在 

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_35

内为凹函数,如图1-3-4所示。

survey包 逻辑回归 l逻辑回归_公式推导_41

 

 

1.1.4.2.2       函数凹凸判别法

定理:

(1)       若在

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_35

内有

survey包 逻辑回归 l逻辑回归_数据结构与算法_43

,则

survey包 逻辑回归 l逻辑回归_数据结构与算法_34

在 

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_35

内为凸函数(2)       若在

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_35

内有 

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_47

,则

survey包 逻辑回归 l逻辑回归_数据结构与算法_34

在 

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_35

内为凹函数

 

1.1.4.2.3       逻辑回归目标函数是凸函数证明

目标函数

 

survey包 逻辑回归 l逻辑回归_人工智能_50

一阶偏导:

 

survey包 逻辑回归 l逻辑回归_人工智能_51

证明过程见LR公式推导部分。

 

二阶偏导:

survey包 逻辑回归 l逻辑回归_人工智能_52

 

由于

survey包 逻辑回归 l逻辑回归_数据结构与算法_53

,即

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_54

,则

survey包 逻辑回归 l逻辑回归_survey包 逻辑回归_55

恒成立,所以目标函数是凸函数。