- Logistic回归的基本原理
- logistic回归的优化算法
前言:
在分类任务中,我们是通过从输入到输出的映射的模型得出来的:
其中,我们定义为离散值,其取值范围称之为标签空间:; 当为二分类问题,这时候的分布为bernoulli分布,该分布的概率表示:
其中
我们复习下Bernoulli分布的概念:
Bernoulli分布又称两点分布或0-1分布。若是Bernoulli试验成功,则Bernoulli随机变量取值为1,否则为0。记试验成功的概率为,我们称服从参数为的Bernoulli分布,记为,概率函数(pmf)为:
其中 Bernoulli分布的均值:,方差:
1、logistic的基本原理
Logistic回归模型跟线性回归模型一样,也是线性模型,只是其条件概率的形式不同:
其中sigmoid函数(S函数,图如下)定义为
上述函数我们亦可以称为logistic函数或者logit函数,将实数变切换到[0,1]区间。而且有因为该函数取值在[0,1]区间,所以logistic回归又被称为logit回归。
为什么使用logistic函数呢,因为在神经科学中,神经元的对其输入进行加权和:,如果该和大于某个阈值(即:)的话,则神经元发放脉冲。而且,在logistic回归中,我们定义Log Odds Radio:
因此,如果则神经元发放脉冲,即
那么在logistic回归中,当:
时,
时,
时为决策面。因此为分类决策面,故logistic回归是一个线性分类器。
2、logistic回归的优化算法
我们知道logistic回归的概率函数为:,则令,则负log似然为:
极大似然估计 等价于 最小logistic损失。那么的优化求解可以使用梯度下降法或者牛顿法。
(1)梯度下降法
求解
其中:
算法与线性回归看起来一样,只是不一样,事实上所有的线性回归模型的梯度都是如此。
(2)牛顿法
牛顿法,其原则是使用函数的泰勒级数的前几项来寻找方程的根。
我们知道一阶泰勒展开式:
所以,我们将导数在处进行泰勒展开:
去掉高阶无穷小,得到:
因此得到的迭代机制:
所以牛顿法又可以称为二阶梯度下降法,移动方向为:;对比我们一阶梯度下降法,移动方向:
损失函数的求解过程,我们还需要了解迭代在加权最小二乘(iterative reweighted least squares,IRLS)原则,何谓IRLS,上述我们以得出:
根据牛顿法的结果:
所以IRLS:权重矩阵不是常数,而且依赖参数向量,我们必须使用标准方程来迭代计算,每次使用新的权重向量来修正权重矩阵。因此该算法称之为迭代再加权最小二乘,IRLS。
如下便是具体的公式迭代过程:
当然,上述是logistic回归没有正则化的过程,正则化logistic就是在加上(l2正则)或者(l1正则),同理求解过程结合线性回归模型的求解和上述不带正则的logistic回归的求解即可。