1. Logistic回归的基本原理
  2. logistic回归的优化算法

前言:
在分类任务中,我们是通过从输入logistics回归的局限性_logistic回归到输出logistics回归的局限性_logistic回归_02的映射logistics回归的局限性_机器学习_03的模型得出来的:
           logistics回归的局限性_机器学习_04
其中,我们定义logistics回归的局限性_logistic回归_02为离散值,其取值范围称之为标签空间:logistics回归的局限性_线性回归_06; 当logistics回归的局限性_线性回归_07为二分类问题,这时候的分布为bernoulli分布,该分布的概率表示:
            logistics回归的局限性_c函数_08
其中logistics回归的局限性_c函数_09
我们复习下Bernoulli分布的概念:
  Bernoulli分布又称两点分布或0-1分布。若是Bernoulli试验成功,则Bernoulli随机变量logistics回归的局限性_c函数_10取值为1,否则为0。记试验成功的概率为logistics回归的局限性_logistics回归的局限性_11,我们称logistics回归的局限性_c函数_10服从参数为logistics回归的局限性_logistics回归的局限性_11的Bernoulli分布,记为logistics回归的局限性_线性回归_14,概率函数(pmf)为:
           logistics回归的局限性_机器学习_15
其中 Bernoulli分布的均值:logistics回归的局限性_c函数_16,方差:logistics回归的局限性_logistics回归的局限性_17

1、logistic的基本原理

Logistic回归模型跟线性回归模型一样,也是线性模型,只是其条件概率logistics回归的局限性_c函数_18的形式不同:

           logistics回归的局限性_logistic回归_19

           logistics回归的局限性_机器学习_20

其中sigmoid函数(S函数,图如下)定义为

           logistics回归的局限性_c函数_21

          

logistics回归的局限性_c函数_22


上述函数我们亦可以称为logistic函数或者logit函数,将实数logistics回归的局限性_c函数_23变切换到[0,1]区间。而且有因为该函数取值在[0,1]区间,所以logistic回归又被称为logit回归。

  为什么使用logistic函数呢,因为在神经科学中,神经元的对其输入进行加权和:logistics回归的局限性_机器学习_24,如果该和大于某个阈值(即:logistics回归的局限性_c函数_25)的话,则神经元发放脉冲。而且,在logistic回归中,我们定义Log Odds Radio:

     logistics回归的局限性_机器学习_26

          logistics回归的局限性_c函数_27

因此,如果则神经元发放脉冲,即

那么在logistic回归中,当:

         时,logistics回归的局限性_线性回归_28

         时,logistics回归的局限性_c函数_29

logistics回归的局限性_c函数_30时为决策面。因此logistics回归的局限性_logistic回归_31为分类决策面,故logistic回归是一个线性分类器。

2、logistic回归的优化算法
我们知道logistic回归的概率函数为:logistics回归的局限性_logistic回归_19,则令logistics回归的局限性_线性回归_33,则负log似然为:
       
      logistics回归的局限性_线性回归_34
               logistics回归的局限性_c函数_35

极大似然估计 等价于 最小logistic损失。那么logistics回归的局限性_logistics回归的局限性_36的优化求解可以使用梯度下降法或者牛顿法。

(1)梯度下降法

logistics回归的局限性_机器学习_37


  求解

logistics回归的局限性_c函数_38


  其中:

logistics回归的局限性_线性回归_39


算法与线性回归logistics回归的局限性_logistic回归_40看起来一样,只是logistics回归的局限性_logistic回归_41不一样,事实上所有的线性回归模型的梯度都是如此。

logistics回归的局限性_线性回归_42


  (2)牛顿法

  牛顿法,其原则是使用函数logistics回归的局限性_logistic回归_41的泰勒级数的前几项来寻找方程logistics回归的局限性_机器学习_44的根。

  我们知道一阶泰勒展开式:

  所以,我们将导数logistics回归的局限性_线性回归_45logistics回归的局限性_c函数_46处进行泰勒展开:   

       

logistics回归的局限性_c函数_47


去掉高阶无穷小logistics回归的局限性_机器学习_48,得到:

  

logistics回归的局限性_logistic回归_49


  因此得到的迭代机制:

         

logistics回归的局限性_logistics回归的局限性_50


 所以牛顿法又可以称为二阶梯度下降法,移动方向为:logistics回归的局限性_logistic回归_51;对比我们一阶梯度下降法,移动方向:logistics回归的局限性_线性回归_52

 损失函数的求解过程,我们还需要了解迭代在加权最小二乘(iterative reweighted least squares,IRLS)原则,何谓IRLS,上述我们以得出:

logistics回归的局限性_线性回归_53


 根据牛顿法的结果:     

logistics回归的局限性_logistic回归_54


 所以IRLS:权重矩阵logistics回归的局限性_机器学习_55不是常数,而且依赖参数向量logistics回归的局限性_线性回归_56,我们必须使用标准方程来迭代计算,每次使用新的权重向量logistics回归的局限性_线性回归_56来修正权重矩阵logistics回归的局限性_机器学习_55。因此该算法称之为迭代再加权最小二乘,IRLS。

如下便是具体的公式迭代过程:

logistics回归的局限性_c函数_59


当然,上述是logistic回归没有正则化的过程,正则化logistic就是在logistics回归的局限性_logistics回归的局限性_36加上logistics回归的局限性_线性回归_61(l2正则)或者logistics回归的局限性_logistic回归_62(l1正则),同理求解过程结合线性回归模型的求解和上述不带正则的logistic回归的求解即可。