1. 逻辑回归

逻辑回归的公式很简单,就是你不知道的逻辑回归_损失函数
这里的你不知道的逻辑回归_损失函数_02sigmoid函数。
你不知道的逻辑回归_逻辑回归_03

2. 原因

原因有三个。分别从理论基础、优化角度进行解释。

2.1. 极大似然估计

极大似然估计的思想就是:找出一组参数,这组参数需要满足的条件是:使得当前观测的样本出现的概率最大。如果我们使用sigmoid函数的结果作为可能性的计算,那么按照极大似然估计那一套得出来的表达式再加一个负对数,那么这个表达式其实就是用交叉熵损失函数得出来的表达式一致

2.2 避免梯度消失

可以手推一下交叉熵损失函数和平方损失对参数w的求导后的结果。可以发现:

  • 交叉熵对参数w求导后,得到的更新梯度值是
  • 你不知道的逻辑回归_机器学习_04


  • 你不知道的逻辑回归_机器学习_05

  • 更新的梯度就是上述这个红框中的值。
  • 倘若以均方误差作为损失函数,
    你不知道的逻辑回归_机器学习_06
    那么计算得到的梯度就是:你不知道的逻辑回归_损失函数_07。 这里面你不知道的逻辑回归_机器学习_08的值是非常小的。举例来说,倘若预测的 你不知道的逻辑回归_逻辑回归_09为0.9,那么乘积结果就是0.9*0.1 = 0.09, 是一个很小的值了,不太适合用于梯度更新。

2.3 凸函数特性

这一点说的是:交叉熵损失函数是一个凸函数,(这一点我还不是特别理解),回头再更新。