1. 逻辑回归
逻辑回归的公式很简单,就是
这里的 是sigmoid
函数。
2. 原因
原因有三个。分别从理论基础、优化角度进行解释。
2.1. 极大似然估计
极大似然估计的思想就是:找出一组参数,这组参数需要满足的条件是:使得当前观测的样本出现的概率最大。如果我们使用sigmoid函数的结果作为可能性的计算,那么按照极大似然估计那一套得出来的表达式再加一个负对数,那么这个表达式其实就是用交叉熵损失函数得出来的表达式一致。
2.2 避免梯度消失
可以手推一下交叉熵损失函数和平方损失对参数w的求导后的结果。可以发现:
- 交叉熵对参数w求导后,得到的更新梯度值是
- 更新的梯度就是上述这个红框中的值。
- 倘若以均方误差作为损失函数,
那么计算得到的梯度就是:。 这里面的值是非常小的。举例来说,倘若预测的 为0.9,那么乘积结果就是0.9*0.1 = 0.09, 是一个很小的值了,不太适合用于梯度更新。
2.3 凸函数特性
这一点说的是:交叉熵损失函数是一个凸函数,(这一点我还不是特别理解),回头再更新。