grnn的损失函数用交叉熵 lr损失函数交叉熵

转载

mob64ca140ee96c 2024-05-28 10:54:02

文章标签 grnn的损失函数用交叉熵 softmax 交叉熵损失损失函数二分类 文章分类 机器学习人工智能

探秘交叉熵损失函数

1 前言
2 二分类的交叉损失函数形式

2.1 交叉熵损失函数的常见形式
2.2 交叉损失函数的另一种形式

3 Softmax函数与交叉熵损失函数

1 前言

学习机器学习相关的算法的时候会，经常看到交叉熵损失函数。交叉熵损失函数的最常见的形式，学习LR(Logistics Regression)函数的时候，给出的交叉熵损失函数，也是比较容易理解的形式。但是除了LR算法中会接触到交叉熵损失函数，我们还发现，交叉熵损失函数还经常和SoftMax函数一起提起。他们之间到底有什么的神秘关系呢？下面我们就开始神奇的探秘之旅。

2 二分类的交叉损失函数形式

首先我们来看交叉损失函数在二分类问题中应用。二分类的交叉损失函数有两种形式，一种是我们较为常见的形式，另一种是不太常见的形式，但是却和在Softmax函数一起使用的交叉熵损失函数有着相似的形式。该部分的内容已经有人写得很好了，我就不重复造轮子了，这部分我会主要参考简单的交叉熵损失函数，你真的懂了吗？。

2.1 交叉熵损失函数的常见形式

交叉熵函数的常见形式是这样的：
$grnn的损失函数用交叉熵 lr损失函数交叉熵_损失函数$
下面我们探究，这个形式是怎么推倒出来的，以及他为什么能作为损失函数监督，学习算法学习出我们想要的能够正确分类的模型。
我们知道，在二分类问题模型：例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。
Sigmoid 函数的表达式和图形如下所示：
$grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_02$

grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_03

其中 s 是模型上一层的输出，Sigmoid 函数有这样的特点：s = 0 时，g(s) = 0.5；s >> 0 时， g ≈ 1，s << 0 时，g ≈ 0。显然，g(s) 将前一级的线性输出映射到 [0，1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出。
注：

在李航老师的统计学习方法中，介绍神经网络(感知机)时最后并没有接Sigmod函数，而是使用的符号函数sign,将输出值映射到+1和-1：
$grnn的损失函数用交叉熵 lr损失函数交叉熵_损失函数_04$
不使用sign()函数，而是使用Sigmod函数，将s映射到0-1，然后大于等于0.5的分类为1，否则分类为0，也是一样的。
在李航老师的统计学习方法中，介绍LR的时候也没有使用sigmod函数将，s映射到0-1，而是使用其条件概率分布函数：
$grnn的损失函数用交叉熵 lr损失函数交叉熵_损失函数_05$

我们说了，预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_06$

很明显，当前样本标签为 0 的概率就可以表达成：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_损失函数_07$

重点来了，如果我们从极大似然性的角度出发，把上面两种情况整合到一起：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_交叉熵损失_08$

不懂极大似然估计也没关系。[从极大似然估计的角度推倒看下面一部分]我们可以这么来看：

当真实样本标签 y = 0 时，上面式子第一项就为 1，概率等式转化为：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_损失函数_09$

当真实样本标签 y = 1 时，上面式子第二项就为 1，概率等式转化为：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_10$

两种情况下概率表达式跟之前的完全一致，只不过我们把两种情况整合在一起了。

重点看一下整合之后的概率表达式，我们希望的是概率 P(y|x) 越大越好。首先，我们对 P(y|x) 引入 log 函数，因为 log 运算并不会影响函数本身的单调性。则有：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_二分类_11$

我们希望 log P(y|x) 越大越好，反过来，只要 log P(y|x) 的负值 -log P(y|x) 越小就行了。那我们就可以引入损失函数，且令 Loss = -log P(y|x)即可。则得到损失函数为：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_12$

非常简单，我们已经推导出了单个样本的损失函数，是如果是计算 N 个样本的总的损失函数，只要将 N 个 Loss 叠加起来就可以了：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_13$

这样，我们已经完整地实现了交叉熵损失函数的推导过程。

下面根据李航老师统计学习方法书里的内容，给出L的极大似然估计推倒。

grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_14

其中 $grnn的损失函数用交叉熵 lr损失函数交叉熵_二分类_15$ 会输出一个0-1之间的值，即L函数中的 $grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_16$ ,可以看到交叉损失函数L，就是在似然函数 $grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_17$ 前面加了个符号，交叉损失函数的极小化，等价于最大化似然函数。

下面看一下这种形式的交叉熵损失函数的直观理解

可能会有读者说，我已经知道了交叉熵损失函数的推导过程。但是能不能从更直观的角度去理解这个表达式呢？而不是仅仅记住这个公式。好问题！接下来，我们从图形的角度，分析交叉熵函数，加深大家的理解。

首先，还是写出单个样本的交叉熵损失函数：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_12$

我们知道，当 y = 1 时：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_19$

这时候，L 与预测输出的关系如下图所示：

grnn的损失函数用交叉熵 lr损失函数交叉熵_损失函数_20

看了 L 的图形，简单明了！横坐标是预测输出，纵坐标是交叉熵损失函数 L。显然，预测输出越接近真实样本标签 1，损失函数 L 越小；预测输出越接近 0，L 越大。因此，函数的变化趋势完全符合实际需要的情况。

当 y = 0 时：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_二分类_21$

这时候，L 与预测输出的关系如下图所示：

grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_22

同样，预测输出越接近真实样本标签 0，损失函数 L 越小；预测函数越接近 1，L 越大。函数的变化趋势也完全符合实际需要的情况。

从上面两种图，可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1，L 都表征了预测输出与 y 的差距。

另外，重点提一点的是，从图形中我们可以发现：预测输出与 y 差得越多，L 的值越大，也就是说对当前模型的 “ 惩罚 ” 越大，而且是非线性增大，是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。

2.2 交叉损失函数的另一种形式

什么？交叉熵损失函数还有其它形式？没错！我刚才介绍的是一个典型的形式。接下来我将从另一个角度推导新的交叉熵损失函数。

这种形式下假设真实样本的标签为 +1 和 -1，分别表示正类和负类。有个已知的知识点是Sigmoid 函数具有如下性质：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_损失函数_23$

这个性质我们先放在这，待会有用。

好了，我们之前说了 y = +1 时，下列等式成立：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_损失函数_24$

如果 y = -1 时，并引入 Sigmoid 函数的性质，下列等式成立：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_二分类_25$

重点来了，因为 y 取值为 +1 或 -1，可以把 y 值带入，将上面两个式子整合到一起：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_交叉熵损失_26$

这个比较好理解，分别令 y = +1 和 y = -1 就能得到上面两个式子。

接下来，同样引入 log 函数，得到：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_27$

要让概率最大，反过来，只要其负数最小即可。那么就可以定义相应的损失函数为：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_交叉熵损失_28$

还记得 Sigmoid 函数的表达式吧？将 g(ys) 带入：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_29$

好咯，L 就是我要推导的交叉熵损失函数。如果是 N 个样本，其交叉熵损失函数为：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_二分类_30$

接下来，我们从图形化直观角度来看。当 y = +1 时：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_二分类_31$

这时候，L 与上一层得分函数 s 的关系如下图所示：

grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_32

横坐标是 s，纵坐标是 L。显然，s 越接近真实样本标签 1，损失函数 L 越小；s 越接近 -1，L 越大。

另一方面，当 y = -1 时：

$grnn的损失函数用交叉熵 lr损失函数交叉熵_损失函数_33$

这时候，L 与上一层得分函数 s 的关系如下图所示：

grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_34

同样，s 越接近真实样本标签 -1，损失函数 L 越小；s 越接近 +1，L 越大。

3 Softmax函数与交叉熵损失函数

我们知道，线性分类器的输出是输入 x 与权重系数的矩阵相乘：s = Wx。对于多分类问题，使用 Softmax 函数对线性输出进行处理。

grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_35

其中， $grnn的损失函数用交叉熵 lr损失函数交叉熵_损失函数_36$ 是正确类别对应的线性得分函数， $grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_37$ 是正确类别对应的 Softmax输出。由于 log 运算符不会影响函数的单调性，我们对 $grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_37$

grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_39

我们希望 Si 越大越好，即正确类别对应的相对概率越大越好，那么就可以对 Si 前面加个负号，来表示损失函数：

grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_40

对上式进一步处理，把指数约去：

grnn的损失函数用交叉熵 lr损失函数交叉熵_二分类_41

上式就是使用softmax函数的交叉损失函数。

不知道你们有没有想过一个问题，交叉熵损失函数为什么叫交叉熵损失函数，他和交叉熵有什么关系？

说实话这个问题在我脑海中萦绕了很长一段时间，直到某天复习交叉熵的时候，我再恍然大悟，原来这么简单，望文生义就可以了，就是使用交叉熵来做损失函数。

首先来看信息熵的公式：

grnn的损失函数用交叉熵 lr损失函数交叉熵_交叉熵损失_42

信息熵代表一个分布的信息量，或者编码的长长度。在统计上可以表示一个随机变量的不确定性的大小，熵越大随机变量的不确定性越大。

然后来看交叉熵的公式：

grnn的损失函数用交叉熵 lr损失函数交叉熵_softmax_43

交叉熵本质上可以看成,用一个猜测的分布的编码方式去编码其真实的分布,得到的平均编码长度或者信息量。如上面的式子,用猜的的p分布,去编码原本真是为q的分布,得到的信息量。

在机器学习中，P(X)就是数据这是的分布，Q(X)是我们预测的分布。当我们预测的分布P(X)越接近Q(X)时，说明我们预测的越好，交叉熵的值越小。可是上面的 $grnn的损失函数用交叉熵 lr损失函数交叉熵_交叉熵损失_44$ 的公式是怎么变成前面的 $grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_45$ 的呢？其实q(x)是真实分布，即它只有一个取值为1，剩下的全为零。当取1时，就变成了 $grnn的损失函数用交叉熵 lr损失函数交叉熵_二分类_46$ ，当0时，就变成了0。所以最后的 $grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_45$ 就变成了 $grnn的损失函数用交叉熵 lr损失函数交叉熵_二分类_46$ 的累加形式。也许别人看到名字就懂了，我却想了那么久才顿悟。。。

以上的内容受【机器学习】信息量，信息熵，交叉熵，KL散度和互信息（信息增益）的启发。这是一篇很好的博客大家可以看看。

下面举一个计算交叉损失函数的例子：

grnn的损失函数用交叉熵 lr损失函数交叉熵_grnn的损失函数用交叉熵_49

针对一个数据点，SVM和Softmax分类器的不同处理方式的例子。两个分类器都计算了同样的分值向量f（本节中是通过矩阵乘来实现）。不同之处在于对f中分值的解释：SVM分类器将它们看做是分类评分，它的损失函数鼓励正确的分类（本例中是蓝色的类别2）的分值比其他分类的分值高出至少一个边界值。Softmax分类器将这些数值看做是每个分类没有归一化的对数概率，鼓励正确分类的归一化的对数概率变高，其余的变低。SVM的最终的损失值是1.58，Softmax的最终的损失值是0.452，但要注意这两个数值没有可比性。只在给定同样数据，在同样的分类器的损失值计算中，它们才有意义。

softmax函数与交叉熵损失函数的关系：
精确地说，SVM分类器使用的是_折叶损失（hinge loss），有时候又被称为_最大边界损失（max-margin loss）。Softmax分类器使用的是_交叉熵损失（corss-entropy loss）_。Softmax分类器的命名是从_softmax函数_那里得来的，softmax函数将原始分类评分变成正的归一化数值，所有数值和为1，这样处理后交叉熵损失才能应用。注意从技术上说“softmax损失（softmax loss）”是没有意义的，因为softmax只是一个压缩数值的函数。但是在这个说法常常被用来做简称。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。