深度学习训练集loss下降很慢上下波动训练集loss下降验证集loss上升

转载

mob64ca13f2b62d 2024-08-27 15:15:13

文章标签 深度学习训练集loss下降很慢上下波动交叉熵 accuracy 差异过拟合 文章分类 深度学习人工智能

在上一篇博文（[歌词生成] 基于LSTM语言模型和seq2seq序列模型：数据爬取、模型思想、网络搭建、歌词生成）中，seq2seq训练之后，我们发现其在训练集合验证集上loss和accuracy变化如下：

深度学习训练集loss下降很慢上下波动训练集loss下降验证集loss上升_深度学习训练集loss下降很慢上下波动

我们首先来回顾一下过拟合的基本表现：
训练集loss不断降低，但是测试集的loss开始不断增加。

再来看我们这个情况，看右边2个loss的图，在第15个epoch之前，训练集上的loss不断降低，验证集上的val-loss也在不断减小，这说明模型在不断拟合数据。但是在第15个epoch之后，训练集上的loss仍然在不断降低，而验证集上的val-loss开始不断增加，这是典型的过拟合问题。

但是接下来的疑问是为什么在验证集中，val-loss在15个epoch之后再不断增加，但是val-accuray仍然在不断升高，这个原因是什么呢？接下来将就这个问题进行分析。（注：很多解析都是来自网上，这里进行了整理并加上了自己的理解）。

参考文献[1]的想法：在15个epoch之后，虽然val-accuracy也在不断增加，但是其变化的趋势非常平稳，也就是可能原因是虽然val-loss增加了，但是只要预测分数不超过类别变化的临界值，它就可以在val-loss增加时仍然保持比较平稳的状态。

这么讲比较抽象，下面通过一个例子说明：

假设现在有个类别的数据集，类别分别是dog和horse，对于现在的一个样本，其真实类别是horse，也就是其真实值one-hot为[0, 1]，对于下面2种情况：
①其预测softmax值为[0.1, 0.9]，则对于这个例子的交叉熵值计算为： $深度学习训练集loss下降很慢上下波动训练集loss下降验证集loss上升_差异_02$
②其预测softmax值为[0.4, 0.6]，则对于这个例子的交叉熵值计算为： $深度学习训练集loss下降很慢上下波动训练集loss下降验证集loss上升_交叉熵_03$
也就是说，虽然在上述两种情况下，预测值都为horse，即其accuracy是一样的，但是其loss是增加的。这种情况下就会出现val-loss不断增加，但是val-accuracy平稳不变的情况。
同理，在若干个样本的加和val-loss中，可能出现val-accuracy缓慢上升，val-loss也上升的情况，这种情况也属于过拟合问题，在这种情况下，可能预测softmax值稍微发现一点点的变化，使得accuracy上升，但是因为有其他样本的loss增加的较多，所以即使对于当前这样样本来说，acc增加，loss减少，但是对于整体样本的loss和来说，loss增加，造成整体情况是acc增加，loss也在增加。

参考文献[2]中有实验，实验表明，在数据量不是很大的情况下，的确会出现上述问题，但是如果数据量足够大，最终趋于的平稳情况是loss增加，acc会降低。

这也就引出了为什么在训练网络的衡量指标中，loss比accuracy更常用，总结如下：

(1) loss函数是可微的，而accuracy不是可微的，在网络模型反向传播过程中，需要可微的目标函数。
(2) 在分类任务中，使用accuracy可以，但是在回归任务中，accuracy便不再可用，只能使用loss
(3) 损失函数可以有多种优化方法，如牛顿法、极大似然估计等

参考文章： [1] Validation loss increases while validation accuracy is still improving #3755 [2] Good accuracy despite high loss value [3] How is it possible that validation loss is increasing while validation accuracy is increasing as well [4] Neural Networks - Loss and Accuracy correlation

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。