深度学习 en 深度学习基础教程

转载

mob64ca14154457 2024-06-10 10:11:26

文章标签 深度学习 en 过拟合权重拟合 文章分类 深度学习人工智能

动手学深度学习之深度学习基础

文章目录

动手学深度学习之深度学习基础

1、过拟合、欠拟合及其解决方案
2、梯度消失、梯度爆炸
3、循环神经网络进阶
4、机器翻译及相关技术
5、注意力机制与Seq2seq模型
6、Transformer
7、卷积神经网络基础
8、LeNet
9、卷积神经网络进阶

1、过拟合、欠拟合及其解决方案

训练误差（training error）：模型在训练数据集上表现的误差
泛化误差（generalization error）:模型在任意一个测试数据样本上表现出的误差的期望，常常通过测试数据集的误差来衡量。
机器学习模型应关注降低泛化误差

数据集的形式主要有三种：

训练集
测试集：测试数据集不可以用来调参
验证集

K折交叉验证:把原始数据分成K组，每次训练时，使用K-1个子数据集训练，使用一个作为验证，最后通过K次求取训练误差和验证误差的平均。

过拟合（overfitting）：模型的训练误差远小于它在测试数据集上的误差

欠拟合（underfitting）:模型无法得到较低的训练误差

导致过拟合、欠拟合的主要因素：

模型复杂度
训练数据集大小：训练样本不足会导致过拟合

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wXvlfbBj-1582003057513)(C:\Users\yg199\AppData\Roaming\Typora\typora-user-images\1581997310607.png)]

如何解决过拟合与欠拟合问题：

权重衰减等价于 $深度学习 en 深度学习基础教程_权重$ 范数正则化（regularization）:通过为模型损失函数添加惩罚项使学出的模型参数值比较小，是应对过拟合的常用手段。

$深度学习 en 深度学习基础教程_权重_02$

$深度学习 en 深度学习基础教程_深度学习 en_03$ 范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。

其中超参数 $深度学习 en 深度学习基础教程_过拟合_04$ 。当权重参数均为0时，惩罚项最小。当 $深度学习 en 深度学习基础教程_深度学习 en_05$ 较大时，惩罚项在损失函数中的比重较大，这通常会使学到的权重参数的元素较接近0。当 $深度学习 en 深度学习基础教程_深度学习 en_05$ 设为0时，惩罚项完全不起作用。上式中 $深度学习 en 深度学习基础教程_深度学习 en_03$ 范数平方 $深度学习 en 深度学习基础教程_权重_08$ 展开后得到 $深度学习 en 深度学习基础教程_过拟合_09$ 。
有了 $深度学习 en 深度学习基础教程_深度学习 en_03$ 范数惩罚项后，在小批量随机梯度下降中，我们将线性回归一节中权重 $深度学习 en 深度学习基础教程_权重_11$ 和 $深度学习 en 深度学习基础教程_深度学习 en_12$ 的迭代方式更改为
$深度学习 en 深度学习基础教程_深度学习 en_13$
可见， $深度学习 en 深度学习基础教程_深度学习 en_03$ 范数正则化令权重 $深度学习 en 深度学习基础教程_权重_11$ 和 $深度学习 en 深度学习基础教程_深度学习 en_12$ 先自乘小于1的数，再减去不含惩罚项的梯度。因此， $深度学习 en 深度学习基础教程_深度学习 en_03$ 范数正则化又叫权重

衰减。

Example: 高维线性回归实验

丢弃法：解决过拟合的一种方法，测试模型中一般不使用

2、梯度消失、梯度爆炸

深度模型有关数值稳定性的典型问题：消失（vanishing）和爆炸（explosion）

当层数较多时，梯度的计算也容易出现消失和爆炸，消失和爆炸主要通过数据来衡量，当数据特别小，即出现梯度下降，当数据特别大，即出现梯度爆炸。

3、循环神经网络进阶

4、机器翻译及相关技术

5、注意力机制与Seq2seq模型

6、Transformer

7、卷积神经网络基础

8、LeNet

9、卷积神经网络进阶

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：hbase会去重吗 hbase删除数据的几种方式

下一篇：内部存储Android权限 android 存储权限

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯