深度学习怎么看实验结果有没有收敛怎么判断深度模型收敛

关注 goody

文章目录

深度学习调参技巧
一. Batch
二. 学习率
三. Loss
3.1 Focal loss

深度学习怎么看实验结果有没有收敛怎么判断深度模型收敛

转载

goody 2024-06-28 13:53:03

文章标签 深度学习怎么看实验结果有没有收敛深度学习 batch 人工智能调参 文章分类 深度学习人工智能

深度学习调参技巧

一. Batch
二. 学习率
三. Loss

3.1 Focal loss

一. Batch

batch_size的选取对模型精度和模型泛化能力的影响：

.模型没有BN层:

batch_size过大，模型收敛速度变慢。而且模型容易陷入局部最小值，模型精度低。
batch_size适中，模型没有BN层，模型收敛速度很快，模型不容易陷入局部最小值(较小的batch相当于人为给训练加入了噪声)，而且模型精度很高。
batch_size过小，比如说小于数据集中的类别个数，模型会出现不收敛的情况。

模型有BN层：

batch_size过小，BN层所计算的统计信息的可靠性越来越差，这样就容易导致错误率的上升；而在batch size较大时则没有明显的差别

GPU：

在GPU性能(GPU利用率，不是显存)没有被完全利用的情况下，batch_size越大，模型训练的速度越快；但是收敛到同一个最优点时间越长

如何确定batch_size

1.根据数据集的大小确定batch_size。

样本类别数目较少，而且模型没有BN层，batch_size就设置得较小一点。
样本类别数目较多，而且模型没有BN层，batch_size就设置得较大一点。尽量保证一个batch里面各个类别都能取到样本。
数据集很小，可以采取Full Batch Learning。每次用所有的训练集进行训练。

2.GPU本身的特性

GPU对2的幂次的batch可以发挥更佳的性能，因此设置成16、32、64、128…时往往要比设置为整10、整100的倍数时表现更优；gpu 上最好都是 32 倍数，和 wrap 一致（warp是SM的基本执行单元。一个warp包含32个并行thread）

3.有BN层的模型

数据集很大，类别也较多时，batch_size尽量越大越好。

4.不同学习率策略

一阶优化算法：SGD（随机梯度下降）及其改良的如Adagrad、Adam
二阶优化算法如共轭梯度法、L-BFGS，如果估计不好一阶导数，那么对二阶导数的估计会有更大的误差，往往要采用大batch，batch设置成几千甚至一两万才能发挥出最佳性能（做信息抽取中的关系分类分类时，batch设置的2048配合L-BFGS取得了比SGD好得多的效果，无论是收敛速度还是最终的准确率）

batch调参技巧

先搜几组learning rate/batch size的比值，然后就保持这个值搜个尽可能偏小的batch size
当模型训练到尾声，想更精细化地提高成绩（比如论文实验/比赛到最后），有一个有用的trick，就是设置batch size为1，即做纯SGD，慢慢把error磨低。
有BN层时，尽量保证每个batch包含所有类别，可以通过copypaste、cutout等数据增强的手段达到

参考链接：

训练神经网络时如何确定batch的大小？
深度机器学习中的batch的大小对学习效果有何影响？
知乎：怎么选取训练神经网络时的Batch size?（评论区比较有意思）

二. 学习率

深度学习怎么看实验结果有没有收敛怎么判断深度模型收敛_深度学习

参考链接：

深度学习超参数调整

三. Loss

3.1 Focal loss

深度学习怎么看实验结果有没有收敛怎么判断深度模型收敛_batch_02

参数作用

α：控制正负样本不均衡，正样本越少α应该越大
γ：控制难分样本不均衡
loss_weight：不同class的loss权重

调参技巧

γ起的作用比较大，所以γ=2时，正样本的权重α=0.25，负样本权重1 - α = 0.75

参考链接：

MMDetection Sigmoid Focal Loss解析

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：cdh 进入zookeeper zookeeper etcd

下一篇：redission底层使用lua么 redis底层命令

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册