蜗牛_的博客_每日一摸,考研,杂类

权重衰减weight_decay参数从入门到精通

文章目录本文内容1. 什么是权重衰减(Weight Decay)2. 什么是正则化？2.1 什么数据扰动3. 减小模型权重4. 为Loss增加惩罚项4.1 通过公式理解Weight Decay4.2 通过图像理解Weight Decay为什么1范数不好5. Weight Decay的实现6. weight_decay的一些trick参考资料本文内容Weight Decay是一个正则化技术，作用是抑

深度学习

机器学习

算法

权重

数据

原创 2023-05-11 09:23:58 1592 阅读

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing

论文阅读

自然语言处理

人工智能

ci

维基百科

原创 2023-05-08 16:25:31 326 阅读

【论文解读】（拼音+字形+字三种信息的中文BERT）ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

bert

python

深度学习

卷积

Glyph

原创精选 2023-05-08 16:16:12 504 阅读

模型泛化技巧“随机权重平均(Stochastic Weight Averaging, SWA)”介绍与Pytorch Lightning的SWA实现讲解

SWA，

pytorch

深度学习

机器学习

模拟退火

权重

原创精选 2023-05-06 11:51:21 816 阅读

【论文解读】(如何微调BERT？) How to Fine-Tune BERT for Text Classification?

用BERT做具体任务时效果不够好？这篇论文教你如何微调BERT

bert

深度学习

人工智能

数据

数据集

原创精选 2023-05-06 10:47:16 1007 阅读

Bert的pooler_output是什么？

在学习bert的时候，我们知道bert是输出每个token的embeding。但在使用hugging face的

bert

深度学习

python

全连接

sed

原创 2023-05-01 16:41:40 1074 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

11456419

权重衰减weight_decay参数从入门到精通

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing

【论文解读】（拼音+字形+字三种信息的中文BERT）ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

模型泛化技巧“随机权重平均(Stochastic Weight Averaging, SWA)”介绍与Pytorch Lightning的SWA实现讲解

【论文解读】(如何微调BERT？) How to Fine-Tune BERT for Text Classification?

Bert的pooler_output是什么？