self-training,是用训练好的模型的预测结果 作为 伪target,混入原训练集一起训练,
该文的创新在于提出一种文本相似度算法从海量文本中找出和 训练集中的文本 相似的文本,
然后用训练好的模型对这批 找出的相似的文本 进行预测出 伪target,然后混一起,然后是BERT fine-tune,
提升了fine-tune的效果,似乎跟文章题目说的pre-train没关系。
原文也提到了:
self-training,是用训练好的模型的预测结果 作为 伪target,混入原训练集一起训练,
该文的创新在于提出一种文本相似度算法从海量文本中找出和 训练集中的文本 相似的文本,
然后用训练好的模型对这批 找出的相似的文本 进行预测出 伪target,然后混一起,然后是BERT fine-tune,
提升了fine-tune的效果,似乎跟文章题目说的pre-train没关系。
原文也提到了:
Bert是继Transformer之后的又一杰出的模型。
1. 概述随着深度学习在NLP领域的发展,产生很多深度网络模型用于
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT) 前记: 【预训练语言模型】系列文章是对近几年经典的预训练语言模型论文进行整理概述,帮助大家对预训练模型进行全局的理解。本系列文章将不断更新,敬请关注博主。本文将讲解如今最为火爆的预训练模型——BERT,其于2018年底被提出
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M