self-training,是用训练好的模型的预测结果 作为 伪target,混入原训练集一起训练,

该文的创新在于提出一种文本相似度算法从海量文本中找出和 训练集中的文本 相似的文本,

然后用训练好的模型对这批 找出的相似的文本 进行预测出 伪target,然后混一起,然后是BERT fine-tune,

提升了fine-tune的效果,似乎跟文章题目说的pre-train没关系。

原文也提到了:

Self-training Improves Pre-training for Natural Language Understanding 笔记_文本相似度