本文的主题是预训练语言模型的前世今生,会大致说下 NLP 中的预训练技术是一步一步如何发展到 Bert 模型的,从中可以很自然地看到 Bert 的思路是如何逐渐形成的,Bert 的历史沿革是什么,继承了什么,创新了什么,为什么效果那么好
本篇文章的知识点顺序是按照 Transformer 的架构,从下往上,从 encoders 到 decoders 的顺序编写的,可能不利于新手的理解,但是非常全面,可以参考其他的文章一起阅读,效果更佳! 一、Transformer引入 来源于机器翻译: Transformer 分为两个部分——编码器
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号