
语言理解的四个粒度,字段理解、词的理解、句子的理解、篇章的理解

词向量,词的粒度

token类别还是整个句子的类别

词向量是静止的

预训练语言模型

底层特征可以复用

NLP技术发展

基于双向LSTM ELMO第一个预训练语言模型

横向左右双向建模得到上下文信息,纵向得到不同程度的特征信息

不直接参与模型训练,只是作为特征参与下游任务

解决了一词多义的问题

问题

GPT

更强的文本特征提取能力

直接参与下游的模型训练

针对下游任务的应用简化了模型结构设计

存在缺点


直接进行交互式语言训练

model-based效果更好

BERT模型的缺点

ernie基于全局实体信息的mask


ERNIE直接触发了BERT-wwm和spanBERT的诞生

ERNIE也不是最完美的,可以在预训练阶段构造多个任务进行充分训练

出现了ERNIE2.0,各个模型交替训练先训练A任务,再训练B任务,在一起训练A+B任务

预训练语言模型的发展

预训练语言模型的优势

NLP难点和发展过程

双塔结构

单塔结构
















