各大预训练模型的对比

ELMO

BERT

BERT

目标

得到的词的表示

编码器

BiLSTM

解码器


预训练任务

预测下一个词

损失函数

优点

缺点

备注