各大预训练模型的对比
ELMO | BERT | BERT | |
目标 | 得到的词的表示 | ||
编码器 | BiLSTM | ||
解码器 | 无 | ||
预训练任务 | 预测下一个词 | ||
损失函数 | |||
优点 | |||
缺点 | |||
备注 |
各大预训练模型的对比
ELMO | BERT | BERT | |
目标 | 得到的词的表示 | ||
编码器 | BiLSTM | ||
解码器 | 无 | ||
预训练任务 | 预测下一个词 | ||
损失函数 | |||
优点 | |||
缺点 | |||
备注 |
1.1x1的卷积核有什么作用?2.两个3x3的卷积核核一个5x5的卷积核的感受野相同吗?3.BN的特点,作用,和激活函数的顺序?4.BN后的激
NLP算法工程师面试之BPE算法。BPE算法是一种subword方法,该算法的主要步骤是:
算法面试工程师面试之fastText算法。本文详细介绍了fastText算法的基础知识如Hierarchical softmax 和N-gram。同时也给出了fastText 的一个基本介绍。
优秀了预训练模型就是一些人用某个较大的数据集训练好的模型(这种模型往往比较大,训练需要
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M