《Optimal Subarchitecture Extraction For BERT》
用神经网络搜索的方法寻找一个最优的BERT:
最终寻到的最优BERT:
其中
D是transformer encoder层数
A是attention heads
H是hidden size
I是intermediate layer size对比了 普通预训练 和 基于蒸馏的预训练(下面第二第三列):
《Optimal Subarchitecture Extraction For BERT》
用神经网络搜索的方法寻找一个最优的BERT:
最终寻到的最优BERT:
其中
D是transformer encoder层数
A是attention heads
H是hidden size
I是intermediate layer size对比了 普通预训练 和 基于蒸馏的预训练(下面第二第三列):
fy中的几个public函数Watch,WatchFlags,R
论文名:Automated Ph
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M