《Optimal Subarchitecture Extraction For BERT》

用神经网络搜索的方法寻找一个最优的BERT:

BORT 阅读笔记_神经网络


最终寻到的最优BERT:

BORT 阅读笔记_搜索_02

其中

D是transformer encoder层数

A是attention heads

H是hidden size

I是intermediate layer size对比了 普通预训练 和 基于蒸馏的预训练(下面第二第三列):

BORT 阅读笔记_搜索_03