摘要
通过neural architecture search的方法提升普通transformer,
速度比普通transformer提升两倍,
效果在机器翻译比普通transformer提升0.7 BLEU
neural architecture search
设计出一些可能的神经网络结构,分别在测试集上评估效果
Search Space
本文搜索空间包括两个stackable cell,一个在transformer模型的encoder,一个在transformer模型的decoder。
每个cell由NASNet-style block组成, 具体通过左右两个block将输入的hidden state转成左右两个hidden state再归并成为一个新的hidden state,作为self-attention的输入。
encoder包括6个block,decoder包括8个block。
block可以由MLP和各种CNN等组成(实际好像还有attention作为layer),里面的normalization, layer, output dimension and activation就是搜索空间
最终结构
encoder:
decoder: