参考​

​Transformer所使用的注意力机制的核心思想是去计算一句话中的每个词对于这句话中所有词的相互关系,然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。​

转换器的缺点:长距离之间的特征提取能力不如RNN.

转换器xl就是把转换器切成几截.