文章目录

 

transformer的优势

  • 用self attention求两两之间的关系,时序梯度求导。
  • 不用时序序列推导,可以并行处理。