position embedding BERT 里的实现:

为什么position embedding就是相加一个随机矩阵_其它


要思考一个问题,什么是position embedding,

就是:

如果每个position的位置用0,1,2,3,4…来表示的话,

怎样像word embedding似的输进模型里呢,

就是两种办法:

one-hot

或者

把position的0,1,2,3,4看成word id一样用embedding_lookup表示成和word embedding同样维数,也就是用一个vector代表0,用一个vector代表1,用一个vector代表2……

position 0,1,2,3,4每个id或index都会转成一个vector,合起来也就是一个随机矩阵!所以看position embedding的另一种实现:

为什么position embedding就是相加一个随机矩阵_其它_02


为什么position embedding就是相加一个随机矩阵_其它_03