论文阅读《Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers》

原创

说文科技 2021-07-05 21:40:12 ©著作权

文章标签 nlp 算法深度学习关系分类 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者说文科技的原创作品，请联系作者获取转载授权，否则将追究法律责任

前言

望各位读者审慎阅读。
待更新~

1.思想

通过修改transformer的基础结构去解决 Multiple Relation Extraction（MRE）中的 Multiple Pass 问题

2.问题

已经有实体被标注出来，现在要做的任务是对这些实体对之间进行分类
本文提出的方法适用于基于transformer 的encoder，因为本文对transformer 中的attention 进行了一点儿修改，在其中添加了一个相对位置信息

3.实现

将实体间的位置信息融入到attention 计算当中。位置信息是通过相对位置获取，加入到attention的步骤是通过融合计算。下面分别来看一下。

3.1 如何获取相对位置信息

使用一个二维矩阵定义一个距离。如下图所示：

论文阅读《Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers》_nlp
这样我们就可以得到每个token间的一个相对距离，这个相对距离的计算方式如下：

先计算两个token之间的距离。计算的公式是：d(i,j) = min(max(-k,i-j),k)
再根据得到的d(i,j)，得到一个映射的向量 w d i , j w_{d_{i,j}} wdi,j。这个映射过程文章中说的不是很清楚，只是说这个 { w − k K , . . . , w k K , } \{w_{-k}^{K},..., w_{k}^{K},\} {w−kK,...,wkK,} 和 { w − k V , . . . , w k V , } \{w_{-k}^{V},..., w_{k}^{V},\} {w−kV,...,wkV,}都是从头开始训练的。

3.2 如何融合到模型中？

将相对位置信息融入到attention中。这个融入的过程就体现在将上面得到的 relation position embedding 放到 attention 中一起计算。如下图所示：
论文阅读《Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers》_nlp_02
这没啥好说的了。