前言
  • 望各位读者审慎阅读。
  • 待更新~

1.思想

通过修改transformer的基础结构去解决 Multiple Relation Extraction(MRE)中的 Multiple Pass 问题

2.问题
  • 已经有实体被标注出来,现在要做的任务是对这些实体对之间进行分类
  • 本文提出的方法适用于基于transformer 的encoder,因为本文对transformer 中的attention 进行了一点儿修改,在其中添加了一个相对位置信息
3.实现

将实体间的位置信息融入到attention 计算当中。位置信息是通过相对位置获取,加入到attention的步骤是通过融合计算。下面分别来看一下。

3.1 如何获取相对位置信息

使用一个二维矩阵定义一个距离。如下图所示:

论文阅读《Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers》_nlp
这样我们就可以得到每个token间的一个相对距离,这个相对距离的计算方式如下:

  • 先计算两个token之间的距离。计算的公式是:d(i,j) = min(max(-k,i-j),k)
  • 再根据得到的d(i,j),得到一个映射的向量 w d i , j w_{d_{i,j}} wdi,j​​。这个映射过程文章中说的不是很清楚,只是说这个 { w − k K , . . . , w k K , } \{w_{-k}^{K},..., w_{k}^{K},\} {w−kK​,...,wkK​,} 和 { w − k V , . . . , w k V , } \{w_{-k}^{V},..., w_{k}^{V},\} {w−kV​,...,wkV​,}都是从头开始训练的。

3.2 如何融合到模型中?

将相对位置信息融入到attention中。这个融入的过程就体现在将上面得到的 relation position embedding 放到 attention 中一起计算。 如下图所示:
论文阅读《Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers》_nlp_02
这没啥好说的了。

4.总结
  • 论文的实验部分还是应该看看,学习一下的,如果只看模型,没有对照分析一下实验,总会缺点儿什么。

其实吧 ,现在回过头来看,魔改模型都是“灌水”式的研究,那些通过排列组合在数据上跑出最优实验结果然后再发paper总感觉少了 点儿意思,我并不是说作者他们做的不好,但是确实不够有用。因为这些文章不需要几年就会过时,真的很令人痛心。希望我能够做出一些有用的研究。