1. 题目
Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, Navonil Majumder, Pawan Goyal†, Soujanya Poria IIT Kharagpur, India 印度理工学院 – 被称为印度“科学皇冠上的瑰宝” Singapore University of Technology and Design, Singapore 新加坡科技设计大学
只研究英文的关系抽取。
2. 介绍
关系抽取有两类:open information extraction(Open IE)【KnowItAll,TEXTRUNNER,REVERB, SRLIE, OLLIE】 【基于规则的方法】,缺点:一种关系可以用不同表面形式的句子来表达supervised relation extraction, 考虑设置固定的关系集,因此需要去处理那些不正常的关系,因此需要大量的标注语料;对于语料,提出了远程监督,可是远程监督带来大量的noise.
3. 任务描述
给定一组句子和一组关系R作为输入,任务是从句子中提取一组关系三元组。
3.1 基于管道
基于管道的关系提取方法将任务分为两个子任务:(i)实体识别;(ii)关系分类。关系分类中,关系可能不存在(无)—None;
3.2 基于联合抽取
联合模型只提取有效的关系三联体,它们不需要提取None的三元组。
根据实体的overlap情况,可以分为NEO(No Entity Overlap),EPO(Entity Pair Overlap),SEO(Single Entity Overlap )三种情况:
4. 数据标注的挑战
标注数据是很耗费人力与物力的工作,所以提出来远程监督,但远程监督包含了大量noise数据。
Noisy positive samples:句子包含正三元组的两个实体,但该句子不能表达它们之间的任何关系,这个句子和实体对被认为是有噪声的正样本。理解为:即是句子中包含了某两个实体,可是句子中体现不出这个实体是某种关系;
Noisy negative samples:如果一个句子包含来自KB的两个实体,而这两个实体的关系是positive的,可是在KB中这两个实体之间没有关系,则这个句子和实体对被视为None关系的样本。(知识库不完备,这种情况时有发生了)
在数据库中Barack Obama 与 Hawaii 有 birth place 的关系,在数据库中Karkuli 与West Bengal没有关系。
5. Datasets
6. 评估指标
略
7. 关系提取模型
7.1 Pipeline Extraction Approaches
在实体识别与关系分类的两个任务中,实体识别相对成熟很多。后面介绍的都是基于有实体结果后的关系抽取。
7.1.1 Feature-Based Models
Mintz et al. (2009):Distant supervision for relation extraction without labeled data
分类器:
multiclass logistic regression classifier optimized using L-BFGS with Gaussian regularization
特征工程(只要的体现):
Lexical features,Syntactic features,Named entity tag features等三大特征连在一起
Riedel et al. (2010): Modeling relations and their mentions without labeled text: 提出多实例学习
采用因子图去解决
Hoffmann et al. (2011),Surdeanu et al.(2012) 对于overloap关系问题,提出了多实例多标签【multi-instance multilabels (MIML)】
Ren et al. (2017),CoType: Joint extraction of typed entities and relations with knowledge bases—
提出了一种新的远程监控框架COTYPE;提出了一种基于领域无关的文本分割算法,利用远程监控来检测实体提及;提出了一种关节嵌入目标,该目标以噪声鲁棒的方式对三维关联、三维-特征共现、实体-关系交叉约束进行了建模;
模型框架:
这里面对“弱监督”和“远程监督”的结合而成的系统。
可以参考:
7.1.2 CNN-Based Neural Models
Zeng et al. (2014),Relation classifification via convolutional deep neural network,
https://aclanthology.org/C14-1220.pdf
a. 卷积DNN算法来提取词汇级特征(lexcial level features)和句子级特征(sentence level features);
b. 提出了位置特征(PF,position features),来编码当前词与目标词对的相对距离,同时说明位置特征是比较有效的特征;
三层网络:Word Representation、Feature Extraction、Output
首先,第一层是词表示层,词标记通过word embedding转化成词向量。
接着,第二层是特征提取层,提取词汇级别和句子级别特征,将两者直接串联作为最终的特征。
最后,第三层是输出层,将特征通过一层softmax分类器,得到各种关系的置信度,置信度高的就是两个标记名词的关系。实际上就是将关系提取问题转化成关系分类问题了。
对于第二层Feature Extraction:
第一个特征:Lexical Level Features,标记名词的词向量(word embeddings of marked nouns)、上下文标记(the context tokens)、WordNet中的上位词(the WordNet hypernyms,出现于MVRNN (Socher et al., 2012).)所有的特征串联起来作为词汇级别的特征。
第二个特征:Sentence Level Features(WF(Word Features),PF(PositionFeatures),卷积(Convolution),Sentence Level Feature Vector(这里使用了最大池化),Output)
Zeng et al. (2015) ,Distant supervision for relation extraction via piecewise convolutional neural networks. --介绍了piecewise convolutional neural network (PCNN) – 三段池化层–softmax激活层进行分类
https://aclanthology.org/D15-1203.pdf
解决的问题:
- 远程监督的方法由于约束较低,所以导致会产生大量的噪声数据;解决方案为采用多示例学习缓解噪声;
- 特征抽取方法没有充分考虑两个实体间的位置信息;解决方法为提出PCNNs网络;
7.1.3 Attention-Based Neural Models
Shen and Huang(2016) ,Attention based convolutional neural network for semantic relation extraction-----CNN+ATT
https://aclanthology.org/C16-1238.pdf
提出了一种新的基于注意力的卷积神经网络结构来完成关系分类任务。模型充分利用了单词嵌入、词性标注嵌入和位置嵌入信息。词级注意机制能够更好地确定句子的哪个部分相对于两个标注的实体最有影响。这种体系结构能够从特定任务的标记数据中学习一些重要的特征,而不需要外部知识,例如显式的依赖结构。
- 句子卷积:给定一个句子和两个目标实体,用卷积神经网络(CNN)构造句子的分布式表示。
- 基于注意的上下文选择:我们使用词级注意来选择与目标实体相关的词。
句子卷积(Word Embeddings,Position Embeddings,Part-of-speech tag Embeddings):
关注力模块
Wang et al. (2016), Relation classifification via multi-level attention CNNs – 两次Attention以及损失函数的设计都是十分巧妙
来自清华大学,罗格斯大学, ACL16,刘知远老师
https://aclanthology.org/P16-1123.pdf
Zhang et al. (2017),Position aware attention and supervised data improve slot fifilling --公布了一批SF关系分类的语料TACRED((119,474个样本),将位置注意力机制与LSTM结合,EMNLP
https://aclanthology.org/D17-1004.pdf,
https://github.com/onehaitao/PA-LSTM-relation-extraction
公布的数据集:https://catalog.ldc.upenn.edu/LDC2018T24
Jat et al. (2017), Improving distantly supervised relation extraction using word and entity based attention – 提出BGWA(词关注模型)与EA(实体模型),然后把这两模型作结合;另外,介结了新的远程监督数据集GDS;
Nayak and Ng (2019),Effective attention modeling for neural relation extraction – CoNLL,
https://github.com/nusnlp/MFA4RE,
https://arxiv.org/pdf/1912.03832.pdf
当句子中的两个实体距离比较远时,如何捕获long-distance的实体关系这一个挑战性的问题,解决方案:
- 从句子的依存关系解析树获取句法结构,考虑句子中词和实体间的依存距离
- 使用线性的注意力机制来衡量词的语义相似性
- 提出了一种multi-factor注意力机制,对长距离的实体进行多依存路径的关系抽取
Bowen et al. (2019)–Beyond word attention:Using segment attention in neural relation extraction. — IJCAI. 使用segment级关注力,并不是传统的Token级的关注力,中科院,小米实验室,北京大学
Zhang et al. (2019)—Multi-labeled relation extraction with attentive capsule network. -----In AAAI.提出基于胶囊网的关注力机制去解决关系抽取,上海交通大学
解决句子中重叠的多重关系:
首先,一个实体对可以在一个句子中表达多个关系,这将严重混淆关系抽取器。
其次,现有的方法忽略了关系特征的离散化。
框架(特征提取层,胶囊网络特征聚类,关系预测层): Feature Extracting Layer:用Bi-LSTM来抽取low-level的语义特征; Feature Clustering Layer:为了在low-level的特征中选择出对关系有用的特征,聚合到high-level特征。这里解决了overlapped and discrete relation feature; Relation Predicting Layer:关系进行预测分类;
Ye and Ling (2019),Distant supervision relation extraction with intra-bag and inter-bag attentions—在多实例背景中使用了包内包外的关注力;
以前的方法,一般是包内关注力来降噪,这里提出把包外降噪也加入来。
https://github.com/ZhixiuYe/Intra-Bag-and-Inter-Bag-Attentions
https://arxiv.org/pdf/1904.00143.pdf
Yuan et al.(2019)—Cross-relation Cross-bag Attention for Distantly-supervised Relation Extraction --提出了跨关系与跨包的关注力(Cross-relation Cross-bag Selective Attention (C2 SA));浙江大学
AAAI 2019的一篇文章。针对DS的噪声问题,旨在构造一个noise-robust的训练方法。
整体结构流程cross-relation selective attention
cross-bag selective attention
Liet al. (2020b),Self attention enhanced selective gate with entity-aware embedding for distantly supervised relation extraction–提出了实体感知嵌入与自关注来提升PCNN来解决关系抽取问题;针对DS的噪声问题,提出的方案,这里处理一个bag只有一个句子的情况,如何处理问题。悉尼科技大学
- 使用实体感知词嵌入方法来集成相对位置信息和头/尾实体嵌入;
- 使用self-attention来捕获丰富的上下文依赖,作为对PCNN补充 ;
- 不使用选择关注力,而设计池设备门(pooling-equipped gate),作为一个聚合器来生成最终关系分类的包级表示 ;
7.1.4 Dependency-Based Neural Models
Xu et al. (2015),Classifying relations via long short term memory networks along shortest dependency paths–使用LSTM沿着两个实体之间的最短依赖路径(SDP)找到它们之间的关系
提出SDP-LSTM模型;SDP(the shortest dependency path),在句法依存树中,两实体到公共祖先节点的最短路径。
例如:“A trillion gallons of water have been poured into an empty region of outer space.”, 红线表示“water”与“region”的最短依赖路径;
SDP-LSTM的整体框架:
Liu et al. (2015),–最短依存树(SDP)+依存子树
北京大学,微软研究院
如下图给出了两个实体对在不同的句子中有着同样的最短依存书树,但是两个实体对的关系是完全不一样的,所以仅凭借最短依存树对实体对判别关系是不合理的,所以需要借助最短依存树上词的依存子树作为特征,产生了一个新问题:如何融合最短依存树的和依存子树的共同判断实体对的关系问题.
dependency-based neural networks (DepNN):通过递归神经网络去建模子树,采用CNN来获取更重要的最短路径的特征。
Miwa and Bansal (2016) , End-to-end relation extraction using LSTMs on sequences and tree structures-- tree LSTM(自低向上+自顶向下)+SDP
同时考虑了句子的词序信息和依存句法树的子结构信息,这两部分信息都是利用双向序列LSTM-RNN建模,并将两个模型堆叠起来,使得关系抽取的过程中可以利用实体相关的信息。作者在训练过程中使用了entity-pretrain和scheduled sampling等方法进一步提升关系抽取性能。
第一类是嵌入层,用于表示word、part-of-speech tag、dependency type和entity label;
第二类是序列层,用于表示word sequence,这一层是一个双向LSTM-RNN;
第三类是依存层,在依存树上表示两个目标词(实体)之间的关系。
Veyseh et al. (2020), Exploiting the syntax-model consistency for neural relation extraction–基于关系抽取的ON-LSTM(有序神经元LSTM)来保持句法的一致性;
OrderedNeuron Long-Short Term Memory Networks (ON-LSTM)
7.1.5 Graph-Based Neural Models
Quirk and Poon (2017),Distant supervision for relation extraction beyond the sentence boundary–对于跨句的实体抽取,提出基于图模型的方法。
Peng et al. (2017), Cross-sentence n-ary relation extraction with graph LSTMs --将该图分为两个有向无环图(DAG)
Song et al. (2018),N-ary relation extraction using graph state LSTM; —直接图更新的。
Vashishth et al.(2018), Zhang et al. (2018), and Guo et al. (2019) — GCN,将一个句子中的每个token视为图中的一个节点,并使用语法依赖树在节点之间创建一个图结构。
Vashishth et al. (2018) – 多实例的背景进行的
Zhang et al. (2018)-- 硬剪枝策略
Guo et al. (2019) – 提出一个软剪枝策略
Mandya et al. (2020) – 多子图
Sahu et al. (2019) – token为节点; Christopoulou et al. (2019)–实体提及,句子,题目为节点;Nan et al. (2020) --实体提及,实体,token作为节点-- 文档级
Zeng et al. (2020b),–文本级别的图集成与推理网络;
Wang et al. (2020a) ,–多头attention 网络
Zhou et al. (2020),–多头attention+GCN
Li et al. (2020a),–GCN+双关注网络
7.1.6 Contextualized Embedding-Based Neural Models
上下文章嵌入对关系抽取有重要的意义;EMLO,BERT,SpanBert
Baldini Soares et al. (2019), Matching the blanks: Distributional similarity for relation learning – 谷歌研究院
对照试验:证明了在RE里面BERT使用entity marker 和 entity start的效果是最好的
训练方法:提出了一种和原始BERT类似的自监督任务训练模型,并且构造了对应的数据集
各种bert的框架模型—(f)的实验效果是最好的:
Wang et al. (2019) ,Fine-tune BERT for DocRED with two-step process–提出了两阶段bert finetuning来解决文档级关系抽取。采用DocRED数据集;
第一阶段去判断两实体是否有关系;
第二阶段去对关系进行分类;
Nan et al.(2020),Reasoning with latent structure refifinement for document-level relation extraction-- 作者构造了一个动态的潜在结构优化策略来捕获非局部上下文信息,从而提取文档级关系,模型通过自动归纳潜在的文档层次图来支持跨句子的关系推理;模型由三个模块组成 :节点构造器,动态推理器,分类器;数据集为DocRED
https://arxiv.org/pdf/2005.06312.pdf
https://github.com/nanguoshun/LSR
节点构造器:动态推理器:
Han and Wang (2020) ,A novel document-level relation extraction method based on BERT and entity information-- 中科院,篇章级提取实体关系,通过实体mask的方法去进行,提出a BERT-based one-pass model,出是以DocRED为数据集。
例子:
提出模型:
Tang et al. (2020), HIN: Hierarchical inference network for document-level relation extraction–提出层次推理的文档抽取方法,Hierarchical Inference Network (HIN),行平移约束和双线性变换
论文地址:https://arxiv.org/abs/2003.12754
视频讲解:http://videolectures.net/pakdd2020_tang_hin_inference/
问题:
文档级RE面临着两个主要挑战:(1)如何获得不同粒度的推理信息;(2)如何将这些不同粒度的推理信息进行聚合并做出最终的预测。
贡献:
1.提出了一种用于文档级推理的层次推理网络(HIN),它能够将推理信息从实体级聚合到句子级,再聚合到文档级。
2.我们对DocRED数据集进行了全面的评估。结果表明,我们的模型达到了最先进的性能。我们进一步证明了使用BERT表示进一步显著地提高了性能。
3.我们分析了我们的模型在不同支持句数目下的有效性,实验结果表明,当支持句数目较大时,我们的模型比以前的工作有更好的表现。
7.2 对于远程监督数据的消噪方法
Multi-instance relation extraction(多实例学习):Riedel et al. (2010), Hoffmann et al. (2011), Surdeanu et al. (2012),Lin et al. (2016), Yaghoobzadeh et al. (2017),Vashishth et al. (2018), Wu et al. (2019), Yeand Ling (2019)
对于每个实体对,他们使用包含这两个实体的所有句子来找到它们之间的关系。使用不同句子选择机制去选择包含特定关系关键词的重点句子,而忽略掉带噪音的句子。
Ren et al.(2017) and Yaghoobzadeh et al. (2017) 使用多实例去降噪;
Yaghoobzadeh et al. (2017) ,Noise mitigation for neural entity typing and relation extraction—
解决两方面的noise: noise from distant supervision and noise from pipeline input features
方法:
对于ds,使用多标签多实例学习方法;到细粒度的实体抽取;
对于pipeline, 把实体抽取整合到关系抽取中.
Wu et al. (2017),Adversarial training for relation extraction–使用对抗训练;把噪音加入到embedding层上。
Qin et al.(2018a),DSGAN: Generative adversarial training for distant supervision relation extraction–使用了对抗生成网络到关系抽取上;
Jia et al. (2019),ARNOR: Attention regularization based noise reduction for distant supervision relation classifification-对于远程监督噪音提出基于关注正则机制
He et al. (2020), Improving neural relation extraction with positive and unlabeled learning-- 使用强化学习来处理噪音;
Shang et al. (2020), Are noisy sentences useless for distant supervised relation extraction?–AAAI2020,使用聚类的方法来标识噪音样本;
方法包含三个模块,句子编码器,噪声识别器,标签生成器
7.3 Zero-Shot and Few-Shot Relation Extraction
远程监督,基于知识库来建立关系的,可是知识有局限性,有关系是覆盖不了的,这时就产生了Zero与Few shot了,这些模型可以在一组关系上进行训练,并可以用于推断另一组关系。
Levy et al. (2017) and Li et al. (2019):把关系抽取任务转换成问题任务,使用阅读理解的方法去实现zero-shot的关系抽取;实体1与关系作为问题,实体2作为问题的回答;如果实体2不存在,用NIL表示;
Levy et al. (2017) :使用带有NIL节点的BiDAF model,带有负样本的WikiReading数据集;
Li et al. (2019):使用模板去创建问题;
FewRel 2.0是数据集,针对few-shot关系抽取;
7.4 Joint Extraction Approaches
(Katiyar andCardie, 2016; Miwa and Bansal, 2016; Bekoulis et al., 2018; Nguyen and Verspoor, 2019)
Zheng et al. (2017), Joint extraction of entities and relations based on a novel tagging scheme — 首先提出联合训练,缺点是解决不了实体共享的情境
https://www.aclweb.org/anthology/P17-1113.pdf, ACL2017 Outstanding Paper,中国科学院,
ppt:http://qngw2014.bj.bcebos.com/upload/2017/04/Joint%20Extraction%20of%20Entities%20and%20Relations%20Based%20on%20a%20Novel%20Tagging%20Scheme.pdf
提出了一种新的标注方案,可以将联合提取任务转换为标注问题。
Zeng et al. (2018) ,Extracting relational facts by an end-to-end neural model with copy mechanism-提出带有copy机制的encoder-decoder model;可以抽取有重叠实体关系的情景 ;
Takanobu et al. (2019),A hierarchical framework for relation extraction with reinforcement learning-层次强化学习模型来联合学习
Fu et al. (2019),–GCN来关系抽取;
Trisedya et al. (2019) ,N-gram 关注机制和编码器解码器模型,使用远程监督数据补全知识库。
Chen et al. (2019),MrMep: Joint extraction of multiple relations and multiple entity pairs based on triplet attention-提出了一种联合提取多个关系和多个实体对(MrMep)的新方法.使用编码器-解码器框架,首先使用基于cnn的多标签分类器查找所有关系,然后使用多头注意提取每个关系对应的实体。
https://aclanthology.org/K19-1055.pdf
https://github.com/chenjiayu1502/MrMep
MrMep利用一个三元组注意力来利用关系之间的连接和它相应的实体对。它首先预测所有可能的关系,然后对于每个目标关系,它使用指针网络的一个变体依次生成所有头和尾实体的边界(开始/结束位置),以此模型生成所有可能的实体对作为答案。因此,它允许实体自由地参与不同的三元组。
提出了一种新的神经网络方法MrMep,该方法首先提取所有可能的关系,然后对每个目标关系提取所有可能的实体对,然后将这两个过程打包成一个联合模型,联合训练。 MrMep采用三元组注意加强了关系对和实体对之间的连接,对于复杂重叠三元组,即使在轻量级的网络计算,效率也很高。 通过在三个基准数据集上的广泛实验,我们证明了MrMep在F1得分上分别比最具竞争力的先进方法提高了7.8%、7.0%和9.9%。
MrMep的总体架构(编码器、多关系分类器(多标签分类)和变长实体对预测器):
这个是一个不错的思想,要精读一下。
Nayak and Ng (2020),Effective modeling of encoder-decoder architecture for joint entity and relation extraction — 基于词级解码与指针网络解码的encoder-decoder network
(Zeng et al.,2018) ,Extracting relational facts by an end-to-end neural model with copy mechanism—提出了CopyR model;
(Zeng et al., 2020a),CopyMTL: Copy mechanism for joint extraction of entities and relations with multi-task earning–提出CopyMTL model ,解决copyR模型的问题;
Bowen et al. (2020),Joint extraction of entities and relations based on a novel decomposition strategy—分解联合抽取任务为两个子任务: (i) head entity extraction (ii) tail entity and relation extraction.使用了一种序列标记的方法来解决这两个子任务。
[论文阅读笔记34]基于分解策略的实体与关系联合抽取
Wei et al. (2020),–也提出一种序标记来解决联合分布的两子任务的问题;首先识别头部实体,然后对于每个头部实体和每个关系,他们使用序列标记方法识别尾部实体。
Yuan et al.(2020),-- 使用具有序列标记的关系特定注意机制来联合提取实体和关系;
Wang et al. (2020b),-使用实体对链接提出一个单级联合提取模型;
Sui et al. (2021),提出了一个编码器-解码器网络中的二部匹配损失,它将关系三联体组视为一个集合,而不是一个序列。
Ye et al. (2021),基于transformer的生成模型来实现联合抽取;
Wang and Lu (2020),提出了一个表序列编码器模型,其中序列编码器捕获与实体相关的信息,而表编码器捕获特定的关系信息;
Sun et al. (2020),提出了一种循环的多任务学习架构,以明确地捕获实体识别任务与关系分类任务之间的交互作用。
Ji et al. (2020),提出了一种 span-based的多头关注网络进行联合提取任务。每个文本跨度都是一个候选实体,每个文本跨度对都是关系三联体的候选对象。
8. 目前最先进的技术和发展趋势
NYT10:是基于Pipeline的关系提取中最流行的实验数据集。没有手工标注;
TACRED
SemEval 2010 Task 8 dataset
DocRED and FewRel datasets有leaderboard.
DocRED:
https://competitions.codalab.org/competitions/20717
FewRel:
https://thunlp.github.io/1/fewrel1.html
https://thunlp.github.io/2/fewrel2_nota.html
https://thunlp.github.io/2/fewrel2_da.html
联合抽取任务选择数据集: NYT24,NYT29, WebNLG
NYT24:
NYT29
WebNLG
我们可以看到,大多数的研究都集中在Pileline的句子级关系提取方法上。
9. 未来研究方向
对于Pipeline方法中,None Class是一个挑战;
对于联合模型中,zero三元组也是一个挑战;因此,在未来,在联合提取方法中必须检测没有关系三元组的句子;
在未来,我们应该更多地关注文档级别的关系提取或跨文档的关系提取;
需要探索zero-shot或few-shot的关系提取,以覆盖我们使用远程监督无法获得足够的训练数据的关系; 关于few-shot,有一篇综述:[论文阅读笔记08]Generalizing from a Few Examples:A Survey on Few-Shot Learning.
10. 补充概念
MIML概念
PCNN模型