开放信息抽取(OIE)系统(三)-- 第二代开放信息抽取系统(人工规则, rule-based, 先抽取关系)

一.第二代开放信息抽取系统背景

第一代开放信息抽取系统(Open Information Extraction, OIE, learning-based, 自学习, 先抽取实体)通常抽取大量冗余信息,为了消除这些冗余信息,诞生了第二代开放信息抽取系统。

二.第二代开放信息抽取系统历史

第二代开放信息抽取系统着眼于解决第一代系统的三大问题: 大量非信息性提取(即省略关键信息的提取)、非一致性提取(即关系短语没有有意义的解释)和冗余关系提取(传达了太多的信息), 这些在进一步的下游语义任务中没有用处。 抽取的关系词语没有可可解释性的意义,即第一代系统的弊端序列决策的时候存在误差; 抽取忽略了关键性的信息,原因是没有处理好light verb constructions (LVCs, 动词和名词组成的多词谓语,并且名词携带了谓词的语义信息)。

  • REVERB: Fader等(2011年)提出了REVERB系统,首先抽取动词的关系,然后再寻找名词性短语作为实体。
  • KRAKEN: Alan等(2012年)提出了KRAKEN系统,该系统基于依存句法分析,构建规则抽取关系短语、实体,而且能够获取任意元关系多元组。
  • OPENIE4: Mausam等(2011,2016年)提出的OPENIE4系统, 结合语义角色抽取SRL、名词性短语RELNOUN等两种思路, 至今仍然是应用最广泛的开放信息抽取系统。
  • 中文ZORE: Likun Qiu等(2014年)提出了中文ZORE系统,即所谓的双重传播语义标注,基本思想是通过对候选关系中参数的首词进行语义标记来迭代地识别关系和实体。
  • PredPatt: White等(2016年)提出了PredPatt系统,使用通用依赖(UD)解析规则、构建有向图、提取谓词参数结构,不受语言的限制支持不同语种。
  • 中文CORE: Yuen-Hsien Tseng等(2018年)提出了的中文CORE系统,认为不需要多余的处理,开放的源码实现为依靠语义角色标注和LTP依存句法。

三. 第二代开放信息抽取系统内容

3.1 概述

第二代开放信息抽取系统,即基于规则的开放信息抽取系统,一般使用的是人工构建抽取规则进行实体关系抽取。
第二代系统着力解决之前开放式信息抽取中的三个常见错误问题: 忽略关键信息、不连贯的抽取结果、抽取太多无用信息。
引入句法限制(动词关系短语),通过这种先抽取关系的方式,不连贯和无意义的抽取内容大大减少。

3.2 REVERB系统(词性标注)

相对于其他更先进的系统,REVERB系统的召回率比较高。

  • Relation Extraction(关系抽取):
  • 对于句子中的每个动词v,找出最长的单词序列, a.rv从v开始, b.rv满足句法条件, c.rv满足词法约束, c.如果任何一对匹配项是相邻的或重叠,合并成一个匹配。
  • Argument Extraction(参数提取):
  • 针对每个关系步骤1中识别的短语r,找到最近的名词短语x(在句子中r的左边),not a relative pronoun, WHO-adverb, or existential “there”。
  • 找到最近的名词短语y, 提取(x,r,y)作为提取。
  • 我们检查候选关系短语rv通过匹配来满足句法约束, 对照图中的正则表达式。
  • 标准化关系, 只取出现过20对不同实体对的关系, 同时删除关系 词尾的屈折变化、助动词、形容词和副词.
  • Logistic Regression(逻辑回归分类, 取置信度高的)
  • 用下图特征, 给1000个句子打标签, 训练一个分类器
  • 创新点:
  • 1语法约束:关系短语必须是以动词开始/介词(介词/副词/动词不定式)结束的连续字; 2词汇约束:大规模语料中出现该二元关系短语的实体对应该大于定义的最小值。
  • 1语法约束将关系短语限制为动词(如发明)、介词(如位于)或动词后跟以介词结尾的名词-形容词或副词(如原子量为); 多个选择最长的匹配项; 多个相邻序列合并(如想要扩展)。
  • 2词汇约束, The Obama administration is offering a small number of targets at the conference. POS关系抽取为is offering a small number of targets at就不合理。
  • 第二代关系抽取(第一代是实体)使用POS和NP-chunks: Our work differs from these approaches by focusing on relation phrase patterns expressed in terms of POS tags and NP chunks, instead of full parse trees.

3.3 KRAKEN系统(依存句法)

该系统能够抽取多元三元组、多跳三元组等。

  • Fact phrase detection(事实短语抽取, 关系抽取):
  • 关系抽取使用斯坦福依存句法分析,事实短语作为一系列动词、修饰语和/或介词,即如下依存关系:aux、cop、xcomp、acomp、prt或auxpass。
  • Detection of argument heads(参数头检测,头实体抽取):
  • 针对每个一个事实短语关系指向的单词(可能有多跳、连接等关系),找到使用类型路径的头实体(subj)。每个类型路径表示一个或多个链接,以及每个环节的方向,要遵循找到一个头实体。头实体通常是nsubj。
  • Detection of full arguments(全参数检测, 尾实体、多元实体抽取)
  • 重复,跟踪头实体的所有向下链接获取完整参数。从中检测到的事实短语的组合和这些完整的参数构成了事实。如果事实短语至少有一个参数,系统将其视为事实。规则集是通过连接链接路径生成的包含至少一个重叠实体和一个重叠实体动词,并交换基础语法斯坦福依存句法分析,从而形成了一个以动词为中心且易于阅读的规则集。

3.4 OPENIE4系统 (语义角色标注与名词性短语)

OPENIE4系统, 结合语义角色抽取SRL、名词性短语RELNOUN等两种思路, 当下一般用于构建深度学习模型的训练语料(即训练语料用OPENIE4生成, 验证语料人工标注)。

  • 语义角色标注
  • 思想: 语义角色标记包括检测与句子中动词相关的语义参数以及他们的角色(如代理人、患者、器械等等)。
  • 抽取关系: 我们将SRL输出转换为等效数量的开放IE元组。我们的方法首先是赋值介词后面的动词及其修饰语和否定,如果存在的话,就是关系。
  • 抽取实体: 然后,该动词关系的所有标记为Ai的语义角色(除了方向、位置和时间), 依照顺序填充为三元组的实体。
  • 名词性短语
  • 思想: 提取以名词(而不是动词)为中心的开放三元组是非常重要的(即从名词性短语中抽取三元组),因为标题和实体属性存在很多表达。
  • 召回来源-复合名词短语:(1)大写关系短语名词,(2)人口学,用来表示身份的形容词某一地点的居民,(3)复合关系名词
  • 110万句ClueWeb12(语料库)位于关系名词之前且在相同的NP块,具有适当的位置(JJ,NN,NNP等),前缀来分割复合NPs中的最终关系名词。

论文与文章

  • REVERB: https://www.aclweb.org/anthology/D11-1142
  • KRAKEN: https://aclanthology.org/W12-3010.pdf
  • OPENIE4-SRL:http://ai.cs.washington.edu/www/media/papers/tmpSIpV1y.pdf
  • OPENIE4-RENOUN: https://www.aclweb.org/anthology/W16-1307.pdf