一、概述
1.关系抽取是自动识别由一对概念和联系这对概念的关系构成的相关三元组;
2. 关系类别ACE61种;TAC- KBP;SemEval,每种关系都是有序关系;
3. 知识图谱关系类别
Freebase:4000多万实体,上万个属性关系,24多亿个事实三元组
DBpeida:400多万实体,48,293种属性关系,10亿个事实三元组
NELL: 519万实体,306种关系, 5亿候选三元组
Knowledge Vault: 4500万实体,4469种关系,2.7亿三元组
4. 关系抽取任务类型
非结构文本的关系抽取(学术界要做的):限定域关系抽取(关系分类、实体关系联合抽取、多关系抽取、远程监督关系抽取);开放域抽取(传统方法、深度学习方法)。
5. 关系抽取难点
自然语言的多样性,同一种关系多种不同表达;
自然语言奇异性,相同表述在不同语境下表示不同的关系。
二、限定域关系抽取
1. 关系分类任务:给定一个句子以及句子中的两个实体,判断这两个实体之间是什么关系;
因为关系集合已经预先定义好了,所以这个任务实质上是一个分类任务,因此叫做关系分类。
方法:采用统计机器学习的方法,将关系实例转换成高维空间中的特征向量,在标注语料库上训练生成分类模型,然后再识别实体间关系。基于特征向量的方法(最大熵、支持向量机)、基于核函数(浅层树核)
基于深度学习方法;
2. 关系分类特征向量方法:如何获取各种有效的词法、句法、语义等特征,并把它们有效地集成起来,从而产生描述实体语义关系的各种局部特征和简单的全局特征;
从自由文本及其句法结构中抽取出各种词汇特征以及结构化特征;
3. 关系分类:核函数方法
主要任务:如何有效挖掘反映语义关系的结构化信息及如何有效计算结构化信息之间的相似度
存在的问题
问题1:对于缺少NLP处理工具和资源的语言,无法提取文本特征
问题2:NLP工具引入的“错误累积”
问题3:人工设计的特征不一定适合当前任务
4. 实体关系联合抽取:给定一个句子,需要识别句子中的实体以及实体之间的关系
实体关系联合抽取:序列标注方法
对每个关系,将其与(Begin,Inside,End,Single)以及头实体和尾实体的序号(1,2)组合 ;
额外考虑一个Other标签,表示不属于任何一个关系;
如果总共有|𝑅|个关系,那么一共有2∗4∗ 𝑅 +1个标签;
根据标注结果得到三元组。
标注方法尝试了:LSTM+CRF(CRF是一种判别式模型,既可以使用任意的复杂特征;又可以建模观察序列和多个状态的关系,即考虑了状态之间的关系)LSTM+LSTM(CRF做解码善于捕捉近距离的标签依赖,LSTM做解码可以捕捉长距离的标签依赖)LSTM+LSTM+bias
论文:Zheng S, Wang F, Bao H, et al. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme. ACL 2017
5. 多关系抽取
给定一个句子,需要识别句子中的实体以及实体之间的关系,句子中可能包含多个三元组时,它们之间可能会发生重叠,需要把所有的三元组都抽取出来,传统判别式模型,一个token只能输出一个标签。
多关系抽取:融合拷贝机制的端到端模型
编码器:将自然语言句子编码成一个定长的语义向量;
解码器:将语义向量直接解码成各个三元组;
解码一个三元组时,解码器首先预测其关系;然后利用拷贝机制从源句子中拷贝一个实体,最后从源句子中拷贝第二个实体;
解码时采用了两种不同的策略:(生成模型)
Onedecoder:一个解码单元解码所有三元组;
Multidecoder:用多个解码单元解码,其中每个解码单元解码一个三元组;
一个统一的模型应对三种重叠类型:
论文:Zeng X, Zeng D, He S, et al. Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism. ACL 2018
6. 在多关系抽取任务中:不需要从词表中生成词,因此只需要计算源句子中每个词的置信度,选择置信度最高的词作为被拷贝的词。
7. 远程监督关系抽取
关系分类/实体关系联合抽取/多关系抽取
都依赖有监督数据;有监督数据标注费时费力;
远程监督关系抽取: 利用知识库对文本自动进行回标得到远程监督数据集;
无需人工参与,获取代价低,容易扩展到大规模场景。
8. 远程监督关系抽取: 起源
任务:在Wikipedia文本中抽取关系(属性)信息;
难点:无法确定关系类别;无法获取训练语料;
方法:在Infobox抽取关系信息;在Wikipedia条目文本中进行回标,产生训练语料;
Distant SuperVision: 使用知识库中的关系,启发式地标注训练语料;
假设:每个同时包含两个实体的句子都会表述这两个实体在知识库对应的关系;
远程监督方法存在噪音问题。
9. 远程监督关系分类:形式化描述
数据构建:给定知识库中的一个三元组
,将同时包含了
的句子回标上关系r,这样的句子集合称为包;
任务:包级别的标签预测: 远程监督关系抽取需要给未知的包预测语义标签;
最常用的数据集是通过Freebase回标纽约时报得到的NYT数据集;
难点:含噪数据的包级别分类
三、开放域关系抽取
1. 通过识别表达语义关系的短语来抽取实体之间的关系;
(华为,总部位于, 深圳),(华为,总部设置于,深圳),(华为,将其总部建于,深圳)
2. 同时使用句法和统计数据来过滤抽取出来的三元组
关系短语应当是一个以动词为核心的短语;
关系短语应当匹配多个不同实体对;
优点:无需预先定义关系类别
缺点:语义没有归一化,同一关系有不同表示;
3. 开放式关系抽取传统方法TextRunner
用户输入特定的谓词和论元;
利用搜索引擎返回与用户输入相关的句子;
用TextRunner抽取出谓词论元三元组。
包含三个模块:语料的自动生成;(通过依存句法分析结合启发式规则自动生成语料)
关系分类器训练;(是否表达语义关系)
大规模关系三元组的抽取;(利用上一步训练好的关系抽取器,在大规模的网络文本上进行关系三元组的抽取,并将其存储起来)
关系三元组可信度计算;(将相似的三元组合并;根据网络数据的冗余性,计算合并后三元组在网络文本中出现的次数,可信度与其出现次数相关)
四、 数据与评测
1. 评测语料:
ACE(Automatic Content Extraction,是美国国家标准技术研究所组织的关于信息抽取研究的会议)、
KBP(Knowledge Base Population,是美国国家标准技术研究所主办的文本分析会议(TAC)发布的一个任务,主要研究从自然语言文本中抽取信息,并且链接到现有知识库的相关技术)、
SemEval(关于语义评价的国际研讨会,SemEval2010年的信息抽取任务数据集应用最广泛)、
NYT(选择了Freebase中的四大类关系回标纽约时报)、
WebNLG(为了自然语言生成任务而构建,使用了DBPedia中的三元组)