实体关系,加油
一、相关名词
- IE(Information Extraction):信息抽取
- NER(Named Entity Recognition):命名实体识别
- RE(Relation Extraction):关系抽取
- EE(Event Extraction):事件抽取
- Web IE:网络信息抽取
三、相关论文
- A Frustratingly Easy Approach for Joint Entity and Relation Extraction, Danqi Chen, 2020
打破平常人们认为的joint extraction 好于pipeline (分两阶段进行实体抽取和关系抽取)的观念,首次提出融入
typed entity markers
(即加了类型的实体标签,eg,<S:Md></S:Md>);使用的两阶段的encoder之间不共享参数,认为这两个任务具有不同的输入格式,并且需要不同的特征来预测实体类型和关系;也可选地可以融入跨句信息,也就是将句子扩展到固定窗口大小W=100来简单地引入跨句上下文(eg,原来句子有n=50个词,那再各从两边取25个词);也在关系抽取的任务中提出了加速计算的近似推理方法,将实体边界和类型的标识符放入到文本之后,然后与原文对应实体共享位置向量。上图中相同的颜色代表共享相同的位置向量。具体地,在attention层中,文本token只去attend文本token、不去attend标识符token,而标识符token可以attend原文token。通过这种「近似模型」可以实现一次编码文本就可以判断所有实体pair间的关系。
论文模型图自己画的模型图
- Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions, 2017
提出了句子级别的注意力机制模型(能选取多个有效实例进行特征提取)和实体描述信息(提供更多的背景知识并且为注意力机制提升实体表示)从文本中进行关系的抽取。
APCNNs=PCNNs + Attention Module,PCNN模块:用来从包里抽取出实例的特征向量,Sentence-Level Attention Module:对有效的实例分配更高的权重,对无效的实例分配较低的权重值。D:实体描述,使用传统CNN从Freebase/Wikipedia中抽取出实体特征
模型图片
- Distant supervision for relation extraction without labeled data, 2009
首次提出远程监督的概念,使用Freebase(一个包含数千个关系的大型语义数据库)来提供远程监控,在大型无标注语料库中标注实体关系。即,对于Freebase关系中出现的实体对,我们在一个大型的未标记语料库中找到包含这些实体的所有句子,并提取文本特征来训练关系分类器。论文分两个部分,第一部分讲怎么标注,第二部分讲怎么抽取。(标注那部分讲得不是很详细)