学习内容
本文主要详细介绍事件抽取EE的概念;
事件抽取 = 事件提取(Event Extraction EE)= 事件识别(Event Detection ED)
很多事件抽取的方法将事件抽取分为两个阶段:EAE(event argument extraction) 和 ED(event detection)后者会根据触发词来确定事件的发生,发生了啥。
结构化数据和非结构化数据: 指的是一句话是不是已经给他归类了!
事件描述
schema:
事件抽取任务的起点,是需求的出现。关心金融领域的朋友,比如我(持有市值约370元人民币的基金),希望了解所有可以影响市场情绪的事件。因此,海量新闻数据中识别特定类型的事件就是我们的需求。
需求确定了,接下来的任务就是把需求转换为人和机器都可以理解的一种形式,即制定事件的schema。“schema”即纲要,是我们对事物一般的、抽象的描述,体现人类对事物的认知水平,决定了机器抽取事件的能力,因此非常重要。一个完整的事件schema,应当包括:
(1)事件类型体系,比如“企业成立”、“企业并购”等等组成的,就是我关心的事件的类型体系;
(2)各类事件的重要角色,比如表2-1所示的各个字段,就是一个事件得以发展所依赖的重要角色。有时候,我们会设置一种特殊的角色,即“事件触发词”,用来辅助判断事件的发生。
确定了schema,一方面方便大家在相同的概念基础上展开协作,另一方面也让机器有了相对确定的学习和预测目标。
事件抽取分类
事件抽取包括事件触发词检测(识别事件触发词,并明确所触发事件的类型)和属性抽取(识别触发事件的属性,并标注各属性对应角色)两个子任务。例如,“He died in hospital”中“died”作为一个Die类型事件的触发词,该事件中,属性“He”的角色为Person, “hospital”的角色为Place. 本文主要探讨事件触发词检测任务中的跨句触发词联合抽取问题。
事件抽取难点
当下,事件触发词检测任务面临的挑战主要包括:(1)句子上下文表示及篇章级信息整合[1],[2]。候选触发词类型的判定一般需要结合上下文信息,包括关联实体信息(类型等)、其他候选触发词等。例如,图1中句子3中的“firing”可能是开枪(触发Attack事件)或离职(触发End_Position事件),Attack事件的确立需要融合句子2,4等的信息。(2)句内和句间事件关联性建模[1],[3]。句4包含事件触发词fight和death,ACE05数据集中超过40%触发词如此共现;类似句2、句3和句4中的连续关联事件同样普遍。因此,建模事件之间依赖对于同时抽取句子、跨句多事件尤为重要。
现有方法主要专注于句子级事件抽取,忽略了存在于其他句子中的信息。通过对事件抽取benchmark数据集ACE05的分析,我们得出如下结论。(1)可将事件触发词检测任务视为一个Seq2Seq任务,其中,source序列为文本篇章或句子,target序列是事件标签序列。对应基于RNN的encoder-decoder框架能有效处理该类问题,其中encoder建模丰富的上下文语义信息,decoder在解码过程中捕捉标签的依赖性。(2)对于当前句子,与之关联最密切的信息主要存在于邻近句子,相距较远的文本影响较小。
事件抽取和命名实体识别的区别
命名实体抽取,指的是抽取某一类客观实例的词语,比如手机、张三、李四等
事件抽取只得是抽取某一类动作,比如爆炸、开会、开车等
命名实体抽取是事件抽取的基础,因为事件中都必须有至少一个主体,比如手机爆炸、张三开会、李四开车。
NER
链接NER技术简要介绍 1.命名实体识别的主要任务:
要识别出文本中出现的专有名称和有意义的数量短语并加以归类。
2.命名实体识别的主要研究内容:
就整个的命名实体识别的研究结果而言,时间表达式和数字表达式的识别相对简单,其规则的设计、数据的统计训练等也比较容易。而对于实体中的组织名、人名、地名,因为其具有开放性和发展性的特点,而且构成规律有很大的随意性,所以其识别就可能会有较多的错选或漏选。现在大多数的命名实体识别的研究都集中于对这三种实体的识别技术的研究。