事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中,由于文本中可能存在句式 复杂,主被动转换,多事件主客体共享等难点,因此“事件抽取”是一项极具挑战的抽取任 务。

本事任务旨在从通用新闻文本中抽取事件触发词、事件论元以及事件属性。在传统的事件定义中,事件由事件触发词( Trigger) 和描述事件结构的元素 (Argument)构成。事件触发词标识着事件的发生。事件论元为事件主体(Subject)、客体(Object)、时间(Time)、地点(Location)等,是表达事件重要信息的载体。

事件属性包括事件极性(Polarity)、时态(Tense),是衡量事件是否真实发生的重要依据。通过极性,事件分为肯定、否定、可能事件。通过时态,事件分为过去发生的事件、现在正 在发生的事件、将要发生的事件以及其他无法确定时态的事件。

本赛事任务一为初赛任务,任务二为复赛任务,在任务一的基础上增加了事件属性识别。为 了模拟真实场景,数据中包含了非实际发生的事件。

任务一:事件触发词及论元抽取

该任务旨在从文本中抽取标识事件发生的触发词和论元,触发词往往为动词和名词。触发词 对应的事件论元,主要为主体、客体、时间、地点,其中主体为必备论元。

示例 1:

文本:北京时间 3 月 27 日晚上 7 点 15 分,英国首相鲍里斯约翰逊确诊感染了新冠肺炎。

科大讯飞2020完整事件抽取系统(bert+数据集)_ai

科大讯飞2020完整事件抽取系统(bert+数据集)_图像识别_02

任务二:事件属性抽取

该任务旨在从文本中抽取表达事件发生状态的属性,包括极性、时态。极性分为:肯定、否

定、可能;时态分为:过去、现在、将来、其他。

示例 1:

文本:中国驻俄罗斯大使张汉晖 4 月 7 日向媒体回应称,经向俄有关强力部门了解,目前

在俄没有一起中国公民遭到拘留或受到俄强力部门限制的案例。

抽取结果:

科大讯飞2020完整事件抽取系统(bert+数据集)_人工智能_03

示例 4:

文本:看守政府总理迈赫迪打算驱逐约 5300 名美国士兵。

抽取结果:

科大讯飞2020完整事件抽取系统(bert+数据集)_计算机视觉_04

事件抽取系统,包含触发词(trigger),事件论元(role),事件属性(attribution)的抽取。基于 pytorch 的 pipeline 解决方案。

主要思路

将任务分割为触发词抽取,论元抽取,属性抽取。具体而言是论元和属性的抽取结果依赖于触发词,因此只有一步误差传播。因 time loc 并非每个句子中都存在,并且分布较为稀疏,因此将 time & loc 与 sub & obj 的抽取分开(role1 提取 sub & obj;role2 提取 time & loc)

模型先进行触发词提取,由于复赛数据集的特殊性,模型限制抽取的事件仅有一个,如果抽取出多个触发词,选择 logits 最大的 trigger 作为该句子的触发词,如果没有抽取触发词,筛选整个句子的 logits,取 argmax 来获取触发词;

然后根据触发词抽取模型抽取的触发词,分别输入到 role1 & role2 & attribution 模型中,进行后序的论元提取和属性分类;四种模型都是基于 Roberta-wwm 进行实验,加入了不同的特征。

最后将识别的结果进行整合,得到提交文件。

代码运行教程  获取:

关注微信公众号 datayx  然后回复  事件抽取  即可获取。

AI项目体验地址 https://loveai.tech

科大讯飞2020完整事件抽取系统(bert+数据集)_人工智能_05

科大讯飞2020完整事件抽取系统(bert+数据集)_图像识别_06

科大讯飞2020完整事件抽取系统(bert+数据集)_图像识别_07

科大讯飞2020完整事件抽取系统(bert+数据集)_自然语言处理_08

科大讯飞2020完整事件抽取系统(bert+数据集)_人工智能_09

科大讯飞2020完整事件抽取系统(bert+数据集)_ai_10

科大讯飞2020完整事件抽取系统(bert+数据集)_人工智能_11

科大讯飞2020完整事件抽取系统(bert+数据集)_自然语言处理_12

科大讯飞2020完整事件抽取系统(bert+数据集)_计算机视觉_13

科大讯飞2020完整事件抽取系统(bert+数据集)_自然语言处理_14

科大讯飞2020完整事件抽取系统(bert+数据集)_人工智能_15

科大讯飞2020完整事件抽取系统(bert+数据集)_ai_16

科大讯飞2020完整事件抽取系统(bert+数据集)_图像识别_17

科大讯飞2020完整事件抽取系统(bert+数据集)_ai_18

科大讯飞2020完整事件抽取系统(bert+数据集)_计算机视觉_19

科大讯飞2020完整事件抽取系统(bert+数据集)_自然语言处理_20



不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

科大讯飞2020完整事件抽取系统(bert+数据集)_人工智能_21



机大数据技术与机器学习工程

 搜索公众号添加: datanlp

科大讯飞2020完整事件抽取系统(bert+数据集)_ai_22

长按图片,识别二维码