知识抽取:通过识别、理解、筛选、格式化,把文献中的各个知识点抽取出来,以一定形式存入知识库中的过程。目的是增强信息的可使用性和可重用性,这个过程同时又可以看作对现有的非结构化信息的语义标注过程。知识抽取一共有三个核心子功能,分别是实体抽取、关系抽取、事件抽取。

一,实体抽取:也就是命名实体识别,包括实体的检测(find)和分类(classify),比如识别人名、地名等;

二,关系抽取:是指自动识别实体之间具有的某种语义关系,根据参与实体的多少可以分为二元关系抽
取(两个实体)和多元关系抽取(三个及以上实体),比如某人生活在某地,这就是两个实体间的关系;

三,事件抽取:是指从描述事件信息的文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来,即将非结构化文本中的事件信息展现为结构化形式。

在传统的事件定义中,事件由事件触发词、事件论元以及事件属性构成。 事件触发词标识着事件的发生。事件论元为事件主体(Subject)、客体(Object)、时间(Time)、地点(Location)等,是表达事件重要信息的载体。事件属性包括事件极性(Polarity)、时态(Tense),是衡量事件是否真实发生的重要依据。 通过极性,事件分为肯定、否定、可能事件。通过时态,事件分为过去发生的事件、现在正在发生的事件、将要发生的事件以及其他无法确定时态的事件。

比如文本:北京时间 3 月 27 日晚上 7 点 15 分,英国首相鲍里斯约翰逊确诊感染了新冠肺炎。

事件触发词为"感染";
事件论元中,主体为英国首相鲍里斯约翰逊,客体为新冠肺炎,时间为北京时间 3 月 27 日晚上 7 点 15 分,地点无;
事件属性中,事件极性为肯定,事件时态为现在。

Done!!!