本书依据所处理的文本对象的不同将文本信息抽取分为两类:一类是半结构化文本信息抽取,所处理的文本句法结果不完整,具有明显的版面结构和一些特定的标识信息,通常从这类文本中抽取连续的信息域。例如从科研论文中抽取头部信息和引文信息。另一类是自由文本信息抽取,所处理的文本自然语言形式的语句组成,具有完整的句法结构,主要研究从这类文本中抽取特定类型的事件信息,称为文本事件信息抽取。例如从新闻报道中抽取“职务变动”类事件信息。

      信息检索与信息抽取又是互补的。为了处理海量文本,信息抽取系统通常以信息检索系统的输出作为输入,可以看作对信息检索获得的信息进一步加工的过程;而信息抽取技术又可以用来提供信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。另外信息抽取技术并不试图全面理解整篇文档,只是对文档中包含特定类型信息的部分进行分析,即一般只需要浅层的句法分析和语义分析。所以从某种意义上说,信息抽取技术又是完全文本理解的基础。

nlp文本信息抽取 中文文本信息抽取_信息检索

文本信息抽取的基本概念

     命名实体(Named Entiry)是文本中基本的信息元素,是正确理解文本的基础。狭义地讲,命名实体是指现实世界中的具体的或抽象的物体,包括各种专用名词、时间词、数量词和名词词组等。

     实体关系(Entity Relation)是指信息抽取过程中所抽取出的各种命名实体之间、实体及其属性之间的各种关系。

     模板(Template)是信息抽取系统抽取出的事实或事件信息输出时所采用的结构化形式,由一系列槽(Slot)组成。待抽取的特定事件(关系)或事件称为一个场景(Scenario),例如职务变动事件、恐怖袭击事件、自然灾害事件等都是特定的场景。而主题领域(Subject Domain)的概念要广一些,指被处理的一类文本。通常一个领域可以包含多个场景,如IT领域可以包含有职务变动场景、推出新铲平场景、公司合并场景等。简单地说,场景模板(Scenario Template, ST)任务是指从文本中抽取出感兴趣的信息块(事实或事件),并填入模板的过程。由此可见事件信息抽取是场景模板任务的主要部分。

      抽取模式(Extraction Pattern)是信息抽取过程中使用的匹配规则,是句法形式到语义含义的映射。抽取模式可以传递特定领域中待抽取的事实事件信息,即有相应语义含义的句法形式。例如(1)某公司总裁xxx离职;(2)XXX到某公司任职。

      事件表述语句(event mention sentence)是指对一件客观发生的事件的参与者、发生时间、发生地点、原因、过程和结果等所进行描述的语句。本研究中将事件表述语句中具体的参与者、发生时间、发生地点、原因、过程和结果等信息称为事件要素(event argument),有些文献也可以称为事件论元、事件变元等。事件信息抽取的过程就是从自然语言形式的文本中找到一个具体事件的表述语句并识别出该事件的事件要素的过程。下面是三个“职务变动”类事件的表述语句。

(1)12月26日,在中共安阳市第九届委员会第一次全会上,靳绥东当选安阳市委书记。

(2)1月1日,球王贝利被巴西新总统任命为体育部长。

(3)白宫首席大厨称因无法满足第一夫人要求被解雇。

信息抽取系统的评测

    通常采用3个评测指标:准确率、召回率、综合指标F值(F)。准确率表示在抽取的全部信息条数中,正确的所占的比值。召回率是指在所有应该抽取出的信息中(包括得到的和不应该忽略的),正确抽取出的信息条数所占的比值。准确率描述系统抽取的信息中,正确的、用的占多少。召回率表示应该得到的信息中,系统抽取出了多少。

     基于触发词探测的事件信息抽取方法:第一步是特定事件的探测和事件的分类,主要探测特定事件的表述语句并确定事件的类别或子类别;第二步是从事件表述语句中识别出事件的要素及其语义角色并填充到预定义的事件模板中。分析事件表述语句中动词(大部分是触发词)的论元结构,并探讨事件表述语句中的语义角色标注问题对准确抽取特定类型事件的事件要素并判定其语义角色至关重要。对大量事件表述语句研究发现:仅仅依据触发词就判定一个语句是某类候选事件语句很容易出错,而触发词的上下文中包含了对事件类别确定有重大价值的各类特征。为确定候选事件语句具体表述的事件类别,研究利用最大熵原理,建立统计语言模型,选择合适的特征用于事件表述语句类别确定。

    针对一些简单的事件表述语句,研究采用HMM进行事件信息的抽取。为每个类事件要素构建一个独立的HMM模型用于这类要素的抽取,用机器学习的方法从训练预料中学习模型的结构。