知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从 document 级别降到 data 级别,聚合大量知识,从而实现知识的快速响应和推理。

当前的知识图谱多采用自底向上的方式构建,如Google的Knowledge Vault和微软Satori知识库。

如果两个节点之间存在关系,就会被一条无向边连接在一起,这个节点称为实体(Entity),它们之间的边称为关系(Relationship)。

知识库功能架构 知识库结构_属性值

知识图谱的基本单位便是“实体(Entity- 关系(Relationship)- 实体(Entity)”构成的三元组。

一旦知识图谱变复杂,图数据库在关联查询的效率上会比传统的关系数据存储方式有显著的提高。如涉及到 2, 3 度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。此外,图存储在设计上非常灵活,一般只需要局部的改动即可。

知识图谱的架构主要可以被分为:逻辑架构、技术架构。

逻辑架构:在逻辑上通常将知识图谱划分为两个层次:数据层和模式层。

  • 模式层:在数据层之上,是知识图谱的核心,存储经过提炼的知识,通过本体库来管理这一层(本体库可理解为面向对象里的“类”这样一个概念,本体库就储存着知识图谱的类)。
  • 数据层:存储真实的数据。

例如:

模式层:实体-关系-实体,实体-属性-性值

数据层:比尔盖茨-妻子-梅琳达·盖茨,比尔盖茨-总裁-微软

首先有原始数据,数据可能是结构化的、非结构化的以及半结构化的,基于这些数据构建知识图谱,主要是通过一系列自动化或半自动化的技术手段从原始数据提取知识要素,

即一堆实体关系,并将其存入知识库的模式层和数据层。

构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:

  • 信息抽取:从数据源中提取实体、属性及实体间相互关系,形成本体化的知识表达;
  • 知识融合:新知识整合,消除矛盾歧义,如实体可能有多种表达,特定称谓对应不同实体;
  • 知识加工:对融合的新知识,经质量评估之后(部分需要人工甄别),将合格部分加入知识库。

信息抽取(infromation extraction)是知识图谱构建的第1步,从异构数据源中自动抽取信息得到候选指示单元;自动地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术;涉及:实体抽取、关系抽取和属性抽取。

实体抽取命名实体识别(named entity recognition,NER),从文本数据集中自动识别命名实体。

关系抽取,实体抽取后,得到离散的命名实体,还要从语料中提取实体的关联关系,通过关系将实体联系起来,形成网状的知识结构。

方法:

  1. 人工构造语法和语义规则(模式匹配)
  2. 统计机器学习方法
  3. 基于特征向量或核函数的有监督学习方法
  4. 研究重点转向半监督和无监督
  5. 开始研究面向开放域的信息抽取方法
  6. 将面向开放域的信息抽取方法和面向封闭领域的传统方法结合

属性抽取是从不同信息源中采集特定实体的属性信息,如针对人物,可从公开信息中得到昵称、生日、国籍、教育背景等信息。

方法:

  1. 将实体的属性视作实体与属性值间的一种名词性关系,将属性抽取转化为关系抽取。
  2. 基于规则和启发式算法,抽取结构化数据
  3. 基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。
  4. 采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。

知识融合包括:实体链接、知识合并

实体链接(entity linking)指将实体对象链接到知识库中对应的正确实体对象的操作。

基本思想:根据给定的实体指称项,从知识库中选出一组候选实体对象,通过相似度计算将指称项链接到正确的实体对象。

研究历史:

  1. 仅关注如何将抽取的实体链接到知识库,忽视了位于同一文档的实体间存在的语义联系。
  2. 关注利用实体的共现关系,同时将多个实体链接到知识库中。即集成实体链接

实体链接的流程:

  1. 从文本中通过实体抽取得到实体指称项;
  2. 进行实体消歧共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;
  3. 在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。

实体消歧是解决同名实体产生歧义问题的技术,通过实体消歧,根据当前语境,准确建立实体链接,主要采用聚类法。基于上下文的分类问题,类似于词性消歧和词义消歧。

共指消解主要用于解决多个指称对应同一实体对象的问题。一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的研究努力。共指消解还有一些其他的名字,比如对象对齐、实体匹配和实体同义。

实体链接链接的是从半结构化数据和非结构化数据通过信息抽取提取出来的数据。

对结构化的数据做知识合并:

  • 合并外部知识库,主要处理数据层和模式层的冲突
  • 合并关系数据库,有RDB2RDF等方法

知识加工主要包括3方面内容:本体构建、知识推理和质量评估

本体(ontology)是指工人的概念集合、概念框架,如“人”、“事”、“物”等。

本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。

自动化本体构建过程包含三个阶段:

  1. 实体并列关系相似度计算
  2. 实体上下位关系抽取
  3. 本体的生成

例如,当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机” 三个实体,可能认为三者之间没有差别,但计算三个实体之间的相似度后,发现 阿里巴巴和腾讯之间可能更相似,和手机差别更大一些。
这是第一步的作用,但知识图谱还是没有一个上下层概念,不知道阿里巴巴和手机不隶属于一个类型,无法比较。实体上下位关系抽取就需要完成此工作,从而生成第三步的本体。三步结束后,知识图谱可能就会明白,阿里巴巴和腾讯,都是公司实体下的细分实体。和手机不是一类。

知识库功能架构 知识库结构_结构化_02

完成本体构建后,知识图谱的雏形便已搭好。但此时知识图谱之间大多数关系都是残缺的,缺失值严重,可以使用知识推理技术,完成进一步的知识发现。 知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。

如:

  • 推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;
  • 推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)

推理算法主要可以分为3大类,基于逻辑的推理、基于图的推理和基于深度学习的推理。

质量评估是知识库构建的重要组成部分,可以对知识的可信度量化,舍弃置信度较低的知识以保障知识库的质量

知识库的更新包括概念层的更新和数据层的更新。

  • 概念层更新指新增数据后获得了新概念,需自动将新的概念添加到知识库的概念层中。
  • 数据层的更新是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题)等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库。

知识图谱的内容更新有两种方式:

  • 全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;
  • 增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难。