知识图谱技术架构
原文地址:https://mp.weixin.qq.com/s/lBeV6XWzk5bqNGiIMok-zw
数据采集
1、结构化数据
结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一列数据的属性是相同的。
结构化数据样式
id name age gender
1 Liu Yi 20 male
2 Chen Er 35 female
3 Zhang San 28 male
缺点
通过增加字段进行扩展,扩展性差
2、半结构化数据
半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。常见的半结构数据有XML和JSON。
半结构化数据样式如下
第一个数据可能为
<person>
<name>A</name>
<age>13</age>
<gender>female</gender>
</person>
第二个数据可能为
<person>
<name>B</name>
<gender>male</gender>
</person>
3、非结构化数据
数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。
信息抽取
信息抽取的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。关键技术包括:实体抽取、关系抽取和属性抽取。
1、实体抽取
实体抽取,也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。
比如在下图中,通过实体抽取我们可以从其中抽取出三个实体——“Steve Balmer”, “Bill Gates”,和"Microsoft"。
2、关系抽取
文本语料经过实体抽取之后,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。这就是关系抽取需要做的事,如下图所示。
研究历史:
人工构造语法和语义规则(模式匹配)
统计机器学习方法
基于特征向量或核函数的有监督学习方法
研究重点转向半监督和无监督
开始研究面向开放域的信息抽取方法
将面向开放域的信息抽取方法和面向封闭领域的传统方法结合
3、属性抽取
属性抽取的目标是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。
研究历史:
将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务。
基于规则和启发式算法,抽取结构化数据
基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。
采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。
知识融合
通过信息抽取,我们就从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。
如果我们将接下来的过程比喻成拼图的话,那么这些信息就是拼图碎片,散乱无章,甚至还有从其他拼图里跑来的碎片、本身就是用来干扰我们拼图的错误碎片。
也就是说:
- 拼图碎片(信息)之间的关系是扁平化的,缺乏层次性和逻辑性;
- 拼图(知识)中还存在大量冗杂和错误的拼图碎片(信息)
那么如何解决这一问题,就是在知识融合这一步里我们需要做的了。
知识融合包括2部分内容:
- 实体链接
- 知识合并
1、实体链接
指从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。
基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
基本流程
- 从文本中通过实体抽取得到实体指称项
- 进行实体消岐和共指消解
- 在确认知识库中对应的正确实体对象后,将该实体指称项链接到知识库中对应实体
- 实体消岐(entity disambiguation)是专门用于解决同名实体产生歧义问题的技术。例如“苹果”可以指水果,也可以指手机。通过实体消岐,就可以根据当前的语境,准确建立实体链接。实体消岐主要采用聚类法。聚类法消岐的常用方法有4种:1.空间向量模型(词袋模型);2.语义模型;3.社会网络模型;4.百科知识模型
- 共指消解(entity resolution)主要用于解决多个指称项对应于同一实体对象的问题。例如“eason”,“陈胖子”,“陈奕迅”等指称项可能指向的是同一个实体对象。代表性的解决方法是Hobbs算法和向心理论(centering theory)
研究历史:
仅关注如何将从文本中抽取到的实体链接到知识库中,忽视了位于同一文档的实体间存在的语义联系。
开始关注利用实体的共现关系,同时将多个实体链接到知识库中。即集成实体链接(collective entity linking)
知识合并
在前面的实体链接中,我们已经将实体链接到知识库中对应的正确实体对象那里去了,但需要注意的是,实体链接链接的是我们从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。
那么除了半结构化数据和非结构化数据以外,我们还有个更方便的数据来源——结构化数据,如外部知识库和关系数据库。
对于这部分结构化数据的处理,就是我们知识合并的内容
- 合并外部知识库:例如从百度百科,维基百科等进行知识合并。该过程主要处理2个层面的问题。一是数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要问题是如何避免实例以及关系的冲突问题,造成冗余;二是通过模式层的融合,将新得到的本体融入已有的本题库中。
- 合并关系数据库:知识图谱构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。这一过程被称为RDB2RDF,实质就是将关系数据库的数据转换成RDF的三元组数据。
知识加工
在前面,我们已经通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素,并且经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。
然而事实本身并不等于知识。要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。
知识加工主要包括3方面内容:本体构建、知识推理和质量评估。
1、本体构建
本体(ontology)是指工人的概念集合、概念框架,如“人”、“事”、“物”等。
本体可以采用人工编辑的方式手动构建(借助 本体编辑软件),也可以采用计算机辅助,以数据驱 动的方式自动构建, 然后采用算法评估和人工审核 相结合的方式加以修正和确认。对于特定领域而言,可以采用领域专家和众包的方式人工构建本体 。
然而对于跨领域的全局本体库而言,采用人工方式工作量巨大,而且很难找符合要求的专家。因此当前主流的全局本体库产品,都是从一些特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
自动化本体构建过程包含三个阶段:
- 实体并列关系相似度计算
- 实体上下位关系抽取
- 本体的生成
例子:
当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候,可能会认为它们三个之间并没有什么差别,但当它去计算三个实体之间的相似度后,就会发现,阿里巴巴和腾讯之间可能更相似,和手机差别更大一些。
这就是第一步的作用,但这样下来,知识图谱实际上还是没有一个上下层的概念,它还是不知道,阿里巴巴和手机,根本就不隶属于一个类型,无法比较。因此我们在实体上下位关系抽取这一步,就需要去完成这样的工作,从而生成第三步的本体。
当三步结束后,这个知识图谱可能就会明白,“阿里巴巴和腾讯,其实都是公司这样一个实体下的细分实体。它们和手机并不是一类。”
2、知识推理
在完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但可能在这个时候,知识图谱之间大多数关系都是残缺的,缺失值非常严重,那么这个时候,就可以使用知识推理技术,去完成进一步的知识发现。
比如在下面这个例子里:
已知(A,爸爸,B)和(B,爸爸,C),可以推理出(A,爷爷,C)。知识推理的对象不局限于实体间的关系,也可以是实体的属性值、本体的概念层次关系等。例如已知(老虎,科,猫科)和(猫科,目,食肉目),可以推出(老虎,目,食肉目)。
推理方法:
知识的推理方法可以分为2大类:基于逻辑的推理、基于图的推理和基于深度学习的推理。
基于逻辑的推理主要包括一阶谓词逻辑、描述逻辑以及基于规则的推理。
基于图的推理方法主要是基于神经网络模型或Path Ranking算法。
3、质量评估
知识库构建技术的重要组成部分。受现有技术水平限制,采用开放域信息抽取技术得到的元素有可能存在错误(如实体识别错误、关系抽取错误等),需要有一个质量评估的过程。
可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。
知识更新
人类所拥有的信息和知识量都是时间的单调递增函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程。
- 从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。
- 概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中。
- 数据层的更新主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题)等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库。
知识图谱的内容更新有两种方式:
- 全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;
- 增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难。
知识图谱的应用
- 智能搜索——也是知识图谱最成熟的一个场景,自动给出搜索结果和相关人物
- 构建人物关系图,查看更多维度的数据
- 反欺诈:这主要有两部分原因,一个是反欺诈的数据来源多样,结构化和非结构化,二是不少欺诈案件会涉及到复杂的关系网络
- 不一致性验证(类似交叉验证)——关系推理
- 异常分析(运算量大,一般离线)
- 静态分析:给定一个图形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)。
- 动态分析:分析其结构随时间变化的趋势。(假设短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注。会涉及到时序分析技术和图相似性计算技术。)
- 失联客户管理 挖掘出更多的新联系人,提高催收的成功率。
- ……