一.知识图谱的简介

1.1引言

2012年,谷歌发布"知识图谱"的新一代"智能"搜索功能,初中是优化搜索引擎返回的结果,增强用户搜索质量以及体验。现在的聊天机器人,证券投资,智能医疗,自适应教育,推荐系统,无一不跟知识图谱相关,在技术领域的热度也在逐年上升。

1.2概念

知识图谱是一种典型的多边关系图,由节点(实体)和边(实体之间的关系)组成,本质上是一种语义网络,用于揭示万物之间的关系,知识图谱的一种通用表示形式是三元组形式,头实体,尾实体,两个实体之间的关系

1.3应用

知识图谱旨在从多种类型的复杂数据出发,抽取其中的概念,实体和关系,是事物关系的可计算模型,按照知识的覆盖范围和不同的领域,整体可以划分为通用性知识图谱和领域性知识图谱,随着科技的不断发展,知识图谱在NLP领域应用广泛,如语义搜索,智能回答,辅助决策,智能搜索,个性化推荐,情报分析,反欺诈等领域,知识图谱已经成为人工智能发展的重要动力和核心领域。

1.4体系架构

知识图谱的体系架构分为三部分:
第一部分:源数据的获取,即如何在各个类型的数据中获取有用的资源信息。
第二部分:知识融合,用于关联多个数据源的知识,扩大知识的范围。
第三部分:知识计算与知识应用,知识计算是将知识图谱能力输出的主要方式,而知识应用是将知识图谱与特定领域或者业务相结合,提高业务效率。

二.知识图谱的构建

2.1知识图谱的数据来源

知识图谱的构建是后续应用的基础,而且构建的前提是需要把数据从不同的数据源中抽取出来,对于垂直领域的知识图谱来说,数据主要来自两种渠道:
1.业务本身的数据,这部分数据通常包含在公司内的数据表并以结构化方式存储,一般只需要简单预处理就可以作为后续AI系统的输入。
2.网络上公开,抓取的数据,这些数据通常以网页的形式存在,所以是非结构化的数据,一般需要借助于自然语言处理等技术来提取出结构化的消息,如维基百科等数据源。

2.2知识图谱的构建技术

知识抽取:从多种数据源中提取知识并存入知识图谱,是构建大规模知识图谱的基础,主要分为命名实体识别和关系抽取

  1. 知识获取的目标是从海量的文本数据中通过信息抽取的方式获取知识,其方法根据所处理的数据源的不同而不同,分为结构化数据(数据库),半结构化数据(XML,百科),非结构化文本数据(图片,音频,视频,文本)
  2. 文本信息抽取:从非结构化文本数据中进行知识抽取,包括实体识别,实体消歧,关系抽取,事件抽取

知识融合:可以解决不同知识图谱的异构问题,通过知识融合,可以使得不同数据源的异构知识图谱相互沟通,相互操作,提高知识图谱的质量
知识推理:知识精细化工作以及辅助决策的实现方式

2.3知识图谱具体构建技术

实体命名识别(Named Entity Recognition )简称NER
目标:从文本里提取出实体并对每个实体做分类,做标签
关系抽取(Relation Extraction)简称RE:通过关系抽取技术,把实体间的关系从文本中提取出来
实体统一(Entity Resolution)简称ER:有些实体写法上不一样,但其实是指同一个实体,实体统一不仅可以减少实体的种类,也可以减少图谱的稀疏性。
指代消减(Disambiguation):文中出现的代词到底指向的是哪个实体。

三.知识图谱的存储

知识图谱的存储方式:

  • 基于RDF的存储:设计的原则在于数据的易发布以及共享,以三元组的方式存储数据而且不包含属性信息,
  • 基于图数据库的存储:设计的重点在于高效的图查询和搜索上面,一般以属性图为基本的表示形式,实体和关系可以包含属性

四.知识图谱与自然语言处理

自然语言处理与知识图谱研究是双向互动的关系,自然语言处理-抽取知识-知识图谱知识图谱-提高NLP任务的准确度-自然语言处理

  • 信息抽取
    主要技术:实体识别与抽取,实体消歧,关系抽取 趋势与挑战:从封闭走向开放 ,大规模信息抽取,深层次挖掘信息背后的语义
  • 语义解析:将自然语言映射成机器可以表达的形式
    主要技术:词体消歧,语义角色标注,指代消解等
    应用:面向知识图谱的自然语言问答,聊天机器人

五.知识图谱与机器学习

知识表示学习

  • 背景:基于网络形式的知识表示存在数据稀疏问题和计算效率问题
  • 知识表示学习:主要是面向知识图谱中的实体和关系进行表示学习,使用建模方法将实体和向量表示在低维稠密向量空间中,然后进行计算与推理
  • 优点: 显著提升计算效率,有效缓解数据稀疏,实现异质信息融合
  • 应用:知识图谱补全,相似度计算,关系抽取,自动回答,实体链指

六.医疗知识图谱构建流程

  • 模型设计:基于医药说明的知识图谱模型设计
  • 数据采集:网络爬虫,数据库采集
  • 知识提取:实体提取,关系提取,属性提取
  • 知识融合:实体对齐,关系对齐,属性对齐,冲突消解,标准化,三元组数据生成
  • 知识管理:构建图数据库,纠错,补全,更新。