知识图谱

一、知识图谱简介

知识图谱是专家系统、语言学、语义网、数据库等多领域融合的产物,知识图谱描述各种实体及其之间的关系。

  1. 专家系统
    包括知识库和推理引擎,代表项目Cyc
  2. wordNet
    中文类似的有同义词词林、HowNet
  3. 链接数据与基于百科知识的知识图谱构建
    语义网(比如资源描述框架RDF)和链接数据的概念,DBpedia、Yago项目(主要得益于Wikipedia的开展)
  4. 国内知识图谱的构建
    主要利用百度百科和维基百科的结构化信息构建起来的,上交大的zhishi.me;清华的Xlore;复旦的CN-pedia
  5. 基于自由文本的开放域知识图谱构建
    上面介绍的知识图谱构建方式包括人工编辑和自动抽取,其中自动抽取主要针对结构化数据,所以针对于开放的非结构化文本产生了基于信息抽取的知识获取方法(开放域信息抽取(OIE)技术,抽取实体关系三元组,即头实体、关系指示词、尾实体,该方法直接识别关系指示词来抽取实体关系)

2、常见知识图谱库

nlp理解六层次的作用 nlp层次理论图解_数据

3、构建知识图谱

知识图谱构建主要有 自顶向下(Top-Down)和自底向上(Bottom-Up) 两种方法。所谓自顶向下的方法是指首先为知识图谱定义数据模式,在定义本体的过程中,首先从最顶层的概念开始,然后逐步进行细化,形成结构良好的分类学层次结构;在定义好数据模式后,再把实体一个个往概念中添加。自底向上的方法则刚好相反,首先从实体开始,对实体进行归纳组织,形成底层的概念,然后逐步往上抽象,形成上层的概念。

两种方法在具体的构建过程中通常都不是从零开始的,前者可以利用一些现有的结构化的知识库,而后者则可以从开放链接数据或在线百科中得到很多实体。在领域本体实际构建过程中,易建则采用了自顶向下和自底向上相结合的方法。

知识图谱的构建过程包括:本体建模、知识抽取、知识融合、知识存储、知识推理这几个步骤。