知识点
一、什么是知识图谱(What is it?)
本质上是基于图的语义网络,表示实体与实体之间的关系。
抽取文本中的信息(实体、关系)来构建关系
二、知识图谱研究的多个维度
1.基本概念
盲人摸象,不同专业领域对知识图谱的初步研究。
- 领域本体的构建: 面向特定领域的形式化地对于共享概念体系的明确而又详细的说明
- 领域本体的构建: 从海量的数据中通过信息抽取的方式获取知识
- 知识融合: 通过对多个相关知识图谱的对齐、关联和合并,使其称为一个有机的整体,以提供更全面知识。
2.知识本体
知识图谱数据类型(先知晓,后期会有综述)
①RDF(Resource Description Framework)
描述的就是一个三元组:<主语、谓语、宾语>
②RDFs(RDF Schema)
在RDF数据层的基础上 引入模式层 ,定义类、属性、关系、属性的定义域与值域来描述与约束资源,构建最基本的类层次体系和属性体系,支持简单的上下位推理。
③本体语言owl(Web Ontology Language)
进一步拓展RDFS词汇,可声明类间互斥关系、属性的传递性等复杂语义,支持基于本体的自动推理,提供了一组合适WEB传播的描述逻辑的语法,对机器友好,但认知复杂性限制了工程应用。
3.知识抽取
①基本解释
知识获取的目标 是从海量的文本数据中通过信息抽取的方式获取知识,其方法根据所处理的数据源的不同而不同。分为:
- 结构化数据
- 半结构化数据
- 非结构化文本数据
文本信息抽取:
- 实体识别
- 实体消歧
- 关系抽取
- 时间抽取
②大规模文本抽取(主要来源均为维基百科)
Yogo(Yet Another Great Ontogogy):德国马普研究所发起
DBPedia:
Freebase:
4.知识融合
①基本点
5.知识图谱与自然语言处理
是双向互动的关系
补充 :信息抽取的知识点
1.实体抽取
2.关系抽取
3.事件抽取
6.知识图谱与数据管理
①基于关系的知识图谱存储管理
因为三元组表产生的大量数据对于机器而言是无法接受的,所以会采取一定的方法进行存储,如下表
上边关于gStore系统北大在gith上完全开源,通过下图可搜索(第三讲会详细讲)
②分布式知识图谱存储管理
7.知识图谱与机器学习
从人工智能、大数据的角度看待“知识图谱”
一、与人工智能的关系
从方法论的方向来说有两套:
符号主义和连接主义
符号主义:
连接主义:
二、与大数据的关系
知识图谱的项目应用