构建知识图谱python 构建知识图谱的难点

转载

IT独行侠 2024-02-05 10:54:31

文章标签 构建知识图谱python 数据源搜索引擎结构化 文章分类 Python 后端开发

刘知远

知识图谱是谷歌对其所推出的大规模知识库产品的称呼。在此之前，已经有关于知识库的大量研究，其中有很多代表性工作，也相应提出了很多挑战性问题。

我认为知识图谱的主要挑战问题包括：1. 知识的自动获取；2. 多源知识的自动融合；3.面向知识的表示学习； 4. 知识推理与应用。

关于知识图谱最近写了一篇短文，可以参考：http://book.thunlp.org/knowledge_graph/

张发恩

作为谷歌知识图谱的一个开发工程师，说一点自己的看法。最难也最需要抓紧解决的是如何将来自不同数据源的相同实体聚类。比如电影数据源里有刘德华，音乐数据源里也有刘德华，这两其实是一个人，从不同数据源构建图谱的时候，必须有自动化的算法将各处的刘德华聚类。这方面谷歌走过弯路，但现在已经走上正路了。大家可以慢慢的感受到谷歌搜索引擎正在变为谷歌知识引擎。Google now很重要的一个基石就是谷歌知识图谱。
知识图谱中还有很多其他挑战，比如文字到实体的映射，但这些都有较成熟的算法。
看到其他人说的存储方面的挑战，这在谷歌里真的不是什么挑战，sstable 和 bigtable轻松愉快。之上跑起 MapReduce, flume不要太爽。

李小瀚

（智商是一生的痛）

这个坑略大啊。。

从知识库的构建开始：通常是从web上的非结构化数据中识别实体、挖掘关系，也就是knowledge extraction了。然后这中间涉及到另一个非常大的坑disambiguation，包括重名和别名，包括实体的消歧、关系的消歧、类别的消歧。当然获取知识的时候也可以借助一些已有的结构化数据，比如wordnet之类的一些ontology。。YAGO就是这么来的

库建好了，就得考虑怎么存了，这个问题比较偏DB和graph，比如直接搞个relational DB来把一个个的三元组存起来，比如搞个graph DB来存，比如搞个RDF engine来存，这方面关注得比较少。

好了，现在库建好了，存了存好了，问题就来了，号称“给计算机装上了大脑” 的knowledge base到底有什么用呢？？你搜个刘翔，它可以给你一堆刘翔的介绍。。这就是最简单的实体检索。。but这个太废了。。值不回巨头们的钞票啊。。。

于是有人说了。。我们可以把它用到搜索引擎上啊。。你搜一个刘翔。。我除了给你一个刘翔的百科主页，我还可以告诉你教练孙海平。。父母XXX。。前妻葛天。。做得好的话还能给你推荐个裤裆藏手榴弹的电视剧有木有！！这就是利用知识库来做recommendation

另外有人觉得这玩意儿可以拿来搞query understanding啊。。用来帮着消歧啊有木有！！比如有人搜apple的时候，google和度娘是不知道你想搜水果还是搜乔布斯的。。but当你搜 "microsoft apple"或者"乔大爷 apple"的时候它就兴奋的发现它派上用场了，它知道巨硬跟apple都是公司啊你肯定想找手机啊于是广告就来了啊钱就哗哗了啊

最后，也就是要隆重推出的，也是在本屌有限的知识背景下自认为很有前途很有情怀，当然也很难的，question answering over knowledge base. 说白了就是知识库上的自然语言查询。比如你输一句 "刘翔的前妻的裤裆藏手榴弹的电视剧的名字是什么呀~~"，它能告诉你。。它叫XXX。。这个本质是一个NLP的问题，即如何将一个自然语言查询转换个kb上的结构化查询，这一步是无数指着kb捞钱的人们梦寐以求的。。你想啊有了这技术搜索引擎得多厉害啊。。你问啥告诉你啥。。微软小冰得多厉害啊。。你问啥告诉你啥。。智能机器人得多厉害啊。。你问啥告诉你啥。。。

当然还有很多很多其他。。个人了解有限。。也有很多不甚关注的东东。。想到再补充吧

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。