实体对齐

实体对齐流程

实体对齐问题一般指两两对齐,但是当知识图谱中的实体数量非常多时,如果直接计算所有实体的两两对齐,时间复杂度将会达到\(O(n^2)\),因此要解决大规模知识图谱的实体对齐,在流程上会有不一样的设计,主要分为分组和聚类两个步骤。

实体对齐项目python neo4j 实体对齐的方法_深度学习


实体对齐项目python neo4j 实体对齐的方法_深度学习_02

  • 分组:按照一个或者多个属性项对所有实体进行分组。图所示为按照属性项p 进行分组。分组是为了减少后续对齐工作的计算量,一旦分组完成,就只在组内进行对齐计算,跨组的实体不进行聚类。
  • 聚类:分组得到的每一个实体小组,如直接进行两两对齐,则效率仍旧不高,所以一般会倾向于采用聚类的方案,可以大大降低计算复杂度。

实体对齐的技术路线

实体对齐的技术路线分为基于规则的实体对齐基于表示学习的实体对齐两个方向。基于规则的实体对齐通过实体的一个或多个关键属性值是否满足指定的与或非条件,判断两个实体是否可以对齐;基于表示学习的实体对齐利用知识图谱的实体属性和结构信息,将不同知识图谱的实体表示在同一个欧式空间中,使得正例的对齐实体对在空间中相似度较近,负例的不对齐实体相似度较远。

基于规则的实体对齐

基于规则的实体对齐拥有可解释、准确性高和迁移性好等优势,在工业界应用十分广泛。然而遗憾的是,在实际应用中,大部分类型的实体要找到关键属性是非常困难的。以商品数据为例,确定不同零售品类的对齐规则是一个十分专业的命题,需要在零售业浸淫多年的专家才能够准确地定义,而且随着市场的发展,规则常常是动态变化的。因此,要通过人工维护成千上万个零售品类的对齐规则,其投入产出比是极低的,在工业界实践中基本是不可行的。

由于对于很多领域应用的人工维护十分困难,基于统计机器学习的规则学习就成了理所当然的选择。规则学习是从带标注的样本数据中通过机器学习算法挖掘符合数据分布的规则,通过在未标注样本上运行学习出来的规则,又可以得到更多的标注数据。在小样本情况下,“规则学习+深度学习”的反复迭代是在工业界实践中被广泛使用的方法。

规则学习算法最早可以追溯到传统数据挖掘中以 Apriori 算法为代表的关联规则挖掘算法。随着深度学习的发展,规则学习常常和深度学习可解释性研究结合在一起,通过对深度神经网络模型的解释,找出其中起决定作用的特征,这样的特征就可以较容易地简化为特定任务的规则。深度学习各大任务中表现非常好的注意力机制就经常被采用为可解释性方法。

基于表示学习的实体对齐

实体对齐问题常常被看作二分类问题或者聚类问题,对实体进行更好的表示学习对二分类和聚类都非常重要。与一般的文本、图像等对象的表示学习不同,知识图谱中的实体可以利用描述实体的属性信息,实体在知识图谱上的邻居信息也是非常重要的信号。

基于实体属性信息的实体对齐

基于实体属性信息的实体对齐的基本假设是,如果两个实体的属性越相似,则两个实体越相似。目前,深度学习领域的一些最新进展在基于属性的实体对齐方面有很多应用,大大提升了实体对齐任务的性能。

一是预训练技术的引入。以 BERT 为代表的预训练技术改变了自然语言处理领域的研究范式,大部分的任务都修改成了预训练(Pretrain)+模型微调(Fine-tune)的两段式训练。预训练在超大规模自然语料上的训练,对属性和实体的表示学习会有特别大的帮助,增加了很多的信息量。

二是多模态信息的引入,多模态是近年来深度学习的研究热点,结合图片、文本、视频和音频等多个模态信息进行联合学习在很多任务里都取得了很好的效果。而知识图谱的数据天然就是多模态的,比如同一个商品的图片、文本和视频信息。在多模态学习出现之前,实体对齐就一直在利用多模态信息,但是常常是图片和文本分开利用的,比如淘宝的商品实体对齐,之前一直是通过图片和文本进行同款的商品对齐,最后再将两个算法的结果合并。在引入多模态学习后,可以在神经网络设计过程中就让模型共享多模态信息,效果明显提高。

基于实体拓扑信息的实体对齐

图拓扑结构信息的利用是利用是近年来学术界的研究热点,以 DeepWalk、SDNE 等为代表的网络表示学习算法,以及以 Trans 系列算法为代表的知识图谱表示学习算法,都各自在相应任务上取得了十分优秀的性能。而图神经网络的星期更为机器学习和人工智能的很多任务带来了新思路。
目前,利用图拓扑信息的模型可以分为三类,第一类是翻译类模型,以 TransE 为代表的 Trans 系列知识图谱表示算法,基本假设是把知识图谱里的关系理解成头实体到尾实体的翻译;第二类是序列模型,这类模型在知识图谱上进行随机游走,得到一系列长序列的采样,然后利用 LSTM、Transformer 等序列模型进行表示学习;第三类是图神经网络,通过聚集知识图谱上节点邻居的表示迭代更新节点的表示。