作者:北邮 GAMMA Lab 博士生 王睿嘉
题目: Graph Structure Estimation Neural Networks
会议: WWW 2021
论文链接: https://doi.org/10.1145/3442381.3449952
代码链接: https://github.com/BUPT-GAMMA/Graph-Structure-Estimation-Neural-Networks
1 引言
图神经网络(GNNs)在各种图分析任务中展示出了强劲性能,但它们存在一个基本假设:所观察到的图结构是正确的,且符合GNNs的性质。实际上,图结构通常抽取自复杂的交互系统,该假设总是被违反。原因之一是这些交互系统包含不确定性或错误。例如,在蛋白质相互作用图中,错误的主要来源是实验误差。另一个原因是不可避免的数据缺失。例如,通过检查路由表或跟踪路由路径确定Internet图,而以上操作仅能给出边的子集。已经有研究表明不可靠的图结构可能会严重限制GNNs的表示能力,其中一个典型例子是GNNs性能会在同配性差的图上大大降低。简而言之,在实际的图中普遍存在缺失、无意义甚至错误的边,这导致其与GNNs的性质不匹配,并对结果的准确性产生影响。因此,迫切需要探索适宜于GNNs的图结构。
本文认为,学习适配于GNNs的图结构应从两个维度考虑。(1)图生成机制。网络科学的很多文献已证明图生成可能受某些基本准则的约束,如配置模型。考虑这些准则,可使所得图保持规则的全局结构,并对实际观测中的噪声更鲁棒。(2)融合多方面信息以减少偏差。从一个信息源学习图结构会导致偏差和不确定性,自然的假设是如果一条边被观测到多次,则该边存在的置信度较大。
为满足上述两点要求,本文提出了图结构估计神经网络(GEN)。GEN主要包含两个关键模块:结构模型和观测模型。(1)考虑GNNs的局部平滑特性,结构模型约束图生成过程,假设图由随机块模型(SBM)产生,从而使其保持较好的社团结构。(2)观测模型将原始图结构、节点特征和多阶邻域信息作为观测共同处理。为估计图结构,GEN在GCN训练期间构造观测集合,并基于结构和观测模型应用贝叶斯推断计算图结构的后验分布。最终,图结构和GCN参数通过迭代优化实现彼此增强。
本文的主要贡献总结如下:
- 率先融合图生成机制和多方面信息,为GNNs学得更精确、更匹配的图结构。
- 提出图结构估计神经网络 GEN,其包含一个约束图生成过程的结构模型和一个注入多方面信息的观测模型,并基于贝叶斯推断估计出图结构。
- 在六个数据集上验证了 GEN 的有效性,并在生成数据集上展示了所得估计图的合理性。
2 图结构估计神经网络(GEN)
本节将概述GEN框架,具体细节请参见论文。
GEN首先利用多方面信息为图结构构建观测集合 ,然后图估计器基于观测集合 和标签 估计图结构。更好的图结构将使得GCN产生更准确的观测集合,更准确的观测集合将估计出更好的图结构。在此迭代过程中,GCN的参数学习和图结构的推断相互增强。
因此,GEN主要分为三个步骤:观测构建、图结构估计和迭代优化,将在以下小节分别介绍。
2.1 观测构建
原始图结构 是从现实世界的复杂系统中抽取的,通常噪音很大。为估计适配于GCN的图结构,需要构建多种观测以减小偏差。在 次聚合后,节点表示捕获了其 阶邻域内的结构信息。另一方面,具有相似邻域的节点对可能在原始图中距离较远,但属于相同的社团。如果利用这些富含信息的节点对,可增益下游分类任务。因此,GEN尝试在估计图中连接这些相距远但相似的节点。
具体地,固定 GNN 参数 ,并取出节点表示 来构建 NN图 作为观测,其中 是由 生成的 NN 图的邻接矩阵,刻画了 -阶邻域的相似性。显然,原始图结构 也是重要的观测之一,因此将其与 NN图结合形成完整的观测集合 。这些不同方面的观测可以集成起来推断出更可靠的图结构。
2.2 图结构估计
到目前为止,需要回答的问题是:基于这些观测值 ,GCN的最佳估计图是什么?这些观测从不同角度反映最佳图结构,但它们可能是不可靠或不完整的,并且没有先验知识来确定任何观测的准确性。在这种情况下,直接回答这个问题并不容易,但回答其逆问题则相对容易。假设已经生成了具有社团结构的图,则可以计算将该图映射到这些观测值的概率。如果能够做到这一点,贝叶斯推断可以进行反演,计算图结构的后验分布,从而达到最初目标。该过程形式化如下:
这里,生成图 的过程用概率 表示,对应于结构模型;计算图 映射到观测集合 的过程用概率 表示,对应于观测模型。
接下来,介绍结构模型和观测模型的具体形式。
2.2.1 结构模型
考虑GNN的局部平滑特性,一个很好的选择是随机块模型(SBM),其广泛用于社团检测,可对具有相对较强社团结构的图进行建模。SBM假设节点间存在边的概率仅取决于社团种类。例如,具有社团 的节点 和具有社团 的节点 间存在边的概率是 。因此,参数 表征社团内和社团间的连接概率。给定参数 、GCN预测 和标签 ,生成图 的概率形式化为
其中
2.2.2 观测模型
请注意,结构模型代表了对底层结构的先验知识或约束。实际上,最佳图以什么结构存在是一个谜,能做的事情就是结合其外部观测进行推断。因此,本文引入观测模型描述图 是如何映射到观测集合 上。具体地,假设边的观测是独立同分布的伯努利随机变量,该假设在社团检测和图生成中被广泛应用。
具体地,通过两个概率参数化可能的观测结果:真阳性率 ,观测到存在于图 中边的概率;假阳性率 ,观测到不存在于图 中边的概率。定义在 个观测中,观测到节点 和节点 间存在边 次,则不存在边 次。 代入以上定义,可写出 的具体形式:
2.3 迭代优化
首先,利用交叉熵损失函数更新 GNN 参数:
然后,应用贝叶斯定理,并用基于EM算法最大化后验,最终得到图结构的期望:
3 实验
本文在六个开源图数据集上验证了所提GEN的有效性。Cora、Citeseer和Pubmed是引文网络数据集。Chameleon和Squirrel是维基百科中两个具有特定主题的页面网络。Actor是fim-director-actor-writer网络的actor-only子图。具体统计信息如下:
3.1 节点分类
本文将GEN与三类GNN进行了比较,包括三种基于谱域的方法SGC、GCN和ChebNet,三种基于空域的方法GAT、APPNP和GraphSAGE,以及三种基于图结构学习的方法LDS、Pro-GNN和Geom-GCN。
除了每类20个标签的训练集设置外,本文还评估了每类10或5个标签时的性能。此表报告了10次独立试验的平均值和标准差。可以看到,GEN在六个数据集上始终优于其他基线方法,尤其是在减少标签和异配的情况下。
3.2 图结构分析
本文利用属性SBM生成数据集,从而直观分析GEN的机制和所得图结构的性质。该数据集有5个社团,每个社团有20个节点。
可视化原始图和估计图,并选择某特定节点突出其邻域变化。如图所示,原图较为混乱,社团间存在较多连边。这种情况下,GCN节点分类准确率只有 60%。应用 GEN 后,估计图的社团结构清晰,分类准确率提高至 84%。
进一步,计算社团间连边的概率矩阵,并将其绘制为热图。可以观察到,在原始图中许多非对角线色块比对角线色块更暗。但对于估计图,GEN扩大了对角线和非对角线色块间的差距。
邻接矩阵 代表边存在的置信度,因此本文展示了边置信度和观测次数间的关系。可以看到,大多数节点对都在“零观测”桶中,因为图是稀疏的,大多数节点对从未被观测到。仅观测到零或一次的边,其置信度通常小于0.1。但在一到两次观测间有相对尖锐的突变。
进一步地,本文展示边置信度的分布,为此将边分为两组:相同社团和不同社团节点间的边。分别画出这些边的置信度在训练、验证和测试集上的归一化直方图。可以看到,相同社团间边的置信度集中在最后一个桶上,而不同社团间边的置信度更倾向于第一个桶。
4 总结
图神经网络依赖合理的图结构,而不兼容的图结构会严重损害其性能。本文提出了一种新颖的图结构估计神经网络GEN用于估计适配于GNN的图结构,以提高下游任务性能。具体地,GEN引入结构模型考虑图生成过程中的潜在社团结构,并提出观察模型将多方面信息(例如,多阶邻域相似性)作为图结构的观测。基于这些模型,GEN利用贝叶斯推断框架得到最终估计图。大量实验结果验证了GEN的有效性及其估计图的合理性。
一个有趣的未来方向是将GEN扩展到动态图。直观来看,观测集合可以由不同时间片的信息构建。然而,观测集合不能反映时间序列,且图演化过程中出现的新节点需要从头训练整个模型。因此,需要匹配更复杂的推理模型以应对这些挑战。