论文“Measuring and Relieving the Over-Smoothing Problem for Graph Neural Networks from the Topological View AAAI20”阅读分析

摘要:图神经网络在基于图的任务上已经取得了很大成功,但是其仍然存在一个非常严重的问题----过平滑(不同类别中结点的表示难以区分). 这篇文章主要从三个方面针对图卷积中的过拟合问题进行了系统而定量的研究:1) 介绍两个度量的metrics, MAD 和 MADGap, 度量图节点表示的平滑性以及过平滑性;2) 验证了平滑是GNNs的本质,并指出过平滑的关键因素是结点接收的信息的信噪比比较低(本质上相当于内在边占全部结点边的数量) 部分由图拓扑决定,;3) 提出了两种方法来从拓扑的角度缓解过拟合的问题:1. MADReg 添加了一种基于MADGap的正则化去训练目标 2. AdaEdge 基于模型的预测优化了图拓扑。

1. 介绍

  过平滑是指当堆叠多层时,不同类别之间结点的表示会变得不可区分。目前关于what 以及 how 发生过拟合的研究相对较少。因此本文主要针对GNNs的过拟合问题进行系统而定量的分析,找出引起过拟合问题的关键因素。

  作者首先提出了一个量化度量,Mean Average Distance (MAD),计算图中结点表示之间的平均距离,从而度量图的平滑度(即结点表示之间的相似度)。随着堆叠层数的增多,不同GNNs的MAD的值会逐渐减小,即验证了平滑度是GNNs的一个本质特性 (主要原因在于结点的交互主要是通过GNN的信息传播,这会使得结点表征接近,并且在堆叠多层的时候结点表示可能会过平滑)。

  导致过拟合的一个关键因素是信息和噪声的过度混合 (结点之间的交互可能是对其有用的信息,也可能是噪音)。在结点分类问题中,内在的边会带来有用信息,不同类别之间结点的交互可能会导致一些不可区分的表示。信噪比测量结点接受信息的质量,即内在边的节点对在所有有交互的节点对之间的比例。此外,作者注意到具有比较近拓扑距离的两个点更倾向于属于同一个类别。作者区分了remote 和邻居结点之间的角色并计算了MADGap(估计图表示的过平滑)。

  作者发现低的信噪比主要是由于图拓扑和下游任务之间的差异所导致的,比如结点分类任务,如果类之间的边过多,在经过多次传播后结点就会接收太多来自其他类的信息。因此,作者从拓扑的视角提出了两种缓解过拟合问题方法:1)MADReg 2)AdaEdge

   文章的主要贡献:1)在大量图数据和模型中定量系统的分析了过拟合问题; 指出过拟合的关键因素是被图拓扑影响的信噪比 2)设计了两种定量的度量,MAD用于平滑,MADGap用于图表示的过平滑 3)提出了两种方法解决过拟合问题。

2. 模型和数据集

数据集: 1)引用网络: cora, citeseer,pubmed
      2)合作者网络:CS,physics
      3)Amazon产品网络:Computers,Photo

模型:

图神经网络导论 pdf 图神经网络论文_深度学习

3. 从拓扑视角测量过拟合的问题

MAD: 用于平滑度的度量(通过计算结点到其他结点平均距离的平均值得到)

具体计算过程如下:

  1)计算结点之间的距离矩阵D

图神经网络导论 pdf 图神经网络论文_数据挖掘_02


H是结点i的图表示,也就是GNN的最后一层的隐藏层表示。

  2)使用D矩阵与mask矩阵相乘的方式过滤目标结点对:

图神经网络导论 pdf 图神经网络论文_数据挖掘_03


  3)获取平均距离:

图神经网络导论 pdf 图神经网络论文_图神经网络导论 pdf_04


  4)获取最终目标结点对的MAD:

图神经网络导论 pdf 图神经网络论文_结点_05


图神经网络导论 pdf 图神经网络论文_图神经网络导论 pdf_06

信噪比影响过拟合:随着层数增加,信噪比不断降低

图神经网络导论 pdf 图神经网络论文_数据挖掘_07


MADGap: 计算区分远节点和邻居节点的MAD值的差值来估计图表示的过平滑性

图神经网络导论 pdf 图神经网络论文_结点_08


MADGap值越大,代表着被节点接收的信息要比噪音多

准确率和MADGap之间的皮尔森相关系数,可以发现准确率和MADGap之间有一定的关系。

图神经网络导论 pdf 图神经网络论文_数据挖掘_09

4. 从拓扑视角缓解过拟合

1)MADReg: 在训练目标中添加基于MADReg的正则化项

图神经网络导论 pdf 图神经网络论文_深度学习_10


2)Adaptive Edge Optimization (AdaEdge): 通过迭代训练GNN模型,根据预测结果进行去边/加边操作,自适应地调整图的拓扑结构

5. 结论

在这项工作中,作者对GNN所面临的过度平滑问题进行了系统和定量的研究。1) 首先设计两个量化指标:MAD表示平滑度,而MADGap表示超平滑度;2) 发现平滑是GNN的本质, 过度平滑是由信息和噪声的过度混合引起的; 3) 发现MADGap与模型性能之间存在显着高的相关性, 此外证明了信噪比与图拓扑有关,并且可以通过优化图拓扑使其更适合于下游任务来缓解过度平滑的问题; 4) 提出了两种方法来缓解GNN中的过度平滑问题:MADReg和AdaEdge。