SGC:简化图卷积网络 《Simplifying Graph Convolutional Networks》

论文地址:https://arxiv.org/abs/1902.07153

一、简介

图卷积神经网络(图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络)是卷积神经网络在图数据上的变体,其通过在非线性函数前堆叠若干个一阶谱过滤器来学习图数据的表示。近期,图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_02及其变体在各种图应用领域都实现了state-of-the-art。但是,由于图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_02是在神经网络“复兴”后提出的,因此不可避免的继承了神经网络的复杂性和难以解释性。

本文认为对于那些需求低的应用来说,图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_02继承自神经网络的复杂性是不必要的。因此,本文的目标是推断出在图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05之前基于"传统"路径能够获得的最简单模型。具体来说,本文通过移除图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_02层之间的非线性并简化结果函数为单一线性变换,从而减少了图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_02的额外复杂性。实验显示,最终得到的模型可以与图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_02像媲美,且计算效率更高、拟合参数更少。本文将这个模型称为图卷积神经网络 先验网络 图卷积神经网络综述_图_09

直觉上,图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_10是可解释的,且本文从图卷积的角度提供了理论分析。图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_10中的特征抽取对应于单个固定的过滤器。图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_12发现图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_13能够改善任务准确率,本文证明这个方法能够有效的缩小图的谱域,且应用在图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_10上能够产生低通过滤器。

通过在基准数据集上的评估,展示了图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_10能够与图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_02及其他state-of-the-art图神经网络媲美。然而,图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_10的速度会快很多,甚至在最大的评估数据集上比图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_18快2个数量集。此外,本文还证明了图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_10能够有效的扩展至下游任务中。

二、方法

图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_02将带有部分标签的节点作为输入,并为图中的所有节点生成预测标签。形式化地,定义一个图为图卷积神经网络 先验网络 图卷积神经网络综述_图_21,其中图卷积神经网络 先验网络 图卷积神经网络综述_图_22表示由节点图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_23组成的顶点集合;图卷积神经网络 先验网络 图卷积神经网络综述_图_24是对称邻接矩阵,其中图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_25表示节点图卷积神经网络 先验网络 图卷积神经网络综述_图_26图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_27的权重,缺失的边通过图卷积神经网络 先验网络 图卷积神经网络综述_图_28来表示。定义度矩阵图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_29为一个对角矩阵,其对角线上的每个分量是等于邻接矩阵的行求和图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_30

图中的每个节点图卷积神经网络 先验网络 图卷积神经网络综述_图_26对应一个图卷积神经网络 先验网络 图卷积神经网络综述_图_32维特征向量图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_33。整个特征矩阵图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_34则是堆叠了图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_35个特征向量,即图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_36。每个节点都属于图卷积神经网络 先验网络 图卷积神经网络综述_图_37个类别中的一个,并使用图卷积神经网络 先验网络 图卷积神经网络综述_图_37维one-hot编码向量图卷积神经网络 先验网络 图卷积神经网络综述_图_39表示。

模型仅知道一部分节点的标签,并希望预测节点的未知标签。

1. 图卷积神经网络图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05

类似于图卷积神经网络 先验网络 图卷积神经网络综述_图_41或者图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_42图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05也是通过多个层来从每个节点的特征图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_44中学习新的特征表示,并用线性分类器进行分类。对于第图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_45个图卷积层来说,所有节点的输入表示为矩阵图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_46,输出节点表示为图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_47。自然而然地,初始化节点表示就是原始输入的特征:
图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_48
其作为第1个图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05的输入。

一个图卷积神经网络 先验网络 图卷积神经网络综述_图_50层的图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05等同于在图中的每个节点特征图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_44上应用图卷积神经网络 先验网络 图卷积神经网络综述_图_50层的图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_42,且每个节点的向量表示都是平均了其邻居节点的表示。在每个图卷积层中,节点的向量表示会在三个阶段被更新:(1) 特征传播;(2) 线性变换; (3) 非线性激活函数。

1.1 特征传播

图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_42的主要区别就是特征传播。在每层的开始,每个节点图卷积神经网络 先验网络 图卷积神经网络综述_图_26的特征图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_58是平均了它局部邻居的特征向量
图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_59
为了更加紧凑,这里将整个图上的更新表示为简单的矩阵操作。具体来说,令图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_60表示规范化邻接矩阵
图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_61
其中,图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_62图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_63图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_64的度矩阵。那么,等式图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_65中所有节点的同步更新能够简化为一个稀疏矩阵乘法
图卷积神经网络 先验网络 图卷积神经网络综述_图_66
直觉上,这步操作沿着图的边平滑了局部向量表示,并且鼓励局部的点具有相似的预测。

1.2 线性变换与非线性激活

经过局部平滑后,图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05层与图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_42层等价。每个层都被关联一个可学习权重图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_69,用于对经过平滑的特征向量进行线性变换。最后,在特征向量图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_47输出前,使用图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_71这样的非线性激活函数对输出进行变换。整体来说,第图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_45层的向量表示更新规则为
图卷积神经网络 先验网络 图卷积神经网络综述_图_73

1.3 分类器

类似于图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_42,对于节点分类任务,图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05会在最后一层使用图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_76分类器预测标签概率。图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_35个节点的类别预测表示为图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_78,其中图卷积神经网络 先验网络 图卷积神经网络综述_图_79表示节点图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_80属于类别图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_81的概率。图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_83层的类别预测记为
图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_84
其中,图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_85

2. 图卷积神经网络 先验网络 图卷积神经网络综述_图_09

在传统的图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_42层中,更深的层能够增加表达能力。因此,深层的图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_42能够构建特征的层次结构,即第二层的特征是在第一层特征的基础上构建的。在图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_02中,这些层还有第二个重要作用:每层的隐藏表示会被其一跳邻居平均。这也意味着,一个经过图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_45层的阶段特征来源于其在图中的所有图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_45跳邻居。这种方式类似于卷积神经网络,模型深度增加的同时也增加了特征的感知域。虽然随着深度的增加,卷积网络的效果会变好,但是典型的图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_42在3或4层之后就收益很小了。

2.1 线性化

假设两个图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05层间的非线性变换并不是必须的,模型的收益主要来自于局部平均。那么,移除每层的非线性变换并保留最后的图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_76。这样得到的模型仍然是线性的,且与图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_83层的图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05具有相同的感知域
图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_97
为了简化表示,将规范化邻接矩阵的重复乘法表示为图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_60图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_83次方法图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_100。此外,将权重矩阵重新参数化为单一的矩阵图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_101。那么最终的分类器表示为
图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_102
本文将其称为图卷积神经网络 先验网络 图卷积神经网络综述_图_09

2.2 Logistic回归

通过观察等式图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_104能够获得图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_10的直觉解释:分离特征抽取和分类器。即图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_10可以看做是由一个固定的特征抽取/平滑组件图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_107,后面跟一个线性图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_108回归分类器图卷积神经网络 先验网络 图卷积神经网络综述_图_109组成。由于图卷积神经网络 先验网络 图卷积神经网络综述_图_110不需要权重,因此计算图卷积神经网络 先验网络 图卷积神经网络综述_图_110就等价于特征预处理步骤。整个模型的训练就变成了在预处理特征图卷积神经网络 先验网络 图卷积神经网络综述_图_110上的直接进行多类别图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_108回归。

三、谱分析(图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_114)

1. 图卷积

图数据上的图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_115分析依赖于图图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_116算子的谱分解。

图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_116矩阵图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_118(规范化版本图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_119)为对称正定矩阵。该矩阵的特征分解为图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_120,其中图卷积神经网络 先验网络 图卷积神经网络综述_图_121是由正交特征向量组成,且图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_122为特征值对角矩阵。图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_116矩阵的特征分解能够允许在图域上定义等价的傅里叶变换,特征向量对应图卷积神经网络 先验网络 图卷积神经网络综述_图_124的模,特征值对应图上的频率。基于此,令图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_125表示定义在图上顶点的信号,那么图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_126的图上图卷积神经网络 先验网络 图卷积神经网络综述_图_124变换为图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_128且逆操作为图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_129。因此,信号图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_126和过滤器图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_131的图卷积操作定义为
图卷积神经网络 先验网络 图卷积神经网络综述_图_132
其中,图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_133表示对角矩阵,其对角线元素对应谱过滤器系数。

图卷积能够通过图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_116的k阶多项式完成近似,
图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_135
其中,图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_136表示系数。在这个例子中,过滤器系数对应于图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_116特征值的多项式,即图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_138或者相当于图卷积神经网络 先验网络 图卷积神经网络综述_图_139

图卷积神经网络利用了等式图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_140的线性近似,该线性近似具有系数图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_141图卷积神经网络 先验网络 图卷积神经网络综述_图_142。得到基本的图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05卷积操作
图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_144
在其最终的设计中,将矩阵图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_145替换为规范化版本图卷积神经网络 先验网络 图卷积神经网络综述_图_146,其中图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_62图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_148

2. 图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_10和低通滤波

图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_150

图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_05中初始的过滤器对应于传播矩阵图卷积神经网络 先验网络 图卷积神经网络综述_图_152。规范化拉普拉斯算子为图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_153,那么图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_154。因此,特征传播图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_155意味着过滤系数图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_156,其中图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_157表示图卷积神经网络 先验网络 图卷积神经网络综述_图_158的特征值。上图展示了传播步骤图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_159的变化与图卷积神经网络 先验网络 图卷积神经网络综述_图_160过滤操作的关系。可以观察到,高阶图卷积神经网络 先验网络 图卷积神经网络综述_图_160将会导致过滤系数的爆炸并在频率图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_162上过度放大。

为了解决一阶过滤器的问题,图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_12等人提出了图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_13。该方法通过为所有节点加入自循环后的归一化邻接矩阵来替换图卷积神经网络 先验网络 图卷积神经网络综述_图_160。本文称得到的传播矩阵为增强的归一化邻接矩阵图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_166,其中图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_62图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_148。相应的,定义增强规范化图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_116矩阵图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_170。这样,就可以将关于图卷积神经网络 先验网络 图卷积神经网络综述_图_171的谱过滤器描述为图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_116矩阵特征值的多项式,即图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_173,其中图卷积神经网络 先验网络 图卷积神经网络综述_图_174图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_175的特征值。

  • 定理1
    图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_176是一个无向、有权且无孤立点的简单图的邻接矩阵,其对应的度矩阵为图卷积神经网络 先验网络 图卷积神经网络综述_图_177。令图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_178为增强邻接矩阵(图卷积神经网络 先验网络 图卷积神经网络综述_图_179),其对应的度矩阵为图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_180。令图卷积神经网络 先验网络 图卷积神经网络综述_图_181图卷积神经网络 先验网络 图卷积神经网络综述_图_182表示图卷积神经网络 先验网络 图卷积神经网络综述_图_183的最小特征这和最大特征值。类似地,图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_184图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_185则是图卷积神经网络 先验网络 图卷积神经网络综述_图卷积神经网络 先验网络_186的最小特征性和最大特征值。则有
    图卷积神经网络 先验网络 图卷积神经网络综述_卷积神经网络_187

定理1表明,在加入自循环图卷积神经网络 先验网络 图卷积神经网络综述_图卷积网络_188后,规划化图卷积神经网络 先验网络 图卷积神经网络综述_图神经网络_116矩阵的最大值变小。