论文解读:Graph Convolutional Networks for Text Classifification

  先前的文本分类方法是基于CNN或RNN进行的,只能单独的对文本自身的上下文进行语义提取,而不能够对文本之间的相关信息进行表示。随着图结构在NLP领域的大放光彩,将图引入文本分类是新的思路。


一、简要信息

序号

属性


1

模型名称

Text-GCN

2

所属领域

自然语言处理

3

研究内容

文本分类

4

核心内容

Text Classification, Graph Convolutional Network

5

GitHub源码

​https://github.com/yao8839836/text_gcn​

6

论文PDF

​https://arxiv.org/pdf/1809.05679v1​

7

引用(GBT7714)

Liu X , You X , Zhang X , et al. Tensor Graph Convolutional Networks for Text Classification[J]. World Wide Web, 2020(Aug).

8

引用(BibTex)

@article{Liu2020Tensor,title={Tensor Graph Convolutional Networks for Text Classification},author={Liu, Xien and You, Xinxin and Zhang, Xiao and Wu, Ji and Lv, Ping},journal={World Wide Web},number={Aug},year={2020}}

二、任务描述

论文解读:Graph Convolutional Networks for Text Classifification_Text,其中 论文解读:Graph Convolutional Networks for Text Classifification_自然语言处理_02 表示图中的结点,可以是单词,也可以是文档;论文解读:Graph Convolutional Networks for Text Classifification_文本分类_03

三、方法详细介绍:

论文解读:Graph Convolutional Networks for Text Classifification_文本分类_04

3.1 构建图结构文本语料

  构建图包括几个步骤:

  (1)首先对于所有单词生成词表,该词表中每个独立的单词可以作为图中的结点。其次整个文档也可以作为结点,因此,图包含单词级别和文档级别两种类型的结点,因此该图是heterogeneous的。初始化的时候,每个单词使用独热编码来表示(不使用预训练词向量),因此可以表示为单位矩阵论文解读:Graph Convolutional Networks for Text Classifification_图卷积网络_05

  (2)接下来主要重点是如何定义边。作者只定义两种类型的边,一种是(文档-单词),一种是(单词-单词)。(文档-单词)可以使用TF-IDF进行度量。假设第i个单词和第j个文档, 其中TF表示单词i在文档j中的共现次数,IDF则表示包含单词i的所有文档的对数表示。TF-IDF=TF*IDF。通过进行归一化可以得到单词i与文档j的边权;

  (3)另一个则是(单词-单词),作者使用PMI指数。首先定义一个滑动窗口W,其在文档上进行滑动,#W表示文档j上滑动窗口的个数,#W(i)表示所有滑动窗口中包含单词i的个数, #W(i,k)则是同时包含单词i,k的窗口个数,因此可得到PMI指数,如图所示:

论文解读:Graph Convolutional Networks for Text Classifification_结点_06

  (4)作者定义了矩阵A表示邻接矩阵,其中权重Aij定义如下:

论文解读:Graph Convolutional Networks for Text Classifification_Text_07

  当结点分别为单词和文档时,使用TF-IDF;当都是单词时,使用PMI,如果两个结点相同(矩阵的对角线)则定义为1,否则为0。

3.2 图卷积网络

论文解读:Graph Convolutional Networks for Text Classifification_Text_08,其中 论文解读:Graph Convolutional Networks for Text Classifification_Text_09

论文解读:Graph Convolutional Networks for Text Classifification_文本分类_10

loss表示的是所有文档 论文解读:Graph Convolutional Networks for Text Classifification_图卷积网络_11 在所有类 论文解读:Graph Convolutional Networks for Text Classifification_图卷积网络_12

论文解读:Graph Convolutional Networks for Text Classifification_结点_13

主要创新点:

  • 第一个将图网络引入文本分类的方法;
  • 考虑到了文档与单词,单词与单词之间的相关性;
  • 无须预训练词向量以及引入额外知识条件下依然达到了SOTA效果

可以改进的点:

  • 因为只考虑到共现度方面的信息,因此语义方面很低,如果事先预训练可能效果更好,但这违背作者认为的第三个创新点;
  • 可能会受到长尾问题的影响,因此可以使用注意力来辅助提升。

参考文献:
[1] Fastgcn: Fast learning with graph convolutional networks via importance sampling
[2] Semi-supervised classifification with graph convolutional networks