论文解读：Graph Convolutional Networks for Text Classifification

原创

AA夏栀?_? 2022-12-22 02:26:45 博主文章分类：论文解读 ©著作权

©著作权归作者所有：来自51CTO博客作者AA夏栀?_?的原创作品，请联系作者获取转载授权，否则将追究法律责任

论文解读：Graph Convolutional Networks for Text Classifification

先前的文本分类方法是基于CNN或RNN进行的，只能单独的对文本自身的上下文进行语义提取，而不能够对文本之间的相关信息进行表示。随着图结构在NLP领域的大放光彩，将图引入文本分类是新的思路。

一、简要信息

序号	属性	值
1	模型名称	Text-GCN
2	所属领域	自然语言处理
3	研究内容	文本分类
4	核心内容	Text Classification, Graph Convolutional Network
5	GitHub源码	https://github.com/yao8839836/text_gcn
6	论文PDF	https://arxiv.org/pdf/1809.05679v1
7	引用（GBT7714）	Liu X , You X , Zhang X , et al. Tensor Graph Convolutional Networks for Text Classification[J]. World Wide Web, 2020(Aug).
8	引用（BibTex）	@article{Liu2020Tensor,title={Tensor Graph Convolutional Networks for Text Classification},author={Liu, Xien and You, Xinxin and Zhang, Xiao and Wu, Ji and Lv, Ping},journal={World Wide Web},number={Aug},year={2020}}

二、任务描述

$论文解读：Graph Convolutional Networks for Text Classifification_Text$ ，其中 $论文解读：Graph Convolutional Networks for Text Classifification_自然语言处理_02$ 表示图中的结点，可以是单词，也可以是文档； $论文解读：Graph Convolutional Networks for Text Classifification_文本分类_03$

三、方法详细介绍:

论文解读：Graph Convolutional Networks for Text Classifification_文本分类_04

3.1 构建图结构文本语料

构建图包括几个步骤：

（1）首先对于所有单词生成词表，该词表中每个独立的单词可以作为图中的结点。其次整个文档也可以作为结点，因此，图包含单词级别和文档级别两种类型的结点，因此该图是heterogeneous的。初始化的时候，每个单词使用独热编码来表示（不使用预训练词向量），因此可以表示为单位矩阵 $论文解读：Graph Convolutional Networks for Text Classifification_图卷积网络_05$ ；

（2）接下来主要重点是如何定义边。作者只定义两种类型的边，一种是（文档-单词），一种是（单词-单词）。（文档-单词）可以使用TF-IDF进行度量。假设第i个单词和第j个文档，其中TF表示单词i在文档j中的共现次数，IDF则表示包含单词i的所有文档的对数表示。TF-IDF=TF*IDF。通过进行归一化可以得到单词i与文档j的边权；

（3）另一个则是（单词-单词），作者使用PMI指数。首先定义一个滑动窗口W，其在文档上进行滑动，#W表示文档j上滑动窗口的个数，#W(i)表示所有滑动窗口中包含单词i的个数， #W(i,k)则是同时包含单词i，k的窗口个数，因此可得到PMI指数，如图所示：

论文解读：Graph Convolutional Networks for Text Classifification_结点_06

（4）作者定义了矩阵A表示邻接矩阵，其中权重Aij定义如下：

论文解读：Graph Convolutional Networks for Text Classifification_Text_07

当结点分别为单词和文档时，使用TF-IDF；当都是单词时，使用PMI，如果两个结点相同（矩阵的对角线）则定义为1，否则为0。

3.2 图卷积网络

$论文解读：Graph Convolutional Networks for Text Classifification_Text_08$ ，其中 $论文解读：Graph Convolutional Networks for Text Classifification_Text_09$

$论文解读：Graph Convolutional Networks for Text Classifification_文本分类_10$

loss表示的是所有文档 $论文解读：Graph Convolutional Networks for Text Classifification_图卷积网络_11$ 在所有类 $论文解读：Graph Convolutional Networks for Text Classifification_图卷积网络_12$

$论文解读：Graph Convolutional Networks for Text Classifification_结点_13$

主要创新点:

第一个将图网络引入文本分类的方法；
考虑到了文档与单词，单词与单词之间的相关性；
无须预训练词向量以及引入额外知识条件下依然达到了SOTA效果

可以改进的点:

因为只考虑到共现度方面的信息，因此语义方面很低，如果事先预训练可能效果更好，但这违背作者认为的第三个创新点；
可能会受到长尾问题的影响，因此可以使用注意力来辅助提升。

参考文献:
[1] Fastgcn: Fast learning with graph convolutional networks via importance sampling
[2] Semi-supervised classifification with graph convolutional networks