文本图神经网络

论文链接： Graph Convolutional Networks for Text Classification

Idea：

基于一个数据集内的共现词和文档构建一个文本异构图网络。
在文本图网络中，单词和文档向量初始化形式为one-hot，在文档已知类标签的监督下，联合学习单词和文档的向量化表示。
图网络能够有效的处理关系型（结构化）数据，可以以图的形式保留全局性结构化信息在图嵌入形式中。

Method

Graph Convolutional Networks (GCN)

GCN是一种直接操作在图上的多层神经网络，并根据节点的邻域属性来生成节点的嵌入式向量表达。在一个图中G=(V,E),V和E分别代表节点集合和边集合。在该模型中，假设每个节点都与其自己自连接，（v，v）∈ E。X ∈ Rn*m代表一个包含n个节点的矩阵，其每个节点特征向量的维度为m，节点v的原始特征向量为xv。邻域矩阵为A，由于假设节点都是自连接的，所以A的主对角线上的元素都为1。当GCN网络只有一层的时候，其只能捕获节点周围的直接邻域信息，换句话说当网络层数较多时能够捕获节点周围较大的邻域信息。例如，节点特征维度为k的节点特征矩阵L，L（1）∈ Rn*k。

A为归一化对称邻近矩阵，Wo为权重矩阵，最后加激活函数。对于多层GCN来说：

J为所处的网络层数，L（0）=X。

Text Graph Convolutional Networks (Text GCN)

论文中构建了一个大型的异构文本图网络，图中包含单词节点和文档节点，以至于全局共现词可以被明确的构建出。如下图所示，文本图网络中的节点的数量为文档节点个数（数据集的大小）加上数据集中包含的不重复单词的个数（词汇表的大小）。

论文中设置X=I作为一个单位矩阵，这意味着单词和文档都以one-hot这种形式来作为文本图网络的输入。模型基于某个单词在某个文档中出现的概率构建文档-单词边，基于单词在整个数据集中出现的共现概率构建单词-单词边。其中文档-单词边上的权重是基于TF-IDF（逆文档频率）来确定的。论文发现使用TF-IDF是优于仅仅使用单词在文档中出现的频率。为了利用全局性的单词共现概率，该模型设置了一个固定长度大小的窗口，去收集整个数据集中的单词共现次数。两个节点之间的权重是通过PMI（逐点互信息）来计算的。论文中也发现了使用PMI是优于仅仅使用单词之间的共现次数的。具体来说，节点i和节点j边上的权重被定义为如下：

两个节点之间的逐点互信息计算如下：

#W(i)是在整个数据集上滑动窗口中包含单词i的数量，#W（i，j）是在整个数据上滑动窗口中同时包含单词i和j的数量，#W是在整个数据集上滑动窗口的总的数量。PMI为正数的时候代表两个单词之间具有较高的语义关联度，相反，PMI为负数的时候代表两个单词之间的语义关联程度较小或者是没有语义关联。所以，论文只采纳两个单词间PMI值大于0这种情况。

在构建出文本图表示后，在其上添加两层的GCN网络。在第二层GCN网络上，其节点（word/document）嵌入表示具有和被标注集相同的尺寸大小。之后，其被丢入softmax分类器中：