一. 介绍
Motivation
-
传统基于attention的方法不能捕捉到句子中上下文词与aspect相关词间的依赖关系;
-
传统CNN的方法,不能捕捉到不连续的aspect related words 所表达的情感含义
Proposed Model
-
用GCN来捕捉依赖句法关系并对不连续的词进行捕捉
-
用Position-aware来减少依赖解析过程中可能自然产生的噪声和偏差
-
加入了Aspect-specific Masking来生成aspect-specificed features
-
用Aspect-aware Attention来生成用于分类的表示
二. 图卷积网络
略
三. 模型
Embedding & BiLSTM
通过 word embedding 和 BiLSTM 对句子中的每个 word 进行编码, 且认为每个句子中都有长度为 的子序列是aspect-based words.
Aspect-oriented Features
- GCN层
通过在句法依赖树上进行图卷积操作捕获特征;
- Position-aware Transformation
根据文中公式5计算句子中每个word的position weight, 其中 代表 aspect-specific words 的开始位置。这一步转换的目的是,减少依赖解析过程中可能自然产生的噪声和偏差
1. 为什么 aspect-specific words部分对应的权值为0???
2. 为什么这样的操作能够减少噪声和误差??
3. 这里得到的position转化后的表示在哪里用了??
- Aspect-specific Masking Layer
通过这一层屏蔽掉 non-aspect 单词的隐藏状态向量,并使aspect单词的状态保持不变。通过Zero Masking后输出aspect-specific words的 , 特征H_{mask}^{L} 感知到aspect周围的上下文,从而既考虑了句法依赖又考虑了长距离多词关系
Aspect-aware Attention
根据文中公式8,9, 通过attention mechanism生成用于分类的表示,并将其输入分类层。
四. 消融试验
-
实验一: 去掉 position-weight
- 结论: 结果降低,说明如果句法依赖对当前数据不是很重要的话,position-weight不能有助于减少噪声;
-
实验二: 去掉mask-layer
- 结论: This verifies the significance of aspect-specific layer.
-
实验三: 去掉GCN
- 结论1: GCN contributes to ASGCN to a considerable extent since GCN captures syntatic word dependencies and long-range word relations at the same time.
- 结论2: Nevertheless, the GCN does not work well as expected on the datasets not sensitive to syntax information.
讨论
-
讨论了 GCN 层数的影响
-
讨论 aspect 的影响
2020.03.14