MGIMN:用于Few-shot文本分类的多粒度交互式匹配网络
本文来自NAACL 2022,介绍一种少样本文本分类方法,以前少样本文本分类一般基于度量的元学习方法,为每个类导出原型表示,但忽略了query和查询集之间的联系,本文提出了一种基于元学习方法,通过对实例进行比较,然后进行聚合生成类匹配向量,而不是原型学习。本文的作者来自阿里达摩院的几位同学。
论文地址:MGIMN: Multi-Grained Interactive Matching Network for Few-shot Text Classification - ACL Anthology
code 地址:暂无
一、摘要
文本分类很难推广到看不见的类,每个类只有很少的标记文本。在这样一个小镜头学习(FSL)环境中,基于度量的元学习方法已显示出良好的效果。先前的研究主要旨在为每个类导出原型表示。然而,他们忽略了构造一个表达每个类的全部含义的紧凑表示是具有挑战性的,也是不必要的。他们还忽略了捕获查询和支持集之间的相互依赖关系的重要性,以便进行少量文本分类。为了解决这些问题,我们提出了一种基于元学习的方法MGIMN,该方法通过对实例进行比较,然后进行聚合来生成类匹配向量,而不是原型学习。实例比较的关键是课堂特定上下文和情节特定上下文中的交互匹配。大量实验表明,在标准FSL和广义FSL设置下,所提出的方法显著优于现有的SOTA方法。
二、介绍
最近为了解决增加新类或少样本类别时整体重训的巨大消耗和继续fine-tune对少数新类的overfit,基于度量的元学习成为主要框架。元训练阶段使用事件采样来学习query和候选集直接的关系。本文中,提出了多力度交互式匹配网络,在类聚合后执行sample比较,
- 将query和支持sample编码encoder
- 多粒度交互匹配机制,捕获互相依赖关系
- 获得query和label embedding 通过预测层预测最终结果。
贡献:
- 多粒度交互匹配,达到sota结果
图1. 多粒度交互
图2. Model Frame Work
三、方法
如图2所示,MGIMN由四个模块组成:Encoder Layer、Instance Matching Layer、Class-wise Aggregation Layer and Prediction Layer.
-
Encoder Layer
query和 n个类的k个支持实例的embedding隐藏层输出
-
Instance Matching Layer
将query embedding和实例进行匹配比较,分为
- 双向对齐(序列embedding)进行双向对齐操作,
- 多粒度交互:局部粒度,整体粒度(通过concat操作)分别进行双向对齐
-
Class Aggregation Layer
该层将实例匹配向量聚合为类匹配向量,用于最终预测,平均池化和最大池化
-
Prediction Layer
最后MLP来预测结果,判断是否匹配 0/1
四、实验
实验设置
在5个corpora进行评估:OOS,Liu,FaqIr,Amzn and Huffpost,其中前三个数据集都是意向分类数据集。Amzn数据集旨在对产品评论进行细粒度分类,Huffpost对标题和描述来识别新闻类型。N个类别构建 k和r个支持和查询样本进行实验。最后每个模型进行不同random seed的三次实验,所有模型使用 bert-tiny1(layer=2,head=2,dim=128),学习率从1e-5和1e-4进行调整,dropout rate=0.1。
baseline设置
使用一些相同评价指标的强baseline进行对比,同时预训练encoder修改为bert-tiny1进行比较。
- 原型网络 Prototypical Network (Proto)(Snell et al…2017)
- 匹配网络 Matching Network (Matching)(Vinyals et al., 2016)
- 感应网络 动态路由对原型网络进行归纳模块
- 原型-HATT
- MLMAN
消融实验
为了验证多粒度交互模式在该场景下的有效性,进行了不同交互水平和实例匹配的向量效果验证。
推理速度测试
class 从50到318时,检索速度过慢,1.通过类支持向量的平均embedding进行第一阶段建设,阈值划分,然后在第二阶段进行支持实例检索,最终速度提高了5-23倍。
五、我的思考
本文是应用匹配网络解决文本分类的一种方法,构造label embedding进行匹配检索,匹配时,先进行label支持实例 embedding平均匹配,进行首轮筛选,然后后面前k个label 的支持实例进行具体匹配检索,同时这里不仅整句进行批评,在token,span的层次上也进行匹配运算,虽然可能没有显著提升空间,比较语义匹配才是重点。
该方法可以作为一种对比多任务学习来提升一般工业界文本分类,意图识别任务的方法,具体后面尝试结合其他对比学习trick进行实现。