SCD: Self-Contrastive Decorrelation for Sentence Embeddings
ACL 2022
论文地址:[2203.07847] SCD: Self-Contrastive Decorrelation for Sentence Embeddings (arxiv.org)
摘要
本文,提出了一种自我对比去相关算法,给定一个输入句子,优化一个联合自对比和去相关目标。通过不同rate的dropout产生表示进行对比。在不使用对比对情况下,在多个基准下得到先进结果,该方法为自监督学习开辟了新的途径,比当前对比方法更好。
介绍
背景知识
无监督表示学习是NLP中的一个基本问题,句子嵌入在许多语言处理中必不可少,如机器翻译,情感分析,信息检索,语义搜索等。目前常见预训练方法MLM,NSP,SOP中对比学习是自监督学习中最强大方法之一。
对比学习目标:正样本对彼此靠近,负样本对彼此远离。因此选择正负样本对是对比学习中的一个重要问题。
正样本对构造方法:
- 同一文档不同跨度(Giorgi et al., 2021)
- 同一句子经过两个不同encoder的嵌入(Carlsson et al., 2020)
- 反向翻译来创建原句增强 CERT (Fang et al., 2020)
- 采用多种句子级增强策略表示(Wu et al., 2020)
负样本对构造:
- batch中其他样本
负样本挖掘在无监督任务上表现具有挑战性,需要增加训练batch_size和内存大小。伴随着大量内存需求的沉重负担。
本文的方法
本文提出SCD,一种用于句子嵌入自我监督学习新算法,在句子相似性任务方面性能优越。
思路:对句子嵌入进行扰动,但扰动量较小,可以看作没有改变语义(正对)扰动较大,足以改变语义(负对),为了得到这一点,提出了一个由两个相反项组成的目标函数,作用于样本对
- LS自对比发散(排斥)将一个句子经过两个encoder后不同表示作为负样本对。
- LC特征去相关(吸引)将向量作为一个正样本对
发现使用该方法得到的向量表示比对比对更加稳健。
相关工作
-
最相关的论文为SimCSE(Gao et al., 2021),在考虑对比学习下使用dropout作为数据增强,而我们则使用dropout来构造正负对。
-
不同于(Zbontar 等人,2021;Su 等人,2021;Ermolov 等人,2021)中成对特征去相关或白化,后者鼓励增强表示之间的相似表示样本,同时最小化表示向量中的冗余。而我们则通过自我对比构造正负对。
贡献总结
- 通过利用multi-dropout生成句子嵌入
- 使用自对比消除对负样本对的依赖
- 在NLP中非对比自监督学习领域 ,提出了特征去相关目标
方法
使用transformer的语言模型作为Encoder,结合不同的dropout rate(一个高,一个低)得到的两个表示向量计算由两个目标组成的联合损失:
其中LS目标增加增强嵌入的对比度,LC的目标是减少冗余并在高维空间P下促进w.r.t的不变性,
自对比差异
计算嵌入表示余弦相似度来进行自对比
特征去相关
LC为求使嵌入对增强保持不变,同时减少特征表示中的冗余。为此,嵌入下那个了h从T向上投影到高维空间P,然后执行去相关。使用pi表示投影后向量,计算相关矩阵Cjk:
其中Pij表示Pi的第j个分量,然后特征去相关损失目标定义:
其中第一项在通过最大化沿对角线的互相关来增强不变性。
第二项旨在通过最小化对角线之外的相关性来减少冗余。
实验与结果
训练设置
模型采用bert和roberta,采用【CLS】表示句子嵌入,无监督方式对10^6随机句子进行训练。
- lr 3e-5
- 1 epoch
- batch_size 192
投影曾projector有三个线性层,每层4096和Relu,BN
通过网格搜索获得超参数:
对于Bert,超参数α=0.005,λ=0.013,rA=5%,rB=15%
对于roberta,超参数α=0.003,λ=0.028,rA=6.5%,rB=24%
验证设置
验证数据集:7个STS任务,除此之外还评估了7个迁移任务,使用SentEval进行评估,评估方式与SimCSE相同。
主要结果
STS
如图所示,在bert和roberta上,仅次于SimCSE
迁移任务
在MR (Pang and Lee, 2005), CR (Hu and Liu, 2004), SUBJ (Pang and Lee, 2004), MPQA (Wiebe et al., 2005), SST -2(Socher 等人,2013 年)、TREC(Voorhees 和 Tice,2000 年)和 MRPC(Dolan 和 Brockett,2005 年)进行评估。
使用冻结句子嵌入,来训练逻辑回归分类器
上图实验结果显示优于SimCSE的句子向量表示
分析
消融实验
只有这两项Loss的平衡才能产生最优解。更改会产生不利影响,因为它们会阻止实现这种平衡,从而导致性能显着下降。见标签。
均匀性与对齐性分析
为了保证SCD向量表示的强大,需要保证语义相关的正对之间的对齐和整个表示空间的一致性来衡量学习嵌入质量。如图显示SCD在一致性方面取得最好成绩,达到了有监督的水准,而在对齐方面SCD不足的原因是主要关注特征去相关,学习到高效表示。
总结
本文的方法SCD,主要使用高低dropout rate来构造样本对,同时使用样本对表示的相关矩阵,来达到增强向量表示一致性的目的。在STS和迁移实验上表现良好。