MS-CLIP:模式共享的对比语言-图像预训练框架

MS-CLIP: modality-shared contrastive language-image pre-training

论文地址:

ICLR 2022: https://openreview.net/forum?id=ROteIE-4A6W
在这里插入图片描述

主要工作:

现在的大规模多模态模型大都为每种模态使用单独的编码器,但是最近的研究表明,Transformer 可以支持跨多种模式的学习。受此启发,作者研究了如何构建一种模式共享的对比语言-图像预训练框架(MS-CLIP)。

更具体地说,作者在对比预训练中想研究 Transformer 模型的多少参数可以跨模式共享,并严格研究定位沿频谱共享参数比例的

猜你喜欢

转载自blog.csdn.net/weixin_44936889/article/details/120789675