【微调视觉-语言模型】Learning to Prompt for Vision-Language Models
代码地址:
https://github.com/KaiyangZhou/CoOp
论文简介:
像CLIP这样的大型预训练视觉-语言模型在学习表征方面显示出了巨大的潜力,并且可以将学习到的表征用于下游视觉任务。
在这项工作中,作者表明,在实践中部署这样的模型的一个主要挑战是需要领域的专业知识和非常耗时,因为措辞的轻微变化也可能会对
https://github.com/KaiyangZhou/CoOp
像CLIP这样的大型预训练视觉-语言模型在学习表征方面显示出了巨大的潜力,并且可以将学习到的表征用于下游视觉任务。
在这项工作中,作者表明,在实践中部署这样的模型的一个主要挑战是需要领域的专业知识和非常耗时,因为措辞的轻微变化也可能会对