VLP(Vision-Language Pre-training)的发展和评估(1)

目录

VLP发展的三个阶段

第一阶段:小规模特定任务方法设计 (2014/11-2019/8)

第二阶段:中等规模预训练 (2019/8-2021/8)

第三阶段:大规模预训练 (2021/8-现在)

什么是好的VLP模型?


VLP发展的三个阶段

第一阶段:小规模特定任务方法设计 (2014/11-2019/8)

        已经为图像字幕和VQA开发了许多特定任务的方法。例如,重要的工作线是基于预先提取的视觉特征来设计各种注意力机制,例如ResNet、Faster RCNN。预先训练的词嵌入,例如GLoVe、word2vec和LSTM。这些注意力方法的设计已被用来捕捉多模态对齐,执行对象关系推理,并模拟多步推理。

第二阶段:中等规模预训练 (2019/8-2021/8)

         受BERT的巨大成功的启发。在NLP中,VL领域已经逐渐转向使用基于Transformer的多模态融合模型,这些模型在中等规模的设置中进行了预训练,例如,使用多达4M图像的图像-文本数据集(总共大约10M图像-文本对),模型大小从110 M(BERT-基础)到340 M(BERT-大)。中等规模VLP模型的典型实例包括UNITER和OSCAR

第三阶段:大规模预训练 (2021/8-现在)

        随着CLIP的出现和ALIGN提出了一种基于噪声的图像-文本双编码器训练方法,大规模VLP显示出巨大的应用前景,并成为VLP研究的基础。例如,SimVLM,Florence,Flamingo,CoCa,GIT。VLP的高计算成本可以通过使预训练模型适应广泛的下游任务来分摊。用于预训练的image-text对的数量已经增加到超过12B,模型大小增长到5 B,如在GIT中。

什么是好的VLP模型?

1. 在广泛的下游任务上实现良好的性能。

2.以最小的成本适应新任务。

 参考:Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

猜你喜欢

转载自blog.csdn.net/qq_41458274/article/details/132856598