VLP(Vision-Language Pre-training)的发展和评估(1)

企业开发 2023-09-16 22:31:08 阅读次数: 0

目录

VLP发展的三个阶段

第一阶段：小规模特定任务方法设计 (2014/11-2019/8)

第二阶段：中等规模预训练 (2019/8-2021/8)

第三阶段：大规模预训练 (2021/8-现在)

什么是好的VLP模型？

VLP发展的三个阶段

第一阶段：小规模特定任务方法设计 (2014/11-2019/8)

已经为图像字幕和VQA开发了许多特定任务的方法。例如，重要的工作线是基于预先提取的视觉特征来设计各种注意力机制，例如ResNet、Faster RCNN。预先训练的词嵌入，例如GLoVe、word2vec和LSTM。这些注意力方法的设计已被用来捕捉多模态对齐，执行对象关系推理，并模拟多步推理。

第二阶段：中等规模预训练 (2019/8-2021/8)

受BERT的巨大成功的启发。在NLP中，VL领域已经逐渐转向使用基于Transformer的多模态融合模型，这些模型在中等规模的设置中进行了预训练，例如，使用多达4M图像的图像-文本数据集（总共大约10M图像-文本对），模型大小从110 M（BERT-基础）到340 M（BERT-大）。中等规模VLP模型的典型实例包括UNITER和OSCAR

第三阶段：大规模预训练 (2021/8-现在)

随着CLIP的出现和ALIGN提出了一种基于噪声的图像-文本双编码器训练方法，大规模VLP显示出巨大的应用前景，并成为VLP研究的基础。例如，SimVLM，Florence，Flamingo，CoCa，GIT。VLP的高计算成本可以通过使预训练模型适应广泛的下游任务来分摊。用于预训练的image-text对的数量已经增加到超过12B，模型大小增长到5 B，如在GIT中。

什么是好的VLP模型？

1. 在广泛的下游任务上实现良好的性能。

2.以最小的成本适应新任务。

参考：Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

猜你喜欢

转载自blog.csdn.net/qq_41458274/article/details/132856598

VLP(Vision-Language Pre-training)的发展和评估(1)

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Genera

【论文笔记】BLIP: Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and

【论文笔记】VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

《Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning》—论文笔记

论文笔记：Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Mo

论文笔记：COOKIE: Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representati

跨模态检索论文阅读：(PTP)Position-guided Text Prompt for Vision-Language Pre-training

多模态预训练模型选用指南（Vision-Language Pre-traning）

ZSSeg: A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language

【多模态】1、几种多模态 vision-language 任务和数据集介绍

VLT：Vision-Language Transformer用于引用的视觉语言转换和查询生成分割

阅读文献1：Bootstrapping ViTs: Towards Liberating Vision Transformers from Pre-training（文章翻译及自身的理解和总结）

X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

【论文笔记】GPT-1：Improving Language Understanding by Generative Pre-Training

ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》

GPT1解读：Improving Language Understanding by Generative Pre-Training

Re45：读论文 GPT-1 Improving Language Understanding by Generative Pre-Training

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

REALM: Retrieval-Augmented Language Model Pre-Training

Grounded Language-Image Pre-training论文笔记

论文笔记：UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training

跨模态检索论文阅读：Multi-Grained Vision Language Pre-Training: Aligning Texts with VisualConcepts(X-VLM)

Learning to Prompt for Vision-Language Models

Self-training Improves Pre-training for Natural Language Understanding，NAACL2021

论文阅读总结：UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)

论文笔记 --《Unified Language Model Pre-training for Natural Language Understanding a

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

【微调视觉-语言模型】Learning to Prompt for Vision-Language Models

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)