超大文本图片交织数据集开源 —— Multimodal C4

业界资讯 2023-06-05 15:13:20 阅读次数: 0

想要训练GPT-4的小伙伴们看过来！由AI2、华大、哥大等单位联合推出了由5.8亿图片、1亿文档、430亿token组成的超大文本图片交织数据集。旨在支持上下文视觉和语言模型的研究。这是训练开源大模型OpenFlamingo的训练数据集。

Multimodal C4数据集通过线性分配算法，使用CLIP特征将图片嵌入文本当中，并在常见主题如烹饪、旅游、科技等领域中提供有关的图像和文本内容。论文披露了该数据集的构建方法和数据质量检查，并说明了该数据集的使用和价值。

论文链接：https://arxiv.org/pdf/2304.06939.pdf

下载地址：https://github.com/allenai/mmc4

猜你喜欢

转载自blog.csdn.net/weixin_48827824/article/details/130240388

超大文本图片交织数据集开源 —— Multimodal C4

C4模型

Play For C4

多模态分析数据集（Multimodal Dataset）整理

Fusion-Extraction Networkfor Multimodal Sentiment Analysis（CCF C类）

Multimodal Transport

C4 Engine Wiki

C4 垃圾回收

M4C:Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA ---论文阅读笔记

SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记

C4、jQuery DOC 二

C4、其他对象

C4 JS基本语法3

[core java]C4 Objects and Classes

ACE Protocol Chapter C4

软件架构的C4模型

[C4] Convolutional Neural Networks

C4介绍

软件架构C4模型简介

MUNIT：Multimodal Unsupervised Image-to-Image Translation - 1 - 论文学习，不成对数据

Multimodal Machine Learning

MICCAI 2022 | mmFormer:Multimodal Medical Transformer for Incomplete Multimodal Learning of BTS

论文阅读：Multimodal Graph Transformer for Multimodal Question Answering

JVM 性能优化（四）： C4垃圾回收

自定义PlantUML和C4 Model样式

How to do NTG2.5 coding with SDConnect C4

How to install MB SD C4 WiFi card

《HF 设计模式》 C4 工厂模式

C4 model技术架构图--context图

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)