文章目录

一、多模态的定义
二、多模态的任务
三、多模态融合的方式
- 3.1 点乘或者直接追加
- 3.2 Transformer

一、多模态的定义

多模态指的是多种模态的信息，包括：文本、图像、视频、音频等。

顾名思义，多模态研究的就是这些不同类型的数据的融合的问题。

目前大多数工作中，只处理图像和文本形式的数据，即把视频数据转为图像，把音频数据转为文本格式。这就涉及到图像和文本领域的内容。

二、多模态的任务

多模态研究的是视觉语言问题，其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。

例如给定一张图片，可以完成以下任务：

2.1 VQA（Visual Question Answering）视觉问答

输入：一张图片、一个自然语言描述的问题
输出：答案（单词或者短语）

2.2 Image Caption 图像字幕

输入：一张图片
输出：图片的自然语言描述（一个句子）

2.3 Referring Expression Comprehension 指代表达

输入：一张图片、一个自然语言描述的句子
输出：判断句子描述的内容（正确或错误）

2.4 Visual Dialogue 视觉对话

输入：一张图片
输出：两个角色进行多次交互、对话

2.5 VCR (Visual Commonsense Reasoning) 视觉常识推理

输入：1个问题，4个备选答案，4个理由
输出：正确答案，和理由

2.6 NLVR(Natural Language for Visual Reasoning)自然语言视觉推理

输入：2张图片，一个分布
输出：true或false

2.7 Visual Entailment 视觉蕴含

输入：图像、文本
输出：3种label的概率。（entailment、neutral、contradiction）蕴含、中性、矛盾

2.8 Image-Text Retrieval 图文检索

有3种方式。

1）以图搜文。输入图片，输出文本

2）以文搜图。输入文本，输出图片

3）以图搜图，输入图片，输出图片

三、多模态融合的方式

通过NLP的预训练模型，可以得到文本的嵌入表示；再结合图像和视觉领域的预训练模型，可以得到图像的嵌入表示；那么，如何将两者融合起来，来完成以上的各种任务呢？

常用的多模态交叉的方式有两种：

3.1 点乘或者直接追加

此种方式将文本和图像分别进行Embedding，之后将各自的向量进行追加或者点乘。

好处是简单方便，计算成本也比较低。

在这里插入图片描述

3.2 Transformer

其好处是利用了Transformer架构，能够更好地进行图像特征和文本特征的表示。

缺点是占用空间大，计算成本较高。