Deep Fragment Embeddings for Bidirectional Image Sentence Mapping

最主要的贡献：为一个深度神经网络制定了一个结构化的最大限度的目标，能学习将视觉和语言数据嵌入到一个公共的、多模态的空间。

介绍了一种模型，通过视觉和自然语言数据的多模态嵌入，进行图像和句子的双向检索。
与之前工作的比较：以前的模型直接将图像或句子映射到一个公共的嵌入空间中，对参数进行训练，使真值图像句子对儿的内积（解释为分值）比假图像句子对儿高；本文模型将图像（对象）片段和句子（类型依赖树）片段嵌入到一个公共的空间中，并将图像句子分值作为它们的片段分值的固定任务【好像理解的有点问题？】。
添加了一个新的片段对齐函数，学习再不同模态间直接关联这些片段。

为了成功检索一张对应的图像，我们必须精确地识别句子中提到的所有实体、属性和关系，并把它们适当地对应到复杂的视觉场景中。

本文的任务就是给定一个语句查询检索相关图像，给定一个图像查询或找到相关语句。在给定这组对应关系的情况下，我们训练网络的权值，在网络中输入相配的图像——语句对儿时输出高分值，否则输出低分值。

★ 依赖树关系作为句子片段：

主要是想提取并表示句子中描述的一组视觉上可识别的实体。举个例子：

想要识别实体（dog, child）并描述它们的属性（black, young）以及它们的联系（chasing）。

句子依赖树提供了一组丰富的类型化关系，比单个单词或双词更有效，所以本文放弃了树结构，转而使用一个更简单的模型，并将每个关系（edge）解释为一个单独的句子片段。具体计算看论文。

★ 对象检测作为图像片段：

跟句子的差不多。作为建模假设，本文观察到，大多数句子描述的主题都是对象的属性及其在场景中的上下文信息。自然而然，也就会想到使用对象和全局上下文信息作为图像片段。

文中模型将图像片段和句子片段之间的内积解释为相似性分值。任何图像句子对儿的相似性分值将被依次计算为他们成对片段分值的固定任务【怪怪的。。。】。直观地说，多个匹配片段会产生很高的图像句子对儿分值。

★ 片段对齐任务：

如果句子中包含一个片段，在对应的图像中至少有一个box有高分值，而其他所有提到"blue ball"的图像的所有box应该有低分值。但这种假设有三个缺点：

但文中说上面这些问题不大。