【导读】Justin Johnson，斯坦福大学博士，导师是计算机视觉领域顶级学者李飞飞博士。研究兴趣包括计算机视觉和机器学习方面，涉及到视觉推理、视觉和语言，以及使用深层神经网络生成图像。Johnson目前是Facebook AI Research的研究科学家。从2019年秋季开始，我将加入密歇根大学计算机科学与工程专业，担任助理教授。Johnson在2018年夏天完成博士学位，其博士论文组成式视觉智能《Compositional visual intelligence》，195页详述采用组合式学习的方法对计算机视觉中图像描述、视觉问答、文本图像生成三方面的问题进行了研究，是组合式视觉智能的代表性研究工作。

https://cs.stanford.edu/people/jcjohns/

博士论文《Compositional visual intelligence》

论文题目：

Compositional visual intelligence

作者：

Johnson Justin

贡献者：

Li, Fei Fei, 1976- degree supervisor.
Goodman, Noah, degree committee member.
Ré, Christopher, degree committee member.
Stanford University. Computer Science Departmen

论文摘要：

计算机视觉领域在过去几年取得了巨大的进步，这主要归功于卷积神经网络。尽管在传统的计算机视觉任务上取得了成功，但我们的机器系统离人类的一般视觉智能还有很长的路要走。视觉智能的一个重要方面是组合——对整体的理解源于对部分的理解。为了实现组成视觉智能的目标，我们必须探索新的计算机视觉任务，创建新的数据集，开发利用组成性的新模型。在这篇论文中，我将讨论我的工作在三个不同的计算机视觉任务涉及语言，其中包含的合规性帮助我们建立具有更丰富的视觉智能的系统。我将首先讨论图像标题描述:传统系统生成描述图像的简短句子，但是通过将图像分解为区域和描述分解为短语，我们可以生成两种更丰富的描述:密集的标题和段落。其次，我将讨论视觉问答:现有的数据集主要由简短的问题组成;为了研究更复杂的需要复合位置推理的问题，我们引入了一个新的benchark数据集。在此基础上，提出了一种可视化问题交互的显式组成模型，该模型将问题转换为功能程序，并通过组合神经模块来执行这些程序。第三，我将讨论文本到图像生成:现有的系统可以根据文本描述检索或生成单个对象的简单图像，但难以处理更复杂的描述。用对象和关系的构成场景图代替自由形式的自然语言，可以检索和生成包含多个对象的复杂图像。

论文结构：

Abstract

Acknowledgments

1 Introduction 概述