【资源】斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能(附195页PDF)

【导读】Justin Johnson,斯坦福大学博士,导师是计算机视觉领域顶级学者李飞飞博士。研究兴趣包括计算机视觉和机器学习方面,涉及到视觉推理、视觉和语言,以及使用深层神经网络生成图像。Johnson目前是Facebook AI Research的研究科学家。从2019年秋季开始,我将加入密歇根大学计算机科学与工程专业,担任助理教授。Johnson在2018年夏天完成博士学位,其博士论文组成式视觉智能《Compositional visual intelligence》,195页详述采用组合式学习的方法对计算机视觉中图像描述、视觉问答、文本图像生成三方面的问题进行了研究,是组合式视觉智能的代表性研究工作。

https://cs.stanford.edu/people/jcjohns/ 


                                                    博士论文《Compositional visual intelligence》

论文题目:

Compositional visual intelligence

作者:

Johnson Justin 

贡献者:

  • Li, Fei Fei, 1976- degree supervisor.

  • Goodman, Noah, degree committee member.

  • Ré, Christopher, degree committee member.

  • Stanford University. Computer Science Departmen

论文摘要:

  • 计算机视觉领域在过去几年取得了巨大的进步,这主要归功于卷积神经网络。尽管在传统的计算机视觉任务上取得了成功,但我们的机器系统离人类的一般视觉智能还有很长的路要走。视觉智能的一个重要方面是组合——对整体的理解源于对部分的理解。为了实现组成视觉智能的目标,我们必须探索新的计算机视觉任务,创建新的数据集,开发利用组成性的新模型。在这篇论文中,我将讨论我的工作在三个不同的计算机视觉任务涉及语言,其中包含的合规性帮助我们建立具有更丰富的视觉智能的系统。我将首先讨论图像标题描述:传统系统生成描述图像的简短句子,但是通过将图像分解为区域和描述分解为短语,我们可以生成两种更丰富的描述:密集的标题和段落。其次,我将讨论视觉问答:现有的数据集主要由简短的问题组成;为了研究更复杂的需要复合位置推理的问题,我们引入了一个新的benchark数据集。在此基础上,提出了一种可视化问题交互的显式组成模型,该模型将问题转换为功能程序,并通过组合神经模块来执行这些程序。第三,我将讨论文本到图像生成:现有的系统可以根据文本描述检索或生成单个对象的简单图像,但难以处理更复杂的描述。用对象和关系的构成场景图代替自由形式的自然语言,可以检索和生成包含多个对象的复杂图像。

论文结构:

Abstract

Acknowledgments

1 Introduction   概述

2 Dense Captioning - 密集视觉描述

3  Descriptive Image Paragraphs 描述性图像段落

4 A Dataset for Compositional Visual Reasoning   一个组成式视觉推理数据集

5 Programs for Visual Reasoning   视觉推理程序执行

6 Image Retrieval with Scene Graphs   基于场景图的图像检索

7 Image Generation from Scene Graphs  从场景图生成图像

8 Conclusions  总结

博士论文下载:关注公众号回复【Johnson】获取。

往期回顾

● 带你详细了解机器视觉竞赛—ILSVRC竞赛

● 到底什么是“机器学习”?机器学习有哪些基本概念?(简单易懂)

● 带你自学Python系列(一):变量和简单数据类型(附思维导图)

● 带你自学Python系列(二):Python列表总结-思维导图

● 2018年度最强的30个机器学习项目!

猜你喜欢

转载自blog.csdn.net/Sophia_11/article/details/85077920