ECCV 2018 | 腾讯AI Lab & 复旦大学合作提出无监督高分辨率的图像到图像转换方法SCAN...

感谢阅读腾讯 AI Lab 微信号第36篇文章,ECCV大会正在德国举办,我们每天深度解读一篇入选论文,今天是第一篇。


ECCV 2018(European Conference on Computer Vision,计算机视觉欧洲大会)与CVPR、ICCV共称为计算机视觉领域三大顶级学术会议,从今天到14日正在德国慕尼黑举办。

腾讯AI Lab 是第二次参加,入选了19篇文章,位居国内企业前列。会议期间,我们选取四篇入选论文做深度解读,主题依次为图像到图像转换方法SCAN、视频再定位、单帧RGB生成三维网络模型和跨年龄人脸识别算法。


这篇由腾讯 AI Lab 主导,与复旦大学合作完成的论文中,作者提出了一种新型堆叠循环一致性对抗网络(SCAN),它将单个转换过程分解为多阶段转换,因此同时提升了图像转换质量,与图像到图像转换的分辨率。以下为论文详细解读。


论文链接:https://arxiv.org/abs/1807.08536


最近在无监督条件下图像到图像转换方法的研究取得了较为显著的进展,这一方法的主要思想是训练一对具有循环一致性损失(cycle-consistent loss)的生成对抗网络(Generative Adversarial Networks)。然而,如果图像分辨率过高,或者两个图像域具有显著的差异(例如 Cityscapes 数据集中图像语义与城市景观照片之间的转换),这种无监督方法可能会产生较差的结果。通过把单个转换分解为多阶段转换,本文提出了堆叠循环一致性对抗网络的图像转换方法(SCAN)。这一方法能够学习低分辨率图像到图像的转换,然后基于低分辨率的转换学习更高分辨率的转换,这样做提高了图像转换质量,并且使得学习高分辨率转换成为可能。此外,为了适当地利用前一阶段学习到的信息,研究者设计了自适应融合块以动态整合当前阶段与之前阶段的输出信息。在多个基准数据集中的实验表明,与以前的单阶段方法相比,本文提出的方法大大提高了图像到图像转换的质量。


从最初的pix2pix,到最近面向高分辨率的pix2pixHD,有监督的图像到图像转换研究已经取得了很大进展。另一方面,以CycleGAN、DiscoGAN、ContrastGAN为代表的方法,重点研究了无监督的图像到图像的转换。然而当图像分辨率高或者两个图像域具有显著差异时,这些无监督的方法仍然无法取得十分令人满意的结果。受近期多阶段改善网络的启发,本文提出了堆叠循环一致性对抗网络(SCAN),如图1所示。给定两个图像域的数据(没有一一对应的匹配),SCAN通过从粗糙到精细的方式渐进式地学习了高分辨率的图像到图像的转换。由于没有一一对应的匹配图像对,整个学习过程是非监督的。在SCAN中,一个复杂的图像到图像转换问题被分解为多个更简单的转换阶段。最开始低分辨率的阶段学习了大致的图像低频信息转换过程,后续高分辨率的阶段学习了如何逐步添加图像高频细节。

640?wx_fmt=png

图1  堆叠循环一致性对抗网络(SCAN)示意图


SCAN具体的网络设计如图2所示。这里展示两阶段的网络设计。可以迭代式地对最后一阶段进行分解,得到由更多阶段组成的转换网络。对于任意的图像集合,两个变换与完成两个集合之间的图像转换。通过多阶段图像转化模型把变换分解为,使得图像转化可以分两个阶段学习。每个阶段都由相同的编码器-解码器结构组成。对于第一阶段输出,我们限制其图像大小为原图的一半,第二阶段输出图像大小与原图大小一致。对于,两个阶段的输出分别为,类似地对于,两个阶段的输出分别为。两个阶段的输出由自适应融合层根据不同输入动态结合以产生最后转化结果。具体方法为:对于不同输入计算两个阶段输出的融合权重,最后转化结果为两个阶段输出基于融合权重的线性结合。两个阶段的学习都应用图像转化的非监督学习(3.2.3节)使得学习过程不依赖任何图像标签对。具体来说,我们同时学习两个方向图像转化,并应用循环一致性约束,限制 以及,同时结合对抗学习的方式从无标签数据中学习。

640?wx_fmt=png

图2  SCAN的网络设计(以两阶段网络为例)


在标签图和真实图像互相转换的任务上,我们与CycleGAN、ContrastGAN、pix2pix等方法进行了对比。同时也对比了本文方法的一些组件和变种。表1展示了不同方法的数值结果。对于标签图转照片(Labels to Photo)任务,我们采用了FCN scores来进行比较。对于照片转标签图(Photo to Labels )任务,我们采用了Segmentation scores来比较。可以看到,本文方法的结果远超CycleGAN和ContrastGAN这两种无监督的方法,大大缩小了与有监督的方法pix2pix之间的差距。

640?wx_fmt=png

表1  不同方法数值结果的比较


图3展示了在512x512分辨率下,标签图转换成照片的直观结果。可以看到,与CycleGAN相比,本文提出的SCAN能够生成更具真实感的照片。

640?wx_fmt=png

图3  标签图转照片的直观结果比较


此外,利用SCAN还可以更好地完成涉及物体形状改变的图像到图像转换,如真人头像到动漫头像的转换。图4展示了真人头像转动漫头像的直观结果,可以看到眼睛和嘴巴的大小和形状都发生了改变,不再是简单的逐像素变换。

640?wx_fmt=png

图4 真人头像转动漫头像的结果


640?wx_fmt=jpeg

猜你喜欢

转载自blog.csdn.net/y80gDg1/article/details/82598536