可转换判别网络(TDN)论文阅读笔记

题目:Face Hallucination with Tiny Unaligned Images byTransformative Discriminative Neural Networks

中文:变形性判别神经网络对微小未对准图像进行幻觉在这里插入图片描述

  • 这篇文章和上一篇URDGN是一个作者写的。

摘要:

用于处理未对齐的分辨率很低的图像

  • 传统的面部幻觉方法在很大程度上依赖于低分辨率(LR)面部的精确对齐,然后再将其向上采样【缺点】对齐错误通常会导致结果不足,并且会因较大的放大系数而导致出现不自然的伪影。然而,由于姿势范围的变化和面部表情的不同,特别是在LR输入图像对齐时,很难对齐LR输入图像。为了克服这一挑战,我们在此提出了一种端到端的变换性判别神经网络(TDN),该网络设计用于超分辨率为8的超分辨率未对准且非常小的人脸图像。我们的方法采用了一个上采样网络,其中嵌入了空间转换层,以允许局部接收场与相似的空间支持对齐。此外,我们通过连续的判别网络将特定类别的损失纳入目标,以提高语义信息的对齐和上采样性能。在大型人脸数据集上进行的广泛实验表明,所提出的方法明显优于现有技术。

背景:传统的面部幻觉方法在很大程度上依赖于低分辨率(LR)面部的精确对齐,然后再将其向上采样。对齐错误通常会导致结果不足,并且会因较大的放大系数而导致出现不自然的伪影。
对象:未对准且非常小的人脸图像
方法:一种端到端的**变换性判别神经网络(TDN),采用了一个上采样网络,其中嵌入了空间转换层,以允许局部接收场与相似的空间支持对齐。此外,我们通过连续的判别网络将特定类别的损失纳入目标,以提高语义信息的对齐和上采样性能。

在这里插入图片描述

图 1:我们的TDN由两部分组成:上采样网络(红框)和判别网络(蓝框)
在这里插入图片描述
图2:不同配置的TDN图示。 (a)未对齐的16×16LR图像。 (b)原始128×128HR图像。(c)双三次插值。 (d)SRCNN的结果(Dong,Loy和He 2016)经过面部补丁再训练。 (e)没有区分网络的TDN结果。 (f)TDN的结果,其中STN直接应用于LR图像。 (g)我们的完整TDN。
在这里插入图片描述
图3:与最新方法进行比较。 (a)LR输入。 (b)原始的HR图像。 (c)双三次插值。 (d)Yang等人的方法(2010年)。 (e)Dong,Loy和He的方法(2016)(SRCNN)。 (f)Liu,Shum和Freeman的方法(2007)。(g)Yang,Liu和Yang的方法(2013)。 (h)马,张和齐的方法(2010)。 (i)我们的方法。

引言

  • 基于整体外观的方法要求输入人脸是对齐的
  • 面部图像为视觉感知和身份分析提供重要信息。但是,当人脸图像的分辨率很小时(例如在典型的监视视频中),几乎无法从中推断出信息。非常低分辨率(LR)的人脸图像不仅会降低识别系统的性能,而且还会妨碍人为解释。这项挑战促使人们从给定的LR对应物重建高分辨率(HR)图像(称为幻觉),并且近年来引起了越来越多的兴趣。【超分辨服务于人脸识别】
  • 以前基于整体外观模型提出的幻觉方法(Liu,Shum,and Zhang 2001; Baker and Kanade 2002; Wang and Tang 2005; Liu,Shum,and Freeman 2007; Hennings-Yeomans,Baker and Ku-mar 2008; Ma, Zhang和Qi,2010年; Yang等,2010年; Li等,2014年; Arandjelovi’c,2014年; Kolouri和Rohde,2015年),要求LR脸必须事先精确对齐。但是,将LR面孔与外观模型对齐并不是一件容易的事,通常,当输入图像较小时,它需要专家反馈。 LR脸部图像中自然存在的姿势和表情变化阻碍了对齐的精确度。
  • 通常假定面部标志可见且可检测。结果,幻觉的性能严重降低。如此广泛的姿势和表情变化也使学习综合的外观模型变得更加困难。例如,基于主成分分析(PCA)的方案在学习可靠的人脸模型,同时旨在捕获不同的面内和面外旋转,比例变化,平移和面部表情时,变得极为无效。结果,当LR面部未对齐或从基本外观模型描绘出不同的姿势和面部表情时,这些方法会导致不可避免的伪影【以前的方法。不同姿势和面部表情会导致伪影】
  • 与其学习整体外观模型,不如通过从HR训练数据集中传输参考值,然后将其混合到HR版本中来对面部成分进行升采样(Tappen和Liu 2012; Yang,Liu和Yang 2013; Zhou和Fan 2015)。这些方法期望输入面部的分辨率足以检测面部标志和部位。当分辨率非常低时,它们将无法准确定位组件,从而产生不真实的面孔换句话说,基于面部成分的方法不适合对LR脸部进行上采样。
  • 本文中,我们提出了一种新的变换判别神经网络(TDN),以克服上述问题并实现超分辨(即16× 16个像素)和未对齐的人脸图像(缩放比例高达8),在此我们为输入LR图像的每个单个像素重建64个像素。
  • 我们的网络由两个部分组成:一个包含反卷积和空间转换网络(Jaderberg等人,2015年)的上采样网络以及一个判别网络上采样网络旨在逐步提高每个反卷积层上潜在特征图的分辨率。我们不假定LR面预先对齐。取而代之的是,我们通过嵌入上采样网络的空间转换网络层补偿任何未对准和变化。在训练阶段,可以将估计的HRface图像和真实的HRface图像之间的像素方向的强度相似度用作目标函数,但是,当放大系数变大时,仅采用像素方向的强度相似度会导致过于平滑。因此,我们结合了由辨别网络提供的类相似性信息,以强制将经过上采样的HR人脸与真实人脸图像相似。我们将辨别误差反向传播到上采样网络。我们的端到端解决方案允许以稳健的空间转换方式融合像素级和类级信息,并获得具有更丰富细节的超分辨输出。
  • 总的来说,我们的主要贡献包括四个方面:
    • •我们提出了一种新颖的端到端变换判别网络(TDN),以超分辨率8倍放大超高分辨率(16×16像素)的人脸图像。
    • •对于基于界标方法固有失败的微小输入图像,我们的方法是无需预先精确对准即可对未对准的LR面部图像进行幻觉的第一种解决方案,这使我们的方法具有实用性。
    • •融合像素方向的外观相似性和按类别的区分性信息使超分辨率过程可以充分利用特定于类别的提示来进行对齐和细节增强任务。
    • •我们的方法在现有技术上可实现近4 dB的PSNR提升。

结论

  • 我们提出了一种变换式判别网络,以超分辨未对齐的超低分辨率人脸图像端到端的方式。我们的网络学习如何使用特定于类别的信息来对齐人脸以及如何对人脸进行升采样。它在展现丰富而真实的面部细节的同时,具有显着的8倍升采样系数。由于我们的方法不需要面部姿势和面部表情的任何反馈,因此非常实用。

猜你喜欢

转载自blog.csdn.net/mzj15101229871/article/details/113261363