关于Conditional Normalization的文章总结

ICLR 2017

论文标题

Modulating early visual processing by language

研究问题

VQA

前提假设
  • More and more evidence accumulates that words set visual priors which alter how visual information is processed from the very beginning
  • it is observed that P1 signals, which are related to low-level visual features, are modulated while hearing
    specific words
创新点

率先将CBN引入到VQA的问题当中,通过MLP对输入的question进行embedding,然后再基于得到的embedding来调控ResNet每个BN层的参数,进而使得模型能在训练前期实现对图像信息的调控

ECCV 2016

论文标题

Perceptual Losses for Real-Time Style Transfer and Super-Resolution

研究问题

Style transfer

前提假设 high-quality images can be generated by defining and optimizing perceptual loss functions based on high-level features extracted from pre-trained networks.
创新点 将perceptual loss作用在预训练好的VGG网络所提取到的高层语义特征中,确保了模型能在最后生成与content image语义相一致的图片
解决方案

整个网络结构主要由两个部分构成:

  • Image Transformation Networks (采用了类似ResNet的Encoder-Decoder结构)
  • Perceptual Loss Functions
    • Feature Reconstruction Loss(作用在relu3_3,确保网络生成的图片能与content image在high-level feature上保持一致,但是在low-level上可以存在差异)
    • Style Reconstruction Loss.(作用在每一层)
不足之处 每次训练只能完成一种分割的迁移,不能并行完成多种图片风格的迁移

ICLR 2017 

论文标题

A Learned Representation For Artistic Style

研究问题 Style transfer
前提假设
  • Two images are similar in content if their high-level features as extracted by a trained
    classifier are close in Euclidian distance.
  • Two images are similar in style if their low-level features as extracted by a trained classifier
    share the same statistics or, more concretely, if the difference between the features’ Gram
    matrices has a small Frobenius norm
创新点 将CIN引入到了style transfer中,通过style image对应的IN层参数来替换content image对应的IN参数
不足之处 无法进行任意风格的图像迁移

ICCV 2017 

论文标题

Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

研究问题 Style transfer
前提假设
  • the affine parameters in IN can completely change the style of the output image
  • Motivated by these observations, we argue that instance normalization performs a form of style normalization by normalizing feature statistics, namely the mean and variance
创新点 将AdaINy引入到了style transfer任务中。AdaIN层不存在需要学习的参数,每个affine parameters都从输入的style image中计算得到,从而实现了任意风格的图片转换
解决方案
  • 通过实验验证了IN能够起到风格归一化的作用
  • 每个affine parameters都从输入的style image中计算得到

AAAI 2020

论文标题

Dynamic Instance Normalization for Arbitrary Style Transfer

研究问题

Style Transfer

前提假设

文章主要基于AdaIN的两个缺点提出

  • content rncoder与style encoder的结构许保持一致
  • encoder的结构得足够复杂,以确保其能够提取出更具代表性的图像特征
创新点 设计了一个动态的卷积算子来自适应地学习IN层的参数
解决方案
  • content image对应的encoder由Depthwise Separable Convolutional layer构成,属于一个轻量级的特征提取网络
  • DIN的输入为一张style image,其输出为convolution operator的weight与bias,然后基于学得的weight与bias对IN层输出的feature map进行调整

NurIPS 2019

论文标题

Positional Normalization

研究问题

Style Transfer

前提假设 基于feature map的每个位置来进行通道归一化。采用这种方式所得到的一阶统计量和二阶统计量在一定程度上能够捕获图片的空间结构信息
创新点
  • PONO: processes each position independently, and compute both statistics across the channels
  • Moment Shortcut: 将encoder中每个PONO输出的参数通过shortcut的方式传到decoder中,以使得decoder上采样得到的deature map能更好地保留原始图片的空间结构信息
  • Dynamic Moment Shortcut: 和MS不同的一点在于,decoder反卷积层的PONO参数是通过一个额外的网络(值得注意的是,该网络以相应的encoder层输出的mean和standard deviation作为输入)学习得到的

CVPR 2019

论文标题

Semantic Image Synthesis with Spatially-Adaptive Normalization

研究问题

Semantic Image Synthesis

前提假设 在语义图像合成的任务中,采用instance normalization会丢失掉segmentaion mask的语义信息,而空间自适应归一化的方法则能够很好地保留segmentation mask的语义信息
创新点 提出了空间自适应归一化方法,能够在Image Synthesis task中很好地保留输入图像的语义信息

ICLR 2018

论文标题

cGANs with Projection Discriminator

研究问题

GAN

前提假设  
创新点  
解决方案  
不足之处  
发布了98 篇原创文章 · 获赞 5 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/chengsilin666/article/details/104236693