Gatys [16] 等人最近推出了一种神经算法，可以将图像内容呈现为另一幅图像的风格，从而实现所谓的风格迁移。然而，他们的框架需要一个缓慢的迭代优化过程，这限制了它的实际应用。已经提出了使用前馈神经网络（feed-forward neural networks）的快速近似来加速神经风格迁移。不幸的是，速度的提高是有代价的：网络通常绑定到一组固定的样式，不能适应任意的新样式。在本文中，我们提出了一种简单而有效的方法，该方法首次实现了实时的任意样式迁移。我们方法的核心是一个新颖的自适应实例归一化 (AdaIN) 层，它将内容特征的均值和方差与风格特征的均值和方差对齐。我们的方法实现了与最快的现有方法相当的速度，并且不受预定义样式集的限制。此外，我们的方法允许灵活的用户控制，例如，内容 / 风格权衡、风格插值、颜色和空间控制，所有这些都使用单个前馈神经网络。

1. 简介

在这项工作中，我们提出了第一个解决这种基本的灵活性 / 速度困境的神经风格迁移算法。我们的方法可以实时迁移任意新样式，结合基于优化的框架 [16] 的灵活性和类似于最快的前馈方法的速度。我们的方法受到实例归一化 (Instance Normalization，IN) 层的启发，它在前馈风格迁移中出奇地有效。为了解释实例归一化的成功，我们提出了一种新的解释，即实例归一化通过归一化特征统计来执行样式归一化，这些特征统计已被发现携带图像的风格信息。受我们解释的启发，我们引入了 IN 的简单扩展，即自适应实例归一化 (Adaptive Instance Normalization，AdaIN)。给定内容和风格，AdaIN 只需调整内容图像的均值和方差以匹配风格图像的均值和方差。通过实验，我们发现 AdaIN 通过传递特征统计有效地结合了前者的内容和后者的风格。然后学习解码器网络，通过将 AdaIN 输出反转回图像空间来生成最终的图像。我们的方法比 [16] 快将近三个数量级，而且不会牺牲将输入迁移任意新样式的灵活性。此外，我们的方法在运行时提供了丰富的用户控制，无需对训练过程进行任何修改。

2. 相关工作

风格迁移。风格迁移问题起源于非真实感渲染，与纹理合成和迁移密切相关。一些早期的方法包括线性滤波器响应的直方图匹配和非参数采样。这些方法通常依赖于低级统计数据，并且常常无法捕获语义结构。Gatys [16] 等人首次通过在 DNN 的卷积层中匹配特征统计，展示了令人印象深刻的风格转移结果。最近，已经提出了对 [16] 的几项改进。

Li 和 Wand 在深度特征空间中引入了一个基于马尔可夫随机场 (MRF) 的框架来强制执行局部模式。
Gatys 等人提出了控制颜色保存、空间位置和风格转移规模的方法。
Ruder 等人通过施加时间约束提高了视频风格迁移的质量。

Gatys [16] 等人的框架基于一个缓慢的优化过程，该过程迭代更新图像以最小化由损失网络计算的内容损失和风格损失。即使使用现代 GPU，也可能需要几分钟才能收敛。因此，移动应用程序中的设备上处理速度太慢而不实用。

一个常见的解决方法是用经过训练以最小化相同目标的前馈神经网络代替优化过程。这些前馈式迁移方法比基于优化的替代方法快大约三个数量级，为实时应用程序打开了大门。
Wang 等人通过多分辨率架构增强了前馈式迁移的粒度。
Ulyanov 等人提出了提高生成样本质量和多样性的方法。
然而，上述前馈方法在每个网络都绑定到固定样式。
为了解决这个问题，Dumoulin 等人引入了一个能够编码 32 种样式及其插值的网络。
在我们工作的同时，Li 等人提出了一种前馈架构，可以合成多达 300 个纹理并迁移 16 种样式。
尽管如此，上述两种方法仍无法适应训练期间未观察到的任意风格。

最近，Chen 和 Schmidt 引入了一种前馈方法，该方法可以通过样式交换层迁移任意样式。给定内容和风格图像的特征激活，风格交换层以逐 patch 的方式用最匹配的风格特征替换内容特征。然而，他们的风格交换层产生了一个新的计算瓶颈：超过 95% 的计算花费在 512 × 512 输入图像的风格交换上。我们的方法还允许任意样式转换，同时比 Chen 和 Schmidt 快 1-2 个数量级。

风格迁移的另一个核心问题是使用哪种风格损失函数。 Gatys 等人的原始框架 [16] 通过匹配特征激活之间的二阶统计来匹配样式，由 Gram 矩阵捕获。已经提出了其他有效的损失函数，例如 MRF 损失、对抗性损失、直方图损失、CORAL 损失、MMD 损失以及通道均值和方差之间的距离。请注意，上述所有损失函数旨在匹配样式图像和合成图像之间的某些特征统计。

深度生成图像建模。图像生成有几种替代框架，包括变分自动编码器、自回归模型和生成对抗网络 (GAN)。值得注意的是，GAN 已经实现了最令人印象深刻的视觉质量。已经提出了对 GAN 框架的各种改进，例如条件生成、多阶段处理和更好的训练目标。 GAN 也已应用于风格迁移和跨域图像生成。

3. 背景

3.1 批量归一化（Batch Normalization，BN）

Ioffe 和 Szegedy 的开创性工作引入了批归一化 (batch normalization，BN) 层，通过归一化特征统计显着简化了前馈网络的训练。 BN 层最初设计用于加速判别网络的训练，但也被发现在生成图像建模中有效。给定输入 batch x ∈ R^(N×C×H×W)，BN 归一化每个单独特征通道的均值和标准差：

其中 γ, β ∈ R^C 是从数据中学习的仿射参数； μ(x), σ(x) ∈ R^C 是均值和标准差，针对每个特征通道独立计算 batch 大小和空间维度：

BN 在训练时使用 mini-batch 统计数据，在推理时用群体的统计数据替换它们，从而引入训练和推理之间的差异。

最近提出了批量重新归一化（batch renormalization），通过在训练期间逐渐使用群体的统计数据来解决这个问题。
作为 BN 的另一个有趣应用，Li 等人发现 BN 可以通过重新计算目标域中的群体统计数据来减轻域偏移。
最近，已经提出了几种替代归一化方案，以将 BN 的有效性扩展到循环架构。

3.2 实例归一化（Instance Normalization，IN）

在原始的前馈风格化方法中，风格迁移网络在每个卷积层之后包含一个 BN 层。令人惊讶的是，Ulyanov 等人发现只需将 BN 层替换为 IN 层即可实现显着改进：

与 BN 层不同，这里的 μ(x) 和 σ(x) 是针对每个通道和每个样本在空间维度上独立计算的：

另一个区别是 IN 层在测试时不变，而 BN 层通常用群体统计信息代替小批量统计信息。

3.3 条件实例归一化（Conditional Instance Normalization，CIN）

Dumoulin 等人没有学习一组仿射参数 γ 和 β，而是提出了一个条件实例归一化 (CIN) 层，它为每个样式 s 学习一组不同的参数 γ^s 和 β^s：

在训练期间，风格图像及其索引 s 是从一组固定风格 s ∈{1, 2, ..., S}（在他们的实验中 S = 32）中随机选择的。然后，内容由风格迁移网络处理，其中相应的 γ^s 和 β^s 用于 CIN 层。令人惊讶的是，网络可以通过在 IN 层中使用相同的卷积参数但不同的仿射参数来生成完全不同风格的图像。

与没有归一化层的网络相比，具有 CIN 层的网络需要 2FS 的额外参数，其中 F 是网络中特征图的总数。由于附加参数的数量与样式数量呈线性关系，因此扩展他们的方法以对大量样式（例如数万个）进行建模具有挑战性。此外，如果不重新训练网络，他们的方法就无法适应任意的新样式。

4. 解释实例归一化

尽管（条件）实例归一化取得了巨大成功，但它们在风格迁移方面特别有效的原因仍然难以捉摸。 Ulyanov 等人将 IN 的成功归因于它对图像内容对比度的不变性。然而，IN 发生在特征空间中，因此它应该比像素空间中的简单对比度归一化具有更深远的影响。也许更令人惊讶的是，IN 中的仿射参数可以完全改变输出图像的风格。

众所周知，DNN 的卷积特征统计可以捕捉图像的风格。而 Gatys [16] 等人使用二阶统计作为他们的优化目标，Li 等人最近表明，匹配许多其他统计数据，包括通道均值和方差，对于风格迁移也很有效。受这些观察的启发，我们认为实例归一化通过归一化特征统计（即均值和方差）来执行样式归一化的一种形式。尽管 DNN 在 [16] 中用作图像描述符，但我们认为生成器网络的特征统计也可以控制生成图像的风格。

我们运行改进的纹理网络的代码来执行单样式迁移，具有 IN 或 BN 层。正如预期的那样，具有 IN 的模型比 BN 模型收敛得更快（图 1（a））。为了测试改进的纹理网络中的解释，我们然后通过在亮度通道上执行直方图均衡化将所有训练图像归一化为相同的对比度。如图 1 (b) 所示，IN 仍然有效，表明改进的纹理网络中的解释不完整。为了验证我们的假设，我们使用预训练风格转移网络将所有训练图像归一化为相同风格（不同于目标风格）。根据图 1（c），当图像已经被样式归一化时，IN 带来的改进变得非常小。剩余的差距可以解释为样式归一化并不完美。此外，在样式归一化图像上训练有 BN 的模型可以像在原始图像上训练有 IN 的模型一样快速收敛。我们的结果表明 IN 确实执行了一种样式归一化。

很多样本而不是单个样本，可以直观地理解为将一批样本归一化为以单一样式为中心。然而，每个样本可能仍然具有不同的风格。当我们想要将所有图像迁移到相同的风格时，这是不可取的，就像原始前馈风格转移算法中的情况一样。尽管卷积层可能会学习补偿 batch 内样式差异，但它给训练带来了额外的挑战。另一方面，IN 可以将每个单独样本的风格归一化为目标风格。训练很方便，因为网络的其余部分可以专注于内容操作，同时丢弃原始样式信息。 CIN 成功背后的原因也变得清晰：不同的仿射参数可以将特征统计归一化为不同的值，从而将输出图像归一化为不同的风格。

5.自适应实例归一化（Adaptive Instance Normalization，AdaIN）

如果 IN 将输入归一化为由仿射（Affine）参数指定的单一样式，是否可以通过使用自适应仿射变换使其适应任意给定的样式？在这里，我们提出了对 IN 的简单扩展，我们称之为自适应实例归一化 (AdaIN)。 AdaIN 接收内容 x 和样式 y，并简单地对齐 x 和 y 的通道均值和方差。与 BN、IN 或 CIN 不同，AdaIN 没有可学习的仿射参数。相反，它会根据样式输入自适应地计算仿射参数：

其中我们简单地用 σ(y) 缩放归一化的内容，并用 μ(y) 偏移它。与 IN 类似，这些统计数据是跨空间位置计算的。

直观地，让我们考虑一个检测特定风格笔触的特征通道。具有这种笔触的风格图像将为此特征产生高平均激活。 AdaIN 的输出将对该特征具有相同的高平均激活，同时保留内容图像的空间结构。可以使用前馈解码器将笔触特征反转到图像空间。这个特征通道的方差可以编码更细微的风格信息，这些信息也被传递到 AdaIN 输出和最终输出图像。

简而言之，AdaIN 通过迁移特征统计信息（特别是通道均值和方差）在特征空间中执行风格迁移。我们的 AdaIN 层扮演着与 [6] 中提出的样式交换层类似的角色。虽然样式交换操作非常耗时和耗内存，但我们的 AdaIN 层与 IN 层一样简单，几乎不增加计算成本。

6. 实验设置

6.1 结构

我们的风格转移网络 T 以内容图像 c 和任意风格图像 s 作为输入，并合成输出图像，该输出图像重新组合了前者的内容和后者的风格。我们采用了一种简单的编码器-解码器架构，其中编码器 f 固定在预训练 VGG-19 的前几层（直到 relu4_1）。在特征空间中对内容和风格图像进行编码后，我们将两个特征图都提供给 AdaIN 层，该层对齐内容和风格特征图的均值和方差，从而生成目标特征图 t：

训练随机初始化的解码器 g 将 t 映射回图像空间，生成风格化图像 T(c, s)：

解码器主要是编码器的镜像，所有池化层都被最近的上采样所取代，以减少棋盘效应（checkerboard effects）。我们在 f 和 g 中都使用反射填充（reflection padding）来避免边界伪影（artifacts.）。另一个重要的架构选择是解码器是否应该使用 IN、BN 或不使用归一化。正如在第 2 节中讨论的那样，IN 将每个样本归一化为单一样式，而 BN 将一批样本归一化为以单一样式为中心。当我们希望解码器以截然不同的风格生成图像时，两者都是不可取的。因此，我们不在解码器中使用归一化层。在 7.1 节我们将展示解码器中的 IN/BN 层确实会影响性能。

6.2 训练

按照 [6] 的设置，我们使用 MS-COCO 作为内容图像和主要从 WikiArt 收集的绘画数据集作为风格图像来训练我们的网络。每个数据集包含大约 80, 000 个训练示例。我们使用 adam 优化器，1 个 batch 由 8 个内容-样式图像对组成。在训练过程中，我们首先将两个图像的最小尺寸调整为 512，同时保持纵横比，然后随机裁剪 256 × 256 大小的区域。由于我们的网络是完全卷积的，因此它可以在测试期间应用于任何尺寸的图像。

我们使用预训练的 VGG-19 计算损失函数来训练解码器：

这是内容损失 L_c 和风格损失 L_s 与风格损失权重 λ 的加权组合。内容损失是目标特征与输出图像特征之间的欧氏距离。我们使用 AdaIN 输出 t 作为内容目标，而不是内容图像的常用特征响应。我们发现这会导致稍微更快的收敛，并且也符合我们反转 AdaIN 输出 t 的目标。

由于我们的 AdaIN 层仅迁移风格特征的均值和标准差，因此我们的风格损失仅与这些统计数据相匹配。虽然我们发现常用的 Gram 矩阵损失可以产生类似的结果，但我们匹配 IN 统计数据，因为它在概念上更清晰。 Li 等人也探索了这种风格损失。

其中每个 φ_i 表示 VGG-19 中用于计算样式损失的层。在我们的实验中，我们使用具有相同权重的 relu1_1、relu2_1、relu3_1、relu4_1 层。

7. 结果

在本小节中，我们将我们的方法与三种风格迁移方法进行比较：

灵活但缓慢的基于优化的方法，Gatys [16]，
仅限于单一风格的快速前馈方法，Ulyanov [52]，
灵活的基于补丁（patch）的中速方法，Chen and M. Schmidt [6]。

如果没有另外说明，比较方法的结果是通过使用默认配置运行它们的代码获得的。对于 [6]，我们使用作者提供的预训练逆网络。所有测试图像的尺寸均为 512×512。

7.1 与其他方法的对比

定性结果。在图 4 中，我们展示了通过比较方法生成的示例样式迁移结果。

请注意，在我们的模型训练期间从未观察到所有测试样式图像，而 Ulyanov 的结果是通过将一个网络拟合到每种测试样式而获得的。
即便如此，对于许多图像（例如，第 1、2、3 行），我们的风格化图像的质量与 Ulyanov 和 Gatys 相比还是相当有竞争力的。
在其他一些情况下（例如，第 5 行），我们的方法稍微落后于 Ulyanov 和 Gatys 的质量。这并不出人意料，因为我们相信在速度、灵活性和质量之间存在三方面的权衡。
与 Chen and M. Schmidt 相比，对于大多数比较图像，我们的方法似乎更忠实地迁移了风格。
最后一个例子清楚地说明了 Chen and M. Schmidt 的一个主要限制，它试图将每个内容补丁与最匹配的样式补丁相匹配。然而，如果大多数内容补丁与少数不代表目标风格的风格补丁相匹配，风格迁移就会失败。
因此，我们认为匹配全局特征统计是一种更通用的解决方案，尽管在某些情况下（例如第 3 行）Chen and M. Schmidt 的方法也可以产生吸引人的结果。

定量评价。我们的算法是否会牺牲一些质量来换取更高的速度和灵活性，如果是的话，牺牲多少？为了定量地回答这个问题，我们将我们的方法与基于优化的方法（Gatys）和快速单一风格迁移方法（Ulyanov）在内容和风格损失方面进行了比较。因为我们的方法使用基于 IN 统计的样式损失，我们还相应地修改了（Gatys）和（Ulyanov）中的损失函数以进行公平比较（它们在图 4 中的结果仍然是使用默认的 Gram 矩阵损失获得的）。这里显示的内容丢失与（Ulyanov，Gatys）中的相同。报告的数字是从 WikiArt 数据集和 MS-COCO 的测试集中随机选择的 10 个风格图像和 50 个内容图像的平均值。

如图 3 所示，我们合成图像的平均内容和风格损失略高，但与 Ulyanov 等人的单一风格转移方法相当。特别是，我们的方法和 Ulyanov 在 50 到 100 次优化迭代之间获得了类似于 Gatys 的风格损失。这证明了我们方法的强大泛化能力，考虑到我们的网络在训练期间从未见过测试样式，而 Gatys 的每个网络都专门针对测试样式进行了训练。另外请注意，我们的风格损失比原始内容图像的损失小得多。

速度分析。我们的大部分计算都花在了内容编码、样式编码和解码上，每个大约占三分之一的时间。在视频处理等一些应用场景中，风格图像只需要编码一次，AdaIN 可以使用存储的风格统计来处理所有后续图像。在其他一些情况下（例如，将相同的内容转换为不同的样式），可以共享在内容编码上花费的计算。

在表 1 中，我们将我们的方法的速度与以前的方法进行了比较。排除样式编码的时间，我们的算法分别以 56 和 15 FPS 的速度运行 256 × 256 和 512 × 512 图像，从而可以实时处理任意用户上传的样式。在适用于任意样式的算法中，我们的方法比（Gatys）快近3个数量级，比（Chen and Schmidt）快1-2个数量级。相对于（Chen and Schmidt）的速度改进对于更高分辨率的图像尤其重要，因为（Chen and Schmidt）中的样式交换层不能很好地扩展到高分辨率样式图像。此外，我们的方法实现了与仅限于几种样式的前馈方法相当的速度（Ulyanov，Dumoulin）。我们方法稍长的处理时间主要是由于我们基于更大的 VGG 的网络，而不是方法上的限制。有了更高效的架构，我们的速度可以进一步提升。

7.2 附加实验

在本小节中，我们将进行实验来证明我们的重要架构选择是正确的。我们把在第 6 节中描述的方法表示为 Enc-AdaIN-Dec。我们试验了名为 Enc-Concat-Dec 的模型，用串联（concatenation）替换 AdaIN，这是一种自然的基线策略，用于组合来自内容和样式图像的信息。此外，我们在解码器中运行具有 BN/IN 层的模型，分别表示为 Enc-AdaIN-BNDec 和 Enc-AdaIN-INDec。其他训练设置保持不变。

在图 5 和图 6 中，我们展示了不同方法的示例和训练曲线。在 Enc-Concat-Dec 基线生成的图像中（图 5（d）），可以清楚地观察到风格图像的对象轮廓，表明网络未能从风格图像的内容中分离出风格信息 . 这也与图 6 一致，其中 Enc-Concat-Dec 可以达到低风格损失但无法减少内容损失。具有 BN/IN 层的模型也获得了质量更差的结果和一致的更高的损失。 IN 层的结果特别差。这再次验证了我们的说法，即 IN 层倾向于将输出归一化为单一样式，因此当我们想要生成不同样式的图像时应该避免。

7.3 实时控制

为了进一步突出我们方法的灵活性，我们展示了我们的风格迁移网络允许用户控制风格化程度，在不同风格之间进行插值，在保留颜色的同时迁移风格，并在不同的空间区域使用不同的风格。请注意，所有这些控制仅在运行时使用同一网络应用，无需对训练过程进行任何修改。

内容风格的权衡。风格迁移的程度可以在训练过程中通过调整等式 11 中的风格权重 λ 来控制。此外，我们的方法允许在测试时通过在提供给解码器的特征图之间进行插值来权衡内容-风格。请注意，这等效于在 AdaIN 的仿射参数之间进行插值。

当 α = 0 时，网络尝试忠实地重建内容图像，并在 α = 1 时合成最具风格化的图像。

如图 7 所示，通过改变 α（从0到1）可以观察到内容相似性和风格相似性之间的平滑过渡。

样式插值。为了在一组 K 个样式图像 s1, s2, ..., sK 之间进行插值，相应权重 w1,w2, ...,wK，使得

我们类似地在特征图之间进行插值（结果如图所示 8):

空间和颜色控制。Gatys 等人最近引入了用户对颜色信息和样式迁移空间位置的控制，可以很容易地将其纳入我们的框架。为了保留内容图像的颜色，我们首先将样式图像的颜色分布与内容图像的颜色分布进行匹配，然后使用颜色对齐的样式图像作为样式输入执行正常的样式转换 . 示例结果如图 9 所示。

在图 10 中，我们证明了我们的方法可以将内容图像的不同区域转换为不同的样式。这是通过使用来自不同样式输入的统计信息分别对内容特征图中的不同区域执行 AdaIN 来实现的，类似于，但采用完全前馈的方式。虽然我们的解码器仅针对具有同质风格的输入进行训练，但它自然地泛化到不同区域具有不同风格的输入。

8. 讨论与结论

在本文中，我们提出了一个简单的自适应实例归一化 (AdaIN) 层，它首次实现了实时的任意样式迁移。除了引人入胜的应用之外，我们相信这项工作还阐明了我们对一般深度图像 representations 的理解。

考虑我们的方法和以前基于特征统计的神经风格迁移方法之间的概念差异是很有趣的。Gatys 等人采用优化过程来操纵像素值以匹配特征统计。在一些论文中，优化过程被前馈神经网络取代。尽管如此，该网络仍经过训练以修改像素值，从而间接匹配特征统计信息。我们采用了一种非常不同的方法，直接一次性对齐特征空间中的统计数据，然后将特征反转回像素空间。

鉴于我们方法的简单性，我们认为仍有很大的改进空间。在未来的工作中，我们计划探索更高级的网络架构，例如残差（residual）架构或带有来自编码器的额外跳过连接的架构。我们还计划研究更复杂的训练方案，如增量训练。此外，我们的 AdaIN 层仅对齐最基本的特征统计（均值和方差）。用相关对齐或直方图匹配替换 AdaIN 可能会通过迁移高阶统计信息进一步提高质量。另一个有趣的方向是将 AdaIN 应用于纹理合成。

附录

4. 不同层使用 AdaIN 的效果

图 2 显示了使用不同层执行 AdaIN 的效果。使用 relu4_1 获得比早期层更好的感知结果。

参考

[16] L. A. Gatys, A. S. Ecker, andM. Bethge. Image style transfer using convolutional neural networks. In CVPR, 2016.

[52] D. Ulyanov, A. Vedaldi, and V. Lempitsky. Improved texture networks: Maximizing quality and diversity in feed-forward stylization and texture synthesis. In CVPR, 2017.

[6] T. Q. Chen and M. Schmidt. Fast patch-based style transfer of arbitrary style. arXiv preprint arXiv:1612.04337, 2016.

Huang X, Belongie S. Arbitrary style transfer in real-time with adaptive instance normalization[C]//Proceedings of the IEEE international conference on computer vision. 2017: 1501-1510.

S. 总结

S.1 主要思想

为了解释实例归一化的成功，作者提出了一种新的解释，即实例归一化通过归一化特征统计来执行样式归一化，这些特征统计携带图像的风格信息。基于此，作者提出了自适应实例归一化 (Adaptive Instance Normalization，AdaIN)。给定内容和风格，AdaIN 只需调整内容图像的均值和方差以匹配风格图像的均值和方差，从而使生成图像具有前者的内容和后者的风格。

S.2 AdaIN

AdaIN 如公式 8 所示：

其中，x 和 y 分别表示内容图像和风格图像。μ(x) 和 σ(x) 表示内容图像的均值和标准差，μ(y) 和 σ(y) 表示风格图像的均值和标准差。由于图像的特征统计携带图像的风格信息，通过归一化消除内容图像的风格信息后，再使用风格图像的特征统计（风格信息）进行仿射变换，就能实现风格迁移。

S.3 结构以及不同层使用 AdaIN 的效果

本文使用的网络结构和不同层使用 AdaIN 的效果如上两图所示。

由于 AdaIN 是基于图像特征（特征空间）的统计量进行操作，所以网络中越靠后的层可以提取到越精确地特征。基于这些精确特征的统计值，在实例归一化时可以更充分的消除内容图像的风格，从而实现更高质量的风格迁移。

（2017，AdaIN）用自适应实例归一化进行实时的任意风格迁移

0. 摘要