渐入佳境__距离生成对抗网络（WGAN）（六）

简介
自从2014年Ian Goodfellow提出以来，GAN就存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。从那时起，很多论文都在尝试解决，但是效果不尽人意，比如最有名的一个改进DCGAN依靠的是对判别器和生成器的架构进行实验枚举，最终找到一组比较好的网络架构设置，但是实际上是治标不治本，没有彻底解决问题。于是WGAN的作者Martin Arjovsky在2017年先后参与的几篇相关论文中，对WGAN的来龙去脉有了一个清晰的描述。

在第一篇论文《Towards Principled Methods for Training Generative Adversarial Networks》里面推了一堆公式定理，从理论上分析了原始GAN的问题所在，从而针对性地给出了改进要点；
在这第二篇《Wasserstein GAN》里面，又再从这个改进点出发推了一堆公式定理，最终给出了改进的算法实现流程。

一、GAN目标函数的缺陷：
回顾一下，原始GAN中判别器要最小化如下损失函数，尽可能把真实样本分为正例，生成样本分为负例：
在这里插入图片描述
其中Pr是真实样本分布，Pg是由生成器产生的样本分布。对于生成器，Goodfellow一开始提出来一个损失函数，后来又提出了一个改进的损失函数，分别是：

公式3在WGAN两篇论文中被称为“the - log D alternative”，WGAN前作分别分析了这两种形式的原始GAN各自的问题所在。

第一种的问题：
判别器越好，生成器梯度消失越严重。
首先从公式1可以得到，在生成器G固定参数时最优的判别器D应该是什么。对于一个具体的样本x，它可能来自真实分布也可能来自生成分布，它对公式1损失函数的贡献是：
在这里插入图片描述
令其关于D(x)的导数为0，化简得最优判别器：

这个结果从直观上很容易理解，就是看一个样本x来自真实分布和生成分布的可能性的相对比例。
然而GAN训练有一个trick，就是别把判别器训练得太好，否则在实验中生成器会完全学不动（loss降不下去），为了探究背后的原因，我们就可以看看在极端情况——判别器最优时，生成器的损失函数变成什么。
给公式2加上一个不依赖于生成器的项，使之变成：
在这里插入图片描述
注意，最小化这个损失函数等价于最小化公式2，而且它刚好是判别器损失函数的反。代入最优判别器即公式4，再进行简单的变换可以得到：

变换成这个样子是为了引入Kullback–Leibler divergence（简称KL散度）和Jensen-Shannon divergence（简称JS散度）这两个重要的相似度衡量指标，后面的主角之一Wasserstein距离，就是要来吊打它们两个的。所以接下来介绍这两个重要的配角——KL散度和JS散度：
在这里插入图片描述
于是公式5可以写成：

我们目前可以得出结论：
根据原始GAN定义的判别器loss，我们可以得到最优判别器的形式；而在最优判别器的下，我们可以把原始GAN定义的生成器loss等价变换为最小化真实分布Pr与生成分布Pg之间的JS散度。我们越训练判别器，它就越接近最优，最小化生成器的loss也就会越近似于最小化Pr和Pg之间的JS散度。

问题就出在这个JS散度上。我们会希望如果两个分布之间越接近它们的JS散度越小，我们通过优化JS散度就能将Pg拉向Pr，最终以假乱真。这个希望在两个分布有所重叠的时候是成立的，但是如果两个分布完全没有重叠的部分，或者它们重叠的部分可忽略（下面解释什么叫可忽略），它们的JS散度是多少呢？答案是log 2。

我们就得到了WGAN前作中关于生成器梯度消失的第一个论证：
在（近似）最优判别器下，最小化生成器的loss等价于最小化Pr与Pg之间的JS散度，而由于Pr与Pg几乎不可能有不可忽略的重叠，所以无论它们相距多远JS散度都是常数log 2，最终导致生成器的梯度（近似）为0，梯度消失。

有了这些理论分析，原始GAN不稳定的原因就彻底清楚了：判别器训练得太好，生成器梯度消失，生成器loss降不下去；判别器训练得不好，生成器梯度不准，四处乱跑。只有判别器训练得不好不坏才行，但是这个火候又很难把握，甚至在同一轮训练的前后不同阶段这个火候都可能不一样，所以GAN才那么难训练。

第二种的问题：
最小化第二种生成器loss函数，会等价于最小化一个不合理的距离衡量，导致两个问题，一是梯度不稳定，二是多样性不足。
上文推导已经得到在最优判别器D下：

我们可以把KL散度变换成含D的形式：
在这里插入图片描述
由公式3，9，10可得最小化目标的等价变形，最终得到最小化公式3等价于最小化：

这个等价最小化目标存在两个严重的问题。第一是它同时要最小化生成分布与真实分布的KL散度，却又要最大化两者的JS散度，一个要拉近，一个却要推远！这在直观上非常荒谬，在数值上则会导致梯度不稳定，这是后面那个JS散度项的毛病。第二，即便是前面那个正常的KL散度项也有毛病。因为KL散度不是一个对称的衡量。
这一放一打之下，生成器宁可多生成一些重复但是很“安全”的样本，也不愿意去生成多样性的样本，因为那样一不小心就会产生第二种错误，得不偿失。这种现象就是大家常说的collapse mode。
小结：在原始GAN的（近似）最优判别器下，第一种生成器loss面临梯度消失问题，第二种生成器loss面临优化目标荒谬、梯度不稳定、对多样性与准确性惩罚不平衡导致mode collapse这几个问题。

二、WGAN之前的一个过渡解决方案：
原始GAN问题的根源可以归结为两点，一是等价优化的距离衡量（KL散度、JS散度）不合理，二是生成器随机初始化后的生成分布很难与真实分布有不可忽略的重叠。

针对第二点提出了一个解决方案，就是对生成样本和真实样本加噪声，直观上说，使得原本的两个低维流形“弥散”到整个高维空间，强行让它们产生不可忽略的重叠。而一旦存在重叠，JS散度就能真正发挥作用，此时如果两个分布越靠近，它们“弥散”出来的部分重叠得越多，JS散度也会越小而不会一直是一个常数，于是（在第一种原始GAN形式下）梯度消失的问题就解决了。
在训练过程中，我们可以对所加的噪声进行退火（annealing），慢慢减小其方差，到后面两个低维流形“本体”都已经有重叠时，就算把噪声完全拿掉，JS散度也能照样发挥作用，继续产生有意义的梯度把两个低维流形拉近，直到它们接近完全重合。以上是对原文的直观解释。

加噪方案是针对原始GAN问题的第二点根源提出的，解决了训练不稳定的问题，不需要小心平衡判别器训练的火候，可以放心地把判别器训练到接近最优，但是仍然没能够提供一个衡量训练进程的数值指标。但是WGAN本作就从第一点根源出发，用Wasserstein距离代替JS散度，同时完成了稳定训练和进程指标的问题！

三、Wasserstein距离的优越性质
Wasserstein距离又叫Earth-Mover（EM）距离，定义如下：
在这里插入图片描述
考虑如下二维空间中的两个分布P1和P2，P1在线段AB上均匀分布，P2在线段CD上均匀分布，通过控制参数θ可以控制着两个分布的距离远近。

Wasserstein距离相比KL散度、JS散度的优越性在于，即便两个分布没有重叠，Wasserstein距离仍然能够反映它们的远近。
KL散度和JS散度是突变的，要么最大要么最小，Wasserstein距离却是平滑的，如果我们要用梯度下降法优化θ这个参数，前两者根本提供不了梯度，Wasserstein距离却可以。
类似地，在高维空间中如果两个分布不重叠或者重叠部分可忽略，则KL和JS既反映不了远近，也提供不了梯度，但是Wasserstein却可以提供有意义的梯度。

四、从Wasserstein距离到WGAN
既然Wasserstein距离有如此优越的性质，如果我们能够把它定义为生成器的loss，不就可以产生有意义的梯度来更新生成器，使得生成分布被拉向真实分布吗？
没那么简单，因为Wasserstein距离定义（公式12）中的 inf 没法直接求解，不过没关系，作者用了一个已有的定理把它变换为如下形式：
在这里插入图片描述
首先需要介绍一个概念——Lipschitz连续。
它其实就是在一个连续函数f上面额外施加了一个限制，要求存在一个常数K>=0使得定义域内的任意两个元素x1和x2都满足

此时称函数f的Lipschitz常数为K。
简单来讲，比如说f的定义域是实数集合，那上面的要求就等价于f的导函数绝对值不超过K。再比如说log (x)就不是Lipschitz连续，因为它的导函数没有上界。Lipschitz连续条件限制了一个连续函数的最大局部变动幅度。

公式13的意思就是在要求函数f的Lipschitz常数||f||L不超过K的条件下，对所有可能满足条件的f取到E的上界，然后再除以K。特别地，我们可以用一组参数w来定义一系列可能的函数fw，此时求解公式13可以近似变成求解如下形式：
在这里插入图片描述
再用上我们搞深度学习的人最熟悉的那一套，不就可以把f用一个带参数w的神经网络来表示嘛！
到此为止，我们可以构造一个含参数w、最后一层不是非线性激活层的判别器网络f_w，在限制w不超过某个范围的条件下，使得：
在这里插入图片描述
尽可能取到最大，此时L就会近似真实分布与生成分布之间的Wasserstein距离（忽略常数倍数K）。注意原始GAN的判别器做的是真假二分类任务，所以最后一层是sigmoid，但是现在WGAN中的判别器fw做的是近似拟合Wasserstein距离，属于回归任务，所以要把最后一层的sigmoid拿掉。
接下来生成器要近似地最小化Wasserstein距离，可以最小化L，由于Wasserstein距离的优良性质，我们不需要担心生成器梯度消失的问题。再考虑到L的第一项与生成器无关，就得到了WGAN的两个loss。
在这里插入图片描述
公式15是公式17的反，可以指示训练进程，其数值越小，表示真实分布与生成分布的Wasserstein距离越小，GAN训练得越好。

五、WGAN完整的算法流程：
在这里插入图片描述
六、WGAN对GAN的改进主要有：

判别器最后一层去掉sigmoid。
生成器和判别器的loss不取log。
对更新后的权重强制截断到一定范围内，比如[-0.01，0.01]，以满足论文中提到的lipschitz连续性条件。
不要用基于动量的优化算法（包括momentum和Adam），推荐RMSProp，SGD也行。

七、总结：
GAN中交叉熵（JS散度）不适合衡量生成数据分布和真实数据分布的距离，如果通过优化JS散度训练GAN会导致找不到正确的优化目标，所以，WGAN提出使用wassertein距离作为优化方式训练GAN，但是数学上和真正代码实现上还是有区别的，使用Wasserteion距离需要满足很强的连续性条件—lipschitz连续性，为了满足这个条件，作者使用了将权重限制到一个范围的方式强制满足lipschitz连续性，但是这也造成了隐患，下面会有说明。

八、拓展：
WGAN-GP (improved wgan)：

原论文地址：https://arxiv.org/pdf/1704.00028.pdf

WGAN-GP是WGAN之后的改进版，主要还是改进了连续性限制的条件，因为，作者也发现将权重剪切到一定范围之后，比如剪切到[-0.01,+0.01]后，发生了这样的情况，如下图左边表示：
在这里插入图片描述
发现大多数的权重都在-0.01 和0.01上，这就意味了网络的大部分权重只有两个可能数，对于深度神经网络来说不能充分发挥深度神经网络的拟合能力，简直是极大的浪费。并且，也发现强制剪切权重容易导致梯度消失或者梯度爆炸。
为了解决这个问题，并且找一个合适的方式满足lipschitz连续性条件，作者提出了使用梯度惩罚（gradient penalty）的方式以满足此连续性条件，其结果如上图右边所示。
梯度惩罚就是既然Lipschitz限制是要求判别器的梯度不超过K，那么可以通过建立一个损失函数来满足这个要求，即先求出判别器的梯度d(D(x))，然后建立与K之间的二范数就可以实现一个简单的损失函数设计。但是注意到D的梯度的数值空间是整个样本空间，对于图片（既包含了真实数据集也包含了生成出的图片集）这样的数据集来说，维度及其高，显然是及其不适合的计算的。作者提出没必要对整个数据集（真的和生成的）做采样，只要从每一批次的样本中采样就可以了，比如可以产生一个随机数，在生成数据和真实数据上做一个插值
在这里插入图片描述
于是就算解决了在整个样本空间上采样的麻烦。

所以WGAN-GP的贡献是：

提出了一种新的lipschitz连续性限制手法—梯度惩罚，解决了训练梯度消失梯度爆炸的问题。
比标准WGAN拥有更快的收敛速度，并能生成更高质量的样本。
提供稳定的GAN训练方式，几乎不需要怎么调参，成功训练多种针对图片生成和语言模型的GAN架构。

但是论文提出，由于是对每个batch中的每一个样本都做了梯度惩罚（随机数的维度是(batchsize，1)），因此判别器中不能使用batch norm,但是可以使用其他的normalization方法，比如Layer Normalization、Weight Normalization和Instance Normalization，论文中使用了Layer Normalization，weight normalization效果也是可以的。为了比较，看下面这张图，可以发现WGAN-GP完爆其他GAN：
在这里插入图片描述

渐入佳境__距离生成对抗网络（WGAN）（六）

猜你喜欢