VAE与GAN的关系(2)

上文从 $KL(q(\mathbf x, y)\Vert p(\mathbf x, y))$ 推导出GAN的两个Loss，并给出生成器Loss的正则项设计思路，接下来我们仍从引入隐变量构成联合概率分布角度，推导VAE的Loss。
首先，我们观察 $KL(p(\mathbf x, \mathbf z)\Vert q(\mathbf x, \mathbf z))$ 有：

K L (p (x, z) ‖ q (x, z)) = K L (p (x) ‖ q (x)) + \int p (x) K L (p (z | x) ‖ q (z | x)) d x \geq K L (p (x) ‖ q (x)) (1)

$KL(p(\mathbf x, \mathbf z)\Vert q(\mathbf x, \mathbf z)) = KL(p(\mathbf x)\Vert q(\mathbf x)) + \int p(\mathbf x)KL(p(\mathbf z \vert \mathbf x) \Vert q(\mathbf z \vert \mathbf x))d\mathbf x \\ \ge KL(p(\mathbf x)\Vert q(\mathbf x)) \qquad(1)$
即

K L (p (x, z) ‖ q (x, z))

$KL(p(\mathbf x, \mathbf z)\Vert q(\mathbf x, \mathbf z))$ 是

K L (p (x) ‖ q (x))

$KL(p(\mathbf x)\Vert q(\mathbf x))$ 的上界，优化此上界就达到了优化

K L (p (x) ‖ q (x))

$KL(p(\mathbf x)\Vert q(\mathbf x))$ 本身。
对于VAE而言，

x

$\mathbf x$ 表示数据样本空间的一个数据点，e.g：MNIST的图片空间是784（28*28）维度空间；

z

$\mathbf z$ 表示编码器生成的编码（Code），它是一个多维随机变量，一般为100维，于是有：
1、真实分布：

p (x, z) = p (z | x) p (x)

$p(\mathbf x, \mathbf z)=p(\mathbf z \vert \mathbf x)p(\mathbf x)$
2、拟合分布：

q (x, z) = q (x | z) q (z)

$q(\mathbf x, \mathbf z)=q(\mathbf x \vert \mathbf z)q(\mathbf z)$
在VAE中，可令

q (z)

$q(\mathbf z)$ 为标准正态分布，

p (z | x)

$p(\mathbf z \vert \mathbf x)$ 为正态分布，而

q (x | z)

$q(\mathbf x \vert \mathbf z)$ 为随机变量

z

$\mathbf z$ 到空间

X

$\mathbf X$ 的映射的随机分布的密度。回到联合概率分布KL散度：

K L (p (x, z) ‖ q (x, z)) = \iint p (x, z) \log \frac{p (x, z)}{q (x, z)} d x d z = \iint p (z | x) p (x) \log \frac{p (z | x) p (x)}{q (x | z) q (z)} d x d z = \iint p (z | x) p (x) [\log p (z | x) + \log p (x) - \log q (x | z) - \log q (z)] d x d z = \iint p (z | x) p (x) \log p (x) d x d z - \iint p (z | x) p (x) \log q (x | z) d x d z + \iint p (z | x) p (x) \log \frac{p (z | x)}{q (z)} d x d z (2)

$KL(p(\mathbf x, \mathbf z)\Vert q(\mathbf x, \mathbf z))=\iint p(\mathbf x, \mathbf z) \log \frac {p(\mathbf x, \mathbf z)}{q(\mathbf x, \mathbf z)} d\mathbf x d\mathbf z \\ =\iint p(\mathbf z \vert \mathbf x)p(\mathbf x) \log \frac {p(\mathbf z \vert \mathbf x)p(\mathbf x)}{q(\mathbf x \vert \mathbf z)q(\mathbf z)}d\mathbf x d\mathbf z \\ = \iint p(\mathbf z \vert \mathbf x)p(\mathbf x) \ [\log p(\mathbf z \vert \mathbf x) + \log p(\mathbf x) - \log q(\mathbf x \vert \mathbf z) - \log q(\mathbf z)] d\mathbf x d\mathbf z \\ =\iint p(\mathbf z \vert \mathbf x)p(\mathbf x) \log p(\mathbf x)d\mathbf x d\mathbf z - \iint p(\mathbf z \vert \mathbf x)p(\mathbf x) \log q(\mathbf x \vert \mathbf z)d\mathbf x d\mathbf z + \iint p(\mathbf z \vert \mathbf x)p(\mathbf x)\log \frac {p(\mathbf z \vert \mathbf x)}{q(\mathbf z)} d\mathbf x d\mathbf z \qquad(2)$
1、右边第一项是

\iint p (x, z) p (x) \log p (x) d x d z

$\iint p(\mathbf x,\mathbf z )p(\mathbf x) \log p(\mathbf x)d\mathbf x d\mathbf z$ 是真实分布的积分，与VAE可调参数无关，因而在优化时无需考虑，可忽略。
2、第三项有：

\iint p (z | x) p (x) \log \frac{p (z | x)}{q (z)} d x d z = E_{x \sim p (x)} (\int p (z | x) \log \frac{p (z | x)}{q (z)} d z) = E_{x \sim p (x)} (K L (p (z | x) ‖ q (z))) (3)

$\iint p(\mathbf z \vert \mathbf x)p(\mathbf x)\log \frac {p(\mathbf z \vert \mathbf x)}{q(\mathbf z)} d\mathbf x d\mathbf z = \mathbf E_{\mathbf x \sim p(\mathbf x)}\left(\int p(\mathbf z \vert \mathbf x)\log \frac {p(\mathbf z \vert \mathbf x)}{q(\mathbf z)} d\mathbf z \right) \\ = \mathbf E_{\mathbf x \sim p(\mathbf x)}(KL(p(\mathbf z \vert \mathbf x) \Vert q(\mathbf z))) \qquad(3)$
3、第二项有：

\iint p (z | x) p (x) \log q (x | z) d x d z = \int p (x) \int p (z | x) \log q (x | z) d x d z = E_{x \sim p (x)} (\int p (z | x) \log q (x | z) d z) (4)

$\iint p(\mathbf z \vert \mathbf x)p(\mathbf x) \log q(\mathbf x \vert \mathbf z)d\mathbf x d\mathbf z = \int p(\mathbf x)\int p(\mathbf z \vert \mathbf x) \log q(\mathbf x \vert \mathbf z)d\mathbf x d\mathbf z = \mathbf E_{\mathbf x\sim p(\mathbf x)}\left(\int p(\mathbf z \vert \mathbf x) \log q(\mathbf x \vert \mathbf z)d\mathbf z\right) \qquad(4)$
若

x \sim p (x)

$\mathbf x\sim p(\mathbf x)$ 仅抽样1个点，得到

x_{i}

$\mathbf x_i$ 作为Encoder的输入，求

x \sim p (x)

$\mathbf x\sim p(\mathbf x)$ 的期望就失去了意义，则(4)式变形为：

\iint p (z | x) p (x) \log q (x | z) d x d z = \int p (z | x_{i}) \log q (x | z) d z = E_{z \sim p (z | x_{i})} (\log q (x | z)) (5)

$\iint p(\mathbf z \vert \mathbf x)p(\mathbf x) \log q(\mathbf x \vert \mathbf z)d\mathbf x d\mathbf z = \int p(\mathbf z \vert \mathbf x_i) \log q(\mathbf x \vert \mathbf z)d\mathbf z \\ = \mathbf E_{\mathbf z\sim p(\mathbf z \vert \mathbf x_i)}\left( \log q(\mathbf x \vert \mathbf z) \right) \qquad(5)$
若

z \sim p (z | x_{i})

$\mathbf z\sim p(\mathbf z \vert \mathbf x_i)$ 也仅抽一个样本

z_{i}

$\mathbf z_i$ ，（5）式得到

\log q (x_{i} | z_{i})

$\log q(\mathbf x_i \vert \mathbf z_i)$ 。
综上，对VAE的Encoder和Decoder优化时，有以下等价关系：

K L (p (x, z) ‖ q (x, z)) \sim - \log q (x_{i} | z_{i}) + E_{x \sim p (x)} (K L (p (z | x) ‖ q (z))) (6)

$KL(p(\mathbf x, \mathbf z)\Vert q(\mathbf x, \mathbf z)) \sim -\log q(\mathbf x_i \vert \mathbf z_i) \ + \ \mathbf E_{\mathbf x \sim p(\mathbf x)}(KL(p(\mathbf z \vert \mathbf x) \Vert q(\mathbf z))) \qquad(6)$
（6）式右端恰好是VAE的Loss表达式。

小结：
1、GAN与VAE两个生成模型的Loss推导都可以放在联合概率密度的KL散度的统一框架下进行讨论，而且都得到了与原始推导相同的结果；
2、GAN与VAE所设计的隐变量不同，结构不同，导致了近似处理的方法不同，但它们的出发点是相同的（上述第一点）。
3、GAN最后的Loss反映的是生成样本与真实样本的概率流型之间的距离，而VAE最后的Loss反映的是Auto-Encoder的输出 $\mathbf {\hat x}$ 与原来数据点 $\mathbf x$ 两点之间的距离。因而导致了生成效果的不同，以及训练难度的不同。

问题：能否将两者结合起来呢？

本文主要参考文章：
文章：Variational Inference: A Unified Framework of Generative Models and Some Revelations，原文：arXiv:1807.05936，中文链接：https://kexue.fm/archives/5716

猜你喜欢