文章解决的是图片动画的问题。假设有源图片和驱动视频，并且其中的物体是同一类的，文章的方法让源图片中的物体按照驱动视频中物体的动作而动。
文章的方法只需要一个同类物体的视频集，不需要而外的标注。

方法

该方法基于self-supervised策略，主要方法是基于训练视频中的一帧图像和和学习到的动作表示，重建出训练视频。其中，动作表示由动作特定的关键点（motion-specific keypoint）和局部仿射变换（local affine transformations）组成。注意，因为是self-supervised的方法，这里的关键点是算法学出来的，不像人脸关键点检测算法中的关键点是人为指定有具体含义的。
在这里插入图片描述
框架图如上图所示，由两个部分组成，一个是运动估计模块，一个是图像生成模块。
运动估计模块的目的是估计从驱动视频的一帧 $\mathbf D \in \mathbb R^{3\times H \times W}$ 到源图片 $\mathbf S \in \mathbb R^{3\times H \times W}$ 的稠密运动场（dense motion field）。运动场 $\mathcal T_{\mathbf S \leftarrow \mathbf D}: \mathbb R^2 \rightarrow \mathbb R^2$ 将 $\mathbf D$ 中每个像素位置映射到对应的 $\mathbf S$ 。 $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ 也被称为反向光流（backward optical flow）。使用反向光流而不是正向光流，因为可以使用双线性采样以可微分的方式有效地实现后向扭曲。

仿射变换

这里先回忆一下放射变换（Affine transformation）。
在齐次坐标上，仿射变换可以用下面的式子表示：
${\begin{bmatrix}{\vec{y}}\\1\end{bmatrix}}= {\begin{bmatrix}\mathbf B&{\vec {b}}\ \\0,\ldots ,0&1\end{bmatrix}} {\begin{bmatrix}{\vec {x}}\\1\end{bmatrix}}$ 因为运算矩阵的最后一行是为了运算补齐用的，所以在2维图像上仿射变换由矩阵 $\mathbf A = [\mathbf B, \vec {b}] \in \mathbb R^{2 \times 3}$ 定义。

运动估计模块

运动估计模块分为两个部分。

粗运动估计

粗运动估计预测关键点处的运动模式，也就是反向光流 $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ 。 $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ 用在关键点附近的一阶泰勒展开近似。

假设存在一个抽象参考帧 $\mathbf R$ 。这样，我们需要估计两个变换：从 $\mathbf R$ 到 $\mathbf S$ （ $\mathcal T_{\mathbf S \leftarrow \mathbf R}$ ）和从 $\mathbf R$ 到 $\mathbf D$ （ $\mathcal T_{\mathbf D \leftarrow \mathbf R}$ ）。抽象参考帧的好处是可以让我们独立的处理 $\mathbf D$ 和 $\mathbf S$ 。
为了描述方便，用 $\mathbf X$ 表示 $\mathbf S$ 或者 $\mathbf D$ ，用 $p_1,\cdots,p_K$ 表示抽象参考帧 $\mathbf R$ 上的关键点的坐标，用 $z$ 表示在其他帧上的点的坐标。我们估计在关键点 $p_1,\cdots,p_K$ 周围的 $\mathcal T_{\mathbf X \leftarrow \mathbf R}$ 。具体而言，我们考虑 $\mathcal T_{\mathbf X \leftarrow \mathbf R}$ 在关键点 $p_1,\cdots,p_K$ 的一阶泰勒展开：
$\mathcal T_{\mathbf X \leftarrow \mathbf R}(p)=\mathcal T_{\mathbf X \leftarrow \mathbf R}(p_k)+(\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_k})(p-p_k)+o(\|p-p_k\|)$ 这可以看做一个仿射变换 $\mathbf A^k_{\mathbf X \leftarrow \mathbf R} \in \mathbb R^{2 \times 3}$ ， $\mathcal T_{\mathbf X \leftarrow \mathbf R}(p_k)$ 是平移参数， $\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_k}$ 是线性映射的参数。

$\mathcal T_{\mathbf X \leftarrow \mathbf R}$ 用其在K个关键点处的值和Jacobian表示。
$\mathcal T_{\mathbf X \leftarrow \mathbf R}(p) \approx \{\{ \mathcal T_{\mathbf X \leftarrow \mathbf R}(p_1),\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_1}\}, \cdots,\{ \mathcal T_{\mathbf X \leftarrow \mathbf R}(p_K),\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_K}\}\}$
我们假设 $\mathcal T_{\mathbf X \leftarrow \mathbf R}$ 在每个关键点的局部是双射。则对于 $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ ，我们有
$\mathcal T_{\mathbf S \leftarrow \mathbf D}=\mathcal T_{\mathbf S \leftarrow \mathbf R} \circ \mathcal T^{-1}_{\mathbf D \leftarrow \mathbf R}$ 用一阶泰勒展开近似有
$\mathcal T_{\mathbf S \leftarrow \mathbf D}(z) \approx \mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k) + J_k(z-\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k))\\ J_k=(\frac{d \mathcal T_{\mathbf S \leftarrow \mathbf R}(p)}{dp}|_{p=p_k})(\frac{d \mathcal T_{\mathbf D \leftarrow \mathbf R}(p)}{dp}|_{p=p_k})^{-1}$ $\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k)$ 和 $\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)$ 用基于U-Net的关键点预测网络（keypoint predictor network）预测。对每个关键点预测一个heatmap，总共预测K个heatmap。U-Net的decoder最后一层用softmax预测每个关键点的置信图（keypoint confidence map），也就是关键点在每个像素位置的置信度，满足 $\sum_{z \in \mathcal Z} \mathbf W^k(z)=1$ ，其中 $\mathcal Z$ 表示所有的像素位置。
$\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k)$ 和 $\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)$ 相当于仿射变换中的平移参数，注意这里是两维的（z包含x和y）。平移参数用关键点置信图加权计算：
$b^k = \sum_{z \in \mathcal Z} \mathbf W^k(z)z$ $\frac{d \mathcal T_{\mathbf S \leftarrow \mathbf R}(p)}{dp}|_{p=p_k}$ 和 $\frac{d \mathcal T_{\mathbf D \leftarrow \mathbf R}(p)}{dp}|_{p=p_k}$ 相当于仿射变换中的线性变换部分，他们作为仿射变换中剩下的4个参数用keypoint predictor network的额外的4个通道估计，每个关键点4个额外的通道。用 $P^k_{ij} \in \mathbb R^{H \times W}$ 表示其中一个通道的估计值，其中 $i,j\in\{1,2\}$ 是仿射变换的坐标。线性变换的参数用关键点置信图加权融合：
$\mathbf B^k[i,j] = \sum_{z \in \mathcal Z} \mathbf W^k(z)P^k_{ij}(z)$

密集运动估计

密集运动估计预测整个图像每个像素点的运动模式 $\hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D}$ 。

我们使用卷积网络从 $K$ 个关键点处的泰勒展开 $\mathcal T_{\mathbf S \leftarrow \mathbf D}(z)$ 和源图像帧 $\mathbf S$ 中估计 $\hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D}$ 。
用关键点处的变换来扭曲源图像帧 $\mathbf S$ ，可以得到 $K$ 个变换后的图像 $\mathbf S^1, \cdots, \mathbf S^K$ 。另外，考虑额外的图像 $\mathbf S^0 = \mathbf S$ 作为背景。
对每一个关键点计算heatmap $\mathbf H_k(z)$ 表示每个变换在哪发生。
$\mathbf H_k(z) = exp(\frac{(\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)-z)^2}{\sigma}) - exp(\frac{(\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k)-z)^2}{\sigma})$
将 $\mathbf H_k$ 和 $\mathbf S^0, \cdots, \mathbf S^K$ 拼接输入基于U-Net的稠密运动网络（dense motion network）。dense motion network估计 $K + 1$ 个掩码 $\mathbf M_k, k = 0, \cdots, K$ 表示每个位置用哪个局部变换，满足 $\sum_{k=0}^K \mathbf M^k(z)=1$ 。最后的密集运动场表示为：
$\hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D}(z) = \mathbf M_0z + \sum_{k=1}^K \mathbf M_k(\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k) + J_k(z-\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)))$
表示为矩阵坐标变换有：
$\mathbf O(z) = \mathbf M^0(z)z + \sum_{k=1}^K \mathbf M^k(z) \mathbf A^k_{\mathbf S \leftarrow \mathbf D} {\begin{bmatrix}{z}\\1\end{bmatrix}}$

图像生成模块

1.根据上面预测的 $\hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D}$ 对 $S$ 经过两个下采样卷积的特征图（feature map ） $\xi \in \mathbb R^{H'\times W'}$ 使用warp操作。
2.在 $S$ 中存在遮挡的时候， $D^{'}$ 并不能完全通过warp源图像获得，而是需要inpaint。所以，预测一个遮挡图（occlusion map） $\hat{\mathcal O}_{\mathbf S \leftarrow \mathbf D} \in [0,1]^{H'\times W'}$ ，表示源图像需要被inpaint的区域。occlusion map通过在dense motion network后添加一层来预测。
经过转换的feature map可以表示为：
$\xi' = \hat{\mathcal O}_{\mathbf S \leftarrow \mathbf D} \odot f_w(\xi, \hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D})$ $f_w$ 表示反向变形（back-warping）操作。经过转换的feature map输入到图像生成模块的后面层处理，最后生成图像。

训练

训练的损失由多项组成。首先是基于perceptual loss的reconstruction loss。该loss用预训练的VGG-19网络作为特征提取器，对比重建帧和驱动视频的真实帧的特征差异。

另外考虑到关键点的学习是无标签的，这会导致不稳定的表现，引入Equivariance constraint用在无监督关键点的学习中。假设图片 $X$ 经过一个已知的变换 $\mathcal T_{\mathbf X \leftarrow \mathbf Y}$ 得到 $Y$ 。Equivariance constraint要求：
$\mathcal T_{\mathbf X \leftarrow \mathbf R} \equiv \mathcal T_{\mathbf X \leftarrow \mathbf Y} \circ \mathcal T_{\mathbf Y \leftarrow \mathbf R}$ 通过对两边进行一阶泰勒展开有，并使用L1 loss分别约束关键点处的值和Jacobian。

参考资料

《First Order Motion Model for Image Animation》
《Motion Representations for Articulated Animation》

阅读笔记 First Order Motion Model for Image Animation

方法