Generating 3D faces using Convolutional Mesh Autoencoders论文提要

摘要：

人脸的3D表示对于计算机视觉问题是有用的，例如3D面部跟踪和从图像重建，以及诸如角色生成和动画的图形应用。传统模型使用线性子空间或高阶张量概括来学习面部的潜在表示（latent representation）。由于这种线性，它们无法捕获极端变形和非线性表达式。为了解决这个问题，我们引入了一个多功能模型（versatile model），该模型使用网格表面上的光谱卷积来学习面部的非线性表示。我们引入了网格采样操作，这种操作能够实现分层网格表示，捕获模型中多个尺度的形状和表达的非线性变化。在variational setting中，我们的模型从多元高斯分布中采样不同的逼真3D人脸。我们的训练数据包括在12个不同subjects中捕获的20,466个极端表情网格。尽管训练数据有限，但我们训练的模型优于最先进的面部模型，重建误差降低50％，而参数减少75％。我们还表明，用我们的自动编码器替换现有最先进的人脸模型的表达空间，可以实现更低的重建误差。

1 Introduction
人脸受年龄、性别、民族等多种因素的影响，在形状上有很大的差异，在表情上有明显的变形。现有的三维人脸表示技术大多采用线性变换或高阶张量推广。这些三维人脸模型具有多种应用，包括人脸识别、生成和动画人脸以及单眼三维人脸重建。由于这些模型是线性的，它们不能捕捉到由于极端的面部表情而引起的非线性变形。这些表情对于捕捉3D人脸的真实感至关重要。

与此同时，卷积神经网络已经成为生成图像，音频等丰富的模型。他们成功的原因之一是由于CNNs的多尺度层次结构，使他们能够学习平移不变的局部特征。最近的工作探索了体积卷积[8]的三维表示然而，体积操作需要大量的内存，并被限制在低分辨率2 Anurag Ranjan, Timo Bolkart, Soubhik Sanyal, Michael J. Black 3D volume。在三维网格上建模卷积可以提高内存效率，并允许处理高分辨率的三维结构。然而，基于网格的结构化数据的神经网络在欧几里德域中已经取得了很大的成功，将神经网络推广到网格并非易事。将CNNs扩展到图结构和网格最近才引起了广泛的关注。cnn中的分层操作，如最大池和上采样，尚未适应网格。此外，由于目前三维数据集的规模有限，对CNNs进行三维人脸数据的训练具有一定的挑战性。现有的大规模数据集不包含高分辨率的极端面部表情。

为了解决这些问题，我们引入了一种卷积网格自编码器，它具有新颖的网格采样操作，在神经网络中保留了不同尺度网格特征的拓扑结构。我们遵循Defferrard等人的工作，使用快速切比雪夫滤波器对图形进行卷积，并使用它们的公式在我们的面部网格上进行卷积。我们对网格进行频谱分解，并将卷积直接应用于频率空间。这使得卷积内存处理高分辨率网格变得有效和可行。我们将卷积和采样操作结合起来，以卷积网格自动编码器的形式构造模型。我们证明，在用更少的模型参数捕捉高度非线性的极端面部表情方面，彗差比现有的人脸模型表现得更好。模型中的参数越少，它就越紧凑，也更容易训练。这种参数的减少是由于局部不变的卷积滤波器，可以共享在网格表面。

在多摄像机主动立体视觉系统中，我们通过捕捉20466个具有极端面部表情的高分辨率网格来解决数据限制问题。我们的数据集跨越12个主题，执行12种不同的表达式。面部表情复杂、不对称，面部组织变形明显。

综上所述，我们的工作引入了一种表示方法，该方法使用分层多尺度方法对网格表面的变化进行建模，并可推广到其他三维网格处理应用中。我们的主要贡献是:
1)介绍了一种卷积网格自编码器，它由网格下采样层和网格上采样层组成，在网格表面定义快速局部卷积滤波器;
2)我们证明，我们的模型在低维潜在空间中准确地表示了三维人脸，其性能比目前最先进的人脸模型如PCA模型好50%;
3)我们的自动编码器使用的参数比线性PCA模型少75%，同时重建误差更准确;
4)用coma代替最先进的人脸模型火焰的表达空间，提高了重建精度;
5)我们证明了我们的模型可以在变分的情况下，从已知的高斯分布中采样人脸网格的多样性;
6)我们提供了来自12个不同受试者的20,466帧复杂的三维头部网格，用于一系列极端的面部表情，同时我们还提供了用于研究目的的代码和训练过的模型

2 Related work

Face Representations

经典的人脸模型有99年提出的三维可形变模型（3DMM），目前3DMM模型的变体Basel Face Model使用最广泛。

用线性空间来表示面部表情，或者用线性空间的高阶泛化来表示面部表情，仍然是最先进的。线性表达式基向量要么使用PCA计算，要么使用线性blendshapes手动定义

与现有的人脸表示方法相比，我们的网格自动编码器使用卷积层来表示参数明显较少的人脸。由于它完全是在网格空间上定义的，因此我们没有影响表示三维模型的体积卷积方法的内存约束。

Convolutional Networks.

许多方法给出了卷积在网格上的推广，但并没有使用一种结构来将网格缩小到低维空间，也没有直接应用于三维网格。coma提出的自动编码器将网格卷积与网格下采样和网格上采样算子结合起来，以获得一个完整的网格自动编码器结构来表示三维人脸。

3 Mesh Operators---mesh sampling

4 Mesh Autoencoder

6 Conclusion

介绍了一种新的三维人脸形状和表情的表示方法CoMA。将CoMA设计成分层的、多尺度的表示，以捕获多尺度的全局和局部形状以及表达变化。采样操作与自动编码器网络中的快速图形卷积结合起来。局部不变的过滤器，共享整个网格表面，减少了过滤器的数量，网络中的参数和非线性激活函数捕捉极端的面部表情。

在一个极端3D面部表情的数据集上评估CoMA。在三维人脸重建应用中，CoMA优于现有模型，使用的模型参数减少了75%。在插值实验中，CoMA比线性PCA模型提高了50%，对完全不可见的面部表情有较好的泛化效果。我们进一步证明了在变分环境下的CoMA允许我们通过采样潜在空间来合成新的表情面孔。

Generating 3D faces using Convolutional Mesh Autoencoders论文提要

猜你喜欢