仅用语音 AI就能“脑补”你的脸

　　之前我们为大家介绍过一项非常酸爽的研究“Talking Face Generation”：给定音频或视频后(输入)，可以让任意一个人的面部特征与输入的音视频信息保持一致，也就是说出输入的这段话。当时就想到了“杨超越的声音+高晓松的脸”这样的神仙搭配。

　　不过，近期一项新研究再度抓到了笔者的眼睛!在最新的研究中，研究者仅需要音频信息就生成了人脸... ...如此鬼畜的操作，此乃头一次见啊!接下来就为大家介绍一下这项工作!

　　音频和图像是人类最常用的两种信号传输模式，图像传达的信息非常直观，而语音包含的信息其实比我们想象的要更丰富，包括说话人的身份，性别和情绪状态等等。从这两个信号中提取的特征通常是高度相关的，可以让人仅聆听声音就可以想象他的视觉外观。WAV2PIX 的工作就是仅利用语音输入，来生成说话者的人脸图像。其实这就是一个跨模态的视觉生成任务。

　　谈到这项研究的贡献，主要有三点：

　　提出了一个能够直接从原始的语音信号生成人脸的条件GAN：WAV2PIX;

　　提供了一个在语音和人脸两方面综合质量很高的一个数据集：Youtubers;

　　实验证明论文的方法可以生成真实多样的人脸。

　　论文收集了大V用户(Youtubers)上传到 Youtube 的演讲视频，这些视频通常具有高质量的说话环境、表达方式、人脸特征等。Youtubers 数据集主要由两部分组成：一个是自动生成的数据集和一个手动处理后的高质量的子集。

　　主要的预处理工作：

　　音频最初下载的是高级音频编码(AAC)格式，44100 Hz，立体声。因此转换为 WAV 格式，并重新采样到 16 kHz，每个样例占 16 位并转换为单声道。

　　采用基于 Haar 特征的人脸检测器来检测正脸。仅采纳置信度高的帧

　　保存检测出来的那帧图像及前后两秒的语音帧，以及一个标签(identity)。

　　方法介绍

　　研究主要由三个模块构成：一个是语音编码器，一个是图片生成网络，一个是图片判别网络。

　　语音编码器(Speech Encoder)：已有的方法大多数是手工提取音频特征，并不是针对生成网络的任务进行优化的，而 SEGAN 提出了一种在波形上用于语音处理的方法。因此作者在已有的工作 SEGAN 上进行修改。修改为具有 6 层一维网络，并且每层的 kernel 大小是 15x15，步长为 4，然后每层卷积网络后面使用 LeakyReLU 激活函数，网络的输入通道是 1。输入 16kHZ 下1 秒的语音片段，上述的卷积网络可以得到一个 4x1024 的张量，然后采用三个全连接网络将特征数量从 4x1024 降到 128。作为生成器网络的输入。

　　图片生成器(Image Generator Network)：输入是语音编码器的 128 向量。采用二维转置卷积、插值、dropout 等方式将输入转为 64x64x3 或者 128x128x3 的张量。在 G 的损失函数中添加了一个辅助损失用于保持说话人的标签(Identity)。

　　图片判别器(Image Discriminator Network)：判别器由几层步长为 2，kernel 大小是 4x4 的卷积网络组成，并使用谱归一化和 LeakyReLU 激活函数。当张量为 4x4 时，作者拼接了语音的输入，并采用最后一层网络来计算 D 网络的分数。

　　大连专业妇科医院 http://mobile.dlfkyy.net/

仅用语音 AI就能“脑补”你的脸

猜你喜欢