AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss - 代码天地

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

其他 2021-12-14 18:16:23 阅读次数: 0

文章目录

会议：2019 ICML
单位：University of Illinois at Urbana- Champaign & IBM
作者：Kaizhi Qian， Yang Zhang

可能有用的创新点：（1）encoder输入不仅有mel，还有编码后的src——

abstract

解决问题：non-parallel data, many-to-many VC，zero-shot VC
方法：通过一个AutoEncoder提取bn，使用self- reconstruction loss实现distribution- matching style transfer

1. introduction

VC可以看作是一个style transfer的问题。

GAN方法是一种基于理论判别的方法，训练比较复杂，尽管图像上有很好的结果，但是目前的研究结果证明GAN生成的数据可能会骗过判别器，但是无法欺骗人耳。
CVAE（conditional VAE)训练上相对简单，完成 self-reconstruction以及最大化输出概率的变分下界即可。原理是：预测一个假想的独立风格的hidden variable，然后拼上新的风格，就可以生成迁移风格之后的输出。但他不能确保分布一致性，并且输出会有over-smooth的情况。
是否有一种方法，像CVAE一样好训练，并可以像GAN一样满足分布一致性？
AUTOVC使用了autoencoder的结构以及autoencoder loss，通过 carefully-tuned dimension reduction and temporal downsampling限制信息流。

3. Style Transfer Autoencoder

The Autoencoder Framework

在这里插入图片描述

Es是预训练好的，Ec和Es的输入来自同一个人的不同句子
U 说话人向量；Z 内容向量；X speech segment
问题定义：说话人U1变为说话人U2，如果U1/U2都是训练集已知的话，是multi-speaker VC的任务；如果U1或者U2是训练集unseen的，定义为zero-shot 的问题；

Why does it work?

理论依据：

Es编码的是说话人信息，同一说话人的的spk_emb相同，不同说话人的spk_emb不同；

在这里插入图片描述

初衷：bn的维度设计的刚好只能编码说话人无关的信息；四张图的小标题配合Ec编码后结果非常生动
但实际上有矛盾点：重建效果很好，但是转换效果不好。

4. AUTOVC Architecture

在这里插入图片描述

content encoder的输入： mel + Es(mel)，输入了src说话人的向量；降采样过程时间维度抽帧，channel减少，提取出说话人无关的文本表征；
decoder：首先预测mel80，然后过post-net，再预测一次；

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/118606149

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 复现one-hot embedding版本

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 优化调整方案

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss代码调试过程

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss笔记

Semantic Autoencoder for Zero-Shot Learning

Zero-Shot Transfer Learning for Event Extraction

《Semantic Autoencoder for Zero-Shot learning》阅读笔记

Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset

MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms

深度学总结：Image Style Transfer pytorch方式实现，这个是非基于autoencoder和domain adversrial方式

迁移学习︱艺术风格转化:Artistic style-transfer+ubuntu14.0+caffe（only CPU）

[Style Transfer]——Deep Photo Style Transfer

[Style Transfer]——Neural Style Transfer: A Review

论文笔记：Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Mo

Style Transfer 合集

Neural style transfer

Neural Style Transfer: A Review

Deep Photo Style Transfer

Similar Loss: 从AutoVC的Content Loss分析出的压缩解耦的Similar Loss框架

zero-shot 的理解

Zero-Shot learning

MC-GAN：Multi-Content GAN for Few-Shot Font Style Transfer

[Style Transfer]——A Neural Algorithm of Artistic Style

谈谈图像的Style Transfer（一）

谈谈图像的style transfer（二）

3D Style Transfer

zero-shot object detection

Overview of Zero-Shot learning

Zero-Shot & Few-Shot

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)