AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 优化调整方案

其他 2021-01-23 03:29:19 阅读次数: 0

0. 说明

论文不太好直接出效果, 下面列出ke能有效地注意事项

1. bottleneck

1.1. 目前参数

信息瓶颈是最关键的部分, 在说话人embedding256, decoder第一层会dim变为512的前提下, 本文仅仅依赖content dim, down sampling factor两个地方控制信息瓶颈的大小, 论文中采用:

标准的32, 32
信息狭窄16, 128
信息宽阔256, 8, 同时不进行L_content的计算

代码中默认参数:

使用16, 16

1.2. 改进参数

应该多试试, 但是怎么试? 和什么有关系?

1.3. 评测标准

Recon. Error
Class. Acc.
VC后主观评测
VC后客观评测
两次VC后客观评测

2. multi-task 权重

引入L_content, 并且文章使用了权重1, 用不用改一下? 不过目前可以默认不变

3. 提取speaker embedding

以下方案都值得试试

3.1. 去除音频静默段

3.2. 改变超参数, 不改变方案

有下面几个超参数:

使用wav片段长度, wav_len = 2s
一共采用片段个数, wav_num = 10
仍然使用预训练ASV结果, 取平均值

3.3. one-hot embedding

作者建议使用one-hot embedding来处理音色

3.4. 其他speaker encoder方案

如Real Time Voice Clone的单次采样

4. VCTK的使用

使用哪些些说话人

10
20
40
109
100

5. 序列映射ML相关

5.1. batch size

论文bs=2
调的大些?

5.2. seq长度

论文每次2s
论文不去首尾静默段
合成的时候不加限制

其实保持送入speaker encoder为2s, 输入content encoder也是2s, 挺好的. 合成的时候也测2s, 就当作建模问题condition到音频均2s

扫描二维码关注公众号，回复： 12187854 查看本文章

5.3. Taco-seq训练

完整的音频
排序
大点batch

不过不一定有意义, 不一定有5.2好

6. DANN的使用

提前使用speaker classify对抗, 不过改变了论文的本来意思, 先不加

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/111685563

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 优化调整方案

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 复现one-hot embedding版本

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss代码调试过程

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss笔记

Semantic Autoencoder for Zero-Shot Learning

Zero-Shot Transfer Learning for Event Extraction

《Semantic Autoencoder for Zero-Shot learning》阅读笔记

Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset

MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms

深度学总结：Image Style Transfer pytorch方式实现，这个是非基于autoencoder和domain adversrial方式

迁移学习︱艺术风格转化:Artistic style-transfer+ubuntu14.0+caffe（only CPU）

[Style Transfer]——Deep Photo Style Transfer

[Style Transfer]——Neural Style Transfer: A Review

论文笔记：Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Mo

Style Transfer 合集

Neural style transfer

Neural Style Transfer: A Review

Deep Photo Style Transfer

Similar Loss: 从AutoVC的Content Loss分析出的压缩解耦的Similar Loss框架

zero-shot 的理解

Zero-Shot learning

MC-GAN：Multi-Content GAN for Few-Shot Font Style Transfer

[Style Transfer]——A Neural Algorithm of Artistic Style

谈谈图像的Style Transfer（一）

谈谈图像的style transfer（二）

3D Style Transfer

zero-shot object detection

Overview of Zero-Shot learning

Zero-Shot & Few-Shot

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)