0. 说明
论文不太好直接出效果, 下面列出ke能有效地注意事项
1. bottleneck
1.1. 目前参数
信息瓶颈是最关键的部分, 在说话人embedding256, decoder第一层会dim变为512的前提下, 本文仅仅依赖content dim, down sampling factor两个地方控制信息瓶颈的大小, 论文中采用:
- 标准的32, 32
- 信息狭窄16, 128
- 信息宽阔256, 8, 同时不进行L_content的计算
代码中默认参数:
- 使用16, 16
1.2. 改进参数
应该多试试, 但是怎么试? 和什么有关系?
1.3. 评测标准
- Recon. Error
- Class. Acc.
- VC后主观评测
- VC后客观评测
- 两次VC后客观评测
2. multi-task 权重
引入L_content, 并且文章使用了权重1, 用不用改一下? 不过目前可以默认不变
3. 提取speaker embedding
以下方案都值得试试
3.1. 去除音频静默段
3.2. 改变超参数, 不改变方案
有下面几个超参数:
- 使用wav片段长度, wav_len = 2s
- 一共采用片段个数, wav_num = 10
- 仍然使用预训练ASV结果, 取平均值
3.3. one-hot embedding
作者建议使用one-hot embedding来处理音色
3.4. 其他speaker encoder方案
如Real Time Voice Clone的单次采样
4. VCTK的使用
使用哪些些说话人
- 10
- 20
- 40
- 109
- 100
5. 序列映射ML相关
5.1. batch size
- 论文bs=2
- 调的大些?
5.2. seq长度
- 论文每次2s
- 论文不去首尾静默段
- 合成的时候不加限制
其实保持送入speaker encoder为2s, 输入content encoder也是2s, 挺好的. 合成的时候也测2s, 就当作建模问题condition到音频均2s
扫描二维码关注公众号,回复:
12187854 查看本文章
5.3. Taco-seq训练
- 完整的音频
- 排序
- 大点batch
不过不一定有意义, 不一定有5.2好
6. DANN的使用
提前使用speaker classify对抗, 不过改变了论文的本来意思, 先不加