0. 说明
记录的是2020-12-16到2021-1-16之间的工作
1. 工程性
1.1. 商业化混语言合成系统完善
接上月的工作,在有双语语料的前提下,实现混语言文本的合成
这部分的系统名称为:Fantasy Mix-Lingual Tacotron
1.1.1. 实验细节
使用的语料有:使用实验室标贝双语数据集训练,平安科技公司的春春虚拟双语语料
总共尝试的模型有:
- Fantasy Mix-Lingual Tacotron Version 2: 使用Grapheme,保留Language ID,使用VAE模块
- Fantasy Mix-Lingual Tacotron Version 4: 使用Phoneme,保留Language ID,使用VAE模块
- Fantasy Mix-Lingual Tacotron Version 5: 使用Phoneme,保留Language ID,去除VAE模块
- Fantasy Mix-Lingual Tacotron Version 6: 使用Phoneme,去除Language ID,使用VAE模块
- Fantasy Mix-Lingual Tacotron Version 7: 使用Phoneme,去除Language ID,去除VAE模块
- Fantasy Mix-Lingual Tacotron Version 4修正版: Language ID提前到TXT Encoding处拼接,其余不变
1.1.2. 实验现象和结论
- Fantasy Mix-Lingual Tacotron Version 4修正版效果最好,可以达到混语言文本能够合成正常的效果
- Phoneme比Grapheme好得多
- 必须保留Language ID,不论输出端是否区分开不同语言的输入表示
- VAE模块的理解还不够,效果体现测试的不够。但直观上使得混语言文本合成效果各部分更加的自然
1.1.3. 未来工作
将Fantasy Mix-Lingual Tacotron Version 4修正版封装好上线网页版本
1.2. 阿里提出的跨语言音色转换结构
1.2.1. 基于Tacotron的PPG到MEL谱映射
- PPG降采样
- Fine-Tune冻结位置的尝试
- Fine-Tune程度的尝试
1.2.2. 代码实现
- 对比阿里相对于Tacotron的结构修正
- 基于r9y9的Pytorch实现
1.2.3. 未来工作
- 实现最优Fine-Tune的阿里结构PPG-TTS
1.3. AutoVC复现
复现AutoVC论文,并探究影响实验结果的条件
- Similar Loss: 从AutoVC的Content Loss中的推论,对于自编码结构的影响讨论
- 不同声学超参数提取对实验结果的影响
- AutoVC提出的维度与降采样的作用
- One-hot与Speaker Encoder方案的区别
实验结论应用于同事的论文中
2. 研究性
2.1. Voice Transfer跨语言合成方案
2.1.1. 思路
- 音色编码器为基础的提取音色信息的方案
- 不使用源语言语料进行声学模型训练
- 只使用目标语言语料训练声学模型
- 不适用目标说话人语料训练模型
- 只使用多个源说话人训练模型,依赖多个人建立出完善的音色特征空间
- 主要依赖于良好的Speaker Encoder模块,沟通目标音色和多个源音色之间的关系
2.1.2. 实验结果
- 实验跨语言合成效果远远好于之前方案
- 受限于音色建模和信息冲突,音色的相似性和合成稳定性仍不够好
2.1.3. 未来工作
- 参考台湾大学论文改进Voice Transfer跨语言合成方案,达到合成的稳定性
2.2. Similar Loss在PPG自编码TTS的作用
2.2.1. 思路
- CopyVC:使用Similar Loss的基于Google-19年Tacotron跨语言合成框架的PPG为输入的结构
2.2.1. 未来工作
- 完善CopyVC的思路并实现
3. 下阶段任务
- 将Fantasy Mix-Lingual Tacotron Version 4修正版封装好上线网页版本
- 实现最优Fine-Tune的阿里结构PPG-TTS
- 参考台湾大学论文改进Voice Transfer跨语言合成方案,达到合成的稳定性
- 从AutoVC以及参与论文中总结信息解耦方式,如similar loss的使用,用之于跨语言合成中
- 完善基于PPG自编码的CopyVC的思路并实现