0. 说明

记录的是2020-12-16到2021-1-16之间的工作

1. 工程性

1.1. 商业化混语言合成系统完善

接上月的工作，在有双语语料的前提下，实现混语言文本的合成

这部分的系统名称为：Fantasy Mix-Lingual Tacotron

1.1.1. 实验细节

使用的语料有：使用实验室标贝双语数据集训练，平安科技公司的春春虚拟双语语料

总共尝试的模型有：

Fantasy Mix-Lingual Tacotron Version 2: 使用Grapheme，保留Language ID，使用VAE模块
Fantasy Mix-Lingual Tacotron Version 4: 使用Phoneme，保留Language ID，使用VAE模块
Fantasy Mix-Lingual Tacotron Version 5: 使用Phoneme，保留Language ID，去除VAE模块
Fantasy Mix-Lingual Tacotron Version 6: 使用Phoneme，去除Language ID，使用VAE模块
Fantasy Mix-Lingual Tacotron Version 7: 使用Phoneme，去除Language ID，去除VAE模块
Fantasy Mix-Lingual Tacotron Version 4修正版: Language ID提前到TXT Encoding处拼接，其余不变

1.1.2. 实验现象和结论

Fantasy Mix-Lingual Tacotron Version 4修正版效果最好，可以达到混语言文本能够合成正常的效果
Phoneme比Grapheme好得多
必须保留Language ID，不论输出端是否区分开不同语言的输入表示
VAE模块的理解还不够，效果体现测试的不够。但直观上使得混语言文本合成效果各部分更加的自然

1.1.3. 未来工作

将Fantasy Mix-Lingual Tacotron Version 4修正版封装好上线网页版本

1.2. 阿里提出的跨语言音色转换结构

1.2.1. 基于Tacotron的PPG到MEL谱映射

PPG降采样
Fine-Tune冻结位置的尝试
Fine-Tune程度的尝试

1.2.2. 代码实现

对比阿里相对于Tacotron的结构修正
基于r9y9的Pytorch实现

1.2.3. 未来工作

实现最优Fine-Tune的阿里结构PPG-TTS

1.3. AutoVC复现

复现AutoVC论文，并探究影响实验结果的条件

Similar Loss: 从AutoVC的Content Loss中的推论，对于自编码结构的影响讨论
不同声学超参数提取对实验结果的影响
AutoVC提出的维度与降采样的作用
One-hot与Speaker Encoder方案的区别

实验结论应用于同事的论文中

2. 研究性

2.1. Voice Transfer跨语言合成方案

2.1.1. 思路

音色编码器为基础的提取音色信息的方案
不使用源语言语料进行声学模型训练
只使用目标语言语料训练声学模型
不适用目标说话人语料训练模型
只使用多个源说话人训练模型，依赖多个人建立出完善的音色特征空间
主要依赖于良好的Speaker Encoder模块，沟通目标音色和多个源音色之间的关系

2.1.2. 实验结果

实验跨语言合成效果远远好于之前方案
受限于音色建模和信息冲突，音色的相似性和合成稳定性仍不够好

2.1.3. 未来工作

参考台湾大学论文改进Voice Transfer跨语言合成方案，达到合成的稳定性

2.2. Similar Loss在PPG自编码TTS的作用

2.2.1. 思路

CopyVC：使用Similar Loss的基于Google-19年Tacotron跨语言合成框架的PPG为输入的结构

2.2.1. 未来工作

完善CopyVC的思路并实现

3. 下阶段任务

将Fantasy Mix-Lingual Tacotron Version 4修正版封装好上线网页版本
实现最优Fine-Tune的阿里结构PPG-TTS
参考台湾大学论文改进Voice Transfer跨语言合成方案，达到合成的稳定性
从AutoVC以及参与论文中总结信息解耦方式，如similar loss的使用，用之于跨语言合成中
完善基于PPG自编码的CopyVC的思路并实现

专业实践记录II: 端到端跨语言音色迁移语音合成