0. 说明
项目对应文件夹在: C:\Users\rucli\Desktop\2021-1-22-阿里PPG-TTS-Tacotron-跨语言
之前就跑过不降采样的, 已经能够出效果了:
- 我的代码: https://github.com/ruclion/linears_decoder_tacotron-2-joee
- 欣陶的代码: https://github.com/ruclion/linears_decoder_tacotron-2-zhaoxt-tacoLinear
现在严格按照阿里论文复现
其中PPG的准备, 用之前版本的, 参考: https://blog.csdn.net/u013625492/article/details/109670529
1. 模型结构
1.1. Paper结构
具体的超参数参看1.2
本地化和Paper的区别在于:
- PPG的维度, 中英文类别, ASR模型, 训练语料
- 本地化LSTM中有0.1的Zone Out. 论文没有
- 本地化声学参数使用mel-Rayhane标准, mel-PPG 标准. 论文lpc feature
- TeacherForcing的比例. 论文没说
- Encoder中CNN的dropout, Post-Net中dropout. 论文没说
- Attention部分
- Decoder中LSTM的输入拼接为[pre_out, last_context vector]. 论文图中是[pre_out, [last_context vector, last_LSTM_out]]
1.2. 本地化结构
(其实基本上就是Rayhane版本)
2. 训练算法
2.3. Fine-Tune 训练 + Frozen 控制
- Attention + Decoder 重训练, Encoder Frozen
- Decoder 重训练, Encoder + Attention Frozen
- Conv Layer Post-Net 重训练, Encoder + Attention + Decoder Frozen
3. PPG序列降采样算法
以下三种bottleneck方案对比
- zone out结构
- input sample
- rnn后每32采最后一帧