PPG-TTS-Tacotron-Rayhane-ALi: 用Tacotron跑降采样PPG到MEL

0. 说明

项目对应文件夹在: C:\Users\rucli\Desktop\2021-1-22-阿里PPG-TTS-Tacotron-跨语言

之前就跑过不降采样的, 已经能够出效果了: 

现在严格按照阿里论文复现

其中PPG的准备, 用之前版本的, 参考: https://blog.csdn.net/u013625492/article/details/109670529

1. 模型结构

1.1. Paper结构

具体的超参数参看1.2

本地化和Paper的区别在于:

  • PPG的维度, 中英文类别, ASR模型, 训练语料
  • 本地化LSTM中有0.1的Zone Out. 论文没有
  • 本地化声学参数使用mel-Rayhane标准, mel-PPG 标准. 论文lpc feature
  • TeacherForcing的比例. 论文没说
  • Encoder中CNN的dropout, Post-Net中dropout. 论文没说
  • Attention部分
  • Decoder中LSTM的输入拼接为[pre_out, last_context vector]. 论文图中是[pre_out, [last_context vector, last_LSTM_out]]

1.2. 本地化结构

(其实基本上就是Rayhane版本)

2. 训练算法

2.3. Fine-Tune 训练 + Frozen 控制

  1. Attention + Decoder    重训练, Encoder Frozen
  2. Decoder                      重训练, Encoder + Attention Frozen
  3. Conv Layer Post-Net  重训练,  Encoder + Attention + Decoder Frozen

3. PPG序列降采样算法

以下三种bottleneck方案对比

  • zone out结构
  • input sample
  • rnn后每32采最后一帧

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/112481217