基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第三步 Module-EarSpeech 解耦思路

0. 说明

为了在训练中使用中国人说中文, 下面的策略均可以单独以及组合尝试:

  • (1) 在 Decoder RNN 中, 用中文训练时, 加大 Zone Out, 前后联系干扰的更多些
  • (2) 遗忘门梯度不更新, 遗忘率接近一百. 当前帧主要依赖于当前 Input. 语言 (音) 模型主要靠前几帧能预测出下一帧, 相当于先验概率. 此时把先验概率给关了, 因为中文的先验概率是没用的, 错误的, 我们只需要 Context -> Mel 的映射
  • (3) 可以从中国人说中文的数据角度, 进行根据 PPG 或者 Encoded TxT 来 mapping, 替换后去掉帧与帧之间的关系, 只保留帧本身有一定的准确性. 用该数据去训练 Decoder RNN. 当然这样会不会破坏已有的 EN Decoder 语音模型, 用不用结合 (1) (2), 或者是先用 (3) 中文训, 再正常的英文训, 这么个顺序, 都需要尝试
  • 在 MEL 谱上去进行音色和语音模型的描述, 先建模
  • 学习 GAN 的思路, 先生成不同特点的部分, 然后分别 判别, 之后组装在一起, 重构
  • 比如: 最简化的, 如何用中国人说中文的 MEL 谱去 Fine-Tune 呢? 不能用它的 MEL 谱和生成的 MEL 谱去算 Loss, 这样会把语音模型和音色同时带入. 将生成的 MEL 谱送入 N 个 Frozen 的 ASV, 然后得到的 N 个说话人 embedding, 和这句话中国人 GroundTruth 送入 N 个 Frozen 的 ASV 进行 Loss. 自己和自己的, 可能权重是 1, 自己和别人的, 可能权重是 0.5
  • (4) 和 (3) 中类似, 和 LSTM 解决翻译问题一样的技巧, 将序列倒序, 然后进行 Decoder 的训练
  • 更改 Decoder RNN 为 CNN, 既块, 又便于建模语音模型和音色映射. 或者用 HMM 模型来描述 Decoder, 这样非常的显性, 需要多说话人 HMM TTS

1. LSTM 论文

单独开一篇, 讲 LSTM 的论文

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/114825110