AutoVC 和 RTVC 在 Cross-lingual TTS 中的对比

0. 说明

  • 提到 TTS, 总是想到输入为文本, 使用音色迁移的话, 大体上想到的就是 RTVC
  • 但输入是文本, 会束缚很多语料的使用, 毕竟需要准确的标注
  • 没有标注的话, 可以使用 PPG, 倒也是个中间的折中办法
  • 觉得 PPG 不准确的话, AutoVC 的方法也行, 并且不仅数据可获得了, 整个体系也更加的 "优美了", 比如可以使用 similar loss 了
  • Encoder 可以包含 PPG 提取过程的结构和代码, 同时增加正常的 AutoVC 结构, 它作为拼接/残差信息补充 PPG 信息

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/115019773
TTS