0. 说明
- 提到 TTS, 总是想到输入为文本, 使用音色迁移的话, 大体上想到的就是 RTVC
- 但输入是文本, 会束缚很多语料的使用, 毕竟需要准确的标注
- 没有标注的话, 可以使用 PPG, 倒也是个中间的折中办法
- 觉得 PPG 不准确的话, AutoVC 的方法也行, 并且不仅数据可获得了, 整个体系也更加的 "优美了", 比如可以使用 similar loss 了
- Encoder 可以包含 PPG 提取过程的结构和代码, 同时增加正常的 AutoVC 结构, 它作为拼接/残差信息补充 PPG 信息