1. 杰哥Cotatron
1.1. Transcription-guided
- 借用预训练好的Tacotron的attention部分
- mel提供两个地方, 和txt的拼接, 同时也residual信息单独送入Decoder
- 刚好借鉴attention可以实现mel和txt拓展序列的对齐
- L = matmul(A, Encoder(T))叫一个变量, 类似于PPG. 特别好的解耦了, 因为利用到了attention的机制
1.2. Tacotron + speaker encoder
借鉴了风格的reference encoder, 为甚么用它? 而不用one-hot?
1.3. Residual Encoder
L只能提供文本信息, 残差信息提供别的
- 结构进行了bottleneck, 比较完备
- 降维+采样
- instacnce Norm, tanh
- Smoothing Hann
最后只降到了1个向量, 类似于VAE Residual那部分, 但是结构设计又很像AutoVC
但是到底是什么样的信息呢? 比如类似于F0么?需要一个消融实验
1.4. VC decoder
目的比较简单, 但是使用的结构比较高级
- GBlock
- condition batch norm
- speak id又用到了one hot
1.5. Cotatron Loss
两次训练, 所以两个loss
- 比Tacotron-2多一个speaker id loss
- VC训练的时候, 重构loss
1.6. ASR Any-to-Many
- 完善了mel->txt->multi-speaker TTS的过程
- 但是又借鉴了VC的合成手段, (1) decoder比较简单 (2) residual模块修正了ASR的错误, 吗?
- 仍然纠结于speaker id的embedding使用
- L为甚么不用PPG呢?有什么区别呢?其实PPG有两大类, 传统ASR, 和端到端的ASR的PPG, 现在又多了这样的L
- 英文达又端到端的ASR
1.7. 数据量
使用的是VCTK来训练的对说话人one-hot many说话人, 400句一个人
2. 思磐FastPitch&FastSpeech2
2.1. Alignment的应用
- 可以做硬对齐, 得到每个phoneme的duration
- 可以得到每个phoneme的pitch
- 应该是比ASR领域的Force Alignment得到的结果更加适合于TTS类任务吧
- 硬对齐可以加一个优化, 比如再预测一个Gauss的参数, 就比整数更加的详细了
- MFA也可以考虑下
2.2. 文本预测Pitch
有些过于平均了
- 但是确实传统的TTS就是有一部韵律预测, 预测F0
2.3. Encoder的继承和知识蒸馏
- 需要去看为甚么fastspeech不敢丢掉蒸馏, 但是后来的都敢丢掉
- 假设: 传统的文本分析, 然后padding, 然后LSTM, 这样的模型都替换成Transformer结构, 效果就会很好. 不用自回归, 建模能力强大