2020-12-27-HCSI组会

1. 杰哥Cotatron

1.1. Transcription-guided

  • 借用预训练好的Tacotron的attention部分
  • mel提供两个地方, 和txt的拼接, 同时也residual信息单独送入Decoder
  • 刚好借鉴attention可以实现mel和txt拓展序列的对齐
  • L = matmul(A, Encoder(T))叫一个变量, 类似于PPG. 特别好的解耦了, 因为利用到了attention的机制

1.2. Tacotron + speaker encoder

借鉴了风格的reference encoder, 为甚么用它? 而不用one-hot?

1.3. Residual Encoder

L只能提供文本信息, 残差信息提供别的

  • 结构进行了bottleneck, 比较完备
  • 降维+采样
  • instacnce Norm, tanh
  • Smoothing Hann

最后只降到了1个向量, 类似于VAE Residual那部分, 但是结构设计又很像AutoVC

但是到底是什么样的信息呢? 比如类似于F0么?需要一个消融实验

1.4. VC decoder

目的比较简单, 但是使用的结构比较高级

  • GBlock
  • condition batch norm
  • speak id又用到了one hot

1.5. Cotatron Loss

两次训练, 所以两个loss

  • 比Tacotron-2多一个speaker id loss
  • VC训练的时候, 重构loss

1.6. ASR Any-to-Many

  • 完善了mel->txt->multi-speaker TTS的过程
  • 但是又借鉴了VC的合成手段, (1) decoder比较简单 (2) residual模块修正了ASR的错误, 吗?
  • 仍然纠结于speaker id的embedding使用
  • L为甚么不用PPG呢?有什么区别呢?其实PPG有两大类, 传统ASR, 和端到端的ASR的PPG, 现在又多了这样的L
  • 英文达又端到端的ASR

1.7. 数据量

使用的是VCTK来训练的对说话人one-hot many说话人, 400句一个人

2. 思磐FastPitch&FastSpeech2

2.1. Alignment的应用

  • 可以做硬对齐, 得到每个phoneme的duration
  • 可以得到每个phoneme的pitch
  • 应该是比ASR领域的Force Alignment得到的结果更加适合于TTS类任务吧
  • 硬对齐可以加一个优化, 比如再预测一个Gauss的参数, 就比整数更加的详细了
  • MFA也可以考虑下

2.2. 文本预测Pitch

有些过于平均了

  • 但是确实传统的TTS就是有一部韵律预测, 预测F0

2.3. Encoder的继承和知识蒸馏

  • 需要去看为甚么fastspeech不敢丢掉蒸馏, 但是后来的都敢丢掉
  • 假设: 传统的文本分析, 然后padding, 然后LSTM, 这样的模型都替换成Transformer结构, 效果就会很好. 不用自回归, 建模能力强大

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/111797125
今日推荐