时间:2019
作者:Marco Pasini
abstract
使用GAN网络进行非平行数据的VC变换,而且可以用于音乐上的风格迁移。
3. Model
对于 M × t M\times t M×t的语音,固定为 M × L M\times L M×L的片段(L<t),然后每次送入 M × L / 2 M\times L/2 M×L/2的片段给生成器,生成等长的片段,再给判别器。最后把生成的进行拼接。
3.2 Adversarial Loss
- hinge loss:生成器生成,判别器区分生成的还是真实的
3.3 TraVeL Loss
-
保证转换前后内容一致:通过cosine similarity and euclidean distance保证转换vector的角度和幅度和source一致;
-
cosine_similarity
-
siamese margin-based contrastive loss
3.4 Identity Mapping
尽管有3.3的限制,但是还是有一些文本信息没有保留下来,