2020-12-27-HCSI组会

其他 2021-01-23 03:28:49 阅读次数: 0

1. 杰哥Cotatron

1.1. Transcription-guided

借用预训练好的Tacotron的attention部分
mel提供两个地方, 和txt的拼接, 同时也residual信息单独送入Decoder
刚好借鉴attention可以实现mel和txt拓展序列的对齐
L = matmul(A, Encoder(T))叫一个变量, 类似于PPG. 特别好的解耦了, 因为利用到了attention的机制

1.2. Tacotron + speaker encoder

借鉴了风格的reference encoder, 为甚么用它? 而不用one-hot?

1.3. Residual Encoder

L只能提供文本信息, 残差信息提供别的

结构进行了bottleneck, 比较完备
降维+采样
instacnce Norm, tanh
Smoothing Hann

最后只降到了1个向量, 类似于VAE Residual那部分, 但是结构设计又很像AutoVC

但是到底是什么样的信息呢? 比如类似于F0么?需要一个消融实验

1.4. VC decoder

目的比较简单, 但是使用的结构比较高级

GBlock
condition batch norm
speak id又用到了one hot

1.5. Cotatron Loss

两次训练, 所以两个loss

比Tacotron-2多一个speaker id loss
VC训练的时候, 重构loss

1.6. ASR Any-to-Many

完善了mel->txt->multi-speaker TTS的过程
但是又借鉴了VC的合成手段, (1) decoder比较简单 (2) residual模块修正了ASR的错误, 吗?
仍然纠结于speaker id的embedding使用
L为甚么不用PPG呢?有什么区别呢?其实PPG有两大类, 传统ASR, 和端到端的ASR的PPG, 现在又多了这样的L
英文达又端到端的ASR

1.7. 数据量

使用的是VCTK来训练的对说话人one-hot many说话人, 400句一个人

2. 思磐FastPitch&FastSpeech2

2.1. Alignment的应用

可以做硬对齐, 得到每个phoneme的duration
可以得到每个phoneme的pitch
应该是比ASR领域的Force Alignment得到的结果更加适合于TTS类任务吧
硬对齐可以加一个优化, 比如再预测一个Gauss的参数, 就比整数更加的详细了
MFA也可以考虑下

2.2. 文本预测Pitch

有些过于平均了

但是确实传统的TTS就是有一部韵律预测, 预测F0

2.3. Encoder的继承和知识蒸馏

需要去看为甚么fastspeech不敢丢掉蒸馏, 但是后来的都敢丢掉
假设: 传统的文本分析, 然后padding, 然后LSTM, 这样的模型都替换成Transformer结构, 效果就会很好. 不用自回归, 建模能力强大

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/111797125

2020-12-27-HCSI组会

2021-1-9-HCSI组会

2020-12-31实习组会

2020-12-27

2021年12月27科研组会-科研绘图-Deeplabv3

2020-12-27 回顾，ManyResaultExption

12-21 组会论文阅读

2020系统综合实践期末大作业 27组

2020年10月27日普及组(校网)

2020-12-27日常愚蠢错误集合

12 27

2020系统综合实践第6次实践作业 27组

84、Linux命令——2020年07月27日12:51:44

27组评价

12月27日

2011-12-27

2018/12/27

12-27

2019-12-27

2020-01-27

2020/02/27

2020-2-27

2020/2/27

2020-02-27

2020/3/27

2020-3-27

2020-03-27

2020 4 27

2020/4/27

2020-05-27

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)