2021-1-9-HCSI组会

其他 2021-01-23 03:27:05 阅读次数: 0

1. 欣陶singing voice conversion & fast svc

1.1. content and melody

这两部分不变, 改变speaker identity

是否改变pitch和f0, 和普通的音色转换不同
大范围的发音和pitch range
XXX
XXX没来得及记

1.2. 平行和非平行

基本base的还是encoder+对抗, 然后concat speaker embedding

加强pitch部分
啦啦啦数据, 和唱法编码器, straight, breathy等
ppg, 或者music representation, 这个能不能用在跨语言呢?他们是歌唱数据训asr
停顿, 重音, 情感, 可能在residual model中. 同时结合PPG, mel是帧级别的使用, 是mel regression

1.3. mel谱和vocoder

可能不合适

1.4. baseline svc

分模块, 拼接, CNN

1.5. fast svc

1.5.1. sine excitation

sine excitation类似于平时的哼哼

去掉uv后连续(二介导)的F0的一段音频 -> sine excitation -> wav_a -> ftt频谱 -> F0, 仍能保证F0和原来一样, 即连续

去掉uv后连续(二介导)的F0的一段音频 -> 人Speech 训出的WaveNet -> wav_a -> ftt频谱 -> F0, 不能保证F0和原来一样, 即连续

f0 -> 计算出 sine excitation

意义

不用频域的f0值, 用时域版本的e
e本身可以直接播放

1.5.2. Loudness

A-weighting, 模拟等响曲线

1.5.3. Linguistic Extractor/PPG 提取

松香师兄使用的ASR得到的向量, PPG, 新的方案

librispeech 预训练
歌声合成任务接着用, 但是允许权重训练

1.5.4. up-sample bock/FiLM-信息瓶颈拼接

平时我们就直接信息拼接起来

信息瓶颈模块拼接的好工具
可能跟多尺度也有关
反复使用shift和scale
也给了神经网络(结合relu抑制特性)的可解释性和调控
去看原论文举得: 属性信息和问题逻辑的模块的聚类分析
一方面不同采样级别得到不同信息, 一方面信息瓶颈拼接

1.5.5. MOS

专业人士录完歌曲, 用什么看?听?

f0 sine excitation, 连贯性: speech字断, sing 不断; 两个气, 一个是喉咙a, 一个是口腔出的气b. 韵母时, a=b, 声母时, a不同, 或者说a被暂时性的阻碍没有, 用来发音;
吸气, 换气, 的气
类似于f0东西, "气息"
loudness
speaker id
发音, 口音

2. 如何唱歌更好听

"情感": 对应的是广泛的很多东西

2.1. 装饰音

也叫倚音, "拐音"

2.2. 语感

语感和汉语拼音的声调结合起来的

音高和拼音声调结合起来

登登等登瞪....

一般按照乐谱, 而不是字的本身音调, 比如英文就没这个问题

那用英文唱歌迁移中国TTS

2.3. 换气

声断气不断

唤起和静默段并不一样, 如何标记?

2.4. 咬字/唱法

流行唱法

美声唱法

民族唱法

往韵母上靠;发音位置后靠; 长音时可能会将韵母逐步发生

"变厚了, 鼻音变多了, 更雄浑了"

播放器调节频率权重

2.5. 强弱

表达感情的有效方法

loudness

2.6. 其他

自然的颤音, 是人类托长音的时候, 气息变化必然产生的; 而合唱统一的时候, 刻意需要没有颤音; 并且不是周期性的颤音(很难听)

颤音如何好听; 颤音如何出现; 自然的颤音是为什么; 人们的审美颤音如何培养出来的

气息的控制

气生, 声音搭着气息

voice和unvoice的比例

源滤波器模型不够用, 加强生物的角度

气息的连续和声母的关系 z, c, s

伯努利原理

猜你喜欢

转载自blog.csdn.net/u013625492/article/details/112391108

2021-1-9-HCSI组会

2020-12-27-HCSI组会

D-组会1

2021-3-13组会 Overview of Voice Conversion

2021-3-6组会 Multi-Scale Emotion TTS 分享

2021-3-6组会图神经网络在 TTS 中的应用

2021-3-13组会 ASV 以及对抗样本攻击和预防分享

2021年12月27科研组会-科研绘图-Deeplabv3

上海市青少年算法2021年9月月赛（丙组）

9月2日组会，主题，老师教俺们写论文啦~~

5.26组会

组会总结

9个关键词速览两会看点 2021全国两会召开在即

日记、2021/9/30

日记2021/9/28

2021/11/9

2021-3-9

18/9/9牛客网提高组Day1

第一组：7 3 4 2 9 第二组：5 0 5 2 5 第三组：4 5 9 9 1 第四组：3 9 1 3 5 第五组：4 7 5 3 6 第六组：3 4 9 7 5 第七组：2 7 6 0 5 第八...

谷粒商城笔记(详细版) IDEA2021 高级篇1(2022/11/9)

CCNP 9 组播

P1271 【深基9.例1】选举学生会 (Java & C++)

5.17陈老师组会

日记2021/9/26在成都

牛客2021-9

bookmarks_2021_9_28

2018年9月8日提高组模拟赛 T1 最短路(path)

2018年9月22日提高组模拟赛 T1 遨游

2018年9月23日提高组模拟赛 T1 农夫约的假期

2018年9月15日提高组模拟赛 T1 购物

今日推荐

AI小程序有哪些？AI小程序哪个好用？微信小程序AI写作叫什么？免费的ai小程序推荐 ai写作小程序推荐

灵办AI工具(科研学术,代码编程,学习辅导,图书报告)功能介绍

Linux内核源码分析（非常详细）零基础入门到精通，收藏这一篇就够了

【C++篇】启航——初识C++（上篇）

数据飞轮崛起：数据中台真的过时了吗？

828华为云征文——使用Flexus云服务器X实例CentOS镜像下创建MySQL服务器教程

阿里巴巴出品的6款AI神器，你用过几个？

【机器学习】多模态AI——融合多种数据源的智能系统

HashiCorp 创始人向 Zig 软件基金会捐赠 30 万美元

1-8 月我国软件业务收入 85492 亿元，同比增长 11.2%

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

周排行

Ubuntu+apache2+php5+mysql+phpmyadmin的php环境搭建

基于YOLOv3+Kalman-Filter实现Multi-target tracking

解释C++实例化类的指针类型中的new

苹果手机页面不兼容问题——mui

Python基础语法

javascript学习笔记一【预解释】

python内置函数 map

【Git】使用webstorm操作git

this与super关键字（一）

python list 使用技巧

每日归档

更多

2024-10-04(63)

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)