1. 欣陶singing voice conversion & fast svc
1.1. content and melody
这两部分不变, 改变speaker identity
- 是否改变pitch和f0, 和普通的音色转换不同
- 大范围的发音和pitch range
- XXX
- XXX没来得及记
1.2. 平行和非平行
基本base的还是encoder+对抗, 然后concat speaker embedding
- 加强pitch部分
- 啦啦啦数据, 和唱法编码器, straight, breathy等
- ppg, 或者music representation, 这个能不能用在跨语言呢?他们是歌唱数据训asr
- 停顿, 重音, 情感, 可能在residual model中. 同时结合PPG, mel是帧级别的使用, 是mel regression
1.3. mel谱和vocoder
可能不合适
1.4. baseline svc
分模块, 拼接, CNN
1.5. fast svc
1.5.1. sine excitation
sine excitation类似于平时的哼哼
去掉uv后连续(二介导)的F0的一段音频 -> sine excitation -> wav_a -> ftt频谱 -> F0, 仍能保证F0和原来一样, 即连续
去掉uv后连续(二介导)的F0的一段音频 -> 人Speech 训出的WaveNet -> wav_a -> ftt频谱 -> F0, 不能保证F0和原来一样, 即连续
f0 -> 计算出 sine excitation
意义
- 不用频域的f0值, 用时域版本的e
- e本身可以直接播放
1.5.2. Loudness
A-weighting, 模拟等响曲线
1.5.3. Linguistic Extractor/PPG 提取
松香师兄使用的ASR得到的向量, PPG, 新的方案
- librispeech 预训练
- 歌声合成任务接着用, 但是允许权重训练
1.5.4. up-sample bock/FiLM-信息瓶颈拼接
平时我们就直接信息拼接起来
- 信息瓶颈模块拼接的好工具
- 可能跟多尺度也有关
- 反复使用shift和scale
- 也给了神经网络(结合relu抑制特性)的可解释性和调控
- 去看原论文举得: 属性信息和问题逻辑的模块的聚类分析
- 一方面不同采样级别得到不同信息, 一方面信息瓶颈拼接
1.5.5. MOS
专业人士录完歌曲, 用什么看?听?
- f0 sine excitation, 连贯性: speech字断, sing 不断; 两个气, 一个是喉咙a, 一个是口腔出的气b. 韵母时, a=b, 声母时, a不同, 或者说a被暂时性的阻碍没有, 用来发音;
- 吸气, 换气, 的气
- 类似于f0东西, "气息"
- loudness
- speaker id
- 发音, 口音
2. 如何唱歌更好听
"情感": 对应的是广泛的很多东西
2.1. 装饰音
也叫倚音, "拐音"
2.2. 语感
语感和汉语拼音的声调结合起来的
音高和拼音声调结合起来
登登等登 瞪....
一般按照乐谱, 而不是字的本身音调, 比如英文就没这个问题
那用英文唱歌迁移中国TTS
2.3. 换气
声断气不断
唤起和静默段并不一样, 如何标记?
2.4. 咬字/唱法
流行唱法
美声唱法
民族唱法
往韵母上靠;发音位置后靠; 长音时可能会将韵母逐步发生
"变厚了, 鼻音变多了, 更雄浑了"
播放器调节频率权重
2.5. 强弱
表达感情的有效方法
loudness
2.6. 其他
自然的颤音, 是人类托长音的时候, 气息变化必然产生的; 而合唱统一的时候, 刻意需要没有颤音; 并且不是周期性的颤音(很难听)
颤音如何好听; 颤音如何出现; 自然的颤音是为什么; 人们的审美颤音如何培养出来的
气息的控制
气生, 声音搭着气息
voice和unvoice的比例
源滤波器模型不够用, 加强生物的角度
气息的连续和声母的关系 z, c, s
伯努利原理