讲座笔记：对抗学习+深度学习在语音上的应用

西工大谢磊老师的讲座

背景：现在语音识别准确率可以做的很高，但一些场景下效果非常差，比如说一个party的场景，多人谈话，且噪声很大，GMM和end-to-end错误率高达90%以上
挑战：普遍化，个人化，资源少
应用场景：Noise，比如手机通话降噪；识别方言口音；TTS personalied，通过明星录的特定的20-50句话可以合成出他的音色
两个具体研究的方向：DL + Adversarial Training (DAT)；数据扩增
DAT：
很多场景下test和train数据分布不一样，工业界上更多的是要求模型能够应用在更多的场景下，作为传统电子硬件的一种补充。（能耗上，工程实践上问题还存在很多）
语音识别：
两个分类器L1，L2，L1用来识别语音特征，L2用来识别类别特征，loss为L = L1 - L2. 利用对抗学习使L2混淆，分辨不出类别，从而使L1提取的特征更加普遍化，使模型不只适用于特定场景。
数据扩增：
一种方法是加不同场景的噪声，一种方法是转变音色
Eg. Amazon音箱训练数据是原始数据的5万倍
语音相比较图像对noise更加敏感，往往只加很小噪声对结果影响很大。对数据加一个小噪声，这种人耳很难分辨出来前后的区别，但是模型很敏感，可能就被分到另一个类别去了，所以将其强制分类为正确类别，可以使准确率得到提高。
conditional GAN 条件给语义信息，用来做语音合成，相比较于普遍的MSE loss，可以得到听起来更舒服的结果。
end to end TTS
例如google做的wavenet等
输入一大段文本，转化为的语音要有语调和韵律上的变化。
方法tacotron+VQ

讲座笔记：对抗学习+深度学习在语音上的应用

猜你喜欢