讲座笔记:对抗学习+深度学习在语音上的应用

西工大谢磊老师的讲座

  • 背景:现在语音识别准确率可以做的很高,但一些场景下效果非常差,比如说一个party的场景,多人谈话,且噪声很大,GMM和end-to-end错误率高达90%以上
  • 挑战:普遍化,个人化,资源少
  • 应用场景:Noise,比如手机通话降噪;识别方言口音;TTS personalied,通过明星录的特定的20-50句话可以合成出他的音色
  • 两个具体研究的方向:DL + Adversarial Training (DAT);数据扩增
  • DAT:
    很多场景下test和train数据分布不一样,工业界上更多的是要求模型能够应用在更多的场景下,作为传统电子硬件的一种补充。(能耗上,工程实践上问题还存在很多)
  • 语音识别:
    两个分类器L1,L2,L1用来识别语音特征,L2用来识别类别特征,loss为L = L1 - L2. 利用对抗学习使L2混淆,分辨不出类别,从而使L1提取的特征更加普遍化,使模型不只适用于特定场景。
  • 数据扩增:
    一种方法是加不同场景的噪声,一种方法是转变音色
    Eg. Amazon音箱训练数据是原始数据的5万倍
    语音相比较图像对noise更加敏感,往往只加很小噪声对结果影响很大。对数据加一个小噪声,这种人耳很难分辨出来前后的区别,但是模型很敏感,可能就被分到另一个类别去了,所以将其强制分类为正确类别,可以使准确率得到提高。
    conditional GAN 条件给语义信息,用来做语音合成,相比较于普遍的MSE loss,可以得到听起来更舒服的结果。
  • end to end TTS
    例如google做的wavenet等
    输入一大段文本,转化为的语音要有语调和韵律上的变化。
    方法tacotron+VQ

猜你喜欢

转载自blog.csdn.net/thormas1996/article/details/80919917