【LVCSR】各种大词表连续语音识别技术，它们之间的异同，并比较优缺点。

视听觉信息理解的作业~
我感觉对整个大词表连续语音识别技术理解很有帮助……自己根据ppt和参考网址整理了一下，

写作业的同学误盲目抄袭0-0谢谢

参考网址：

http://www.infocomm-journal.com/dxkx/article/2018/1000-0801/1000-0801-34-2-00001.shtml
https://blog.csdn.net/itas109/article/details/78568591
https://blog.csdn.net/qq_36962569/article/details/88427221#gmmubm_6

基本按照时间线排列~~~
一、请线索清晰地介绍各种大词表连续语音识别技术，说清楚它们之间的异同，并比较优缺点。
大词汇量连续语音识别技术（LVCSR）主要存在的问题：1.词（模式）的数量太多，语料不够。2.发音相近的内容多，误识严重。

1.以隐马尔可夫模型方法为代表的基于统计模型方法

时间：上世纪90年代末;
人物：李开复和他的sphinx
原理和方法：基于GMM-HMM的lvcsr系统的统一框架，将整个识别系统分为三层：声学—语音层（每一个子词用一个HMM模型及一套参数来表示）、词层（需要词典）和句法层（通过语言模型评价所有可能的句子候选的合理性）。
缺点：GMM建模能力不足。GMM是生成式模型，区分能力不足

2.人工神经网络ANN替换GMM

时间：20世纪80年代末。
方法：属于浅层神经网络。
效果：在语音识别任务上的效果一般，表现并不如GMM-HMM 模型。

3.基于 GMM-HMM 声学模型的区分性训练准则和模型自适应方法。

时间：20世纪90年代末。
代表：剑桥发布的HTK开源工具包。

4.深度置信网络DBN（使用受限波尔兹曼机对神经网络的节点做初始化）

时间：2006年。
人物：Hinton。
优点：DBN解决了深度神经网络训练过程中容易陷入局部最优的问题。

5.DNN-HMM：

时间：2011; 基于深度神经网络的建模方式正式取代GMM-HMM，成为主流的语音识别建模方式，也就是DNN-HMM声学模型。
区别：采用DNN替换GMM模型来建模语音观察概率，是其和传统的 GMM-HMM 语音识别系统最大的不同。
优点：DNN 可以将相邻的语音帧拼接起来作为输入特征，使得更长时的结构信息得以描述；DNN的输入特征可以是多种特征的融合，也可以是离散或者连续的特征；不需要对语音数据分布进行假设，更强大的建模能力；训练过程可以采用随机优化算法来实现，因此当训练数据规模较大时也能进行非常高效的训练；在发音模式分类上，DNN这种判别式模型也要比GMM这种生产式模型更加适合；无监督预训。
挑战：对每个输入，都应该有其对应的类别标签（目标值）。然而Triphone状态无法手工分割标注。只能先训练一个GMM-HMM模型，在训练语料上进行强制对齐（Force alignment），得到每帧的状态级标注。直接使用反向传播算法训练效果不佳，常常过拟合，尤其是采用sigmoid激活函数时尤其严重。①常收敛于较差的局部解+②梯度消失，只能分为无监督的预训练(Pre-training)和有监督的区分性调整(Fine-tuning)两个阶段。
区别：除了用DNN来计算观察概率外，其它与GMM-HMM无差别。
缺点：转移概率只跟前一个时刻有关，无法对长时依赖性建模，帧的观察概率只跟当前状态有关，跟历史状态和历史帧无关。

6. 循环神经网络（RNN）-HMM

优点：具有更强的长时建模能力。对于语音这种时序信号来说，使用RNN建模显得更加适合。因为前后具有一定的关联性。
差异：RNN在隐层上增加了一个反馈连接，是其和DNN最大的不同。这意味着RNN 的隐层当前时刻的输入不但包括了来自上一层的输出，还包括前一时刻的隐层输出，这种循环反馈连接使得RNN原则上可以看到前面所有时刻的信息，这相当于RNN具备了历史记忆功能。
缺点：传统的 RNN 在训练过程中存在梯度消失的问题，导致该模型难以训练。海量数据下的RNN模型训练需要耗费大量的时间。由于RNN对上下文相关性的拟合较强，相对于DNN更容易陷入过拟合的问题，容易因为训练数据的局部问题而带来额外的异常识别错误。必须等待语音输入结束才能对当前语音帧进行判断。
优点：RNN没有马尔科夫假设，可以考虑很长的历史信息，RNN是深层模型，表示能力更强，RNN可以和DNN部分联合训练，不再是独立的两部分。

7. 长短时记忆RNN（LSTM）

方法：LSTM-RNN 使用输入门、输出门和遗忘门来控制信息流，使得梯度能在相对更长的时间跨度内稳定地传播。
优点：通过精妙的门控制将短期记忆与长期记忆结合起来，并且一定程度上解决了梯度消失的问题。

8．LSTM变体1：BLSTM-RNN

优点：双向LSTM-RNN （BLSTM-RNN）对当前帧进行处理时，可以利用历史的语音信息和未来的语音信息，从而容易进行更加准确的决策，因此也能取得比单向LSTM更好的性能提升。
缺点：尽管双向LSTM-RNN的性能更好，但它并不适合实时系统，由于要利用较长时刻的未来信息，会使得该系统具有很大时延，主要用于一些离线语音识别任务。

9.变体2：延迟受控 BLSTM-RNN，行卷积 BLSTM等。

方法：试图构建单向LSTM和BLSTM之间的折中：即前向LSTM保持不变，针对用来看未来信息的反向LSTM做了优化。在LC-BLSTM结构中，标准的反向LSTM被带有最多N帧前瞻量的反向LSTM替代，而在行卷积模型中被集成了N帧前瞻量的行卷积替代。
优点：性能折中。
缺点：时延过大。

10.FSMN（前馈型序列记忆网络）

人物：科大讯飞。
方法：FSMN的结构采用非循环的前馈结构，只需要180 ms的时延，就达到了和BLSTM-RNN相当的效果。它是基于传统DNN结构的改进，在DNN的隐层旁增加了一个“记忆模块”，这个记忆模块用来存储对判断当前语音帧有用的语音信号的历史信息和未来信息。FSMN 记忆块的记忆功能是使用前馈结构实现的，这点有别于传统的基于循环反馈的 RNN 模型。
优点：双向FSMN对未来信息进行记忆时只需要等待有限长度的未来语音帧即可，这个优点使得FSMN的时延是可控的。FSMN也具有类似LSTM 的长时记忆能力，这相当于使用了一种更为简单的方式解决了传统 RNN 中的梯度消失问题。FSMN完全基于前馈神经网络结构，也使得它的并行度更高，GPU计算能力可利用得更加充分，从而获得效率更高的模型训练过程，并且FSMN结构在稳定性方面也表现得更加出色。
区别：和RNN的区别：双向FSMN对未来信息进行记忆时只需要等待有限长度的未来语音帧即可；和DNN的区别：完全基于前馈展开，在模型训练过程中，梯度则沿着记忆块与隐层的连接权重往回传给各个时刻，对判断当前语音帧的影响的信息通过这些连接权重来决定，而且这种梯度传播是可训练的，并且在任何时刻都是常数衰减，以上的实现方式使得FSMN也具有了类似LSTM 的长时记忆能力。

10.基于卷积神经网络（CNN）的语音识别训练（CLDNN）：

方法：核心是卷积运算（或卷积层），是另一种可以有效利用长时上下文语境信息的模型。
优点：解决频率轴的多变性来提升模型的稳定性，因为该混合模型中的 HMM 已经有很强的处理语音识别中可变长度话语问题的能力。
发展：CNN-LSTM-DNN（CLDNN）架构。仍然采用固定长度的语音帧拼接作为输入的传统前馈神经网络的思路，导致模型不能看到足够的上下文信息；采用的卷积层数很少，一般只有1～2层，把CNN视作一种特征提取器来使用。
缺点：必须预先训练一个GMM-HMM声学模型，再进行自动对齐标注，以得到状态标签，对齐的准确性严重依赖于GMM-HMM模型的可靠性，不论是GMM-HMM声学模型训练，还是语音对齐过程，都需要进行反复多次的迭代，非常耗时，分阶段训练不合理。

11. 全序列卷积神经网络DFCNN

时间：2016年。
原理：把语谱图看作带有特定模式的图像，而有经验的语音学专家能够从中看出里面说的内容。
方法：DFCNN的结构中把时间和频率作为图像的两个维度，通过较多的卷积层和池化（pooling）层的组合，实现对整句语音的建模。
优点：DFCNN将语谱图作为输入，避免了频域和时域两个维度的信息损失，具有天然的优势，为了增强 CNN 的表达能力， DFCNN 借鉴了在图像识别中表现最好的网络配置，能获取足够长的历史和未来信息; 在顽健性上表现更加出色。DFCNN比较灵活，可以方便地和其他建模方式融合，比如和连接时序分类模型（CTC）方案结合。DFCNN系统获得了额外15%的性能提升。
缺点：DNN声学模型的训练非常耗时。深度神经网络的模型参数非常稀疏。
改进：用两个低秩矩阵的乘积表示权重矩阵，实现了30%～50%的效率提升或使用多个CPU或者GPU并行训练来解决神经网络训练效率。

12.基于CTC的端到端语音识别：

方法：基于神经网络的时序信号分类，CTC一般用RNN实现。
优点：解决seq2seq问题。输入信号序列，输出标签序列。在输入序列映射到输出序列的过程中，CTC不要求序列基元间的对齐关系。

13.基于Attention的语音识别算法：

时间：2014.
方法：将Attention机制加入到目前的编码器-解码器模型（Encoder-Decoder）中，并成功应用到了机器翻译中，同时取得了目前最好的效果。
优点：打破了依赖于内部一个固定长度的解码向量的限制。
挑战：语音识别任务的输入序列长度通常较长，这会极大的增加Attention学习的难度。现有的Attention机制不一定适合语音识别任务，需要根据语音的特点针对语言识别任务提出对应的Attention机制。
缺点：需要大量的训练数据，对长语音不友好，按字符数量规整，加入语言模型（结果到底是语言模型生成，还是信号模型生成的，不可知）
例子：2016年Google提出了Listen，attention and spell（LAS）模型，第一次成功的将Attention机制应用到了LVCSR系统中。

甜甜圈Sweety

发布了140 篇原创文章 · 获赞 114 · 访问量 18万+

私信关注