Keras深度学习实战(41)——语音识别
0.前言
语音识别(Automatic Speech Recognition
, ASR
,或称语音转录文本)使声音变得"可读",让计算机能够"听懂"人类的语言并做出相应的操作,是人工智能实现人机交互的关键技术之一。在《图像字幕生成》一节中,我们已经学习了如何将手写文本图像转录为文本,在本节中,我们将利用类似的端到端模型实现将语音转录文本模型,将语音文件转录为文字。
1. 模型与数据集分析
1.1 数据集分析
为了构建语音转录文本模型,我们所使用的数据集中包含了大约