智能家居时代,语音识别为基础的声控是个什么原理?

语音识别只是电器感知模式识别的一个分支,它从属于信号处理科学领域,同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器能够“听懂”人类口述的语言,这其中包括了两方面的含义:其一是逐字逐句听懂非转化成书面语言文字;其二是对口述语言中所包含的要求或询问加以理解,做出正确响应,而不拘泥于所有词的正确转换。

自动语音识别技术有三个基本原理:首先,语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次,语音是可以阅读的,即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下,用数十个具有区别性的、离散的符号来表示;再次,语音交互是一个认知过程,因而不能与语言的语法、语义和语用结构割裂开来。

而对于语音识别的预处理,则包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的选取和端点检测问题。在之后的特征提取过程,就是用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰等。

然后是训练阶段,即在识别之前通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。最后是模式匹配,这是整个语音识别系统的核心,它根据一定规则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等),计算输入特征与库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语意信息。

除此之外,语音识别技术还基于对语音的物理属性、生理属性和社会属性3个基本属性的分析。

1、语音的物理属性

所谓物理属性,主要包括音高、音长、音强和音色4个要素。音高是指声音的高低,主要决定于发音体振动速度的快慢;音长是指声音的长短,主要决定于发音体振动时间的久暂;音强是指声音的强弱,主要决定于发音体振动幅度的大小;音色是指声音的特色,主要决定于发音物体振动所形成的音波波纹曲折形式不同。

2、语音的生理属性

所谓生理属性,主要指发音器官对语音的影响,包括肺和气管、候头和声带以及口腔、鼻腔和咽腔等发音气官。

3、语音的社会属性

所谓社会属性,主要表现在3个方面,一是语音与意义之间并无必然联系,它们的对应关系是社会成员约定俗成的;二是各种语言或方言都有自己的语音系统;三是语音具有区别意义的作用。

语音识别的基本过程根据实际中的应用不同,语音识别系统可以分为:特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。但无论那种语音识别系统,其基本原理和处理方法都大体类似。

最后,智能电器通过语音识别的一系列过程做出相应的预设反应,这样就被人类声控了,所以这看似简单快捷的操控方式其实很复杂。如此,操控电器会变得非常简单,不用像现在这样,先看完枯燥乏味的说明书,或边看操作步骤边操控电器了。
  人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,有兴趣的朋友,可以查阅多智时代,在此为你推荐几篇优质好文:
自然语言理解过程主要有哪些层次,各层次的功能是怎么样?
http://www.duozhishidai.com/article-1726-1.html
如何快速入门NLP自然语言处理概述
http://www.duozhishidai.com/article-11742-1.html
什么是人脸识别,主要的应用于哪些场景?
http://www.duozhishidai.com/article-1246-1.html
人脸识别技术剖析
http://www.duozhishidai.com/article-3760-1.html
人脸识别的十个关键技术组成及原理
http://www.duozhishidai.com/article-14161-1.html
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/zhinengxuexi/article/details/86980847