语音识别(speech recognition) 利用计算机自动对语音信号的音素、音节或词进行识别的技术总称。语音识别是实现语音自动控制的基础。
语音识别起源于20世纪50年代的“口授打字机”梦想,科学家在掌握了元音的***振峰变迁问题和辅音的声学特性之后,相信从语音到文字的过程是可以用机器实现的,即可以把普通的读音转换成书写的文字。语音识别的理论研究已经有40多年,但是转入实际应用却是在数字技术、集成电路技术发展之后,现在已经取得了许多实用的成果。
语音识别一般要经过以下几个步骤:①语音预处理,,包括对语音的幅度标称化、频响校正、分帧、加窗和始末端点检测等内容。②语音声学参数分析,包括对语音***振峰频率、幅度等参数,以及对语音的线性预测参数、倒谱参数等的分析。③参数标称化,主要是时间轴上的标称化,常用的方法有动态时间规整(DTW),或动态规划方法(DP)。④模式匹配,可以采用距离准则或概率规则,也可以采用句法分类等。⑤识别判决,通过最后的判别函数给出识别的结果。
语音识别可按不同的识别内容进行分类:有音素识别、音节识别、词或词组识别;也可以按词汇量分类:有小词汇量(50个词以下)、中词量(50~500个词)、大词量(500个词以上)及超大词量(几十至几万个词)。按照发音特点分类:可以分为孤立音、连接音及连续音的识别。按照对发音人的要求分类:有认人识别,即只对特定的发话人识别,和不认人识别,即不分发话人是谁都能识别。显然,最困难的语音识别是大词量、连续音和不识人同时满足的语音识别。