如何解释语音识别的技术原理？

语音识别，是人工智能的重要入口，越来越火。从京东科大讯飞合作的叮咚，亚马逊的明星产品Echo，到最近一个月谷歌Master和百度小度掀起的人机大战，赚够了眼球。但语音只是个入口，内容或者说引导用户做决策乃至消费，才是王道。.语音识别系统，分训练和解码两阶段。训练，即通过大量标注的语音数据训练声学模型，包括GMM-HMM、DNN-HMM和RNN+CTC等；解码，即通过声学模型和语言模型将训练集外的语音数据识别成文字。目前常用的开源工具有HTK Speech Recognition Toolkit，Kaldi ASR以及基于Tensorflow(speech-to-text-wavenet)实现端到端系统。我以古老而又经典的HTK为例，来阐述语音识别领域涉及到的概念及其原理。HTK提供了丰富的语音数据处理，以及训练和解码的工具。语音识别，分为孤立词和连续词语音识别系统。早期，1952年贝尔实验室和1962年IBM实现的都是孤立词（特定人的数字及个别英文单词）识别系统。连续词识别，因为不同人在不同的场景下会有不同的语气和停顿，很难确定词边界，切分的帧数也未必相同；而且识别结果，需要语言模型来进行打分后处理，得到合乎逻辑的结果。