语音识别中区分性训最大似然估计的区别是什么？

语音识别系统的一般架构如左图，分训练和解码两阶段。训练，即通过大量标注的语音数据训练声学模型，包括GMM-HMM、DNN-HMM和RNN+CTC等；解码，即通过声学模型和语言模型将训练集外的语音数据识别成文字。目前常用的开源工具有HTK Speech Recognition Toolkit，Kaldi ASR以及Tensorflow(speech-to-text-wavenet)实现端到端系统。我以古老而又经典的HTK为例，来阐述语音识别领域涉及到的概念及其原理。HTK提供了丰富的语音数据处理，以及训练和解码的工具。语音识别，分为孤立词和连续词语音识别系统。早期，1952年贝尔实验室和1962年IBM实现的都是孤立词（特定人的数字及个别英文单词）识别系统。连续词识别，因为不同人在不同的场景下会有不同的语气和停顿，很难确定词边界，切分的帧数也未必相同；而且识别结果，需要语言模型来进行打分后处理，得到合乎逻辑的结果。