语音识别是让计算机能听懂人类口述的自然语言。 语音识别模型和算法是实现计算机语音识别的关键。而基于统计的隐马尔可夫模型( HMM )识别和训练算法是在研发语音识别系统时常用的一种算法,也是目前最为成功的一种语音识别模型和算法。

  语 音识别的特点是具有随机性 , 但 同时也有一个潜在的基本结构。例如,一个语音有基本结构,而发音时口型的大小,长短、强弱和在口腔中的位置等却因人会有随机的变化。即时是同一个人,在不 同时间发同一个音也是有随机差异的。由于隐马尔可夫模型的算法是将语音看成是一连串特定状态,这种状态是不能被直接观测到的(如这种状态可以是语音的某个 音素),而是以某种隐含的关系与语音的观测量(或特征)相关联。这种隐含关系在 HMM 模型中通常以概率形式表现出来,模型的输出结果也以概率形式给出。所以,用隐马尔可夫模型( HMM )来描述这种具有结构的随机性相当有效。

  基于统计的隐马尔可夫模型( Hidden Markov Models, HMM ),作为语音信号的一种统计模型。它的理论基础是在 1970 年前后由 Baum 等人建立起来的,随后由 CMU 的 Baker 和 IBM 的 Jelinek 等人将其应用到语音识别中。在 20 世纪 80 年代中期 Bell 实验室 Rabiner 等人对 HMM 的深入浅出的介绍使 HMM 为各国从事语音处理的研究人员所了解和熟悉,进而成为公认的一个研究热点。

  隐马尔可夫过程是一个双重随机过程:一重用于描述非平 稳信号的短时平稳段的统计特征(信号的瞬态特征,可直接观测到);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态 特性(隐含在观察序列中)。基于这两重随机过程, HMM 即可有效解决怎样辨识具有不同参数的短时平稳信号段,怎样跟踪它们之间的转化等问题。人的言语过程也是这样一种双重随机过程。因为语音信号本身就是一个可 观察的序列,而它又是由大脑里的(不可观察的)、根据言语需要和语法知识(状态选择)所发出的音素(词、句)的参数流。 HMM 可以非常精确地描述语音信号的产生过程。

  因此, HMM 语音识别模型与算法是迄今为止最为完美的一个语音识别模型,从中也可看出它的理论体系对研究工作所起的重要的指导作用。 但与此同时,经典 HMM 语音识别模型在一些重要方面存在严重的缺陷,这就是:

( 1 )经典 HMM 是一个齐次的 Markov 模型,状态转移概率与状态驻留长度无关,与语音的实际过程不符;

( 2 )经典 HMM 现有的模型训练算法和识别算法都是假设语音特征是相互独立的,这也不符合语音信号的实际情况;

( 3 )经典 HMM 模型用于大词汇表的识别系统时,其模型的训练量是灾难性的;

( 4 )模型的存储量太大。

目前语音识别状况

  语音识别技术的研究开始于二十世纪五十年代, Bell 实验室的 Davis 等人首次研制出能识别十个英语数学的实验装置—— Audry 系统。 60 年代,提出两大重要研究成果动态规划( Dynamic Planning, DP )和线性预测分析 (Linear Predic, LP) 。 70 年代,语音识别领域取得突破行进展。线性预测编码技术( Linear Predict Coding, LPC )被 Itakura 成功应用于使语音识别; Sakoe 和 Chiba 将动态规划的思想应用到语音识别并提出动态时间规整算法; Linda 和 Markel 也首次解决了矢量量化( Vector Quantization ,VQ )码书生成的方法。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠定了重要的基础。 80 年代,连接词语音识别成为语音识别的研究重点之一。 Meyers 和 Rabiner 研究出多级动态规划语音识别算法( Level Building , LB )这一连接词语音识别算法。 80 年代另一个重要的发展是概率统计方法成为语音识别研究方法的主流,其显著特征是 HMM 模型在语音识别中的成功应用。 1988 年,美国卡内基-梅隆大学( CMU )用 VQ/HMM 方法实现了 997 词的非特定人连续语音识别系统 SPHINX 。

  目前 , 国内外对语音模型优化的研究成果主要有:清华大学的王作英教授提出的非齐次隐语音识别的改进隐含马尔可夫模型”,可以说是对语音识别模型算法的一次重大革 新。它指出了传统的 HMM 模型在语音识别应用中存在的问题,得到了一个基于段长分布的非齐次隐含马尔可夫模型 (Duration Distribution Based Hidden Markov Model , DDBHMM) 。用状态段分布函数替代齐次 HMM 中状态转移矩阵,解除了对语音信号状态的齐次性和对语音特征的非相关性限制。 Jeff A. Bilmes 等提出 BMM ( Buried Markov Models )方法,是一种比 HMM 更加隐含的马尔可夫模型,经过大词汇量语音数据库实验,取得较好效果。赵力等提出了利用偶数帧段输入隐马尔可夫模型,提高了在噪音环境下汉语语音识别系统 鲁棒性。李凡等提出一种基于 BP 神经网络和 HMM 的混合声学模型;何振亚等提出了一种 HMM 和径向基函数神经网络( RBF )相结合的语音识别模型;李晶皎提出的基于 HMM 和自组织神经网络模型的混合模型。除了以上旨在改进识别系统的鲁棒性问题外,还有针对语音不完全性问题的改进。主要集中在如何从不完全语音信息中学习 HMM 的结构和参数,所采用的方法主要是基于最大似然估计方法。