语音识别十年来发展的综述

语音识别十年来发展的历程

    在过去的十年中,语音识别技术取得了巨大的发展,连续语音和非特定人的实时语音识别系统已经在实验室之中被成功的开发和研制出来,正在迅速的投入商业应用,人们惊叹于这门科学的飞速发展,惊叹于科学技术力量的神奇。然而,今天的成就是许许多多的从事语音识别研究的科学家们辛勤耕耘的结果,它的成长和发展也不是一帆风顺的。如果说我们把现在的语音识别技术比作早晨初升的太阳的化,那么它的现在的辉煌的也是经过漫漫长夜的煎熬和奋斗才取得的。    

    十年前的语音识别的研究是完全处在黑暗和探索之中的。人们已经意识到语音信号是一种渐变平稳信号,短时时频分析已经被广泛采用,已经比较成功的探索出能代表语音声音信号的特征提取方法,这类方法大都是以模拟说话人的声道特性为主,比较有代表性的是LPC谱和MFCC谱。但是对于连续语音的识别仍然是一个可望而不可及的高度。

1.模型的发展和变化

    最初语音识别方面的研究是集中于单音节的单个词的研究。最初的方法集中主要是依靠模版匹配和动态时间折叠(DTW)[1],这种方法是以语音信号的短时分析为基础,把语音信号按照一帧一帧的长度提取特征,对于标准的训练语音,每一帧或每几帧都训练出一个矢量量化码本。在识别的时候,采用动态时间折叠的方法进行模版匹配,找出离测试语音最近的标准语音模版,此时的距离还都是标准的欧式距离,概率距离的观念还没有得到广泛的应用。由于模版匹配的方法没有采用任何语言学的先验知识,而且由于所采用的距离准则还没有结合概率距离的观念,建模单元都是孤立的单个词,以单音节词和特定人说话为主。 后来的随着统计学习理论被引入到语音识别中,人们开始引入概率距离的观点,而且马尔科夫模型[2]被广泛的引入到语音识别中,对孤立词的识别能力大大提高。这些识别系统大都采用整词建模的方法对整个词进行马尔科夫建模[3,4],模性训练的时候采用有很多说话人的训练集,利用统计学习理论来解决个体和整体之间的差异关系,能够比较鲁棒的建立于说话人无关的单个词的马尔科夫建模。在进行识别的时候可以采用马尔科夫模性的维特比搜索的办法进行解码,找出正确的识别结果。

    采用单个词的马尔科夫建模,可以很好的刻画每个词内部的各种音素的相关性,可以较好的实现孤立词的单音节和多音节词的整词建模,在训练数据充分的条件下可以以较高的精度实现与说话人无关的小词汇量的孤立词建模。但是在用整词建模的方法训练模型时,每个单个词的训练数据只能对训练这个词的的模型有用,不能被其他词利用。随着词汇量的增加,由于训练数据的有限性,用整词建模的方法很难实现每一个词都进行准确建模。而且这种孤立词建模的方法很少考虑到语言学的知识,很难推广到连续语音的的识别。 针对大词汇量连续语音识别的要求,从近十年开始,语音识别在建模单元上集中考虑的是子词单元(sub-word unit)建模。在汉语中,当时最为研究者所推崇的是音节建模[5]。这是由于汉语语言是一种音节语言——几乎所有的单个字的发音都是由一个声母加上一个韵母的音节构成的。汉语的这种特殊的声学发音结构使得从事语音学研究的科研工作者长时间的走入了片面强调个体特征而忽视群体特征的误区。大家都一致的认为汉语的不同于其他语言(比如英语)的这种特殊之处决定了汉语连续语音识别的突破口应该从音节识别和音节建模开始,于是大批的学者开始着重于音节建模的研究和探索。

    而国际上,从事语音识别的专家和学者正在积极努力的探索语音识别声学建模单元选择的多种途径。最初国际上为了开发连续语音识别系统,最先提出的子词单元(sub-word unit)建模方法,包括是音素(phone)建模、多音素复合(Multiphone Unites)建模等。音素建模也就是我们常说的base phone建模,而多音素复合建模是泛指音节或是其他的音素组合体的建模。这里我们先指出建模单元选择的两个基本原则——一致性和可训练性[6]。一致性是指一种建模单元的选择应该遵循在任何语言环境下应该发音应该保持不变的原则。可训练性是指所选择的模型应该能从有限的训练数据中得到一个鲁棒的模型参数估计。前面提到的整词建模是就是一种遵循一致性原则的建模单元选择方法,绝大多数字的发音在任何一种语言环境下都不会随它的上下文的改变而改变(多音字被视为不同的字,可以对一个多音字的每一个发音分别建模)。但是整词建模却不具备可训练性,每个字的训练数据不能供给其他字使用,随着词汇量的增加,模型数目也会急剧增加,训练数据也就会严重不足,因此在大词汇量的语音识别中,选用整词建模的方法不具备可训练性。与这种整词建模相反的则是音素(phone)和音节(syllable)建模。汉语中共有61个音素和409个音节,这两种建模单元都是具备可训练性的。任何一个词都可以被分割成不同的音素,这就实现了不同词的训练数据的共享,极大程度上利用了少量的有限的训练数据。然而大量的语音实验表明,一个音素的发音会受到它所在的上下文发音环境的影响而发生很大的变化,这就是我们常说的协同发音(coarticulate)的作用[7]。由于协同发音的影响,使得选择因素或者音节为建模单元不具备一致性。因此在最初的实验中,研究人员证明基于DTW的整词建模在特定说话人的小词汇量的识别系统中其性能大大强于基于音素的马尔科夫建模[8]。而基于整词的马尔科夫建模的对于这种特定说话人的小词汇量的识别率也比基于音素的马尔科夫建模高50%[9]。而在一些实验中,基于音节的建模在一些小词汇量的识别系统中的识别率也远远低于基于整词的马尔科夫建模。这些实验都有利的说明了协同发音对于音素建模和音节建模的影响。很好的说明了在建模单元的选择上一致性的重要性。

    就在语音识别在为建模单元的可训练性和一致性的选择而处于两难境地的时候。基于上下文相关音素建模为语音识别向大词汇量的连续语音识别的发展带来希望[10,11]。这种方法是以模拟每一个音素上下文的影响来细化音素建模的,从大批的训练数据中挖掘每一个音素发音随上下文的变化,找出其中的固有规律,最大程度的缓解音素建模的不一致性。比较有代表性的是两音子(biphone)建模和三音子(triphone)建模[4,5]。两音子建模是以模拟音素的左边或者是右边的上下文的相关关系而建立起来的语音识别系统。由于汉语的是一种音节语言的特殊结构,两音子建模可以分别对声母和韵母建立两音子模型结构,这种两音子模型是根据他们右边和左边的上下文的不同而建立,这种两音子模型非常适合汉语这种特殊的音节结构语言的。而与此类似的三音子建模则是同时根据一个音素的左边和右边的音素的不同来决定不同的三音子模型,这种模型成为解决音素建模非一致性问题的主流方法。

    三音子(三音子)建模是根据一个音素的上下文的不同来决定不同的建模单元的。每一个音素会由于其上下文的不同而生成很多个模型,这些模型分别代表这个音素在一种上下文情况下的具有一致性发音。这种综合考虑音素的上下文而建立起来的三音子模型不但描述了每一个音素的发音,而且最大程度上的描述了音素的最临近上下文对音素的影响,找出了具有发音一致性的模型。三音子模型虽然在建模单元上比音素建模更具有一致性,但是三音子模型面临着一个很棘手的问题——有限的训练数据如何给出所有的三音子模型的一个鲁棒的参数估计?我们知道,汉语的音素有61个,所有可能的三音子模型的数目是61*61*61=226981个三音子模型,从现有的有限的数据集是很难对所有的模型参数都做出鲁棒估计的。模型建参数共享(tied)技术正是为解决数据的有限性和模型的鲁棒估计之间的矛盾而产生的。模型间的参数共享是根据很多模型的输出分布的相似系性,把许多输出分布连接在一起,让他们共享一个相同的输出分布,这样的话就会有足够的数据来估计每一个输出分布,这样的话就可以利用有限的数据估计出鲁棒的模型参数,这种方法实际上是在训练数据的有限性和模型的复杂性之间做一个折衷。对于三音子模型来说,识别系统的优劣都来源于如何有效的进行输出分布共享和参数的估计。

    最初的输出分布共享是广义的三音子模型(generalized triphones )[12],这种方法主要是利用人类已有的语言学和听觉的先验知识来合并不同的三音子模型,以实现有效的输出分布参数共享。开始时根据训练语料生成所有的可能的三音子模型,然后根据人类的先验知识生成一些三音子的类别集合,这些集合中至少含有一个三音子模型。最后根据自组织聚类的方法按照一定的距离准则把距离相近的三音子模型合并在一起,直到每一个模型的参数都可以得到一个鲁棒的估计。这是一种基于模型共享的参数共享方法。

    因为人类的先验知识缺乏一定后验支持,而且上面所提到的模型共享的方法在还不能最大程度上实现数据的多次重用。所以有的学者又提出了基于状态聚类的三音子模型训练方法[13],这种训练方法是以状态聚类为基础的,模型减的参数共享是在状态一级展开的, 相比于前面提到的基于三音子的聚类方法,这种采用状态聚类的方法能够更大程度上的实现数据的重用,从而更好的在模型复杂度和训练数据的数量之间得到一个折衷点。从这种状态聚类的三音子生成方法开始,三音子模型的输出分布共享开始走入状态这一个较小的级别上去了。虽然基于状态聚类的三音子生成方法在很大程度上实现了有效的输出分布共享,使得生成的三音子模型在识别率和识别效果上远远好于以往的三音子模型的输出分布共享的方法,但是它还有一个很大的缺点——不能对未出现的三音子模型做出任何预测,如果测试语料中出现了一个三音子模型而在训练语料中没有出现,只能采用回退到简单的音素模型或者是两音子模型。

    针对基于状态聚类的三音子输出共享机制的缺点,研究人员又提出基于决策树的连续语音三音子模型的状态输出分布共享方法[14 , 15]。这种输出分布共享方法也是基于状态的,所不同的是这时的聚类合并概率的距离最近的两个输出分布,而是建立在对训练数据做决策树的基础之上的,这种方法可以把未出现的三音子模型用和它声学特征比较近似的三音子模型代替,实现三音子模型的预测。这里的决策树实际上是一个二值树,树的每一个节点都与答案是“是”或者“不是”的问题相连。每一个音素的每一个状态都对应一棵决策树,每一次问问题的时候都是根据训练数据的似然概率的增加最大把训练数据分成两部分,直到似然概率的增加小于一个固定的值或者某个节点中的样本点的数目小于一个固定的值。决策树中所提的问题都是一些语音学的先验知识(例如左边是摩擦音还是开口呼),利用这些先验问题做引导可以最大程度上利用这些语音学的先验知识,来引导树的分裂,从而正确的实现当前音素的三音子模型的输出分布的共享。决策树的生成是采用自顶向下的原则,树的每一个最后的枝节点代表一个被共享在一起的一个状态输出分布。通过决策树树的方法所产生的输出分布共享,融合语音学的先验知识,以训练数据的似然概率最大的增加为目标进行输出分布共享,可以在三音子模型的模型复杂度和有限的训练数据之间做很好的折衷。而且基于决策树的输出共享很好的解决了未出现的三音子模型的输出分布的预测问题,从而为真正的大词汇量连续语音的探索出了一种具有一致性和可训练性的声学建模方法。

    当今的国际上绝大多数连续语音识别系统都是采用依靠决策树进行状态输出分布共享的三音子建模的。而国内这种三音子建模起步较晚,影响国内三音子建模的一个主要原因是由于语料库的局限。863数据集的录制和完成为语音识别的发展打下了坚实的基础,也就是由于这个数据集的产生,大大的推进了三音子建模的发展,国内的很多系统也都开始采用了三音子建模。

2.搜索技术的发展

    在过去的十年的语音识别的发展中,最具决定性意义的除了声学建模单元的选择外就是搜索技术的发展。在最初的识别系统中,大都是采用动态规划的方法[16,17]。基于动态规划的搜索技术被广泛的应用于很多很成熟的语音识别系统中,最初的是数字识别、孤立词的模板匹配和孤立词的马尔科夫模型识别。这时的系统大都不需要任何其他的辅助知识源,单纯的基于动态规划的帧同步的维特比搜索就可以很好的得到识别的结果。

    十年过去了,这种基于帧同步的动态规划方法仍然成功的应用在语音识别的各个领域中,从数字识别、小词表、中型词表再到具有几万词的连续语音的识别[18,19,20,21,22,23],基于动态规划的帧同步的维特比搜索获得了巨大的成功。这种成功可以归结为两个方面:1)基于帧同步的动态规划搜索可以结合一种高效的裁减技术。由于采用的搜索在帧同步的基础上展开的,是一种宽度优先搜索,因此不同的路径在同一时间点上的打分可以相互比较,比最优路径小于一个门限制的路径都会被认为是不可能发生的路径而被裁减掉。这种有效的裁减机制可以使基于帧同步的动态规划搜索方法高效率的搜索很大的搜索空间,找到最佳的路径和方案。2)这种基于帧同步的动态规划搜索的另一个优点是能够融合很多其他的知识源,比如说语言模型和词数等。这对于把这种搜索方法应用到大词汇量连续语音识具有举足轻重的作用。

    近十年的搜索技术的发展主要是集中在处理大词汇量连续语音的搜索问题。由于建模单元的采用的上下文相关的三音子建模,通常三音子系统中采用的的三音子模型至少也有2000个左右,在大词汇量连续语音识别中的词汇量也有几万个,另外在一段连续语音中,没有清晰的一个音素、一个音节、一个词甚至于一个句子的开始和结尾的标志。这些因素都使得连续语音的搜索空间急剧增加,单纯的只依靠声学层次上的维特比搜索已经很难再给出正确的识别结果了。为了实现大词汇量连续语音识别的目的,近十年来,语音识别在以下的四个方面中取得了长足的进展:

     1)语言模型的使用和发展[23, 24, 25]。在大词汇量连续语音识别系统中,语言模型是一个全新的概念。在语音识别发展最初,在单个词的识别系统中,是没有语言模型的概念的。语言模型是把不同词的连接概率从大量的语料中统计出来,在做识别的时候,这种词与词之间的连接概率被适时的加进去,这种引入语言学知识和信息的方法对于基于帧同步的动态规划搜索在大词汇量连续语音识别中取得发展和成功使很关键的。

    2)把帧同步的动态规划算法扩展到基于声学词树上的帧同步的动态规划算法[23, 26]。对一个大词汇量的连续语音识别系统而言,把整个词汇表按照发音的规律生成一个词典是很有用的,搜索是在词树的上进行的。词数可以以一种很有效的结构来组织搜索的空间,可以使的搜索空间变得有序,使得高速有效的搜索成为可能。在这种搜索结构下,语言模型的使用也是可能的,这就更好的为多种知识源更有效的被引入到识别系统中创造了条件。

    3)动态的构建搜索空间[26]。在大词汇量连续音的搜索算法中,搜索空间不再是静态的和一成不变的,而是在搜索过程中动态的发生变化,随着路径的合并、路径裁减、路径的历史纪录的改变、路径在词树上的位置的改变等,每一条路径的搜索空间都在动态的发生改变,这种动态构建的搜索空间可以有效利用计算机的硬件资源以及高效有序的遍历庞大的搜索空间。

    4)更加有效的裁减技术[27,28,29]。在大词汇量连续语音的识别系统中,在做裁减的时候引入语言模型的预测概率,这样就可以进行更加可靠的裁减,提高搜索的准确性。

3  汉语作为一种特殊的有调语言的在语音识别发展历史上的独特之处

    汉语是一种的有调语言决定了汉语的除了采用常用的语音识别方法外,还拥有自身的许多特点。对声调的建模问题是汉语语音识别不同于其他语种的关键问题。

    汉语有五种语调:一声、二声、三声、四声和无声。汉语中超过30%的词如果没有语调的区分的话将难于辨别。因此对汉语而言,如何正确进行声调建模对汉语大词汇量连续语音的识别具有举足轻重的作用。通常用的汉语语调建模有两种方法,一种是对声调和音素的本身的分别建模[30],在识别的时候分别用两套模型进行识别,一套模型识别声调,另一套模型识别音素本身,最后把它们的打分和在一起。这种方法产生的关键问题是没有办法找出一种好的途径进行两种模型打分的合并;而且声调信息也是随着它的发音上下文环境的变化而变化很大的。在许多环境下,二声和三声在连续语音中会完全的类似,还有由于汉语口音的差异,很多口音里面对声调的区分很模糊,这许多因素都使得对声调独立建模的方法很难准确的对任何一个音节的声调做出统一的模型和准确的识别。另一种方法就是把声调信息和声调的一阶差分信息直接的结合到模型的特征里面[31],用新的特征进行模型的训练和识别。在这类方法中,最有效的和富有创意的就是使用决策树来进行声调的建模[32]。决策树可以在语音学的先验知识的引导下,依靠数据驱动的原则对马尔科夫模型的输出分布进行合理的输出分布共享,成功的解决了三音子模型的模型复杂度和训练数据之间的矛盾。在利用三音子模型进行声调建模过程中,声调的语音学先验知识被总结成决策树的问题而划归到问题集中,在进行输出分布共享的时候,声调问题和其他的语音学问题是同等权重的被用作决策树分裂的问题依据的。这样的话,在输出分布共享过程结束以后,所产生的三音子模型都是与声调特征有关的三音子模型。这样的依靠声学特征的先验引导和数据的自身驱动机制,声调建模和原先的没有声调的三音子建模融为一体,很完美的解决了汉语这种有调语言的声调建模问题。在识别的时候,搜索过程是在一个有调的词树上进行的,这样的话就可以根据声调的不同来搜索到不同的模型,高速有效的得到识别结果。

4.鲁棒性问题

    在过去几年的语音识别的发展中,大词汇量连续语音识别在实验室环境下获得了巨大的成功。研究人员纷纷开始探索把语音识别技术应用于现实社会生活中去。然而在这个技术产业化的过程中,鲁棒性问题成为制约语音识别发展的一个关键性问题。

    由于语音识别采用的是统计学习的方法,因此训练数据和测试数据的不匹配的时候识别系统的的识别率会大幅度下降。现在大多的语音识别系统的声学模型是在实验室环境下的用无噪声污染的纯净语音训练出来的,而在现实社会中噪声时时存在而且随环境的变化差异很大,这就造成了识别时的语音的特征和训练时所用的语音的特征的不一致性,这种不一致会很大程度上来源于两种噪声对信号的干扰:加性噪声和卷积性噪声[33]。加性噪声通常是叠加在直接叠加在语音信号上的,通常假设噪声和信号是不相关的。而卷积性噪声是由于语音信号受到线性系统的污染而产生的,最常见的卷积性噪声是由麦克风引起的,在时域里,麦克风的传递函数和语音信号的传递函数相卷积,而在频域中,这两者的功率谱是相乘的,所以有时卷积性噪声也叫乘性噪声。由于语音的这两种噪声的作用机理性不同,所以在进行鲁棒性的研究时,应该这两种噪音源分别处理,以提高语音识别系统的在噪音干扰的环境下工作的鲁棒性。

    在语音识别系统中最常用的抗噪措施是倒谱归一化(Cepstral Mean Normalization)[34,35]。我们知道,卷积性噪声是以相乘的方式作用在信号的功率谱上的,而MFCC对数谱加窗取对数后,卷积性噪声就会以加的方式作用在信号的对数谱上的,从而线性叠加在语音特征的对数谱上。倒谱归一化是在一定长度的语音里用这段时间内每一帧的倒谱的值减去这段时间里的倒谱的均值,这种方法主要是为了克服慢变的卷积性噪声。使用了倒谱归一化的系统可以成功的避免由于麦克风所带来的常值卷积性噪声。与倒谱归一化相类似的相对谱特征(RASTA)[36],也是一种克服卷积性噪声的有力措施,它的抗噪效果与倒谱归一化基本相同。在当语音识别的发展中,动态特征(dynamic feature)信息的引入对于识别率的提高有很大的贡献[37,38]。一方面动态特征的引入可以刻画语音的前后几帧的相关性,另一方面动态特征自身可以避免卷积性噪声的影响,其自身包含鲁棒性的机制。

    在文献[39]中,一种基于一段长度内的倒谱归一化方法在抗噪方面取得了一定的效果。这种方法在做倒谱归一话的时候不仅仅是仅仅把一段时间内的倒谱减去它的均值,而且还要除以这段时间内的方差。这样做的目的是为了使各种语音话环境下的所有的进行到谱归一化的倒谱段的方差都为1。这种方差归一化的方法可以模糊噪音和纯净语音之间的界限,在纯净语音中,噪声的方差较小,这种方差归一化的方法相当于放大噪声,使得噪声和语音能够相互影响,而在信噪比很低的环境下,噪声的方差很大,这种方差归一化的方法相当于抑制噪声,加强信号。通过这种随着信噪必的变化对噪声的自增益调节机制,可以有效的把噪声所引起的训练数据和测试数据之间的差异减小,不但具有一定的抗噪功能,而且能够提高对纯净语音的识别率。

    由于现今的语音识别系统的特征大都采用的是MFCC倒谱,加性噪声在这种特征中的影响更为明显,对加性噪声的探讨,是鲁棒性方面一个很活跃的话题。在克服加性噪声的影响方面,谱减技术是一大类行之有效方法[40,41]。这类方法的依据是加性噪声是以加的方式叠加在信号的功率谱上的。如果利用语音之间的间歇估计出噪音的谱,就可以直接从信号的谱中减去噪音的谱,来很大程度上克服加性噪音对信号的影响。谱减技术虽然能够克服加性噪音对语音的影响,但是它会引入另外一种噪音——音乐噪音。这种噪音是由于谱减后,信号的功率谱的幅值随频率的变化在0的附近会引入很多正负波动,这些波动激烈的震荡,会引入不正确的声调,这会对语音识别系统的识别率造成很大的影响。为了克服这种音乐噪音,谱减技术又有了许多其它的发展,比较有代表性的有[42,43,44]。[42]是在做谱减的时候采用减去一个比真正的谱的平均值稍大的值,然后对于小于0的谱采用一个门限来掩摸(mask)。[43]是通过把谱在一定时间内做平均,然后采用多种其他的音乐噪声音抑制方法来提高谱减效果。[44]在谱上采用幅度滤波器来滤调高频震荡的音乐噪音,并以此来改善谱减的效果的。

    并行噪音模型[44, 45](Parallel Modal Combination)也在抑制加性噪声方面起到了一定的作用。这种方法的特点在于它不是一种在信号端的进行的一种信号增强方法,而是在模型端的一种模型补偿方法。由于当今的绝大多数语音识别系统是采用马尔科夫模型进行语音识别的建模。因此通过时时的估计噪音的概率分布参数来修正马尔科夫模型自身的参数值就成为一种有效的提高鲁棒性的方法。在[44]中,模型的倒谱参数被变换到线性谱参数空间里去,在那里根据估计出的噪声对模型参数进行自适应调节,然后再把模型参数进行反变换回倒谱空间。这种方法在许多文献的记载中都有较好的抗噪效果,缺点是计算量比较大。

    最近几年,比较有代表性的噪声抑制方法还有子带分析方法(sub-band)[46,47]。这种抗噪方法是根据噪声只是叠加在信号的某一频段内的的这一假设而建立的。如果对信号分频段建模,一个频段内的噪声就不会由于IDCT变化而映射到其它频段,可以有效的克服这个频段内的噪音对其他频段的影响,提高系统的鲁棒性。这里模型之间的连接是采用一定的先验权重连接的。这种方法的缺点是割裂了不同频带之间的相关性,对纯净语音的识别率会下降,而且这种方法只能对有限带宽信号有效,对白噪声信号无效。对于处理这种有限带宽的噪声信号问题,掩摸(mask)[48,49]和抛弃受污染的特征(missing feature )[50]的方法都有一定的效果。他们都是先估计噪声的谱,然后对音号段的谱的能量相对于噪音的平均谱值在一定幅度范围之内的谱认为受到噪音污染,是属于不可信的信号短,掩摸技术是采用一定的门限谱值来代替这个不可信的的信号段的谱,而抛弃受污染的特征的方法是在计算概率时只计算没有受噪声污染的信号段的概率打分。这两种方法都可以在一定程度上抑制噪声的作用,也都取得了一定的效果。 鲁棒性问题作为语音识别的一个基本问题将在一定时间内长期存在。随着语音识别进一步的走入到现实的生活,各种提高语音识鲁棒性的方法也在不停的涌现,相信未来的语音识别系统一定会更好的工作在各种复杂的现实生活环境。

参考文献

[1]. R. Lawrence, J. Biing-Hwang. “Fundamentals of Speech Recognition”, Prentice Hall, 1999.

[2]  L.R.Rabiner, “A tutorial on hidden Markov models and selected applications in speech recognition.” Proc. IEEE. vol. 77, no. 2,pp.257-285, Feb.1989.

[3]. L.R. Lippmann, E.A. Martin, and D.P. Paul, “ Multi-style training for robust isolated-word speech recognition,”, ICASSP 1987 , pp: 705-708.

[4] L.R. Rabiner, J.G. Wilpon, and F.K. Soong, “ High performance connected digit recognition using Hidden Markov Modal,” , ICASSP 1988.

[5] R.M. Schwarz, Y. L. Chow, S. Roucos, M. Krasner, and J. Makhoul, “ Improved Hidden Markov Modeling phonemes for continuous speech recognition,” ICASSP 1984.

[6]. K. F. Lee, “Context-Dependent Phonetic Hidden Markov Models for Speaker-Independent Continuous Speech Recognition”, IEEE Transaction On Acoustic Speech And Singal Processing, Vol. 38, No 4, 1990, pp: 599-609.

[7] Y. L. Chow, R. Schwartz, S. Roucos, O. Kimball, P. Price, F. Kubala, “ The role of word-dependent coarticulatory effects in a phoneme-based speech recognition system”, ICASSP 1986.

[8]. L. R. Bahl, P. F. Brown, P. V. De Souza , and R.L. Mercer. “ Acoustic Markov models used in the Tangora speech recognition system”,  ICASSP 1988.

[9]. D.B. Paul and E.A. Martin, “ Speaker stress-resistant continuous speech recognition”, ICASSP 1988.

[10] L. R. Bahl, R. Bakis, P.S. Cohen, A.G.. Cole, F. Jelinek, B.L. Lewis and R.L. Mercer, “Further results on the recognition of a continuous read natural corpus”, ICASSP 1980.

[11] R.M. schwartz, Y. L. Chow, S. Roucos, M. Krasner, and J. Makhoul, “Improved hidden Markov modeling phonemes for continuous speech recognition”, ICASSP 1984.

[12] K.-F. Lee, Automatic Speech Recognition-The Development of the SPHINX System. Norwell:MA: Kluwer 1989.

[13]. S.J. Young and P.C. Woodland, “ State clustering in hidden Markov modal-based continuous speech recognition”, Computer Speech and Language(1994), 8, 369-383.

[14].M.-Y. Huang, X. Huang, and F. Alleva, “ Predicting unseen triphones with senons”, ICASSP 1993, pp: 311-314.

[15]. S.J. Young, J.J. Odell, and P.C. Woodland, “Tree based state tying for high accuracy modeling”, ICASSP 1992, pp: 286-291.

[16] H. Sakoe, “ Two-level DP matching-A dynamic programming-based pattern matching algorithm for connected word recognition”, IEEE Transaction On Acoustic Speech And Signal Processing, Vol. 27, pp.588-595, Dec. 1979.

[17] F. Itakura, “Minimum prediction residual principle applied to speech recognition”, IEEE Transaction On Acoustic Speech And Signal Processing, Vol 23, Feb. 1975.

[18] J.S. Bridle, M.D. Brown, and R.M. Chamberiain, “ An Algorithm for connected word recognition “, ICASSP 1982, pp: 899-902.

[19] F. Alleva, X. Huang, and M-Y.Huwang, “ An improved search algorithm using incremental knowledge for continuous speech recognition”, ICASSP 1993, pp: 307-310.

[20] R. Cardin, Y. Normandin, and R. DeMori, “ High performance connected digit recognition using codebook exponents”, ICASSP 1982, pp: 505-508.

[21] X. Aubert and H. Ney, “Large Vocabulary continuous speech recognition of wall street journal corpus”, ICASSP 1994, pp: 129-132.

[22] F. Kubala, A. Anastaskos, J. Makhoul, L. Nguyen, and R. Schwartz, “Comparative experi-ments on large vocabulary speech recognition”, ICASSP 1994, pp 561-564.

[23] H. Ney, R. Haeb-Umbach, B.-H. Trans. and M. Oerder, “ Improvement in beam search for 10000-word continuous speech recognition”, ICASSP 1992, pp:13-16.

[24] J.J. Odell, V.Valtchev, P.C. Woodland, and S.J. Young, “ A one-pass decoder design for large vocabulary recognition”, in processing of ARPA Spoken Language Technology Workshop, 1994, pp: 405-410.

[25] H. Ney, “Search strategies for large-vocabulary continuous-speech recognition”, NATO Advanced Studies Institute, Bubion, Spain, June-July 1993.

[26] S. Ortmanns and H. Ney, “Experimental analysis of the search speech for 20000-word speech recognition”, EUROSPEECH 1995, pp:901-904.

[27] S. Ortmanns and H. Ney, “Look-ahead technology for fast beam search”, ICASSP 1995, pp:1783-1786.

[28] S. Renals and M. Hochberg, “Efficient search using posterior phone probability estimates”, ICASSP 1995, pp:596-599.

[29] V. Steinbiss, B.-H. Train and H. Ney, “Improvement in beam search”, ISCLP 1994, pp:1355–1358.

[30] Hsin-Min Wang, Tai-Hsuan Ho, etc., “Complete Recognition of Continuous Mandarin Speech for Chinese Language with Very Large Vocabulary Using Limited Training Data”, IEEE Trans. Speech and Audio Processing, Vol.5, No.2, March 1997, pp195-200.

[31] Bo XU, Sheng Gao, Yang Cao, Hua Wu and Taiyi. Huang,“Integrating Tone Information In Continuous Mandarin Recognition”, ISSPIS’99, Guangzhou, P.R.China.

[32] 高升,徐波,黄泰翼. “基于决策树的汉语三音子模型”, 《声学学报》,Vol.25, No.6, Nov. 2000.

[33]  Y. G.ong. “Speech recognition in noisy environments: A survey”, Speech Communication, Vol 16, 1995, pp:261-191.

[34] F.-H. Liu, R.M. Stern, A. Acero and P.J. Moreno. “Environment normalization for robust speech recognition using direct cepstral comparison”, ICASSP 1994,Vol 2, pp:61-64.

[35] S. Furui. “Cepstral analysis technique for automatic speaker verification”, IEEE Trans. Acoustic Speech Signal Process, Vol. 34, No. 1, 1986, pp. 52-59.

[36] H. Hermansky, N. Morgan, and H.–G. Hirsh(1993), “Recognition of speech in additive and convolutional noise based on RASTA spectral processing”, ICASSP 1993, pp:83-96.

[37] T. Applebaum and B. Hanson, “Regression features for recognition of speech in quite and in noise”, ICASSP 1991, pp:985-988.

[38] S.Furui. “Speaker independent isolated word recognition using dynamic features of speech spectrum”, IEEE Trans. Acoustic Speech and Signal Processing, Vol. ASSP-34, 1986, pp:52-59.

[39] O. Viikki and K. Laurila. “Cepstral domain segmental feature vector normalization for noise robust speech recognition”, Speech Communication, Vol. 25, 133-147.

[40] J.S. Lim, “Evaluation of a correlation subtraction method for enhancing speech degraded by additive noise”, IEEE Trans. Acoustic Speech and Signal Processing, Vol. ASSP-26, 1978, pp:471-472.

[41] D.V. Compernolle, “ Improve noise immunity in large vocabulary speech recognition with the aid of spectral subtraction”, ICASSP 1987, pp:1143-1146.

[42] W.M. Kusher, G. Vladimir, C. Wu, V. Nguyen, and J.N. Damoulakis. “ The effect of sub-stractive-type speech enhancement/noise reduction algorithm on parameter estimation for improved recognition and coding in high noise environments”, ICASSP 1989, 211-214.

[43] S.F. Boll, “ Suppression of acoustic noise in speech using spectral substraction”, IEEE trans. Acoustic Speech and Signal Processing, Vol. ASSP 27, 1979, pp:113-120.

[44]. R.M. Crozier, B.M.G. Cheetham, C. Holt, and E. Munday. “ Speech Enhancement employing  spectral subtraction and linear predictive analysis”, Electronic Letter, Vol. 29, 1993, pp:1094-1095.

[45] M.J.F. Gales and S.J. Young. “Parallel model combination for speech recognition in noise condition”, Technical Report F-INFENG/TR-135, Cambridge University, Engineer Department, UK.

[46] H. Boulard and S. Duponet. “Subband-based speech recognition”, ICASSP 1997, pp:545-548.

[47] P.M. McCourt, S.V. Vaseghi and B. Doherty. “Multi-resolution sub-band features and models for HMM-based phonetic modelling”, Computer Speech and Language, Vol.14, 2000,pp:241-259.

[48] D.H. Klatt, “ A digital filter-bank for spectral matching”, ICASSP 1976, pp: 573-576.

[49] N. Virag, “ Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System”, IEEE Trans. On Speech and Audio Processing, Vol 7, No 2, 1999, pp:126-136.

[50] P. Renevey and A. Drygajlo, “Missing feature theory and probabilistic estimation of clean speech components for robust speech recognition”, EUROSPEECH 1999.