摘要:

语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。到目前为止,语音识别研究大部分以线性系统理论为基础,主要应用隐马尔可夫模型(Hidden Markov Model,HMM)与动态时间规整(Dynamic Time Warping,DTW)技术实现语音识别。随着研究的逐步深入,基于线性系统理论的语音识别方法的局限性越来越凸显。近年来,随着人工神经网络(Artificial Neural Networks,ANN),混沌、分形等非线性理论研究和应用的日新月异,将这些理论应用于语音别成为可能。 本文对现有的语音识别技术发展现状进行了分析,介绍了语音识别的基本理论,包括语音信号的预处理、计算听觉场景分析(Computational Auditory SceneAnalysis,CASA)和特征参数提取。根据计算听觉场景分析的基本原理,针对本文设计所应用的场合,改进了计算听觉场景的结构,优化了其算法,并详细讨论了计算听觉场景在语音识别的前端应用,很好的分离了语音采集前端的混叠语音,提高了算法的抗噪声能力。 文中还阐述了语音特征参数的提取算法,比较了线性预测编码倒谱(LinerPrediction Cepstrum Coefficient,LPCC)系数和Mel频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)的优缺点,详细论述了Mel频率倒谱系数的提取方法和运算步骤。文中还研究了隐马尔可夫模型和自组织神经网络(Self Organizing Neural Networks,SONN)的原理及其在语音识别中的应用,详细讲述了HMM的原理与模型参数,分析了每个参数的提取方法,讨论解决了HMM的三个基本问题;讲述了人工神经网络的基本概念,BP网络和自组织神经网络的结构和算法,并且分析比较了它们的识别特性与应用特点,提出了基于CDHMM和SONN的混合模型原理及算法,并加入到SONN分类器进行语音识别。 本文设计了语音识别系统的软硬件结构,并在ARM—Linux环境下对基于CASA和HMM-ANN模型的算法进行了实验,测试了在各种场合下的语音识别率。分析测试结果表明,与以前的HMM模型方法相比,改进后的基于CASA的HMM-ANN模型提高了语音识别系统的准确率和识别系统的抗噪声能力,提升了系统的鲁棒性和自适应性,充分体现出改进模型的性能,证明了该系统的可行性和有效性,最后指出了需要进一步改进的问题和本课题未来的研究方向。

展开