利用whisper实时语音识别语音识别时间

转载

梦里忧郁 2024-08-07 16:52:22

文章标签 利用whisper实时语音识别语音识别建模连续语音识别 文章分类 深度学习人工智能

上世纪50年代：

上世纪60年代：

上世纪70年代：

上世纪80年代：

上世纪90年代：

20世纪头10年:

2006年：

语音识别技术伴随着计算机科学和通信等学科的发展逐步成长，至今已经有超过六十年的历史。

上世纪50年代：

早在上世纪50年代，贝尔实验室就开始进行语音识别的研究。当时研究的主要是基于简单的孤立词的语音识别系统。例如，1952年贝尔实验室采用模拟电子器件实现了针对特定说话人的十个英文数字的孤立词语音识别系统(Daviset a1．，1952)。该系统提取每个数字发音的元音的共振峰特征，然后采用简单的模板匹配的方法进行针对特定人的孤立数字识别。1956年普林斯顿大学的RCA实验室利用模拟滤波器组提取元音的频谱，然后再用模板匹配，构建了针对特定说话人的包括十个单音节单词的语音识别系统。1959年，伦敦大学的科学家第一次使用统计学的原理构建了可以识别四个元音和九个辅音的音素识别器(Fry，1959)。同年，来自麻省理工的林肯实验室的研究人员首次实现了针对非特定人的十个元音的识别器。

上世纪60年代：

上世纪60年代，三个关键技术的出现对于语音识别的发展奠定了基础。首先是针对语音时长不一致的问题，来自RCA实验室的Martin提出了一种时间规整的机制(Martin et a1．，1964)，可以有效的降低时长不一致对识别得分计算的影响。其次是来自前苏联的Vintsyuk提出采用动态规划算法实现动态时间规整(Dynamic Time Warping，DTW)(Vintsyuk，1968)。DTW可以有效的解决两个不同长度的语音片段的相似度度量，一度成为语音识别的主流技术。最后是来自卡耐基梅隆大学Reddy利用音素动态跟踪的方法进行连续语音识别的开创性工作(Reddy，1 966)。这三个研究工作，对于此后几十年语音识别的发展都起到了关键的作用。虽然60年代语音识别获得了长足的发展，但是人们认为实现真正实用的语音识别系统依旧非常困难。

上世纪70年代：

上世纪70年代是语音识别技术快速发展的一个时期。这时期三个关键的技术被引入到语音识别中，包括模式识别思想(Velichko and Zagoruyko，1970)，动态规划算法(Sakoe and Chiba，1978)和线性预测编码(Linear Predictive Coding，LPC)(1takura，1970)。这些技术的成功使用使得孤立词语音识别系统从理论上得以完善，并且可以达到实用化的要求。此后研究人员将目光投向了更具有实用价值也更加具有挑战性的连续语音识别问题。其中以Bell、IBM实验室为代表的研究人员开始尝试研究基于大词汇量的连续语音识别系统(Large VocabularyContinuous Speech Recognition，LVCSR)。当时主要有两种流派：一种采用专家
系统的策略，目前已经被淘汰：还有一种是采用统计建模的方法，该方法目前依旧是主流的建模方法。这时期美国国防部高级研究计划署(Defense AdvancedResearch Projects Agency，DARPA)介入语音领域，设立了语音理解研究计划。该研究计划包括CMU、IBM等研究机构。在DARPA计划的催动下诞生了很多具有一定实用价值的语音识别系统。例如卡耐基梅隆大学的Harpy系统(Lowerre，1976)，能够用来识别1011个字，并且获得不错的准确率。Harpy系统的一个主要的贡献是提出了图搜索的概念。Harpy系统是第一个利用有限状态网络(FiniteState Network，FSN)来减少计算量并有效的实现字符串匹配的模型。DARPA计划下诞生的语音识别器还包括卡耐基梅隆大的Hearsay和BBN的HWlM系统(K1att，1 977)。

上世纪80年代：

上世纪80年代是语音识别发展取得突破的一个关键时期。两项关键技术在语音识别中得到应用，分别是基于隐马尔科夫模型(Hidden Markov Model，HMM)(Gauvain and Lee，1994，Rabiner，1989，Schwartz et a1．，1985)的声学建模和基于n．gram的语言模型。这时期语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展。HMM的应用使得语音识别获得了突破，开始从基于简单的模板匹配方法转向基于概率统计建模的方法．此后统计建模的框架一直沿用到今天。这一时期．DARPA所支持的研究催生了许多著名的语音识别系统。其中一个具有代表性的系统是李开复研发的SPHINX系统。该系统是第一个基于
统计学原理开发的非特定人连续语音识别系统，其核心技术技术采用HMM对语音状态的时序进行建模，而用高斯混合模型(Gaussian Mixture Model，GMM)对语音状态的观察概率进行建模。直到最近的深度学习出来之前，基于GMM．HMM的语音识别框架一直是语音识别系统的主导框架。同时神经网络也在80年代后期被应用到语音识别中(Lippmann，1987，Waibel et a1．，1989)，但是相比于GMM-HMM系统并未没有展现出优势。

上世纪90年代：

上世纪90年代是语音识别技术基本成熟的时期，基于GMM-HMM的语音识别框架得到广泛使用和研究。这一时期语音识别声学模型的区分性训练准则和模型自适应方法的提出使得语音识别系统的性能获得极大的提升。首先基于最大后验概率估计(Maximum APosteriori，MAP)(Gauvain and Lee，1 994)和最大似然线性回归(Maximum Likelihood Linear Regression，MLLR)(Leggetter and Woodland，1995)技术的提出用于解决HMM模型参数自适应的问题。一系列声学模型的区分性训练(Discriminative Training，DT)准则(Juang and Katagiri，1 992)被提出、例如最大互信息量(Maximum Mutual Information，MMI)(Woodland and Povey，2002)和最小分类错误(Minimum Classification Error,MCE)准则(Juang et a1．，1 997)。在基于最大似然估计训练GMM．HMM的基础上再使用MMI或者MCE等区分性准则对模型参数进行更新可以进一步显著的提升模型的性能。这一时期出现了很多产品化的语音识别系统，例如DRAGON系统．IBM的Via-vioce系统，微软的Whisper系统(Huang et a1．，1995)，英国剑桥大学的HTK(Hidden Markov ToolKit)系统(Young et a1．，2002)等。其中HTK工具包的开源对于语音识别技术的发展起到了巨大的贡献。HTK为语音研究人员提供了一套系统的软件工具，极大的降低了语音识别的研究门槛，促进了语音识别的交流和发展。

20世纪头10年:

进入20世纪的头10年，基于GMM-HMM的语音识别系统框架已经趋于完善，相应的区分性训练和模型自适应技术也得到了深入的研究(Jiang，2010，Macherey et a1．，2005，Povey and Woodland，2002，Schliiter，2000)。这阶段语音识别开始从标准的朗读对话转向更加困难的日常交流英语，包括电话通话，广播新闻，会议，日常对话等。但是基于GMM．HMM的语音识别系统在这些任务上表现却不怎么理想，语音识别系统的错误率很高，远远达不到实用化的需求。从而语音识别的研究陷入了一个漫长的瓶颈期。

2006年：

语音识别技术的再次突破和神经网络的重新兴起相关。2006年Hiton提出用深度置信网络(Deep BeliefNetworks，DBN)(Hinton et a1．，2006b)初始化神经网络，使得训练深层的神经网络变得容易，从而掀起了深度学习(Deep Leaming，DL)(Bengio et a1．，2009，2007b，LeCun et a1．，2015)的浪潮。2009年，Hinton以及他的学生D．Mohamed将深层神经网络应用于语音的声学建模(Mohamed et a1．，2009)，在音素识别TIMIT任务上获得成功。但是TIMIT是一个小词汇嚣的数据库，而且连续语音识别任务更加关注的是词甚至句子的正确率。而深度学习在语音识别真正的突破要归功于微软研究院俞栋，邓力等在2011年提出来的基于上下文相关(Context Dependent，CD)的深度神经网络和隐马尔可夫模型(CDDNN．HMM)的声学模型(Dahl et a1．，2012)。CD．DNN—HMM在大词汇量连续语音识别任务上相比于传统的GMM—HMM系统获得了显著的性能提升。从此基于GMM．HMM的语音识别框架被打破，大研究人员开始转向基于DNN-HMM的语音识别系统的研究。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。