语音识别研究经历了知识积累、模板匹配、模式识别、统计模型、机器学习和深度学习等五个发展阶段[1]。

      1.知识积累阶段。20世纪30-50年代,针对特定语音或小词表的孤立词,设计专门的语音识别算法或装置。 

      2.模板匹配阶段。50-60年代,基于声学和语音学知识设计语音识别系统,主要使用模板匹配方法识别音位、音素和数字。

      3.模式识别阶段。60-80年代,使用模式识别方法进行中小规模的孤立词或连续词串语音识别。

      4.统计模型阶段。1980-2000年,隐马尔可夫模型用以处理语音中的动态问题,并用于连续语音识别系统设计,基于统计模型的方法慢慢确立成为语音识别主流框架。

      5.机器学习和深度学习阶段。2000-2010年,机器学习的发展,特别是2011年至今深度学习的崛起,大大促进了大规模连续语音识别系统的性能提升和实用化。

      1879年,爱迪生发明第一台听写机; 

      1952年Bell实验室发布能识别0-9数字精度达到90%;

      1962年IBM Shoebox“鞋盒”能理解16个口语单词;

      1971年,Harpy能理解1011个单词和一些短语;

      1986年,IBM使用HMM模型可以预测下一个音素;

      2008年,Google发布语音识别APP把语音识别代入移动设备;

      2011年Apple发布语音助手Siri。



       下图展示的是Swichboard语音识别国际会议上,使用电话语音库,训练和测试语音识别系统性能的发布会,2017年语音识别错误率达5.1%,已超过人类。

语音搜索java 语音搜索历史_深度学习

 参考文献: 

[1] 王东. 语音识别技术的现状与未来. 2017年