虽然人从外部获取信息,绝大部分来自来自视觉,可是语音的地位一直很高的,它很好的表表达了人的特征和清晰的收入方式。其中语音识别技术的地位又是很高的,可以让机器在字面上明白你在说什么,这是自然的人机交互的基础。现在走在语音识别技术前沿的公司有科大讯飞,google,微软。在我们的前面几篇blog中已经提到了科大讯飞的输入法,其中就是利用了语音识别技术。 

现在来介绍一下语音识别技术的具体方法和应用。语音识别系统是模式识别系统的具体化。一般的系统包括如下的步骤: 

特征提取 --> 模型 -->特征匹配 --> 识别结果 

模型是通过训练样本获得的。 

      语音识别要解决的问题有连续语音识别,非特定人识别和环境复杂等的情况。连续语音识别是对付一个人的长句子的识别,非定人是的对付不同的人的语音输入,复杂的情况是你可能处于不同的环境下进行输入。这些问题都很难解决,但是在很多人的智慧下,很多问题得以解决。下面讲解部分方法:

HMM的,快速自适应的,结构特征的。

 

 

样本数量

算法原理

效果

HMM

几百个

运用隐含markov链的状态的转移来模拟语音信号

很好,能达到很棒的识别率

快速自适应

一百个左右

使用自适应技术MAP,MLLR等消除声道等的影响,这样可以减少训练样本

对于很好的算法,同样可以获得很好的识别率

结构特征

五个左右

建立语音的HMM连续模型,然后计算高斯分布之间的巴氏距离

暂时还在研究阶段,没有开始连续语音的研究

 

HMM的,因为她它很可靠,还有现在的方法基本上是基于云计算的,有一个很强的服务集群提供服务。比如说科大讯飞的语音输入法就是基于几千台的服务器的。这样的效果很好,基本可以用于实际的情况。

 

 

应用:

1.语音输入,科大讯飞做的就是一个例子,很好的人性化,可以很方便的输入。

2.语音搜索,google就提供了这样的服务,用户可以通过语音输入进行搜索。

3.智能玩具,在今年的世博会上就有相应的海宝玩具,可以和它对诗等。