2006年,Hinton提出深度学习网络,指出深度神经网络因为层数过多导致训练参数多的问题可以利用逐层初始化解决。在工业界和学术界掀起了深度学习的浪潮,并在语音识别和图像处理领域取得了巨大成功。2011年微软和谷歌在语音识别上采用DNN模型,将词错误率降低20%-30%。这里的DNN主要采用的是DBN,即深度置信网络。随着语音识别以及深度学习的发展,研究人员发现将CNN和RNN模型应用于语音识别领域可以取得更好的效果。本文中主要介绍声学模型的优缺点。
CNN模型,即卷积神经网络,最开始应用于图像处理。而语音识别中的频谱图,应用于CNN模型,可以克服传统语音识别中采用时间、频率而导致的不稳定问题。DBN和CNN模型没有考虑语音之间的关联信息。而RNN模型,充分考虑了语音之间的相互关系,因此取得更加好的效果。现有的最好的基于深度学习的语音识别一般是基于DBN+CNN+RNN模型的。
上述总结成为,现有的声学模型建立,一般可分为:
(1)混合声学模型
混合高斯-隐马尔科夫模型 GMM-HMM
深度神经网络-隐马尔科夫模型 DNN-HMM
深度循环神经网络-隐马尔科夫模型 RNN-HMM
深度卷积神经网络-隐马尔科夫模型 CNN-HMM
(2)端到端的声学模型
连接时序分类-长短时记忆模型CTC-LSTM
注意力模型Attention
各个模型的优缺点介绍
(1)基于GMM-HMM的声学模型
优点:GMM训练速度快
声学模型较小,容易移植到嵌入式平台
缺点:GMM没有利用帧的上下文信息
GMM不能学习深层非线性特征变换
(2)基于DNN-HMM模型
优点: DNN能利用帧的上下文信息,比如前后个扩展5帧
DNN能学习深层非线性特征变换,表现优于GMM
缺点: 不能利用历史信息来辅助当前任务
(3)基于RNN-HMM模型:
优点: RNN能有效利用历史信息,将历史消息持久化
在很多任务上,RNN性能变现优于DNN
缺点: RNN随着层数的增加,会导致梯度爆炸或者梯度消失
(4)基于CNN-HMM声学模型
优点:CNN对于语音信号,采用时间延迟卷积神经网络可以很好地对信号进行描述学习
CNN比其他神经网络更能捕捉到特征的不变形