前言

上节是从neural network(神经网络)的角度讨论了语音识别的模型,包括常见的模型:LAS和CTC等,这节从HMM角度讨论语音识别的模型,虽然HMM模型已经有一定历史了(2010年左右,HMM还是主流的方法),但是作者也说道:“这些远古的血脉依然在今天的技术中流淌”。

HMM角度

李宏毅深度学习学习笔记 李宏毅访谈_李宏毅深度学习学习笔记


上面这幅图就是非常经典的图,我们通过贝叶斯定理展开,展开得出:声学模型(Acoustic Model)和语言学模型(Language Model),很多资料都包括上述的内容,如果你对HMM还不是很熟悉,建议先学习下HMM相关的知识,b站上有很多资料。

HMM 的建模单位

之前LAS等模型可以使用字符或者word来作为建模单位(即:Y的单位),但是在HMM中,这些单位并不适合HMM,不同的字符或者word发音是不一样的,所以HMM需要更细粒度的建模单位。Phoneme(音素)是发音的最小单位,人的听觉能感知的最小单位,因为相邻发音音素会互相影响,比如 do you这两个单词发音分别是d uw和y uw,虽然第二个都是uw音素,但是实际上听起来却不一样,因为uw会受到前面的音素的影响。Triphone就是把音素相邻两侧的音素也考虑进去。

李宏毅深度学习学习笔记 李宏毅访谈_李宏毅深度学习学习笔记_02


每个Triphone,还对应3个或5个state,这里是对Triphone的再进一步细化HMM就是对State建模,一般取3个。所以HMM就把这里的问题从:

李宏毅深度学习学习笔记 李宏毅访谈_语音识别_03

即:通过State来产生Acoustic Feature Sequence(声学特征序列),这里的State就是HMM隐状态,声学特征序列就是HMM的可观测序列

HMM模型的结构

李宏毅深度学习学习笔记 李宏毅访谈_DNN_04

HMM涉及两个参数:

概率

说明

转移(Transition)概率

从状态i到状态j的概率

发射(Emission)概率

在状态i情况下,属于某一个Acoustic Feature(声学特征)的概率,通过GMM建模

假设英文中有30个Phoneme,Tri-phone就需要30*30*30个,Tri-phone对应3个state,则有30*30*30*3=81000个GMM模型,可见这个数量还是太大了,并且有些state在训练集中并没有出现,所以我们可以使用Tied-state来减少GMM模型的数量(终极形态是2010年Povey大神的Subspace GMM所有的state都共用一个model,现在已经不太常用了)这里如果想了解更多可以看看李琳山老师讲的课程,我记得里面有一个讲决策树对不同的音素进行聚类。

李宏毅深度学习学习笔记 李宏毅访谈_语音识别_05


假设目前已经有HMM的转移概率和发射概率,在训练模型的时候,我们还缺少一个东西:Alignment(对齐),即:声学特征如何和State进行对齐,这部分和上一节CTC的内容有一些类似,不同的对齐方式产生最终概率也是不同的。最简单也是最暴利的方法就是枚举所有的枚举情况的概率,然后求和(笔者补充:其实这里可以使用维特比算法进行计算,作者后续还会扩展)。

李宏毅深度学习学习笔记 李宏毅访谈_DNN_06


当然,笔者这里补充下,HMM模型具体的训练过程还是挺复杂的,需要通过k-means初始化,然后使用EM算法不断迭代参数,这里推荐一篇文章

以上便是传统HMM与语音识别结合方式的概述,你肯定有个问题,HMM如何和最新的深度学习结合在一起,作者接下来就讨论这个主题。

HMM与深度学习的结合

模型

改进的地方

Tandem

使用DNN取代MFCC作为新的语音特征提取方式

DNN-HMM Hybird

使用DNN取代GMM,计算HMM的发射概率,具体的转换公式(如图所示),已经达到了Human Parity(人类水平),如今商业语音识别应用基本上以这种方法为主

DNN-HMM Hybird计算方式:

李宏毅深度学习学习笔记 李宏毅访谈_李宏毅深度学习学习笔记_07


作者认为这里其实也是state tied方法,每个发射概率共用同一个DNN模型。

总结

本节主要讲述传统语音识别模型GMM-HMM,如今主流的语音识别技术是对这个模型的拓展,最常见的拓展是将GMM变成DNN,交给神经网络模型进行训练,这种DNN-HMM Hybird(混合模型)效果已经达到了人类的水平,受到了广泛的应用。截止到目前,我想总结的是,从HMM到LAS,自动化学习参数越来越常见,我们把原来许多人工的过程(如:state tied、LM过程等)完全交给了深度学习去自动学习,与此同时,为了让模型拟合数据,我们需要的数据量也变得越来越大。

很显然作者这里讲述HMM只是为了为后续的end-to-end做对比和铺垫,我依然有一些疑问:

  • HMM怎么扩展到LVCSR(Large-Vocabulary Continuous Speech Recognition,大词汇连续语音识别)的?

在下一节,作者又回到了end-to-end模型,继续讲述HMM, CTC, RNN-T三个模型是如何解码和训练的。