学习目标

希望从语音识别开始深入,最后可以开发一个个性化语音合成的系统。这样就可以随时随地可以听你想听到的人说话啦。

语音识别的总体思路

语音基本单位:帧(Frame)

HMM模型:

深度学习 语音识别 语音识别的算法_深度学习 语音识别


初始状态概率(P(w1))和状态转移概率(P(w2 |w1)、P(w2 |w2))可以用常规的统计

方法从样本中计算出来,主要的难点在于发射概率(P(x1 |w1)、P(x2 |w2)、P(x3 |w2))的计算,所以声学模型问题进一步细化到发射概率(Emission Probability) 的学习上,可以通过生成式模型(GMM)或判别式模型(DNN)求解。

GMM:生成模型,着重刻画数据的内在分布,可以直接求解P(x|s),称之为似然概率。
DNN:求解P(s|x),称之为后验概率。
作为生成式模型的 GMM 擅长捕捉已知数据中的内在关系,能够很好地刻画数据的分布,打出的标签具有较高的可信度,但对于未知数据的分类,判别式模型的 DNN 有着更强的泛化能力。通俗点来说,GMM 善于就已有资源进行最大化的开发(Exploitation),而DNN 擅长举一反三,具有探索精神(Exploration)。

End-to-End思想:直接通过一个模型来训练出一个端到端的语音到文本的生成,此方法首要解决的问题是输入与输出不定长的问题。
对于输入:可以采用CNN或RNN
对于输出:可以采用CTC损失函数和注意力模型
两个主流的端到端方法:基于CTC损失函数和注意力网络结构的深度学习方法

语音识别的工具

广泛使用的语音识别开源工具有 CMUSphinx、HTK、Kaldi。
语音识别系统的流程:
前端语音信号处理 -》声学模型、语言模型训练-》后端解码,深度学习方法较多地应用于声学模型和语言模型

声学模型

  • 统计声学模型

深度学习 语音识别 语音识别的算法_声学模型_02

  • 端到端声学模型

深度学习 语音识别 语音识别的算法_DNN_03