深度学习语音识别语音识别的算法

转载

mob6454cc6a249f 2023-08-05 11:27:31

文章标签 深度学习语音识别深度学习声学模型语音识别 DNN 文章分类 深度学习人工智能

学习目标

希望从语音识别开始深入，最后可以开发一个个性化语音合成的系统。这样就可以随时随地可以听你想听到的人说话啦。

语音识别的总体思路

语音基本单位：帧（Frame）

HMM模型：

深度学习语音识别语音识别的算法_深度学习语音识别

初始状态概率（P(w1)）和状态转移概率（P(w2 |w1)、P(w2 |w2)）可以用常规的统计

方法从样本中计算出来，主要的难点在于发射概率（P(x1 |w1)、P(x2 |w2)、P(x3 |w2)）的计算，所以声学模型问题进一步细化到发射概率（Emission Probability）的学习上，可以通过生成式模型（GMM）或判别式模型（DNN）求解。

GMM：生成模型，着重刻画数据的内在分布，可以直接求解P(x|s)，称之为似然概率。
DNN:求解P(s|x)，称之为后验概率。
作为生成式模型的 GMM 擅长捕捉已知数据中的内在关系，能够很好地刻画数据的分布，打出的标签具有较高的可信度，但对于未知数据的分类，判别式模型的 DNN 有着更强的泛化能力。通俗点来说，GMM 善于就已有资源进行最大化的开发（Exploitation），而DNN 擅长举一反三，具有探索精神（Exploration）。

End-to-End思想：直接通过一个模型来训练出一个端到端的语音到文本的生成，此方法首要解决的问题是输入与输出不定长的问题。
对于输入：可以采用CNN或RNN
对于输出：可以采用CTC损失函数和注意力模型
两个主流的端到端方法：基于CTC损失函数和注意力网络结构的深度学习方法