端到端语音识别流程语音识别端到端

转载

mob64ca13f7419f 2024-05-27 20:25:08

对于传统的语音识别，通常会分为3个部分：语音模型，词典，语言模型。语音模型和语言模型都是分开进行训练的，因此这两个模型优化的损失函数不是相同的。而整个语音识别训练的目标（WER：word error rate）与这两个模型的损失函数不是一致的。

对于端到端的语音识别，模型的输入就为语音特征（输入端），而输出为识别出的文本（输出端），整个模型就只有一个神经网络的模型，而模型的损失采用的CTC Loss。这样模型就只用以一个损失函数作为训练的优化目标，不用再去优化一些无用的目标了。

Deep Speech1的结构如下图所示：

端到端语音识别流程语音识别端到端_全连接

h(l)t=g(W(l)h(l−1)t+b(l))

其中 g() 为隐藏单元的激活函数，本文中使用了clipped ReLu作为隐藏单元的激活函数，W 为权重矩阵，b 为偏置，h(l−1)t 为第 (l−1) 层，第 t

文章中使用的clipped ReLu函数表达式为：

g(z)=min{max{0,z},20}

h(f)t 为前向（从左至右）的rnn层， h(b)t

端到端语音识别流程语音识别端到端_深度学习_02

以前向RNN为例，其中

端到端语音识别流程语音识别端到端_损失函数_03

：代表了第三层第t个隐藏单元的输出与权重矩阵的乘积；

端到端语音识别流程语音识别端到端_端到端语音识别流程_04

：代表了第t-1个前向传播RNN的输出和权重矩阵的乘积；

端到端语音识别流程语音识别端到端_深度学习_05

：代表了偏置

而此处的g()为之前叙述的clipped ReLu函数。

而网络的第五层则是非RNN层，主要是将第4层中的前向RNN和反向RNN求和作为隐藏单元的输出，然后经过的计算与普通的全连接层相同，其计算公式如下所示：

最后的第六层为softmax层，预测的是每个时间段内，将该段时间的语音识别为每个字母的概率。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

端到端语音识别流程 语音识别 端到端