端到端语音识别模型的大致框图语音识别端到端

关注 mob64ca14068b0b

文章目录

为什么需要端到端的系统
端到端语音识别系统介绍

端到端语音识别模型的大致框图语音识别端到端

转载

mob64ca14068b0b 2024-04-07 13:33:57

文章标签 端到端语音识别模型的大致框图机器学习人工智能语音识别机器翻译 文章分类 NLP 人工智能

为什么需要端到端的系统

传统语音识别系统非常复杂，需要分别训练声学模型、语言模型、发音模型
需要领域特殊的专业知识
通过端到端的模型可以直接将输入的声学特征转变为文本

端到端语音识别系统介绍

Seq2Seq
此模型长用于机器翻译、语音识别。其优点是输入输出不需要等长，而且两者长度不固定。
此模型包含两个RNN结构，分别用于编码与解码。Decoder网络直到解码的序列是END才停止，因此可以实现变长的输出。Encoder将输入进行编码，将整个输入的隐状态输入给Decoder，可以实现输入的变长。

端到端语音识别模型的大致框图语音识别端到端_机器翻译

seq2seq的瓶颈如图中橙色方框标记所示，Encoder与Decoder之间传递信息是通过Encoder最后一个的隐状态。如果输入的整个句子比较长那么和有可能最后一个隐状态所包含的信息不够。因此可以通过Attention解决这个问题。
Attention
关键点：在decoder的每一个步，只关注句子的特定部分。
从Attention官网中截取的图片可以看到，Decoder通过Attention机制生成的 $端到端语音识别模型的大致框图语音识别端到端_机器翻译_02$ 隐状态更关注于Encoder的 $端到端语音识别模型的大致框图语音识别端到端_机器学习_03$ 、 $端到端语音识别模型的大致框图语音识别端到端_人工智能_04$ 这两个隐状态。

端到端语音识别模型的大致框图语音识别端到端_人工智能_05

将Encoder的输入换成语音特征就可以实现端到端的语音识别。

Attention具体的计算步骤：

端到端语音识别模型的大致框图语音识别端到端_端到端语音识别模型的大致框图_06

（1）Decoder在t时刻的隐状态 $端到端语音识别模型的大致框图语音识别端到端_人工智能_07$ ，与encoder在t时刻的所有隐状态进行点乘再进行softmax获得 $端到端语音识别模型的大致框图语音识别端到端_人工智能_07$ 在每个encoder隐状态的分数。
（2）将得到的分数与Encoder的状态相乘得到Attention的分布（Distribution）
（3）此分布再与Decoder进行向量相乘或其他操作得到最后的decoder隐藏层参数
Self-Attention
values和query只来自Decoder的其中一个，而在Attention中values是Encoder的隐状态，query是Decoder的每一步。
这样的好处是：能够替换RNN，对时序进行建模；易并行，计算快
scaled Dot-Product Attention
图中Q是query，V是value。Q，K，V如果是相同的向量或矩阵那么就是self-attention

端到端语音识别模型的大致框图语音识别端到端_语音识别_09

Multi-head Attention
多个Attention共同的组合

端到端语音识别模型的大致框图语音识别端到端_机器翻译_10

Transformer
也是Encoder、Decoder框架的一种

[1] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems. 2017.

4.CTC
核心观点就是利用单个RNN实现将语音特征序列映射到文本序列。通过在输出集合中引入空符号解决输入与输出不等长的问题。

端到端语音识别模型的大致框图语音识别端到端_端到端语音识别模型的大致框图_11

5. RNN Transducer（RNN-T）

是对CTC的增强

端到端语音识别模型的大致框图语音识别端到端_机器翻译_12

RNN-T相比其他E2E模型的优点：

• 使用单向Encoder时，可以进行流式语音识别，也就是拿到一帧就可以解码一步（主要是因为存在Pred.Network结构）

• LAS、Speech Transformer等必须等到一句话说完才

可以解码

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：云密码机镜像配置怎么设置云密码服务平台

下一篇：jenkins调度框架 jenkins架构图

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册