语音识别 sdk 语音识别 SRE 功能

转载

mob64ca14017c37 2024-02-19 21:26:20

语音识别（SR）功能是当今国外操作系统的标准特征，而国产操作系统根本不具备这样的特质，并且国家队没有相关的主观动力。去开发实际可用的语音识别系统。与国外相比，国产操作系统落后了一大节子，怪谁？

如何让机器识别人的语音？事实上大道理并不复杂。首先，让机器设备听懂元音，然后听懂辅音。将两者合成起来成为单词，再做进一步的处理。可是。实际做起来就复杂了。

怎么做？

建立“语料库”（Corpus），就是建立语音的声学模型库。比方。”猫“这个单词的发音，必须让机器记住“猫”的发音，设法让机器听到“猫”所相应的“声音”（所谓”生物信号“）就知道主人对它说的是“猫”。语料库就是建立单词与语音的相应关系。这是基本建设，须要投入大量的人力、物力。别无他法。

不论什么语音都有个人特征，尽管100个人的发音基本同样，可是，存在一定的差异。

所以机器的听觉总是存在“错误率”，这是必定的。减少机器识别错误率是必要的。这是一个基本认识，对机器不能要求过高。机器耳朵永远比只是人耳。

微软、谷歌、百度语音识别巨头都拥有各自的数万小时的语料库，可是，我们却没有，Linux社区也没有GPL可用的语料库（VoxForge不带我们玩）。

怎么办？天上不会自己主动掉馅饼。

要知道。私有公司建立自己的版权大型语料库总是要付出巨大的投入成本。而我们有人喜欢天上掉馅饼。整天坐在院子里面张着大嘴巴对着蓝天等着天上掉下馅饼来。

袁萌 7月14日

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客