语音交互技术不简单！

转载

51CTO文章精选 2021-07-06 10:43:37

文章标签 语音交互 文章分类 人工智能

语音交互，与图像识别一样，语音交互是人工智能的一个分支。

在人工智能异常火热的今天，从 Siri 到小度，从小冰到小娜，语音交互正悄无声息的融入我们的生活之中。

其实，语音交互系统发展的历史并不短，早在 1952 年，贝尔实验室就开发了能够识别阿拉伯数字的系统 Audrey。

1962 年，IBM 发明了第一台可以用语音进行简单数学计算的机器 Shoebox。

2019 年全球语音交互市场规模达到 13 亿美元，预计 2025 年全球语音交互市场规模将达到 69 亿美元，目前已广泛应用到智能家居、车载语音、智能客服等行业和场景。

对于发展前景如此感人的语音交互有哪些优劣势呢，也就是我们为什么这么热衷研发语音交互？

优势

信息传递效率高：

相比于传统的键盘输入，语音输入方式在速度及准确率方面更具优势，利用语音输入普通话时，速度是传统输入方式的 3.21 倍。

空间便捷性：与触控相比，语音交互可以人机相距 3~5 米进行交互，增加了交互的便捷性。

支持组合指令：在需要支持多意图同时传递的场景下，语音交互可以一次性下达多条指令，然后分别执行，比如你可以对着手机说：“播放周杰伦的《说好不哭》并且是免费的。”

使用门槛低

对非文字使用场景友好：语音交互为老人、孩子，以及一些不方便使用文字的人群提供了便利，也在一些不方便使用文字或者手势的场景下，比如：驾驶、玩游戏，为使用者提供了便利。

学习成本低：语音交互与我们平时说话一样，不需要特意学习，大大降低了学习的成本。

传递声学信息

声纹识人：通过声纹可以进行身份判断，并且可以在下达指令的同时进行身份判断，效率更高。同时声音还可以判断性别、年龄层、情绪等信息。

声音传递情感：声音交互可以传递情感、语气，因此在有情感诉求的场景下，语音交互是一个很好的选择。

但是，有利就有弊，语音交互同时也存在着一些弊端。

弊端

信息接收效率低

当信息量大、内容较长时，语音交互的效率就会降低，同时，语音交互是线性的，也就是别人说话时，必须都听完才能理解其中的意思，这也大大降低了语音交互的信息接收效率。

嘈杂环境下语音识别精度降低

语音识别需要清晰的识别出人声，嘈杂环境使得人声的提取变得非常困难，尤其是针对远场语音交互，噪音的问题更加突出。

例如远场安静环境下语音识别准确率能达到 95%，但是在嘈杂环境下仅能达到 80% 左右。

虽然存在着这些弊端，但是语音交互还是在不断完善中实现着自我突破。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客