设备语音识别功能语音识别装置

转载

goody 2024-06-05 09:44:31

文章标签 设备语音识别功能 yeta机器人语音识别交互设计数据 文章分类 NLP 人工智能

语音交互可以理解为，人类与设备通过自然语言完成了信息的传递。在载体上，有电脑、手机，以及音箱、电视、汽车、具有语音交互功能的可穿戴设备等硬件载体。电话机器人就是以电脑&手机为载体的语音交互系统，完成对用户声音的拾取、识别、理解及反馈。

典型的语音交互系统模块主要分三块，语音识别(ASR)将声音转化成文字，第二步经过自然语言处理(NLP)，将文字的含义解读出来，处理并给出反馈，最后是语音合成(TTS)，将输出信息转化成声音

影响语音交互应用的几大问题

语音交互从开发到使用，虽然历经了半个多世纪，一些困难始终阻扰着它的应用。

①语音收集问题：远场识别难，环境噪音、说话习惯等影响语音质量。语音质量高，语音识别结果才好。理想的语音收集环境是——距离声源很近、环境安静、发音人的普通话非常标准，而真实的应用环境是非常复杂的。根据距离的远近，语音识别分近场识别和远场识别，手机上的语音交互就是典型的近场：距离声源近，语音信号的质量较高。用户会通过点击开始和结束进行信号采集，保证可以录到用户说的话。但远场的难度很大，声源远，不知道声源具体位置，环境中存在噪声、混响和反射，干扰语音的收集。

②语音识别正确率：识别效果受多重因素影响，不同维度下波动大。

语音识别不只是将语音翻译成文字那么简单，还包括语音中的识错、纠错。如果说话人本身就是正确率高的人，他的准确率数据必然好看。拿同一份演讲来说，标准普通话的演讲、夹带方言、中英文穿插、英文演讲，不同的演讲语言、方式，在不同的场所，都会出现不同结果。语音识别首选需将连续的讲话分解为词、音素等单位，对自然语音的识别和理解、语音信息量大、语音的模糊性、单个字母或者字的语音特性受上下文影响，音速、音量、音调等变化，含义也会不同。识别词错误率(WordErrorRate)，过去四十年里语音识别已取得了很大进展。一是依靠技术，包括隐马尔可夫模型、机器学习和各种信号处理方法，二是庞大的计算资源和训练数据，由于互联网存在，现在可以获得大量日常语音，包含各种材料和环境。

③语义理解：不同的场景与背景下，语义不同。

④多轮对话自然度：次数越多，难度倍增。

人类的对话是很巧妙的，对话内容会根据背景信息调整，会预设对方知道哪些事情，而机器人没有。对话轮数越多，语音交互任务难度增加。缺少关联性人机对话，看似是多轮对话，实际上却是多个单轮对话。比如：“明天的天气怎么样？” “明天下雨“ “后天呢？” “......”完整的问题是“后天的天气怎么样”，如果省略了，机器人就不能明白后天是指后天的天气了。

AI语音技术的落地最佳场景

语音交互系统是一项非常复杂的工程，当前AI语音技术的发展还不足以理解所有场景，但能完成特定场景、特定的任务中的对话要求。客服行业服务具有内容标准、重复度高、可移植性高等特点，因此是AI语音技术落地的最佳场景。

语音交互设计的流程

良好的话术设计是语音交互赖以实现的基础，由于语言尤其口语的形式不固定，变化很大，这给话术设计带来不小的挑战。语音交互设计大致分为三步：首先建立功能目的；其次撰写脚本，即客户和系统如何对话；第三步是制定流程、客户服务路径。

Yeta的训机师们从用户视角出发，遵循“需求调研→可行性评估→产品设计→投入研发→批量测试→灰度上线→正式发布→数据分析→持续优化”设计流程，深入了解业务场景及目标用户，不断调整、提炼，再结合真实外呼情况持续优化，保证话术质量。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。