语音交互可以理解为,人类与设备通过自然语言完成了信息的传递。在载体上,有电脑、手机,以及音箱、电视、汽车、具有语音交互功能的可穿戴设备等硬件载体。电话机器人就是以电脑&手机为载体的语音交互系统,完成对用户声音的拾取、识别、理解及反馈。

典型的语音交互系统模块主要分三块,语音识别(ASR)将声音转化成文字,第二步经过自然语言处理(NLP),将文字的含义解读出来,处理并给出反馈,最后是语音合成(TTS),将输出信息转化成声音

影响语音交互应用的几大问题

语音交互从开发到使用,虽然历经了半个多世纪,一些困难始终阻扰着它的应用。

①语音收集问题:远场识别难,环境噪音、说话习惯等影响语音质量。语音质量高,语音识别结果才好。理想的语音收集环境是——距离声源很近、环境安静、发音人的普通话非常标准,而真实的应用环境是非常复杂的。根据距离的远近,语音识别分近场识别和远场识别,手机上的语音交互就是典型的近场:距离声源近,语音信号的质量较高。用户会通过点击开始和结束进行信号采集,保证可以录到用户说的话。但远场的难度很大,声源远,不知道声源具体位置,环境中存在噪声、混响和反射,干扰语音的收集。

②语音识别正确率:识别效果受多重因素影响,不同维度下波动大。

语音识别不只是将语音翻译成文字那么简单,还包括语音中的识错、纠错。如果说话人本身就是正确率高的人,他的准确率数据必然好看。拿同一份演讲来说,标准普通话的演讲、夹带方言、中英文穿插、英文演讲,不同的演讲语言、方式,在不同的场所,都会出现不同结果。语音识别首选需将连续的讲话分解为词、音素等单位,对自然语音的识别和理解、语音信息量大、语音的模糊性、单个字母或者字的语音特性受上下文影响,音速、音量、音调等变化,含义也会不同。识别词错误率(WordErrorRate),过去四十年里语音识别已取得了很大进展。一是依靠技术,包括隐马尔可夫模型、机器学习和各种信号处理方法,二是庞大的计算资源和训练数据,由于互联网存在,现在可以获得大量日常语音,包含各种材料和环境。

③语义理解:不同的场景与背景下,语义不同。

机器知道你说了什么还不够,他还得理解意义,才能做出相应的反应。理解语言是一个从词语逐渐递进到事件的过程,中文语义理解技术更为复杂,有分词、歧义与未知语言处理等问题。英语的每个单词都能被机器读取出来,但是中文很困难,例如“乒乓球拍卖完了”对于机器来说,就有三种意思:乒乓球|拍卖|完了、乒乓|球拍|卖完了、乒乓球拍|卖完了。对于人来说很简单,根据前后文就能马上知道,但是对于机器来说则极为艰难。

④多轮对话自然度:次数越多,难度倍增。

人类的对话是很巧妙的,对话内容会根据背景信息调整,会预设对方知道哪些事情,而机器人没有。对话轮数越多,语音交互任务难度增加。缺少关联性人机对话,看似是多轮对话,实际上却是多个单轮对话。比如:“明天的天气怎么样?” “明天下雨“ “后天呢?” “......”完整的问题是“后天的天气怎么样”,如果省略了,机器人就不能明白后天是指后天的天气了。

AI语音技术的落地最佳场景

语音交互系统是一项非常复杂的工程,当前AI语音技术的发展还不足以理解所有场景,但能完成特定场景、特定的任务中的对话要求。客服行业服务具有内容标准、重复度高、可移植性高等特点,因此是AI语音技术落地的最佳场景。

语音交互设计的流程

良好的话术设计是语音交互赖以实现的基础,由于语言尤其口语的形式不固定,变化很大,这给话术设计带来不小的挑战。语音交互设计大致分为三步:首先建立功能目的;其次撰写脚本,即客户和系统如何对话;第三步是制定流程、客户服务路径。

Yeta的训机师们从用户视角出发,遵循“需求调研→可行性评估→产品设计→投入研发→批量测试→灰度上线→正式发布→数据分析→持续优化”设计流程,深入了解业务场景及目标用户,不断调整、提炼,再结合真实外呼情况持续优化,保证话术质量。