智能语音时代，需要了解什么？

原创

wireless_com 2022-02-22 16:29:12 博主文章分类：DuerOS 开发 ©著作权

文章标签 智能语音 AI DuerOS 人工智能开发者大会 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者wireless_com的原创作品，请联系作者获取转载授权，否则将追究法律责任

技术世界不会让人永远躺在功劳簿上。

繁忙之余，感谢愉快的地铁阅读时光，读了一本科普书《智能语音时代》。可能由于译者不是专业人士的缘故，在翻译中有一些常识性错误，例如出现了“网景公司正在奋力开发IE浏览器”之类的，但是瑕不掩瑜，作者还是给出了很多有意思的事实和观点，例如：

最好的魔术就是——

能从逝者那里拿回一些东西，
能让某些东西无中生有，
能让无生命的东西具有灵性。

“不动笔墨不读书”，读书后的随笔札记就是下面的这些文字。

语音是什么？

语音，是人类呱呱坠地后最早使用的沟通方式，也是现代人际交流最基本的方式，更是未来人机交互最重要的方式。语言把我们连接起来，人们知道如何说话，因为我们终其一生都在说话。

语音对我们有意义，是因为我们知道它所表示的对象及概念，我们有逻辑和常识，有知识本体这样一个组织体系，通过语言来传播思想。人们把听到的信息和头脑中已有的信息结合起来进行理解。

语音这一能力把我们和其他物种区分开来。语音调整着我们的关系，它能塑造思想、表达感受、沟通需求；能发起变革、挽救生命，激起爱恨情仇。

当语音遇到人工智能

手机把云计算带个了每一个人，只要随身带着麦克风，就在日常生活中真正掌握了人工智能这一工具。科学技术是赋能的核心要素，当语音和人工智能结合的时候——

语音正在变成影响现实的通用遥控器，成为几乎控制任何一种技术装置的手段。语音把对人工智能的控制权交给了用户，正在引领着“环境智能”的实现。在使用很多应用程序的时候，人们会抛弃键盘和触摸屏，而选择更自然、更让人自在的语音界面。语音技术创新了与客户交互的方式，还创新了收集数据并以此创造利润的方式。

智能语音改变了隐私、自主权和关系。人与人工智能之间的对话，可能是新文明到来的征兆。然而，效率的提高代价是独立性的减弱。智能语音模糊了人与机器的界限，模糊了隐私、自主权和亲密感的界限，还模糊了人际关系与数字关系、现实与虚拟、甚至可能是生与死的界限。

智能语音中的技术

涉及智能语音的技术包括：自动语音识别，自然语言理解，自然语言生成和语音合成。这些技术往往都把基于神经网络的深度学习作为一种重要的手段，多层结构、数字的精细输出和加权调整赋予了神经网络更多的功能。

把声波转换成文字：自动语音识别

语音识别系统很少能够处理非常确定的情况，一般在猜测人们最有可能说什么，通过声学模型（声波分析）和语言模型（相当于字典）配对来实现这一点。衡量语音识别系统准确度的经典方法是使用电话总机通话记录的数据集。

识别出这些文字表达什么：自然语言理解

计算机是用来处理数字而不是文字的，要处理语音就必须先用数字来表示语言。使用被称为向量的有序字符串来表示文字，这种方法称为词嵌入。神经网络可以学习区分单词的属性，并不需要171000维向量来表示一种语言，可以在不到1000个有意义的特征中完成这项工作。不仅单个单词能被嵌入，向量也可以粗略地表示短语、句子和整个文档。句子的意义是在词汇的动态流中被发现的，而这些词汇同时又在修饰着其他复杂的词汇。深度学习能够帮助计算机理解句子的意思。

形成一个合适的回复：自然语言生成

语言人工智能使用信息检索比任何其他技术都多。例如，LSTM能够准确定位邮件中那些最有助于预先构思回复的部分，而不会被那些不太重要的句子干扰。这或许就是做Google、百度等搜索公司的核心竞争力之一吧。

将回复变成语音答复：语音合成

变幻莫测的发音和韵律意味着一个单词可以以几乎无限多的方式发音，这使得语音合成变得棘手。基于单元拼接的语言合成集合了真实人类的语音片段，这种参数化合成的方法一直是语音行业的“天鹅绒奶酪”。2017年8月Siri推进了新的基于神经网络的语音合成方法——一个混合系统将合成的音频片段和人工生成的音频片段链接起来。

语音技术要适应人类对话的复杂性和多样性，面对一个核心挑战：变异性（下一步对话的走向）。社交对话中充满了事实、细节和俚语，包含无限多的变化，例如话题的突然转移、同语言一样重要的情感元素等。另外，交谈中会有停顿、矛盾、暗示和笑话。因此，社交对话是语音技术的终极挑战之一。

语音助手产品的人性化

互联网上应该有人们最好的朋友吗？

当听到有人说话时，我们会自动做出判断和假定，拥有讲话的能力实质上就具备了人的特质。而语音助手在个性上应该如何友善、如何有同情心、如何有智慧呢？需要设定它的年龄、性别、种族和社会背景吗？自我应该是真实生命专属的，真实的人并不完全由他们的职业来定义，可以为语音助手打造独特的身份。

语音助手必须能够表达自己的脆弱，对事情感到不确定或担心，才显得它更像一个人。

谷歌发现，拥有最高用户留存率的语音应用是那些拥有强烈角色性的应用程序。对话设计的着力点在科学和艺术的连接上。平易近人的个性会鼓励用户学习使用语音助手的技能集。因此，语音助手拥有能够鼓励人们愿意与之打交道的个性是很重要的。

当用户试图得到一个问题的答案或完成一项任务时，语音助手的回答必须是严谨客观的。人类不是纯粹寻求信息的生物，他们有情绪，会焦虑，都是需要应对的。关系是由感情来维系的，情商并不局限于感受到对方的情绪。情感计算技术——从面部表情、词汇选择和音调上进行情感分析——只能在有限的程度上提高互动的质量。微软小娜感觉就像融合了Google Now 的世俗气和Siri的迷人魅力。

个性化产品将推动用户的参与，但构建角色是通过使用基于规则的人工创作方法进行的。也就是说，赋予语音人工智能个性是有意义的，但选择恰当的个性是很棘手的事。一个普遍的事实是，各个厂家的语音助手一般都是女性化的，这不是约定俗成，而是有着深层次的含义。

智能语音的应用架构

不论是亚马逊、谷歌、微软，还是国内的百度、阿里和小米，面向语音助手的智能语音应用都采取了基于代理（关于代理，可以参考当你问代理机制的时候？指的是Agent,Proxy,Broker还是Delegate呢？）的架构，其巧妙之处在于它是模块化的、可扩展的，可以不断地把新的业务系统囊入其中。

例如，Microsoft Bot Framework，开发者可以为任何商家创建一个自然语言的界面。基于云端的人工智能服务能够对此提高支持，以解析语言、组织对话、甚至还能分析出隐藏在人们语言之后的感情。

开发自然语言的应用程序，即使是聚焦在非常具体的领域，可能也会非常困难。当要把很多信息呈现出来时（如很多天的天气预报或者可选航班），视觉呈现会比语音呈现更有效率。不仅着眼于已存在的智能手机应用程序，而是更多地聚焦于创造一些能让自然语言交流大显身手的场景。

对于数据的应用而言，结构化数据是指以标准化的、计算机可读的方式列出的信息数据库。知识图谱以类似生物学分类的方法来标柱各种关系。为了解决知识图谱的问题，转而运用了从非结构化数据中寻找答案的系统，包括网页、扫描文档和数字化图书。智能语音可以越来越多地充当回答问题的百科全书。微软的概念图谱在规模和覆盖范围上也一直在与谷歌的知识图谱进行竞争。如何将基于知识型的人工智能与机器学习型的人工智能两种技术结合起来，创造一个混合性系统呢？

智能语音应用中的问题

智能语音在实际的、以目标为导向的应用中已经做的十分出色了。Siri对话调用的早期6个应用领域是：短信、音频和视频通话、付款、拍照、锻炼、乘车预定。在从传统的搜索引擎到人工智能服务的转变中，亚马逊获利最多，微软赢得美名，谷歌损失最多，但仍令人敬畏。

智能语音正在被尝试广泛地应用，例如，认知系统会分析我们用语音和文字进行交流时候的表现，这些分析结果有助于发现精神性疾病各阶段的迹象。然而，语音助手会对他们掌握的知识负责么？某一功能在未来的某个时候可能意味着一种责任。

凡事都有两面性，智能语音应用可能会存在哪些负面影响呢？人们有权感知真实的世界。尽管老人和儿童都倾向于将语音助手拟人化，那么与拟人化产品互动会如何影响人们随后的社交欲望呢？用户提出要求并获得满足，且无须任何付出，这可能不利于道德和情感的发展，尤其是对儿童而言，实际上，关于孩子们如何看待当今的聊天机器人的研究还很少。

从商业上看，用户愿意为什么样的交谈付费呢？为成为被选中的语音搜索结果而付费，只是一个时间问题，这种广告可能更费钱。正如一场货架空间争夺战即将出现，从理论上讲，每个位置的价格都将更高，因为同样多的需求被挤压到了更小的空间里。当众多竞争者都在努力让客户听到自己的声音时，要占据市场的主导地位就变得更加困难。但目前的情况是，语音广告似乎不太可能产生与在线广告和移动广告相当的收入，因为适合播放语音广告的平台比较少。需要注意的是，一项市场研究预测，到2022年语音购物的规模将从目前的每年20亿美元增加到每年400亿美元，可惜书中并没有给出应用的出处，所以无从考证。

智能语音是一场为用户设计单一界面的竞赛。提供唯一权威答案的战略意味着我们生活在一个简单和绝对的世界里。对知识的控制是一种强大的力量，它正在被集中到少数精英团队的手中，控制权决定了语音流量的去向，这可能是潜在的另一个问题。

最后，你希望拥有自己记忆的语音助手吗？