融云观察：给 ChatGPT 加上声音和脸庞，AI 社交的多模态试验

原创

融云 2023-12-20 15:00:34 ©著作权

文章标签 聊天机器人开发者音视频 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者融云的原创作品，请联系作者获取转载授权，否则将追究法律责任

如果将短剧的爆火简单粗暴地归因为剧情上头、狗血反转和精妙卡点，那 GenAI 世界这一年来可以说是一部短剧 Live Show。关注【融云全球互联网通信云】了解更多

这厢 Open AI 宫斗内幕还没起底完，那头 Google 就因为 Gemini 的 Demo 视频造假喜提热搜。

不过我们还是能从混杂的剧情中摘取出主线，那就是后发力量所展示出的大模型演进方向——从一开始便进行多模态训练和调优，而非从文本、代码、图像、音视频逐步突破的渐进式多模态。

多模态大模型的进化，会进一步丰富用户与 AI 的互动方式，深入地影响我们的社交生活。尤其是，在通信技术的助力下，我们建立和发展关系本身就已经在很大程度上转向了线上化和数字化。

给 ChatGPT 加上声音和脸庞

过去，聊天机器人基于规则运行，根据用户输入触发不同的脚本。它们无法根据对话背景和用户语气来调整自己，只能回应有限的主题或执行预定的任务。

如今，在大模型的驱动下，聊天机器人可以提供自由、流畅的对话体验，让对话式人工智能充满了趣味性。这一变革性创新，让所有应用都面临着重构机遇。

这一切从 ChatGPT 开始，但它并非一个终结者，而是激起层层涟漪的第一颗石子儿。在我们已经习惯 ChatGPT 等聊天机器人展现出的流畅对话能力后，给它们加上声音和脸庞就成了下一步发展方向。

硅谷投资机构 a16z 曾对“开发一款拥有丰富互动方式的 AI 伴侣软件”这一任务所需要用到的工具进行了梳理，开发者组合使用它们就可以创建相应产品，实现聊天、语音电话甚至视频通话的功能。

融云观察：给 ChatGPT 加上声音和脸庞，AI 社交的多模态试验_开发者

比如，使用 Vicuna、Pygmalion 等模型生成具有特定个性的文本回答；调用 ElevenLabs 的 API 生成更贴近真实，可以控制年龄、性别和口音的语音回复；还有能让郭德纲讲出一口流利英文的 HeyGen 视频 AI。（关于这个明星 AI 公司，我们此前曾在「给你牵线，也帮你把关」，AI 机器人在社交软件中的花样存在中有过介绍。）

已经有不少开发者落地了实践，其中一个基本共识是：人们乐于尝试文本、语音、视频等多种方式与聊天机器人进行互动，但大家依然会追求更接近真人的体验。

最近，ChatGPT 全面开放了语音功能，声音就十分拟真——会以人们组织语言时常发出的“emm”声音来开始一段回答，会有短暂停顿和呼吸声以及口音、语气。

在实际用例中，开发者可以在应用中接入两种质量有较大差异的 TTS（文本转语音）API，并将生成质量更好的服务设置为付费项。结果显示，用户愿意为了更加逼真的体验而付费。

应用也在向着实时交互扩展，不过这将意味着难度升维，是多项技术的综合考验。

当系统接收到声音信息后，AI 需进行声音检测和 ASR（语音识别）、NLP（语义理解），判断对话场景和用户意图，并将回答进行语音合成，与用户进行对话。

贴近现实生活中的通话体验，产品还需要进行全双工通信（可以同时进行信号的双向传输）以自然地处理用户临时打断回答等情况，及时从回答转为接收和识别用户信息模式，并根据用户释放的新信息进行反馈。

融云观察：给 ChatGPT 加上声音和脸庞，AI 社交的多模态试验_聊天机器人_02

在 RTC 实时通信方面，融云将客户端的采集、编码、发送、解码和展示的链条全部都做成 Pipeline，且服务端合流及流的二次消费基本都是可插拔的，可以非常好地与大模型相嵌，助力完成 AI 实时交互升级。

随着音频驱动面部动画技术的发展、响应延迟的降低、语音生成的进步，我们与 AI 的对话将变得越来越个性和沉浸。趋势已经显现，并在越来越多场景中应用。

社交主桌，教育冒头

AI 驱动的应用市场中，聚光灯首先照在了社交赛道上。

对话式机器人“性格外向”且能讨论任何主题，这使得陪伴型 AI 成为用户最先尝试的 GenAI 杀手级应用。

我们此前曾分享过a16z 最新研究：全球 GenAI TOP50 应用的「6 大启示」，其中提到的用户量 Top50 应用中，就有 9 款是陪伴型产品。

融云观察：给 ChatGPT 加上声音和脸庞，AI 社交的多模态试验_音视频_03

目前的聊天机器人大多身兼伴侣和助手双重身份，尤其是在 Character.AI 引领下，大多聊天机器人产品都平台化发展，以“聊天机器人集市”形态为主，可以由不同的“人格”来承担更多“职能”。

但以能否提供更多情绪价值为界，垂类产品在用户体验上有着明显分野。以 Pi 和 Call Annie 这两个具备实时通信能力的 AI 产品为代表。

不同于既能写代码又能做规划的生产力型 AI，Pi 更着重于训练自己的对话能力，定位于倾听者和伙伴。

Pi 的产品界面非常简洁，对话框表达依然以文本为主，而后自动进行语音读取，也可以直接拨打语音电话进行实时交互。

在体验上与众不同的是，Pi 表现出了更高的“情商”，会在对话中主动提出延伸问题。官方也鼓励用户在工作生活中“卷不动了”的时候，通过和 Pi 对话来缓解压力。

因切割游戏布局而引起热议的字节跳动，在 AI 社交出海领域推出的探索性产品 Cici，也采用了类似的设计。产品沿用了主流的“机器人集市”架构，但在对话中默认开启语音功能，会主动将文字回复用语音再读一遍。

前 Tinder 首席产品官推出的 AirChat，则允许用户创建用语音、文字或视频进行异步沟通的聊天室。产品内置了 AI 语音翻译，用户可以直接用自己的惯用语讲话，应用会进行翻译并模仿使用者的口音进行表达，降低了不同国家用户之间的沟通成本。

不同于这些偏重异步交互的产品，Call Annie 直接提供 FaceTime 一样自然的视频通话体验。

Call Annie 有完整的视频通话体验设计，拨打、接通后便可以开始通话；开着它操作其他应用，只要没挂电话，App 最小化后会显示依然在通话；支持音视频通话互切，快速反馈的语速也让用户有真实的感觉。并且，除了当家花旦 Annie，还提供其他四十多个对话者。

融云观察：给 ChatGPT 加上声音和脸庞，AI 社交的多模态试验_开发者_06

Call Annie 的所有设计都在为沉浸感加码，这个产品体验太贴合 1V1 社交场景了。

1V1 社交一直是社交品类中商业化路径最为明晰的形态，也是常年霸榜收入 Top 的赛道之一。在全球化的语境下，1V1 社交也是东南亚、北美、拉美等出海高价值区域的热门场景。

融云今年上线的 CallPlus SDK，就是支撑开发者进军这一场景的利器。完整封装了拨打、接听、挂断等整套呼叫流程，支持一对一及多人音视频通话；独家提供通话记录管理能力，且支持用户在过程中顺畅地进行音视频通话互转。

a16z 在一份报告中把 AI 对约会应用的改变总结为四个方向，分别是简介润色、语言建议、关系教练和牵线搭桥。

融云观察：给 ChatGPT 加上声音和脸庞，AI 社交的多模态试验_开发者_07

事实上，在 AI 语音和视频等更丰富的交互能力加持下，AI 重塑的可能不仅是线上约会的过程，甚至包括对象。

也就是说，GenAI 带给社交的，不仅仅是基于 IM 和 RTC 通信能力提升社交关系升级的效率和体验，还有智能体、虚拟人等全新交互对象。这意味着社交将出现代际升级，社交范围将被重新定义。AI 伴侣会融入我们与朋友和家人的关系中，成为生活的一部分。

目前，用户对 Call Annie 的微词主要集中在其冷淡、自持、客观的态度上，“像一个不近人情的班主任”。这也是为什么在社交媒体上，这款应用最火的使用场景和宣传口径是“免费练习口语”。

据媒体报道，Call Annie 一推出，就造成了美国的教育平台 Chegg 的股价暴跌。无论是出于业务创新还是战略应对的考量，教育赛道对 AI 实时交互应用表现出更高的热情也就有据可依了。

文心一言中已经上线了英语口语老师插件，支持用户进行口语交流。网易有道也推出了相应的付费 App，内置话题来覆盖日常英语学习场景。

与侧重社交的 AI 机器人不同的是，教育场景的 AI 机器人大多在对话结束后会给用户的发音和语法打分，并提出润色建议。可以说，这很教育，也很符合简中互联网爱打分的氛围。

无论是社交、教育还是其他细分赛道，新一轮的创新热潮正在被 AI 推动，也考验从业者适应新业态的能力。

AI 的大爆炸时刻，给被下行掌控的世界劈开了一道缝隙，并迅速蔓延为一场全球性的人声鼎沸。我们愿意相信，也积极参与它带来的范式转变。这将撑起人们对未来生活、社交方式的崭新畅想，能重新把我们带到希望里。

AIGC 常看常新，我们也在学习中整理了一些颇有助益的行业报告、论文。感兴趣的朋友，进入【融云全球互联网通信云】公众号，在对话框里发送“AIGC”即可获得这些资料。

上一篇：2023 年中国 IT 用户满意度调查结果公布，融云获评「中国数字化转型新锐企业」

下一篇：融云信创 IM，助力两金融客户加速信创替代进程

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯