多模态交互方案概况

在小米SU7的发布会上,雷总提到了车的位置、方向等要和摄像头要结合起来一起做大模型的运算实现感知多模态融合,并可以实时语音交互。在车这个实例中,大模型可能运行在汽车集成的本地芯片上的。但端侧大模型本身需要的运算资源很多,日常生活中用的智能硬件没有汽车那么富裕的资源,因此我们使用的是端侧轻量级AI+云端大模型结合的方式。

多模态大模型硬件交互方案剖析分享_大模型

从上图可以看到,图像采集和语音交互会先在硬件端侧芯片,通过离线的AI能力做预处理,然后数据再通过网络传到线上服务集群由云端AI和大模型进行进一步的处理。线上服务集群处理后的结果或指令再通过网络传回到硬件端,通过语音播报或其他外设执行。这次SDK接的是星火认知大模型,如果想接其他大模型,可以参考星火的接入方式实现。DEMO演示视频参见:大模型多模态示例介绍和演示


SDK 示例详解

通过下图可以了解各模块承载的功能。

多模态大模型硬件交互方案剖析分享_大模型_02

SDK业务流程概览

以演示DEMO中大模型语音示例为参考,首先通过语音或按键唤醒本地算法,把语音或视觉接收到的信息先做预处理,然后逐帧发给给云端服务集群。如果是语音数据就会由云端ASR处理成文字,再交给大模型分析需求意图,然后再交给对应意图的大模型处理。

大模型处理后的数据会进入后处理服务转为合适开发板执行的格式和内容,后处理可以由云端服务集群处理,部分适合开发板端侧处理的也可以交由端侧处理。

多模态大模型硬件交互方案剖析分享_开源_03

端侧业务流程

下图为业务流程中在硬件端执行的流程参考。

多模态大模型硬件交互方案剖析分享_多模态_04

云端服务流程

首先设备识别语音输入,随后下发如“我知道了”、“好的,请稍等”,然后将识别的内容结合上下文进行语义改写,将改写后的内容就通过大模型进行意图落域,接着根据落域的结果分别进行不同的后续处理,并最后将响应文本合成TTS输出。

多模态大模型硬件交互方案剖析分享_开源_05


聆思平台(LSPlatform)

在前面的图示中有提到聆思平台(LSPlatform),这是聆思专门为大模型进行全链路开发落地而设计的云平台。

● 通过平台你可以在云端灵活定制专属于你的大模型应用,如定制企业专属知识库,实现文生图、图生文功能,接入企业内部服务等。

● 同时还提供了常用的产品管理功能,如固件OTA,设备白名单管理等,便于开发者在产品发布上市后实现产品维护和管理。

多模态大模型硬件交互方案剖析分享_多模态_06

以上为多模态DEMO的介绍,可以结合视频理解和进行二次开发上手。


实操:四步就能完成的多模态交互的聆思CSK6开发板

开发者如果从零开始大模型云端应用开发和嵌入式开发门槛高耗时久,交互效果优化也不容易。如果是用聆思CSK6大模型开发板配套的SDK就会方便很多,SDK已经对接好星火认知大模型,并实现了十几种端侧AI能力,大家只需要基于SDK二次开发自己的应用即可。

下面实操通过简单的四步操作完成一个具备二次开发基础的,可以拍照识图和语音交互的大模型开发板DEMO。

实操准备:

1、  硬件:聆思CSK6 视觉语音大模型开发板

2、  下载多模态DEMO固件: llmmix_zephyr.bin

3、  下载烧录工具:聆思开发板烧录程序(win)Linux&Mac


操作步骤:

1、  将多模态DEMO固件和烧录工具放在同一个目录下

多模态大模型硬件交互方案剖析分享_智能硬件_07

2、  电脑接开发板的DAP_USB,然后进入命令行,在固件所在目录执行烧录指令

.\cskburn.exe -s \\.\COM串口号 -C 6 -b 1500000 0x000000 llmmix_zephyr.bin

多模态大模型硬件交互方案剖析分享_多模态_08

3、  通过串口录入wifi账号密码:

wifi add c3 1234567

多模态大模型硬件交互方案剖析分享_开发板_09

4、  重新给开发板上电,即可使用拍照识图和大模型语音交互功能

多模态大模型硬件交互方案剖析分享_开发板_10



更多学习资源

如果需要获取本教程相关的学习资源、代码,

或者了解更多与嵌入式开发、AI芯片相关的其他课程,可以点击查看  目录导航