多模态大模型硬件交互方案剖析分享

关注 LISTENAI

文章目录

多模态交互方案概况
SDK 示例详解
SDK业务流程概览
端侧业务流程
云端服务流程
聆思平台(LSPlatform)
实操：四步就能完成的多模态交互的聆思CSK6开发板
实操准备：
操作步骤：
更多学习资源

多模态大模型硬件交互方案剖析分享

原创

LISTENAI 2024-04-07 15:48:30 博主文章分类：CSK6开发实践指南 ©著作权

文章标签 大模型多模态开源智能硬件开发板 文章分类 神经网络人工智能 私藏项目实操分享

©著作权归作者所有：来自51CTO博客作者LISTENAI的原创作品，请联系作者获取转载授权，否则将追究法律责任

多模态交互方案概况

在小米SU7的发布会上，雷总提到了车的位置、方向等要和摄像头要结合起来一起做大模型的运算实现感知多模态融合，并可以实时语音交互。在车这个实例中，大模型可能运行在汽车集成的本地芯片上的。但端侧大模型本身需要的运算资源很多，日常生活中用的智能硬件没有汽车那么富裕的资源，因此我们使用的是端侧轻量级AI+云端大模型结合的方式。

多模态大模型硬件交互方案剖析分享_大模型

从上图可以看到，图像采集和语音交互会先在硬件端侧芯片，通过离线的AI能力做预处理，然后数据再通过网络传到线上服务集群由云端AI和大模型进行进一步的处理。线上服务集群处理后的结果或指令再通过网络传回到硬件端，通过语音播报或其他外设执行。这次SDK接的是星火认知大模型，如果想接其他大模型，可以参考星火的接入方式实现。DEMO演示视频参见：大模型多模态示例介绍和演示

SDK 示例详解

通过下图可以了解各模块承载的功能。

多模态大模型硬件交互方案剖析分享_大模型_02

SDK业务流程概览

以演示DEMO中大模型语音示例为参考，首先通过语音或按键唤醒本地算法，把语音或视觉接收到的信息先做预处理，然后逐帧发给给云端服务集群。如果是语音数据就会由云端ASR处理成文字，再交给大模型分析需求意图，然后再交给对应意图的大模型处理。

大模型处理后的数据会进入后处理服务转为合适开发板执行的格式和内容，后处理可以由云端服务集群处理，部分适合开发板端侧处理的也可以交由端侧处理。

多模态大模型硬件交互方案剖析分享_开源_03

端侧业务流程

下图为业务流程中在硬件端执行的流程参考。

多模态大模型硬件交互方案剖析分享_多模态_04

云端服务流程

首先设备识别语音输入，随后下发如“我知道了”、“好的，请稍等”，然后将识别的内容结合上下文进行语义改写，将改写后的内容就通过大模型进行意图落域，接着根据落域的结果分别进行不同的后续处理，并最后将响应文本合成TTS输出。

多模态大模型硬件交互方案剖析分享_开源_05

聆思平台(LSPlatform)

在前面的图示中有提到聆思平台(LSPlatform)，这是聆思专门为大模型进行全链路开发落地而设计的云平台。

● 通过平台你可以在云端灵活定制专属于你的大模型应用，如定制企业专属知识库，实现文生图、图生文功能，接入企业内部服务等。

● 同时还提供了常用的产品管理功能，如固件OTA，设备白名单管理等，便于开发者在产品发布上市后实现产品维护和管理。

多模态大模型硬件交互方案剖析分享_多模态_06

以上为多模态DEMO的介绍，可以结合视频理解和进行二次开发上手。

实操：四步就能完成的多模态交互的聆思CSK6开发板

开发者如果从零开始大模型云端应用开发和嵌入式开发门槛高耗时久，交互效果优化也不容易。如果是用聆思CSK6大模型开发板配套的SDK就会方便很多，SDK已经对接好星火认知大模型，并实现了十几种端侧AI能力，大家只需要基于SDK二次开发自己的应用即可。

下面实操通过简单的四步操作完成一个具备二次开发基础的，可以拍照识图和语音交互的大模型开发板DEMO。

实操准备：

1、硬件：聆思CSK6 视觉语音大模型开发板

2、下载多模态DEMO固件： llmmix_zephyr.bin

3、下载烧录工具：聆思开发板烧录程序（win）/ Linux&Mac

操作步骤：

1、将多模态DEMO固件和烧录工具放在同一个目录下

多模态大模型硬件交互方案剖析分享_智能硬件_07

2、电脑接开发板的DAP_USB，然后进入命令行，在固件所在目录执行烧录指令

.\cskburn.exe -s \\.\COM串口号 -C 6 -b 1500000 0x000000 llmmix_zephyr.bin

多模态大模型硬件交互方案剖析分享_多模态_08

3、通过串口录入wifi账号密码：

wifi add c3 1234567

多模态大模型硬件交互方案剖析分享_开发板_09

4、重新给开发板上电，即可使用拍照识图和大模型语音交互功能

多模态大模型硬件交互方案剖析分享_开发板_10

更多学习资源

如果需要获取本教程相关的学习资源、代码，

或者了解更多与嵌入式开发、AI芯片相关的其他课程，可以点击查看目录导航。

赞
收藏
评论
分享
举报

上一篇：在一块开发板上同时实现大模型语音交互和视觉识别

下一篇：聆思CSK6大模型开发板实例：接入知识库做企业制度问答/项目管理

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册