#SpatialBot

空间大模型:上交、斯坦福、智源、北大、牛津、东大联合推出!

大模型走向空间智能、具身智能之路!

智源,斯坦福,北大,牛津,东大联合推出SpatialBot , 通过理解和使用深度图来理解空间。

  • 论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models
  • 论文链接: https://arxiv.org/abs/2406.13642
  • 项目主页: https://github.com/BAAI-DCAI/SpatialBot

RGB+Depth可以作为多模态大模型(MLLM/VLM)理解空间的途径,但是:

  1. 现有模型无法直接理解深度图输入。比如CLIP在训练时,没有见过深度图。
  2. 现有大模型数据集,大多仅用RGB就可以分析、回答。模型不会主动到深度图中索引知识。

51c大模型~合集18_大模型

因此,作者提出:

  1. 三个层次的 SpatialQA 数据集。在low level引导模型理解深度图,在middle level让模型将depth与RGB对齐,在high level设计多个深度相关任务,标注了50k的数据,让模型在理解深度图的基础上,使用深度信息完成任务。
  2. SpatialBench 榜单。精心设计和标注的QA,测试模型深度理解能力。
  3. SpatialBot 模型。模型在需要时,可以通过API获取准确的深度信息。SpatialBot基于3B到8B的多个base LLM,在SpatialBench、常用MLLM数据集(MME, MMBench等)和具身数据上取得显著提升。

51c大模型~合集18_大模型_02

术细节

  1. 作者将深度图转化为3通道的伪RGB图,在兼顾室内高精度、室外大范围场景的需求下,尽可能保留所有深度信息供模型索引。以毫米为单位,囊括1mm到131m。
  2. SpatialQA是RGBD的MLLM数据集,作者公布了详细的如何将现有CV任务的RGB或RGBD数据集,MLLM训练集,转化为SpatiaQA的pipeline,以及其中的数据标注细节。
  3. 最近大火的Cambrain-1 (LeCun Yann, Saining Xie)提出MLLM四大问题,其中之一是物体远近关系判断(proximity)。其实,在此之前,在SpatialBot提出的DepthAPI, 就以99+%的准确率解决了深度信息和远近关系的问题。

实验效果和DepthAPI

51c大模型~合集18_大模型_03



#利用文本、音视频等多模态数据来进行 AI 情感识别

别只盯着ChatGPT版「Her」,在多模态AI拟人互动上,国内玩家也支棱起来了

如今的 AI 在识别人类情感方面发展到什么程度了?本月初,一场向更具情感 AI 发起挑战的高规格赛事落下了帷幕!

这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 AI 顶会 IJCAI2024 上发起举办,探讨如何利用文本、音视频等多模态数据来进行 AI 情感识别,并推动相关技术在真实人机交互场景中的落地应用。

大赛官网:https://zeroqiaoba.github.io/MER2024-website/#organization

本届挑战赛共设置了三个赛道,分别为 Semi(半监督学习赛道)、Noise(噪声鲁棒性赛道)和 Ov(开放式词汇情感识别赛道),其中 Semi 赛道参赛队伍最多且难度最高、竞争最激烈

以 Semi 赛道为例,参赛队伍需要利用少量有标签和大量无标签数据视频数据来训练自己的模型,并对模型在无标签数据集上的表现和泛化能力进行评估。该赛道获胜的关键在于通过改进半监督学习技术来提高模型情感识别性能,比如预测情绪类别的准确率。

自 5 月大赛启动起,两个月时间,来自全球近百支参赛队伍展开了角逐,既不乏知名高校也有创企新势力。其中 Semi 赛道第一名由社交平台 Soul App 摘得,其语音技术团队凭借可行性创新技术方案拔得头筹。

不过,在揭秘 Soul 团队技术方案之前,我们有必要先来了解 AI 在多种模态中的情感识别能力。

人机交互下一步

要让 AI 懂情感

如今的 AI 看起来已经无所不能,对话交流、生成图片或视频、解数学题等,能够胜任感知、学习、推理、决策等不同层面的任务。得益于大模型的加持,AI 可以称得上足够聪明,但在感同身受等情感层面却有所欠缺。

在人机交互中,用户有时不单单需要 AI 遵循指令完成任务,还要它们提供足够的情绪价值,满足情感需求。从功能「基操」到情感「进阶」,AI 要掌握的技能就要升级了。

因此,多模态情感识别成为 AI 领域的活跃研究课题。能读懂情绪并传达情感的 AI 成为业界追逐的新热点,也被认为是 AI 领域下一个重大突破。近半年来,一些 AI 创业公司和行业巨头为我们揭开了人机沉浸式交互的新形态。

四月初,国外一家创业公司 Hume AI 发布了一款语音对话机器人 Empathetic Voice Interface(EVI),它通过语音交流分析和识别对话者的语气和情绪,可以检测到多达 53 种情绪。此外它还能模拟不同的情绪状态,在互动中更接近真人。在 AI 情感层面的突破也让这家初创公司快速拿到了 5000 万美元 B 轮融资。

接下来是 OpenAI 放了大招,旗舰模型 GPT-4o 展现了实时音视频通话功能,对用户情感和语气做出即时响应,被称为 ChatGPT 版「Her」,而这个语音功能在近期正式对用户开放。自此,AI 拥有了强大的能言善辩、感知情绪能力,让人直呼科幻时代的到来。

国内如微软小冰、聆心智能等也致力于打造有情感的 AI 产品。我们从中可以看到一种趋势:情感识别能力在文本、音视频等多模态 AI 应用中的参与度越来越高。不过要想在拟人化情感识别领域更进一步,仍需解决有标签数据稀缺、主观情绪识别不稳定和不准确等问题。

因此,推动学界、业界更加关注多模态情感识别领域,并加速相关技术的创新和进步,变得尤为必要。当前,ACM MM、AAAI 等 AI 学术顶会都将情感计算作为一个重要的研究主题,CVPR、ACL 等顶会也曾举办过情感计算相关挑战赛。特别是在面对大数据和大模型时代的来临,如何在多模态情感识别中利用大量无标签数据和有效处理、融合不同模态信息是目前行业面临的重大挑战,此次 MER24 挑战赛举办的原因和意义也在于此。

而 Soul 团队在 Semi 赛道获得第一名,背后是其在多模态数据理解、情感识别算法、模型优化平台工具、内部工作流建设等方面的能力积累与创新,以及技术团队的高效协作。

夺得最难赛道头名

Soul 团队都做了什么?

既然提到 Semi 赛道难度最高,难在哪些方面?Soul 团队又如何获得第一名?我们接着往下看。

数据是 AI 三大要素之一,没有充足特别是高质量的数据训练,模型就无法保证很好的性能效果。面对数据稀缺带来的种种挑战,业界既要扩增包括 AI 生成数据在内的所有类型数据,也注重提升数据稀疏场景的模型泛化能力。多模态情感识别任务也是如此,它的核心在于海量标签数据的支撑,对文本、音视频等不同类型的内容打上喜怒哀乐悲等情感标签。现实却是,互联网上带情感标签的数据非常稀缺。

此次大赛的 Semi 赛道仅提供了 5030 条有标签数据,其余 115595 条均为无标签数据。因此,有标签数据稀少成为包括 Soul 团队在内所有参赛队伍遇到的首个难题。

图源:MER24 基线论文:https://arxiv.org/pdf/2404.17113

另一方面,相较于 Noise、Ov 赛道,Semi 赛道侧重于考验核心主干技术,即更多地关注模型架构的选择以及特征提取泛化能力,对多模态大模型技术技术积累以及创新性要求比较高。

51c大模型~合集18_大模型_04

针对赛道少标签数据、高技术要求的特征,Soul 团队基于此前积累的自研大模型部分模块做好了充足的赛前准备,并确定了一套可行性创新技术方案。在整体思路上采取「先主干后微调」的策略,首先集中精力提高每一个核心特征提取模型的泛化性,然后再融合在一起;在具体实现过程中又做了以下几个方面工作。这些构成了他们的核心优势。

首先前期关注多模态特征提取。在端到端模型架构中,利用预训练模型提取文本、语音和视觉不同模态的情感表征,关注情感中的共性和差异性,从而来提升情感识别效果。后期根据多种模态的各模态特征提出有效的融合方法,将这些模块融合形成模型架构。为了提高预训练模型的泛化性能,Soul 团队专门针对视频模态在情感识别领域首次提出了 EmoVCLIP,EmoVCLIP 是一个基于大模型 CLIP 结合 prompt learning 技术在视频情感识别领域更具泛化性能的模型。

另外,为了提高文本模态情感识别能力,Soul 团队针对文本模态使用 GPT-4 来打情感伪标签,充分利用 GPT-4 的情感关注能力,提高文本模态在情感识别的准确率,为后面进一步模态融合打下了更好的基础。

其次,在多模态特征融合上,Soul 团队首次在多模态情感识别方向使用了 Modality Dropout 策略并研究了不同 dropout rate 的性能影响,为了缓解模态之间的竞争问题,在模型训练过程中随机抑制某个的模态(文本、语音或视频模态)以实现更好的鲁棒性,提升模型在提供的有标签数据之外未见过数据上的泛化能力。

最后,半监督学习技术开始发挥作用,其基本思路是使用有标签数据训练出一个模型,然后对无标签数据进行预测,根据预测结果为无标签数据生成伪标签。这些伪标签又用来训练模型,持续提升模型效果。Soul 团队利用半监督学习中这种自训练(Self-training)的策略,循环地为 Semi 赛道超 11 万条无标签数据打伪标签并加入训练集,进行模型迭代更新,得到最终的模型。


51c大模型~合集18_大模型_05

Soul 团队参赛技术方案图。

从整体思路到多模态特征融合、对比学习、无标签数据自训练,Soul 团队的技术方案为他们带来了好结果。最终在语音、视觉和文本多模态情感识别准确率上,Soul 团队提出的系统比基线系统提升了 3.7%,达到了 90%以上。同时,对于情感识别领域方向上存在易混淆边界的情感(比如忧虑和担心)识别,Soul 团队也能区分得更好。

图源:MER24 基线论文:https://arxiv.org/pdf/2404.17113

从更深层次看,此次 Soul 团队在 MER24 挑战赛的脱颖而出,是其一直以来在社交领域深耕 AI 大模型技术尤其是多模态情感化交互能力的集中体现。

创新多模态拟人互动

社交型 AI 已是 Next Level

社交领域天然需要有情感的 AI。一种主流观点认为,社交的本质是情绪价值的互换,而情绪又多种多样。这意味着,如果 AI 想要无缝融入社交场景并高效发挥作用,势必要像真人一样提供丰富的情感反馈和体验。

而实现共情 AI 的基础在于让其拥有强大的多模态情感识别能力,在功能上从单纯的「任务执行者」进化到「满足人类情感需求的陪伴者」。但 AI 做到有效地理解情绪依然非常困难,它在理解语境、感知用户情绪、给出情感反馈、进行思考等方面与人类存在本质的区别,因此相关技术与算法的持续创新很重要。

对扎根社交领域的 Soul 来说,着力构建具备情感化能力的 AI 已成为需要思考的重要命题。2016 年上线之初,Soul 首先思考如何运用创新技术和产品来更好地满足用户需求,其中引入 AI 来解决人与人连接需,成为其站稳社交领域并发展壮大的关键。较早推出的「灵犀引擎」利用智能推荐算法,挖掘分析用户兴趣图谱和站内全场景特征,让他们更容易找到聊得来的人和更需要的内容,形成高粘性用户和内容生态。至今,这种更「聪明」的算法应用的匹配场景,也是 Soul 上用户非常活跃的功能之一。

有了早期 AI 辅助社交的成功经验,在这波大模型快速发展的技术浪潮中,Soul 进一步在 AI 介入社交、辅助关系网络的基础上,探索人机互动的新可能。

自 2020 年启动 AIGC 相关算法研发工作开始,Soul 便以多模态为方向,在智能对话、图像生成、语音和音乐生成等多方面拥有了前沿能力积累。相比纯技术向的 AI 创业新势力,Soul 的一大特点在于采用了「模应一体」策略,在 C 端同步推进大模型与 AIGC 应用的过程中注重打造具备情感识别能力的 AI,在丰富拟人化交互场景中真正实现有温度的反馈

从 Soul 近两年的动作可以看出,其加快了 AIGC 赋能社交场景的步伐。2023 年推出自研语言大模型 Soul X,成为 AIGC + 社交布局的重要基建。在该模型的 Prompt 驱动、条件可控生成、上下文理解、多模态理解等能力加持下,站内对话不仅实现了流畅自然,更具备了情感温度。

文本成为 Soul 情感识别能力落地的牛刀初试,并逐渐从单一模态延伸到了更多模态。今年,Soul 上线语音生成大模型,并正式升级自研语音大模型,覆盖了语音生成、语音识别、语音对话、音乐生成等细分领域,在支持真实音色生成、语音 DIY 等功能的同时具备了多情感拟真人实时对话能力。

当然,Soul 在模型层面持续发力更具情感 AI 之外,也已经在其平台多元化的社交场景中让它们发挥用武之地,进一步丰富和提升用户的 AI 互动体验。

以 Soul 拟人型对话机器人「AI 苟蛋」为例,它依托 Soul 自研语言大模型 Soul X,实现了拟人化交互,不仅可以精准理解用户输入的文本、图片等多模态内容,还能在多轮沟通中根据对话场景为他们主动送去关怀,仿佛对话那头真人一般。同时用户也可以定制专属苟蛋,体验独一无二的虚拟人交互。

AI 苟蛋还展现出了在拟人化、知识、多模态、时间感知等多方面的融合能力,令 Soul 站内很多用户都对它强大的拟人交互能力感叹,这也是为什么 Soul 平台有不少用户会主动发帖吐槽「苟蛋怕不是个真人吧」。

此外,Soul 同样依托 Soul X 在游戏场景「狼人魅影」中引入 AI NPC,借助先进的强化学习技术,在游戏各个阶段具备了伪装、信任、领导与对抗等拟人决策能力,可以直接与用户玩起狼人杀,发言毫无违和感。

再比如 Soul 推出了主站外首个独立新应用「异世界回响」。作为一个 AI 社交平台,用户可与其上多场景、多风格的虚拟人角色展开沉浸式即时交流,这些角色均具备了形象、声音、人设对话能力。当然,用户可以定制虚拟角色,并根据喜好自定义人设(如背景经历、性格等),可玩性很高。

同样地,自研语音大模型也在 AI 苟蛋、狼人魅影以及异世界回响等场景中发挥作用。比如在异世界回响中支持了语音通话功能,拥有类真人音色的虚拟角色与用户自然、实时地对话交流,丰富了互动体验。

“异世界回响” 实时语音通话功能。

在持续深化智能对话、游戏和语音等社交场景的 AI 拟人化互动之外,Soul 还在视觉生成领域构建符合自身审美的多样画风生成能力,打造 AI 数字分身,进一步迈向多维度的综合互动体验。

可以看到,Soul 在 AI 情感识别领域的布局已经覆盖了语言、语音和视觉多模态,在与社交紧密关联的文字、图片、音频和视频场景齐发力,让用户在立体、多感官的人机互动中体验有温度的 AI。

结语

2024 年被很多圈内人士称为 AIGC 应用元年,大家关注的焦点不再只是拼参数和基础能力了。在由模型层向应用层转移的趋势下,率先在垂类领域和场景落地 AI 才能赢得更多用户和市场。尤其是面向 C 端赛道的人机交互,更天然地需要围绕用户需求做文章。这一点在社交领域有着很好的体现。

此前 AlienChat 等多款恋爱 App 停服,「第一批和 AI 恋爱的年轻人失恋」讨论话题上了热搜。在这背后,功能同质化是一部分原因,还在于体验上没有从助手 / NPC 角色转变为真正提供情绪支持的陪伴者。这就要求在社交领域通过丰富人机互动方式和场景,让 AI 全面参与到各个社交环节,与用户深层次情感交流,为他们提供情绪价值。

这或许也将是 AI 社交方向接下来的核心竞争点之一。而这也不难理解,为什么作为应用层的 Soul 会如此看重自研技术能力积累。在过去一段时间,其一方面致力于打造个性化、拟人化、多样化的 AI 能力;另一方面,从多个维度加速 AI Native 应用落地,包括社交体验提升、AI 社交、AI 游戏等,形成完备的 AI 产品链,在多样社交场景中为用户提供 AI 互动的乐趣。

可以说,Soul 近年来基于自研语言和语音大模型孵化出了一系列产品成果,并在提升 AI 与用户情感化互动体验的过程中积累了丰富创新技术和实践经验,这些都为其在 MER24 挑战赛中夺得第一名做足了铺垫,也是其能与来自国际的高质量参赛队伍切磋交流的基础。

近年来,这类挑战赛越来越多,比如 CVPR 2024 Workshop 上的 NTIRE 2024 AIGC 质量评价挑战赛、2023 和 2024 连续两届 MER 挑战赛,国内企业凭借实践中积累的技术屡屡能取得佳绩。比如去年取得 MER23 第一的商汤和今年第一的 Soul,这些企业对 AIGC 技术和应用的重视和投入收到了显著成效。

可以预见,未来像 Soul 这样坚持技术和产品创新的平台会在释放 AI 能力的过程中持续为用户创造价值,这样一来在形成繁荣内容和社区生态的基础上才可能实现自身更持久、更多样化的商业价值。




#档拆解苹果智能,从架构、数据到训练和优化

在 2024 年全球开发者大会上,苹果重磅推出了 Apple Intelligence,这是一个全新的个性化智能系统, 可以提供实用的智能服务,覆盖 iPhone、iPad 和 Mac,并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。

库克曾经表示,Apple Intelligence 是苹果创新的新篇章,将改变用户使用产品的方式。他强调,苹果独特的方法结合了生成式人工智能和用户的个人信息,能提供真正有用的智能服务。此外,Apple Intelligence 能够以完全私密和安全的方式访问信息,帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。

如今,距离 Apple Intelligence 官宣一个多月过去了,这项技术终于落地智能设备,相关技术文档也终于放出。

在刚刚过去的一天,拥有 iPhone 15 Pro 或 iPhone 15 Pro Max 的用户可以下载 iOS 18.1 开发测试版,并可以体验 Apple Intelligence 的功能了。

随着这篇长达 47 页技术报告的出炉,我们可以更加深入的了解 Apple Intelligence 背后的秘密武器。

  • 报告地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

报告详细介绍了其中两款模型 ——AFM-on-device,AFM 代表 Apple Foundation Model,是一个约 30 亿参数的语言模型,以及一个更大的基于服务器的语言模型 AFM-server,可以高效、准确和负责地执行专门的任务(图 1)。

这两个基础模型作为苹果更大的生成模型系列的一部分存在。

51c大模型~合集18_大模型_06

架构及训练

AFM 基础模型是基于 Transformer 架构构建的密集解码器模型,采用如下设计:

  • 共享输入 / 输出嵌入矩阵,以减少用于参数的内存使用。
  • 使用 RMSNorm 进行预归一化以提高训练稳定性。 
  • 查询 / 键归一化以提高训练稳定性。
  • 具有 8 个键值头的分组查询注意力(GQA),以减少 KV 缓存内存占用。 
  • SwiGLU 激活,以提高效率。 
  • RoPE 位置嵌入,基频(base frequency)设置为 500k,以支持长上下文。 

AFM 预训练过程在开发高性能语言模型,以支持一系列 Apple Intelligence 功能方面发挥着关键作用。研究团队注重效率和数据质量,以获得高质量的端到端用户体验。

在后训练方面,研究团队发现改进通用后训练可以提升 Apple Intelligence 所有功能的性能,因为模型在遵循指令、推理和写作方面会具有更强的能力。

为了确保这些模型功能符合苹果对保护用户隐私的承诺,以及苹果的 Responsible AI 原则,后训练工作包括一系列数据收集和生成、指令调整和对齐创新。后训练过程包含两个阶段:监督微调(SFT)和来自人类反馈的强化学习(RLHF)。研究团队提出了两种新的后训练算法:(1)带有 teacher committee(iTeC)的拒绝采样微调算法,以及(2)一种用于强化学习迭代的 RLHF 算法,带有镜像下降策略优化(mirror descent policy optimization)和留一法优势估计器(leave-one-out advantage estimator)(MDLOO),使得模型质量显著提高。

Apple Intelligence特性

基础模型是为 Apple Intelligence 专门设计的,这是一个支持 iPhone、iPad 和 Mac 的个人智能系统。

苹果发现,针对特定任务的微调,他们可以将小模型的性能提升到一流水平,除此以外,他们还开发了一种基于运行时可交换适配器(runtime-swappable adapters)的架构,使单一基础模型能够专门用于数十个此类任务。图 2 显示了高级概述。

51c大模型~合集18_大模型_07

适配器架构

苹果使用 LoRA 适配器来针对特定任务进行模型微调。对于每项任务,研究者会调整 AFM 自注意力层中的所有线性投影矩阵以及逐点前馈网络中的全连接层。仅通过微调适配器,基础预训练模型的原始参数保持不变,可以保留模型的一般知识,同时定制适配器以支持特定任务。

量化

为了将 AFM 纳入内存预算有限的边缘设备并降低推理成本,需要考虑量化技术。先前的研究发现,与原始的 32/16 位浮点相比,经过 4 位量化的模型损失会很小。

为了在模型容量和推理性能之间实现最佳平衡,苹果开发了最先进的量化方法和利用准确率 - 恢复适配器(accuracy-recovery adapters)的框架。使得模型在每个权重平均小于 4 位的情况下,还能实现近乎无损的量化,并提供灵活的量化方案选择。

方法

经过后训练,模型被压缩和量化,得到平均低于 4 位的权重。量化模型通常表现出中等程度的质量损失。因此,苹果不会将量化后的模型直接用于功能开发,而是附加一组参数高效的 LoRA 适配器以进行质量恢复。

值得注意的是,训练准确率 - 恢复适配器具有样本效率,可以看作是训练基础模型的迷你版本。在适配器的预训练阶段,只需要大约 100 亿个 token(约占基础模型训练的 0.15%)即可完全恢复量化模型的能力。

由于应用程序适配器将从这些准确率 - 恢复适配器微调而来,因此它们不会产生任何额外的内存使用或推理成本。关于适配器大小,苹果发现适配器秩为 16 时提供了模型容量和推理性能之间的最佳权衡。

但是,为了灵活性,苹果提供了一套具有不同秩 {8、16、32} 的准确率 - 恢复适配器供应用程序团队选择。

混合精度量化

AFM 中的每个 transformer 块和每个层都存在残差连接。因此,所有层都具有同等重要性的可能性不大。根据这一直觉,苹果通过推动某些层使用 2 位量化(默认为 4 位)来进一步减少内存使用量。平均而言,AFM-on-device 可以压缩到每个权重仅约 3.5 位 (bpw),而不会造成显著的质量损失。

评估

研究团队使用常见的开源评估工具和基准来评估 AFM 预训练模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的结果。

这些基准测试表明,AFM 预训练模型具有强大的语言和推理能力,为后训练和特征微调提供了坚实的基础。

AFM 与开源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商业模型(GPT3.5 和 GPT-4)的比较结果如下图3所示。与其他模型相比,AFM 模型更受人类评估人员的青睐。特别是,AFM-on-device 与 Phi-3-mini 相比,尽管模型规模小了 25%,但仍获得了 47.7% 的胜率,甚至优于开源强基线 Gemma-7B 和 Mistral-7B。

51c大模型~合集18_大模型_08

为了衡量模型生成响应遵循提示中指令的能力,研究团队在 IFEval 基准上评估了 AFM-on-device 和 AFM-server,结果如下图 4 所示:

51c大模型~合集18_大模型_09

如图 5 所示,AFM-server 实现了最佳的整体准确率,优于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。

51c大模型~合集18_大模型_10

苹果将 AFM 与一些最出色的模型以及规模较小的开源模型进行了比较。如图 6 所示,与 Gemma-7B 和 Mistral-7B 相比,AFM-on-device 可以实现相当或更好的性能。AFM-server 的性能明显优于 DBRX-Instruct 和 GPT3.5,并且与 GPT4 相当。

51c大模型~合集18_大模型_11

图 7 比较了经过后训练的 AFM 在数学基准上的表现。结果发现,AFM-on-device 的性能明显优于 Mistral-7B 和 Gemma-7B,即使规模不到它们的一半。

51c大模型~合集18_大模型_12

下图为人类评分员评估 AFM-on-device 适配器、Phi-3-mini、Llama-3-8B 和 Gemma-7B 在摘要任务上的质量。图 8 显示 AFM-on-device-adapter 总体上优于其他模型。

51c大模型~合集18_大模型_13

负责任的AI

Apple Intelligence 的开发和设计都注重保护用户隐私。

图 9 总结了人类评分员在不同模型上给出的违规率,越低越好。AFM-on-device 和 AFM-server 都对对抗性提示具有鲁棒性,其违规率明显低于开源和商业模型。

51c大模型~合集18_大模型_14

图 10 表明,与其他模型相比,AFM 模型更受人类评分员的青睐。

51c大模型~合集18_大模型_15



#「光合」作用算力质变

「光合作用」破局中国算力,加速「智变」,AI乘风走深向实

毋庸置疑,人工智能就是当下「最靓的仔」。 

GPT-4o Mini 刚免费上线 ,Llama 3.1 接踵而至,表现超越 GPT 4o。Sora 、可灵、即梦,你方唱罢我登场。在刚结束的世界人工智能大会上,国内首款全尺寸通用人形机器人开源公版机发布。 

经过多年的数据、算法和算力积累,「智变」时刻已经到来——未来,千行万业都将会因为 AI 得以重塑,无论是大模型还是小模型。今年全国两会上,「人工智能+」也被首次写入政府工作报告,并列为 2024 年十大工作任务的首位。 

要用人工智能技术赋能千行百业,发展新质生产力, 算力是关键,也是衡量一个地区或国家 AI 竞争实力的关键指标。作为国家先进计算产业创新中心的重要组成部分,光合组织正在发挥其独特的「光合作用」,破局中国算力,加速「智变」,赋能 AI 走深向实。 

一、AI 狂飙,产业「智变」倒计时 

中国工程院院士郑纬民在 2024 光合组织领导人大会上表示:「当前激烈的产业竞争,让 AI 升级面临严峻考验,同时也带来了难得的机遇。我们要保持乐观态度,提升硬件性能,同时努力完善高水平的产业协作。」

在中国,「百模大战」一路狂奔,AI 正以前所未有的速度向各行各业渗透。 

在大模型的辅助下,创作效率正大幅提高。以视频创作为例,传统的分工明晰、周期冗长的制作流程,如今可以在 AI 支持的一站式平台上完成。同样,在编程领域,AI 助手能在几秒内生成上百行代码,开发效率大幅提升。 

但聊天、 创意和写作不是大模型的全部,在金融、生物医药、工业制造、政务、科学研究等领域,AI 正为产业刚需带来实实在在的价值。 

气象大模型通过 AI 推理的方式解决气象的预测难题,现在,使用一张卡就可以预测出来7天的天气,以往可能需要上千台服务器耗费数小时。 

在智慧工厂,平均每一秒就可以下线一台 PC 整机 ;在汽车总装车间,53 秒下线一台车;工业的时序数据基础模型正在实现趋势预测和异常检测等多种应用。 

能源领域也不例外。世界最大的清洁能源走廊——长江干流上的六座梯级水电站,正不断与科技创新碰撞出新的火花。 

「 AI for Science 是中国科技创新历史上最好的机会,它的空间非常大,将全方位改变科学研究到产业落地的过程。」中国科学院院士、北京大学国际机器学习研究中心主任鄂维南曾公开表示。 

中国信息通信研究院的一组数据进一步印证了 「智变」已经进入倒计时:2023 年,我国人工智能核心产业规模达 5787 亿元,相关企业数量 4482 家,产业链覆盖芯片、算法、数据、平台、应用等上下游关键环节,细分领域不断突破。经过多年培育,行业已经经历了信息化、网络化和平台化阶段,正进入数据驱动的智能化新阶段。 

二、 穿针引线, 共谱「光合」协奏曲 

现在,只需轻点鼠标,在人工智能遥感系统这位「手相师傅」帮助下,自然资源的「掌纹」细节,都能被一一识别、解读: 

起伏的山峦和绵延的森林、广袤的田野耕地、蓝色的海岸生命线、交错纵横的街道和建筑;

…… 

这只是许多 AI 企业依托光合组织「效应」,实现新质生产力的一个缩影。 

算力,已成为数字经济发展和人工智能进步的关键资源。近几年,人工智能技术加速融入更多行业和场景,算力需求呈现爆发式增长。 

100P 只能算「起步价」,人工智能企业业务对算力的需求都很大,每小半年,需求都会翻倍, AIGC 可能引发新一轮智算需求。 

所以,哪怕是一家「算力巨无霸」企业,也无以支撑如此庞大的需求。 

再从我国算力供给侧来看,中国的算力总规模居世界第二,但数据中心建设缺口依然很大,特别是对智算中心的需求和建设更为迫切。同时,已有的部分算力未能得到有效利用。大量场景没有用人工智能,不是因为用不到,也不是因为不需要,而是因为企业自建算力设施成本很高,普惠算力又缺乏。 

如何实现算力的「普惠」,让算力成为 AI 发展的基础资源?光合组织应运而生,集全产业链共谱「光合」协奏曲! 

光合组织是海光产业生态合作组织的简称,承载着建立和完善国产计算技术供应链和产业链重要使命,正通过其独特的「光合效应」,赋能「算力网」重要节点。就像一部协奏曲的谱曲者,它把国内计算产业上下游企业、高校、科研院所等各路高手召集到一块,穿针引线,专攻算力和人工智能技术攻关与应用合作。 

在刚结束的 2024 光合组织领导人大会上,光合组织「再下一城」:举办多个揭牌及签约仪式, 推动郑州建设「算力之城」 。

7月23日上午,2024光合组织领导人大会在河南省郑州国际会展中心开幕。 

作为东西部的连接纽带,早在 2020 年 11 月,河南就开始布局算力建设,为郑州在「东数西算」工程中奠定基础,其智能算力不仅位居全国前列 ,还坐拥郑州人工智能计算中心和 360 智算中心等基础设施。近期,中原算力谷在中原科技城科技转化片区揭牌,这个投资超百亿元、算力超万 P 的项目,无疑将成为中部地区算力产业高地的重要支撑。为实现高效「互联」、「互通」,郑州正全力打造「算力之城」,布局中部地区首张城市算力网。 

大会上,河南省委书记楼阳生亲自为郑州先进计算研究所和海光生态适配中心郑州基地揭牌。这两家机构的落地将为郑州提供先进的计算能力和技术支持,成为打造「算力之城」的重要基石。 

通过光合组织的牵线搭桥,郑州市人工智能创新中心、郑州市人工智能创新发展联盟、中原科技城人工智能产业园也在当天揭牌,规划了从研发创新、生态构建到落地空间和服务的完整闭环。 

植物的光合作用需要阳光、水分和二氧化碳的共同参与,郑州算力生态的「光合效应」也需要产学研的通力合作。大会上,国家先进计算产业创新中心还与郑州大学、河南大学就产学研合作及人才培养基地签约,郑州市人民政府与深信服、思必驰、青云科技、捷通华声等 10 家智算领域企业签约, 加快郑州从「算力城」迈向「智能城」的脚步。 

三、全链协作,富能国产算力 

除了如何更好满足算力需求、降低算力使用成本和使用门槛,在目前阶段,根技术上的自立自强也是刚性发展需求。 

人工智能是新质生产力的重要引擎,算力又是算法模型的基础,建设自有智算基础来支撑行业未来发展,显得尤为必要。而光合组织,作为由海光信息技术股份有限公司发起的产业生态联盟,正以其强大的向心力和引领作用,成为解决国产化挑战的核心力量。 

经过四年多的发展,光合组织已经建立了一个庞大的生态系统,包含 4000 余家成员单位,覆盖了从芯片设计到应用服务的全产业链。 

在芯片领域,光合组织与国产芯片厂商密切合作,推动 CPU 和 GPU 的研发和应用。在存储方面,促进了国产固态硬盘和大容量存储系统的发展。对于服务器和网络设备,光合组织正推动国产品牌如同方、联想开天等的创新,以满足大规模计算和海量数据传输的需求,并获得金融、能源、电信等关键行业和领域认可。 

中间层软件,如操作系统方面,光合组织积极推广统信、麒麟等国产操作系统,并促进其与底层硬件的深度适配。对于数据库,它支持达梦等国产数据库的发展和应用,推动这些产品在各行业的落地。同时,光合组织还在推动中间件、虚拟化平台等关键基础软件的国产化进程。 

在应用软件层面,光合组织不仅推动了 ERP、CRM 等企业级软件的国产化,还在人工智能、大数据分析等前沿领域促进了国产解决方案的发展,构建高水平商业体系。 

例如,通过与行业伙伴(如百度、思必驰等)合作,支持百度飞桨等国产 AI 框架与底层硬件的深度融合,推动 AI 模型在国产算力底座上的部署和优化。在 AIGC 持续快速发展背景下, 积极适配文心一言等大多数国内外主流大模型,实现了 LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用。 

作为这一生态合作的最新成果,在 2024 光合组织领导人大会上,首款国产 AI PC ——联想开天 M90h G1t AI PC 元启版在海光信息和联想开天的共同努力下,正式发布。 

在许多成员看来,光合组织为 AI 产业的生态对接提供了一个很好的平台。用户需要的是完整的解决方案,而单一厂商很难提供从底层架构到前端应用的一整套产品,在此背景下,生态力量的整合非常关键。 

冲量在线「 AI 安全开放平台」的诞生契机,正是光合组织解决方案大赛。在将基于深度学习框架的 AI 模型适配海光芯片过程中,他们向海光提出了大量优化和适配需求,都得到了快速响应。这一方案最终在某银行 AI SaaS 服务的安全能力技术提升的项目招标中中标。 

用友公司在迁移废钢智能判定模型过程中,几乎无障碍地跑通了算法,也得益社区详细的产品文档 ,在适配和使用过程中遇到问题都能得到及时响应。 

随着人工智能技术的不断突破,算力需求呈现爆发式增长,而算力「卡脖子」成为各大厂商竞逐AI最为头疼的难题。

光合组织汇聚4000 多家成员单位的合力,助力构建从芯片设计到应用服务的全产业链生态系统,不仅为更多企业提供了强大的算力基础,更推动了算力的普惠化。 

在这个AI时代,算力犹如阳光之于植物的光合作用,是推动整个产业生长的关键能量。光合组织正以其「光合作用」,通过推动算力革命,加速 AI 产业「走深向实」。