#Carpentopod

当代版木牛流马?国外网友造出「会走路的桌子」,引百万人围观

你想喝瓶啤酒,于是就把桌子叫了过来。这不是吃了菌子才有的场景,而是国外网友的一项发明,名叫 Carpentopod。

51c大模型~合集52_大模型

整个桌子有 12 条腿,里面内置了电机,是木工、电子和编程结合的产物。只要按下遥控器,桌子就会向你走来,像一个家用机器人一样。

从图上可以看出,Carpentopod 走起来非常平稳,这是它的腿部参数不断「进化」的结果。这个「进化」过程在软件的虚拟环境中进行,数千个虚拟腿部变体在该环境中竞争,只有得分高的腿部变体才能混合「基因」。

如此精巧的结构制作起来自然是非常不易。作者表示,「早在 2008 年,我就写了一些有趣的软件来生成各种优化的步行机制。近年来,我掌握了一些电子和木工技能,于是能够将其中一种机制变成一个真正的无线步行木制咖啡桌。」

这种机器人技术与木工的结合令人眼前一亮。作者 @Giliam de Carpentier 表示将参加近期的一个活动,届时会做更多介绍。

这个咖啡桌在网上吸引了上百万人的关注,很多人表示想要一个。

在一篇文章中,作者介绍了从设计到材料选择,再到加工和装配的全过程。其中包括使用数控机床加工竹板部件,还包括控制电机和 Arduino 系统以实现桌子的移动功能。

51c大模型~合集52_大模型_02

文章链接:https://www.decarpentier.nl/carpentopod

设计新连杆

Carpentopod 腿部连杆是由作者编写的软件生成的。这个软件让数千个虚拟腿部变体进行竞争,以此进化。为了挑选出最佳的变体,每个变体都被赋予一个基于其行走速度、间隙和材料使用的「适应度」分数。在行走周期中最低的三分之一阶段,作者额外奖励了那些腿尖能更水平和更平滑移动的变体。这样的设计有助于三条腿协同作用,以最大程度减少行走时的晃动和足滑。 

通过比较每种变体的适应度分数,只有最优秀的变体才能混合其基因(即腿部参数),创造出一代又一代的新变体。除了通过「自然选择」混合基因外,作者还定期引入基因突变,以帮助发现新的解决方案并保持多样性,直到找到最佳解决方案。作者用 C++ 编写了包括运动学求解器在内的所有程序,使得这个模拟每秒可以进化数十代,让人可以清晰地看到从初步设计到高度优化设计的转变。 

51c大模型~合集52_大模型_03

上面的动图展示了 20 秒钟的进化过程。每帧显示 5000 个「存活」的变体中的一个。同时,视频中叠加了所有 5000 个个体的腿尖轨迹,这些轨迹随时间推移合并成一个红、绿色光晕,最终收敛成一个单一的解决方案。作者最终选择的腿部连杆,是通过运行一个规模更大、时间更长的模拟程序简单选出的。命名结合了古拉丁语和希腊语单词:carpentum(一种有盖的马车,如下图)和 pod(代表脚或有腿的)。 

51c大模型~合集52_大模型_04

看过 Theo Jansen 鼓舞人心的 Strandbeest 雕塑的人可能都会发现,他的雕塑的腿部连杆机构与 Carpentopod 连杆机构十分相似。但 Carpentopod 的连杆具有一套完全不同的组件比率,以及一个额外的关节点和一个进化过的圆形脚趾直径。这些额外的参数使得进化过程能够找到一种更紧凑、减少脚部滑动的解决方案。

51c大模型~合集52_大模型_05

51c大模型~合集52_大模型_06

Strandbeests 是荷兰动感雕塑艺术家 Theo Jansen 发明的「风力仿生兽」,依靠机械原理和自然风力移动前行,结构巧妙之处在于合理的利用平衡性进行物理变量的转化,能源转化率非常高。

脚部滑动的原因是不同的脚趾着地的速度不完全一致,因此在实践中会导致这些腿试图相互减速。(不过,Strandbeest 的腿似乎通常都采用某种灵活 / 滚动的脚趾,而不是刚性的脚趾,这可能在一定程度上有助于弥补这种影响)。下面的动图比较了两种不同的设计,包括它们对尺寸、重心和脚滑动 / 滑行的影响。

设计会走的桌子

多年来,上述成果只是一个兴趣项目的有趣结果。但最近几年,作者也对制作实物产生了兴趣。他尝试制造的第一件东西是之前版本连杆的一个微型模型,由于其对紧凑性的优化较少,因此不适合成为最终的 Carpentopod 桌子。这只是为了测试他新开发的技能, 并在尝试更大项目之前试用新的 CNC(数控机床)。

接下来,他决定制作一个可以行走的木制咖啡桌,因为他认为这既实用又具有美观价值。由于 Carpentopod 连杆中的每个独立腿部只占行走周期的三分之一,因此这个桌子本身需要十二条腿以保持稳定。为了保证行走的平滑性,腿部组件也需要以亚毫米级的精度制作并维持这种状态。这就是作者选择用层压竹板进行 CNC 加工的原因,这种材料坚固、自然、耐用且稳定,非常适合将机械元素与有机风格结合起来。 

作者使用 Autodesk Fusion 360 设计了桌子的所有组件,这使他能够在同一个软件包中完成建模、测试、渲染和所有 CNC 的准备工作。能够在其行走周期的任何阶段从任何角度实际查看完全组装的模型,极大地方便了美学调整和确保所有间隙都恰到好处。 

51c大模型~合集52_大模型_07

51c大模型~合集52_大模型_08

51c大模型~合集52_大模型_09

51c大模型~合集52_大模型_10

在一端的六条腿和另一端的六条腿之间,作者还留出了一个中空的「腹部」,用来放置电子设备、电机和电池。为了让它看起来不那么棱角分明,他把框架和腹部设计成弧形,就像一个倒置的百宝箱。这可能是有些人说它看起来像 Terry Pratchett《碟形世界》(Discworld)小说中的「行李箱」(如下图)的原因之一。

中央的腹部还能使所有支腿至少与中心保持一定距离,从而使所有支腿都能更有效地参与转弯。每组六条腿都被设计成与自己的曲柄轴相连,由一个电机驱动。这样,它们只需要两个单独控制的电机就能像坦克一样「驱动」和转动桌子。

构建过程

为了将 3D 设计实物化,作者尽可能多地使用 CNC。这不仅因为精确度的需要,也因为这样可以更容易地批量制造出十二个相同的木制部件。由于这只是一个兴趣项目而不是生产线,所以作者决定使用他便宜的三轴 CNC 路由器亲手制作所有东西。 

三轴 CNC 只能从顶部去除材料。但是由于许多零件也需要从底部和 / 或侧面移除材料,以制造更复杂的形状和凹陷,作者将大部分腿部零件设计成由三片层压竹子制成,他可以分别加工每层竹子,然后将其粘合在一起。

当然,即使是单个部件也可能需要使用不同尺寸和形状的切削工具多次过刀,并可能需要精确地翻转以进行双面加工。但这正是数控加工的现实 —— 如果你不想买更贵的五轴 CNC,也不想使用塑料进行 3D 打印的话,这就是你必须面对的。 

除了作者自己数控加工、抛光、上漆并用更多的滚珠轴承和钢轴组装的 100 多个竹制部件外,设计还要求制作两个曲轴。他最终通过将 D 形轴和带 D 形孔的旋转偏心体锤在一起,精心地从普通铝杆和铝板中数控加工出这些部件。

51c大模型~合集52_大模型_11

51c大模型~合集52_大模型_12

51c大模型~合集52_大模型_13

51c大模型~合集52_大模型_14

桌子的弧形「腹部门」是通过在同一层压竹中精细地切割制成的,然后蒸汽处理使其更加柔韧,最后在弯曲夹具中干燥,以赋予其新的形状。然后,这些部分被粘贴在两个带有嵌入式磁铁的隐形铰链肋上,使得门易于打开和关闭。最后,他还焊接了一件与之高度相同的电视柜,并将一块芒果木加工成两件家具的桌板,有效地将它们组合成一套。

让桌子动起来

两个六腿部分应由各自的电机驱动。但实际上,是每个部分的单个曲轴协调腿部的相对运动。在下图中可以看到,作者只是简单地推动一个没有电机的部分向前移动,该部分就可以表现得像一个轮子。 

图中还展示了脚趾是如何轻触地面(由黑线表示),但并不试图穿透它的。这意味着,桌子在行走时不会有太多的「颠簸」。当然,最小化颠簸也是连杆在进化过程中的适应度指标之一。

为了让它自行移动,作者订购了两个便宜的齿轮驱动的 24V 无刷电机,这类电机通常用于自动窗帘,输出最大 1.5 Nm @ 130 RPM。它们内置的电子设备还允许使用额外的 PWM 信号线直接控制速度。遗憾的是,当尝试让它们低速运行时,电机几乎立即进入了一种因温度过高而自动持续几秒的关机保护模式,即使仅在极小的负载下也是如此。幸运的是,将 PWM 信号保持在 100%,并直接改变电压,情况就好多了。如下图所示,作者直接将可调试的实验室电源连接到其中一个六腿部分的电机上。 

为了能自动控制电机电压,作者购买了两个便宜的升降压转换器模块,这些模块可以将任何电池的电压转换成 0 至 24 伏之间的任意电压。然后,他对这些模块进行了改造,使它们的输出电压可以直接通过一个来自改造后的 Arduino Nano 微处理器板的快速 PWM 信号来设定。这些电压转换模块还提供了一个可调的最大电流设定功能,这使他能够对每个电机的最大堵转扭矩进行控制,从而确保了操作的安全性,尤其是保护了手指。 

接下来,他将露出的霍尔效应电机传感器的信号接入了 Arduino 板,并用 C 语言编写了一套软件来实现自己的闭环电机控制系统。这样一来,电机现在能够独立且精确地控制到任何可能达到的速度和位置,而且这种控制不受负载的影响。 

51c大模型~合集52_大模型_15

在最后一步,作者将一个蓝牙模块连接到 Arduino 上,并编写了一些 C 语言代码,使其能够连接并解析来自改造的无线 Nunchuck 操纵杆的数据。在安装了一个 14.8V 的锂电池之后,桌子就可以在客厅里任意走动了,作者通过一个小型遥控器控制桌子。

,时长00:17

最后,作者公开了他的连杆图纸,想要复制该项目的读者可以参考。

51c大模型~合集52_大模型_16





#Agent4SE 

面向软件工程的AI智能体最新进展,复旦、南洋理工、UIUC联合发布全面综述

本篇综述的作者包括来自复旦大学 CodeWisdom 团队的研究生刘俊伟、王恺欣、陈逸轩和彭鑫教授、娄一翎青年副研究员,以及南洋理工大学的陈震鹏研究员和伊利诺伊大学厄巴纳 - 香槟分校(UIUC)的张令明教授。

自从首个全自动 AI 软件工程师 Devin 问世以来,面向软件工程的 AI 智能体广受关注、层出不穷,例如最近的 Genie、Replit、Cursor 等,它们正在对传统软件开发的范式产生着深刻影响。基于大模型的 AI 智能体(LLM-based Agents,后简称 Agent)通过增强推理、记忆、规划以及使用拓展工具的能力,极大地提升了大模型解决复杂软件开发维护任务的能力,为进一步实现自动化、智能化的软件开发提供了新思路。AI 智能体正在成为软件工程领域的研究新热潮。

复旦大学 CodeWisdom 团队联合南洋理工大学、UIUC 共同对 106 篇相关文献进行梳理和解读,分别从软件工程和 Agent 两个视角全面展现了 Agent 在软件工程领域的最新进展。从软件工程视角,该综述梳理了 Agent 在软件开发全周期各个任务上的应用现状;从 Agent 视角,该综述展示了目前应用于软件工程领域的 Agent 的基础架构、多智能体设计模式以及人机协同模式。最后,该综述展望了 Agent 在软件工程领域的研究机会与发展方向。

51c大模型~合集52_大模型_17

  • 论文地址:https://arxiv.org/pdf/2409.02977
  • Agent4SE 论文列表:https://github.com/FudanSELab/Agent4SE-Paper-List

一、Agent 覆盖软件开发维护全流程

如图 1 所示,目前 Agent 已基本覆盖了软件开发和维护的全流程,不仅可以解决某个特定的软件开发环节(例如静态检查和测试),而且在应对更复杂的端到端的软件开发和维护任务上也表现出了巨大潜力,包括:

  • 端到端软件开发(End-to-end Software Development):Agent 通过执行多种开发子任务,包括需求工程、设计、代码生成和质量保证(包括静态检查和测试等),完成从需求到最终程序的全流程开发。
  • 端到端软件维护(End-to-end Software Maintenance):Agent 支持多种维护活动,如故障定位、修复和特性维护,完成从问题报告到补丁生成的端到端维护。

51c大模型~合集52_大模型_18

图 1: 软件开发与维护任务流程上的 Agent 分布

端到端软件开发

目前面向端到端软件开发的 Agent 主要模拟真实的软件开发团队,设计不同的软件开发角色,互相协作共同完成软件开发任务。

51c大模型~合集52_大模型_19

表 1: 面向端到端软件开发任务的 Agent 文献列表

其中,有些 Agent 在工作流设计上主要遵循了现实软件开发中常见的软件过程模型,包括瀑布模型和敏捷开发(测试驱动开发和 Scrum)。

51c大模型~合集52_大模型_20

图 2: 面向端到端软件开发的 Agent 中采用的过程模型

端到端软件维护

目前,面向端到端软件维护任务的 Agent 遵循着 “缺陷定位 - 补丁生成 - 补丁验证” 的基本工作流程;在此基础上,不同 Agent 选择性地引入了预处理、故障重现、任务分解、补丁排名等步骤。

51c大模型~合集52_大模型_21

表 2: 面向端到端软件维护任务的 Agent 文献列表

51c大模型~合集52_大模型_22

图 3: 面向端到端软件维护任务的 Agent 中常用的工作流

这类 Agent 往往以 SWE-bench 及其衍生的数据集作为评测基准。

51c大模型~合集52_大模型_23

图 4: 端到端维护软件任务的数据集演化示意图

特定的软件开发 / 维护任务

除了端到端的软件开发和维护任务,目前 Agent 在面向单个特定的软件开发或维护环节也有着广泛应用,包括需求工程、代码生成、代码静态检查、测试、缺陷定位与修复等。该综述梳理了面向特定不同软件开发 / 维护任务的 Agent 的工作流。

51c大模型~合集52_大模型_24

图 5: 面向特定软件开发 / 维护环节的 Agent 工作流

二、面向软件工程的 Agent 设计

根据 Agent 的基础结构划分(即 规划(Planning)、记忆(Memory)、感知(Perception)、行动(Action)),该综述进一步总结目前面向软件开发和维护的 Agent 在每部分的设计特点。

Agent 中的常用工具

为了进一步提升 Agent 在软件开发和维护任务上的能力,目前 Agent 的行动模块中集成和使用了大量的工具,主要包括搜索、文件操作、静态程序分析、动态分析、测试、版本管理工具等。

51c大模型~合集52_大模型_25

图 6: 面向软件开发和维护的 Agent 中的常用工具分类

人机协作范式

目前在面向软件开发维护任务上,开发者和 Agent 的协作主要发生在规划、需求工程、开发和评估四个环节。主要的协同方式,是由人类提供反馈,引导、澄清或直接纠正 Agent 的输出。

51c大模型~合集52_大模型_26

图 7:面向软件开发和维护任务的 Human-Agent 协作范式

三、未来的研究方向

该综述进一步探讨了面向软件开发和维护的 Agent 的未来研究方向。

  • 更全面的评测基准和更真实的评测数据。当前针对软工任务的 Agent 的评测主要集中在其端到端解决特定任务的能力上,缺少对决策过程和失败原因的深入分析,以及对鲁棒性等可信指标以及效率指标的关注。此外,当前用于评测 Agent 的数据集也存在一些问题,如逻辑过于简化,与现实场景相差较远等。因此,设计更多样化的评估指标和构建更高质量、更现实的数据集基准是准确评估 Agent 能力的重要方向。
  • 探索人机协同新范式。当前针对软工任务的 Agent 人机协同主要局限于需求工程、设计、测试评估等环节,同时缺少对高效友好的交互接口的系统研究。因此,未来研究可关注于拓展人机协同的应用场景,以及提供更加流畅的人机协作模式。
  • 多模态感知。目前针对软工任务的 Agent 主要依赖于文本或视觉感知。探索和整合多样化的感知模态,如语音命令或用户手势,会显著提高 Agent 编码助手的灵活性和可访问性。
  • 将 Agent 应用于更多软工任务。尽管现有的 Agent 已经被部署在各种软工任务中,但一些关键阶段(如设计、验证和功能维护)仍未被充分探索,为这些阶段开发 Agent 系统可能会面临各方面的新挑战。
  • 训练面向软件工程的基座大模型。目前 Agent 通常构建在以通用数据或者代码数据为主要训练数据的大模型之上,而软件开发的全周期往往涉及设计、架构、开发者讨论、程序动态执行、历史演化等代码以外的重要信息。有效利用这些信息可以构建面向软件工程领域的基座大模型,从而在此基础上构建更强大的面向软件开发与维护的 Agent。
  • 将软件工程领域知识融入 Agent 设计。正如最近 Agentless 研究所揭示,流程复杂且高度自主的 Agent 在某些软件维护任务上的效果不如基于传统缺陷定位和程序修复流程所设计的简单工作流。软件工程领域的经典方法论和思想对于设计 Agent 的工作流有着重要的借鉴和指导意义,可以进一步提高 Agent 解决方案的有效性、鲁棒性和效率。



#端侧大模型的研究进展综述

边缘智能的新时代

  • Jiajun Xu : Meta AI科学家,专注大模型和智能眼镜开发。南加州大学博士,Linkedin Top AI Voice,畅销书作家。他的AI科普绘本AI for Babies (“宝宝的人工智能”系列,双语版刚在国内出版) 畅销硅谷,曾获得亚马逊儿童软件、编程新书榜榜首。
  • Zhiyuan Li : Nexa AI CTO,斯坦福校友,前斯坦福CEO协会主席, Octopus系列论文作者。他在 Google Labs 和 Amazon Lab126 拥有丰富的端侧 AI 模型训练、部署和产品开发经验。
  • Wei Chen : Nexa AI CEO,斯坦福博士,前斯坦福CEO协会主席。他深耕人工智能领域,先后发表多篇Octopus系列模型论文,其中Octopus-V2模型曾在huggingface全球60万模型中位列第二,并在Google 2024 IO上被feature。
  • Qun Wang : 旧金山州立大学计算机系助理教授,曾在劳伦斯伯克利国家重点实验室做博后,犹他州立大学博士。研究方向主要集中在下一代通信网络中边缘计算的能效和安全优化,以及边缘智能系统的通信和训练加速。先后在IEEE发布多篇论文。
  • Xin Gao, Qi Cai : 北德州大学博士生
  • Ziyuan Ling : Nexa AI 初创设计师,伯克利设计系研究生

1 序言:边缘智能的新纪元

在人工智能的飞速发展中,大型语言模型(LLMs)以其在自然语言处理(NLP)领域的革命性突破,引领着技术进步的新浪潮。自 2017 年 Transformer 架构的诞生以来,我们见证了从 OpenAI 的 GPT 系列到 Meta 的 LLaMA 系列等一系列模型的崛起,它们不仅在技术层面上不断刷新我们对机器理解与生成人类语言能力的认知,更在实际应用中展现出巨大的潜力和价值。

然而,这些模型传统上主要部署在云端服务器上,这种做法虽然保证了强大的计算力支持,却也带来了一系列挑战:网络延迟、数据安全、持续的联网要求等。这些问题在一定程度上限制了 LLMs 的广泛应用和用户的即时体验。正因如此,将 LLMs 部署在端侧设备上的探索应运而生,它不仅能够提供更快的响应速度,还能在保护用户隐私的同时,实现个性化的用户体验。

随着技术的不断进步,边缘 AI 市场的全球规模正以惊人的速度增长。预计从 2022 年的 152 亿美元增长到 2032 年的 1436 亿美元,这一近十倍的增长不仅反映了市场对边缘 AI 解决方案的迫切需求,也预示着在制造、汽车、消费品等多个行业中,边缘 AI 技术将发挥越来越重要的作用。

51c大模型~合集52_大模型_27

图 1:2022 年至 2032 年按终端用户划分的端侧 AI 全球市场规模(单位:十亿美元)。

在这样的背景下,本综述文章深入探讨了在边缘设备上部署 LLM 的策略和进展。我们将详细分析模型压缩技术、能效计算策略以及轻量级模型架构的创新设计。此外,文章还将讨论硬件加速策略、边缘 - 云协同部署方法,并重点介绍在边缘场景中有效利用 LLM 的部署策略,以及这些技术在行业中的应用实例和带来的益处。

51c大模型~合集52_大模型_28

  • 论文标题:On-Device Language Models: A Comprehensive Review
  • 论文链接:https://arxiv.org/abs/2409.00088
  • 相关链接:LLMsOnDevice.com

通过本综述,我们希望为读者提供一份关于如何在端侧设备上部署和优化 LLMs 的全面指南,同时指出当前研究的方向和面临的挑战,为未来的技术发展提供参考和启示。我们相信,通过跨学科的共同努力,我们能够实现智能计算的普及。

51c大模型~合集52_大模型_29

图 2:本篇综述结构

2 技术进展:探索端侧 LLMs 部署

在人工智能的浪潮中,端侧大型语言模型(On-Device LLMs)正以其迅猛的发展速度和广泛的应用前景,成为技术革新的新宠。自 2023 年起,随着参数量低于 10B 的模型系列如 Meta 的 LLaMA、Microsoft 的 Phi 系列等的涌现,我们见证了 LLMs 在边缘设备上运行的可行性和重要性。这些模型不仅在性能上取得了长足的进步,更通过混合专家、量化和压缩等技术,保持了参数量的优化,为边缘设备的多样化应用场景提供了强大支持。

进入 2024 年,新模型的推出愈发密集,如图 3 所示,Nexa AI 的 Octopus 系列、Google 的 Gemma 系列等,它们不仅在文本处理上有所增强,更在多模态能力上展现了新的可能性,如结合文本与图像等多模态输入,以适应更复杂的用户交互需求。

51c大模型~合集52_大模型_30

图 3:on-device LLM 的演进,展示了自 2023 年以来的重要模型和发展里程碑。

然而,要在资源受限的设备上部署这些强大的模型,我们必须面对内存和计算能力的双重挑战。研究者们通过量化感知缩放、稀疏更新等创新方法,有效解决了这些问题,使得大型模型即便在参数量巨大的情况下,也能在设备端高效运行。

相较于完全依赖云端的 LLM 服务,端侧推理的优势显而易见。它不仅减少了数据传输的延迟,更保护了用户数据的隐私安全。图 4 的投票分布显示,大多数参与者更倾向于边缘云协作的架构,对现有仅云端的解决方案并不满意。端侧推理的低延迟特性,尤其适用于需要实时响应的应用场景,如 Google 的 Gemini Nano 支持的 TalkBack 功能,即便在完全离线的情况下也能正常工作。

51c大模型~合集52_大模型_31

图 4:用户对不同 LLM 部署方式的偏好情况

衡量端侧 LLMs 性能的指标包括延迟、推理速度、内存消耗等。这些指标直接关系到模型在边缘设备上的实际运行效果,以及用户的使用体验。随着技术的不断成熟,我们期待这些性能指标能得到进一步的优化,使得端侧大语言模型能在更多场景下发挥其潜力。

3 架构创新:优化边缘设备的性能

在智能手机和边缘设备上部署大型语言模型(LLMs)正成为人工智能领域的新挑战。面对有限的内存和计算能力,研究者们提出了一系列创新的架构设计原则和方法,旨在实现资源的高效利用和性能的最大化。架构创新变得尤为关键,其中包括参数共享、模块化设计以及紧凑的表示形式。例如,MobileLLM 通过深度和瘦长的模型结构优化了参数量在十亿以下的模型,而 EdgeShard 框架则通过边缘云协作计算实现了模型的分布式处理,显著降低了延迟并提高了吞吐量。

同时,模型压缩与参数共享技术的应用,如 AWQ 方法和 MobileLLM,不仅减少了模型尺寸,还在保持性能的同时加快了推理速度。这些技术通过保护关键权重和优化模型结构,为 LLMs 在端侧的部署提供了新的可能性。协作和层次化模型方法通过分散计算负载和利用不同能力模型的组合,解决了资源受限设备的部署难题。EdgeShard 和 LLMCad 的研究成果展示了这种方法的有效性,它们通过在多个设备上分配计算任务,提升了 LLMs 的可扩展性和效率。

在内存和计算效率的优化方面,Samsung Electronics 提出的 PIM 和 PNM 技术,以及 MELT 基础设施,都显著提升了内存带宽和容量,同时降低了能耗,为 LLMs 的移动部署铺平了道路。MoE 架构的应用,如 EdgeMoE 和 LocMoE,通过稀疏激活和动态路由,进一步提高了 LLMs 的效率。这些方法通过优化专家网络的选择和路由,减少了模型的内存占用和提高了计算速度。

此外,总体效率和性能提升的研究,如 Any-Precision LLM 和 LCDA 框架,通过提供多精度支持和软硬件协同设计,为 LLMs 在边缘设备上的高效运行提供了新的视角。随着这些创新技术的迅速发展,我们期待在移动设备和边缘设备上享受到与云端相媲美的智能体验,这将为用户带来更加快速、个性化的服务,同时确保数据的安全性和隐私保护。智能边缘计算的未来正变得愈发清晰,它将为人工智能领域带来深远的影响和无限的可能性。

4 模型压缩:平衡性能与效率

在边缘设备上部署大型语言模型(LLMs)时,保持性能的同时提升计算效率尤为关键。本文综述了四种关键的模型压缩技术:量化、剪枝、知识蒸馏和低秩分解,这些方法通过在性能、内存占用和推理速度之间找到平衡,确保了 LLMs 在端侧应用的可行性。

量化是一种通过降低模型权重和激活的精度来减少模型大小的技术。这种方法能够在几乎不损失模型性能的情况下,显著减少模型所需的存储空间和计算资源。后训练量化(PTQ)是一种在模型训练完成后应用的技术,它通过一些先进的补偿策略,如 GPTQ,可以在将模型权重量化到 3 或 4 位的情况下,保持模型的高准确度。而量化感知训练(QAT)则将量化集成到模型的训练过程中,使模型在训练时就适应低精度的约束,从而在量化后保持更高的准确度。

剪枝是另一种通过减少模型复杂性来提升计算效率的方法。结构化剪枝通过移除模型中的整个参数子集,如层、通道或过滤器,来优化硬件性能。无结构化剪枝则在更细的粒度上工作,移除单个权重,提供更高的压缩率。此外,上下文剪枝根据模型的运行上下文动态地移除权重,确保在不同条件下都能保持最优的性能。

知识蒸馏是一种将大型模型的知识迁移到小型模型的技术。黑盒 KD 只使用教师模型的输出进行学习,而白盒 KD 则允许学生模型访问教师模型的内部状态,实现更深入的学习。这种方法可以在不牺牲性能的情况下,显著减少模型的大小和计算需求。

低秩分解是一种将大型矩阵分解为较小矩阵的技术。这种方法利用了矩阵的低秩结构,减少了计算复杂性,同时保持了模型的准确性。Yao 等人的研究将 LRF 与 PTQ 结合,提出了低秩补偿(LoRC),在显著减少模型大小的同时,通过补偿策略保持了模型的准确性。

5 硬件加速:推动端侧 LLMs 的高效运行

硬件加速器在大型语言模型(LLMs)的端侧部署中扮演着至关重要的角色。GPU 和 TPU 等专用硬件提供了强大的计算能力和高内存带宽,它们是训练和加速 LLMs 的重要基础。NVIDIA 的 Tensor Cores 以及 Google TPU 的高效矩阵乘法能力,都为基于 Transformer 的模型提供了强有力的支持。同时,FPGA 以其灵活性,通过稀疏矩阵乘法和量化技术,在 Transformer 层的推理任务中展现出高效能,为特定模型架构提供了定制优化的可能。

软硬件协同设计的方法,如量化感知训练和模型压缩,进一步提升了 LLMs 的效率,使得它们能够跨越从高功率服务器到低功率边缘设备的广泛部署。这些技术通过参数共享和先进的内存管理,减少了模型的存储需求,确保了快速且成本效益更高的部署。此外,各种框架如 Llama.cpp、MNN、PowerInfer 等,根据不同的硬件平台和用例需求,提供了优化的部署策略,从而实现从云端到边缘的无缝协作。

在边缘云部署方面,MLC-LLM 和 VLLM 等技术通过支持高效的量化方法和关键内存管理,优化了 LLMs 在边缘设备和云环境中的部署。OpenLLM 等项目通过 BentoML 等工具,实现了开源 LLMs 的快速部署,提供了与 OpenAI 兼容的 API 服务。随着硬件技术的不断进步,如 NVIDIA A100 GPU 和 Google TPU v4,我们看到了端侧 LLMs 性能的显著提升,这些硬件不仅提供了巨大的计算能力,还通过混合精度训练等技术,大幅减少了模型的内存占用并提高了计算效率。

6 实例与应用:端侧 LLMs 的实践探索

端侧语言模型的实例:Gemini Nano 模型通过 Google AI Edge SDK 为移动操作系统提供了一个小型但功能强大的 LLM,它通过 4 位量化部署,提供了一流的性能和低延迟的推理速度。Nexa AI Octopus 系列模型则在边缘设备上运行,以超越 GPT-4 的准确性和延迟,同时减少了 95% 的上下文长度。Apple 的 OpenELM 和 Ferret-v2 模型通过 iOS 集成,提供了类似系统服务的功能扩展。Microsoft 的 Phi 系列,特别是 Phi-3-mini 模型,即使在移动部署中也展现出与大型模型相媲美的性能。此外,MiniCPM-Llama3-V 2.5 和 Gemma2-9B 等开源模型也在各自的领域内展现出卓越的性能。

端侧大语言模型的应用:端侧 LLMs 的应用范围极为广泛,从即时消息生成、实时语言翻译、会议摘要到医疗咨询、科研支持、陪伴机器人、残障人士辅助以及自动驾驶等。例如,Google 的 Gboard 应用利用 Gemini Nano 模型提供基于聊天内容的快速回复建议。在翻译领域,端侧模型能够在离线环境中快速响应,同时保证翻译质量。会议摘要应用通过分析会议内容,实时生成摘要,避免了云模型订阅服务费用和网络延迟问题。在医疗领域,端侧模型能够在本地处理患者数据,保护隐私同时提供紧急情况下的快速响应。

科研支持方面,端侧 LLMs 能够利用特定领域的大量专业数据进行训练,加速科研进展。陪伴机器人和 IoT 设备通过端侧 LLMs 提升了理解自然语言指令的能力。对于视障人士,端侧多模态模型能够将图像转换为文字,提供丰富的图像描述,并支持离线使用。此外,手语识别和翻译项目也利用了端侧模型的低延迟和离线可用性。

自动驾驶领域,结合大规模视觉语言模型的系统正在改善车辆对复杂和长尾场景的理解,提供即时响应并处理动态场景。

51c大模型~合集52_大模型_32

图 5 展示了端侧 LLMs 在不同应用领域的表现,从文本生成、翻译、会议摘要、医疗应用、科研支持、伴侣机器人、残障人士辅助到自动驾驶等,端侧 LLMs 正以其智能、响应迅速和个性化的特点,改变我们与技术的互动方式。

7 未来展望:边缘计算的智能转型

51c大模型~合集52_大模型_33

图 6:on-device LLM 的未来方向和面临的挑战

在设备上运行的大型语言模型(LLMs)正迅速发展,它们在数据安全、低延迟和个性化 AI 体验方面展现出巨大潜力。然而,要在资源受限的设备上部署这些模型,我们必须克服包括模型压缩、高效推理、安全性和能源效率等一系列挑战。未来的研究将致力于开发新的隐私保护技术,如查询混淆和先进的随机化技术,同时加强风险评估和监控,以确保模型的实用性和数据的安全性。此外,研究者们也在探索适应性边缘 - 云协作,通过智能缓存、请求分析和资源分配算法,优化数据在边缘设备与云服务器间的传输。

多模态和跨模态学习是推动 LLMs 发展的关键方向,它们使模型能够整合并理解多种数据类型,从而提供更丰富的用户体验。研究者们正致力于开发高效的多模态处理技术,以及能够适应不同模态输入的模型架构。同时,资源效率也成为研究的重点,通过模型压缩和执行算法的优化,以及利用模型稀疏性,可以显著降低模型在边缘设备上的能源消耗,这对环境保护具有重要意义。 

为了进一步提升 LLMs 的性能,硬件 - 软件的协同设计变得至关重要。未来的研究将探索新的 PIM/PNM 架构,以及针对 AI 特定需求优化的编译器和运行时系统。此外,确保模型的鲁棒性和可靠性也是未来工作的重点,研究者们正在开发方法以检测和减轻模型输出中的偏见和幻觉,特别是在安全关键的应用中。

个性化 AI 体验是设备上 LLMs 的另一大优势,但这也带来了模型持续学习和适应新信息的挑战。未来的研究将集中于实现知识保留和遗忘的可控机制,以及开发持续学习的理论基础和优化策略。通过这些机制,模型能够根据用户交互和本地数据自主学习新技能,并提高现有能力。

8 结语

在设备上部署的大型语言模型(LLMs)正开启智能边缘计算的新篇章,预示着一个个性化、高效的 AI 时代即将到来。这些模型通过强化数据安全、降低延迟,并提供深度个性化的体验,将彻底改变我们与技术的互动。展望未来,随着技术的不断成熟,我们期待一个设备更智能、服务更精准、生活更便捷的新世界。个性化的 AI 将融入日常生活的方方面面,从智能家居到自动驾驶,从虚拟助手到健康监护,它们将以前所未有的方式提升我们的生活品质。随着研究的深入,一个更智能、更可靠、更贴近人心的 AI 未来正向我们招手,让我们满怀期待,迎接这个由 LLMs 引领的创新纪元。

为了进一步促进学术交流和知识共享,我们建立了一个专门的 GitHub 资源库 ——Awesome LLMs on Device。这个资源库不仅收录了本论文的详细内容,还将持续更新,以反映该领域的最新研究成果和技术动态。

诚邀学术界同仁访问我们的 GitHub 资源库,参与到 LLMs 在边缘设备上的研究中来,共同推动智能边缘技术的创新与发展。

Github Repo:https://github.com/NexaAI/Awesome-LLMs-on-device




#World Labs

李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

World Labs 的创始团队中,有 ImageNet、NeRF、Style Transfer 和 Gaussian Splats 作者在列。

人工智能的下个大方向已经出现,标志性学者决定下场创业。

本周五,一个重磅消息引爆了 AI 圈:斯坦福大学计算机科学家李飞飞正式宣布创办 AI 初创公司 ——World Labs,旨在向人工智能系统传授有关物理现实的深入知识。

李飞飞说道:在 AI 领域中,真正难以解决的问题是什么?我的答案是空间智能 —— 这项技术可以赋能和实现创作、设计、学习、AR/VR、机器人等领域的无数可能用例。

为此,李飞飞与三位联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall,以及一支世界级图像技术团队共同合作成立实验室,致力于解决这个大自然花费五亿年才解决的超级难题。

当前的生成式人工智能是基于语言的,而李飞飞看到了一个前沿领域,即系统利用物理、逻辑和物理现实的丰富细节构建完整的世界。

今年 5 月,李飞飞创业的消息首次曝光。尽管可能还需要一年的时间才能推出产品,但 World Labs 已收获多达 2.3 亿美元的投资。据报道,这家新兴初创公司的估值为 10 亿美元。

World Labs 的探索方向是李飞飞研究的进一步延伸。自 2007 年起,李飞飞等人基于超前的眼光创建了 ImageNet,帮助人工智能扭转了局面,ImageNet 是一个定制的数字图像数据库,是测量图片类应用运行准度、效率的行业标杆。它催生出了一系列先进的神经网络。李飞飞认为,如果人工智能要创造现实世界,无论是现实的模拟还是完全想象的宇宙,今天的深度学习模型也需要类似的推动。

李飞飞介绍道:「计算机的物理世界是通过摄像机看到的,而计算机大脑则位于摄像机后面。将愿景转化为推理、生成和最终的交互需要理解物理结构、物理世界的物理动力学。这项技术被称为空间智能。」

World Labs 的描述是一家空间智能公司,它的未来将决定空间智能是否会引发一场革命。 

多年来,李飞飞一直对空间智能有着执着的追求。当大家都在为 ChatGPT 疯狂时,她和她的学生 Justin Johnson 却在电话里兴奋地讨论着 AI 的下一次迭代。Johnson 现为密歇根大学的助理教授,他表示:「未来十年将是创造全新内容的时代 ,这些内容会将计算机视觉、深度学习和 AI 从互联网世界带入真实的空间和时间。」

在与虚拟网络先驱 Martin Casado 共进晚餐后,李飞飞决定在 2023 年创办一家公司。Casado 如今是 Andreessen Horowitz 的合伙人,这家风投公司以其对 AI 近乎狂热的推崇而声名远扬。

World Labs 的愿景介绍

在组建团队时,Johnson 作为联合创始人加入。Casado 还推荐了 Christoph Lassner 和 Ben Mildenhall。前者曾在亚马逊、Meta 的 Reality Labs 和 Epic Games 工作,是渲染方案 Pulsar 的提出者。后者创造了一项强大的技术 —— 神经辐射场(NeRF),他离开谷歌的高级研究科学家职位,加入了这个新团队。

World Labs 的四位创始人。

最近,具身智能正在升温,使用大型世界模型进行训练,或许可以赋予机器人「世界感」。这确实在 World Labs 的计划之中,但成型还需要一段时间。在人们的预测中,第一阶段是构建一个对三维性、物理性以及空间和时间概念有深刻理解的 AI 模型。接下来,模型将支持增强现实技术。之后,World Labs 将进军机器人领域。如果这一愿景得以实现,大型世界模型将有助于改进自动驾驶汽车、自动化工厂,甚至可能推动类人机器人的发展。

前路漫漫,并且路途上困难重重。World Labs 承诺会在 2025 年推出产品。面对外媒连线记者提问「World Labs 将如何盈利」时,创始人李飞飞回应:「现在只是刚起步,有很多边界需要突破,还有许多未知的问题需要解决,当然,我们是全球最优秀的团队,能够解决这些未知问题。」

Casado 则给出了更具体的解释。他指出,像 ChatGPT 或 Anthropic 的 Claude 一样,模型本身就可以作为产品,作为一个供他人直接使用的平台,或者托管其他应用程序的平台。客户可能包括游戏公司或电影制片厂。

World Labs 并不是唯一一家涉足所谓「物理 AI」的公司。英伟达 CEO 黄仁勋在今年的 GTC 大会上就曾表示,为通用人形机器人构建基础模型是当今 AI 领域最令人兴奋的问题之一。

但 Casado 坚持认为,World Labs 的雄心、人才和愿景是独一无二的。「我已经做投资快 10 年了,这是我遇到过最强的团队,没有之一。」风投支持自己的投资是很常见的,但 Casado 不仅仅是投入资金:自从成为投资人以来,他首次作为兼职团队成员,每周花一天时间在公司里。

其他的投资公司也纷纷入局, 包括 Radical Ventures、NEA,值得关注的是还有英伟达的风险投资部门。此外,还有一长串明星级别的天使投资人,阵容包括 Marc Benioff、Reid Hoffman、Jeff Dean、Eric Schmidt、Ron Conway 以及 Geoff Hinton。看到 Hinton 出现在这里,可以说是 AI 教父正在支持 AI 教母。

在李飞飞宣布成立创业公司后,很多 AI 领域的知名学者纷纷发来祝贺,其中也有很多是她的学生。

OpenAI 创始成员、前特斯拉 AI 高级总监 Andrej Karpathy 表示:我在攻读博士学位期间与李飞飞和 Justin Johnson 共度了很长一段时间。我非常怀念这段时光,李飞飞是我的导师,也是我们无畏的领导者,Justin 和我一起撰写论文,我们三人共同开发了 CS231n 课程的第一个版本。World Labs 团队是顶级的,我很高兴看到他们采用当今的前沿研究并将 AI 扩展到 3D 领域!

英伟达资深研究科学家、AI 智能体项目负责人 Jim Fan 说道:李飞飞对具身智能的看法极大地影响了我的博士课程和研究品味。空间智能是计算机视觉和具身智能体的下一个前沿!

众多大佬看好,World Labs 的目标会成为人工智能的下一个大方向吗?

我们或许还需要等待。从一个角度来看,World Labs 的承诺与此前热炒过的词汇:元宇宙有些相似。不过 World Labs 的创始人认为,那场短暂的热潮来得太早,只是基于一些有前景的硬件,但缺乏真正的互动内容。他们暗示,世界模型或许能够解决这一问题。

另一方面,在大模型技术爆发后,大量新势力车企已经开始把自动驾驶技术的方向转向世界模型与端到端方案,探索具身智能的机器人创业公司也成批出现。越来越多的实践正在告诉我们:新方法已经展现出了跨代的优势。

可以想象,在这些世界里,AI 绝不会停滞不前。 

参考内容:

https://www.reuters.com/technology/artificial-intelligence/ai-godmother-fei-fei-li-raises-230-million-launch-ai-startup-2024-09-13/

https://x.com/drfeifei/status/1834584286932181300

https://www.wired.com/story/plaintext-the-godmother-of-ai-wants-everyone-to-be-a-world-builder/




#Scaling Law

OpenAI o1的价值意义及强化学习的Scaling Law

蹭下热度谈谈 OpenAI  o1 的价值意义及 RL 的 Scaling law。

一、OpenAI o1 是大模型的巨大进步

我觉得 OpenAI o1 是自 GPT 4 发布以来,基座大模型最大的进展,逻辑推理能力提升的效果和方法比预想的要好,GPT 4o 和 o1 是发展大模型不同的方向,但是 o1 这个方向更根本,重要性也比 GPT 4o 这种方向要重要得多,原因下面会分析。

为什么说 o1 比 4o 方向重要?

这是两种不同的大模型发展思路,说实话在看到 GPT 4o 发布的时候我是有些失望的,我当时以为 OpenAI 会优先做 o1 这种方向,但是没想到先出了 GPT 4o。GPT 4o 本质上是要探索不同模态相互融合的大一统模型应该怎么做的问题,对于提升大模型的智力水平估计帮助不大;而 o1 本质上是在探索大模型在 AGI 路上能走多远、天花板在哪里的问题,很明显第二个问题更重要。

GPT 4o 的问题在于本身大模型的智力水平还不够高,所以做不了复杂任务,导致很多应用场景无法实用化,而指望靠图片、视频这类新模态数据大幅提升大模型智力水平是不太可能的,尽管确实能拓展更丰富的多模态应用场景,但这类数据弥补的更多是大模型对外在多模态世界的感知能力,而不是认知能力。提升大模型认知能力主要还要靠 LLM 文本模型,而提升 LLM 模型认知能力的核心又在复杂逻辑推理能力。LLM 的逻辑推理能力越强,则能解锁更多复杂应用,大模型应用的天花板就越高,所以不遗余力地提升大模型尤其是文本模型的逻辑能力应该是最重要的事情,没有之一。

如果 o1 模型能力越做越强,则可以反哺 GPT 4o 这种多模态大一统模型,可以通过直接用 o1 基座模型替换 GPT 4o 的基座、或者利用 o1 模型生成逻辑推理方面的合成数据增强 GPT 4o、再或者用 o1 蒸馏 GPT 4o 模型….. 等等,能玩的花样应该有很多,都可以直接提升 GPT 4o 的复杂任务解决能力,从而解锁更复杂的多模态应用场景。OpenAI 未来计划两条线,一条是 o1,一条是 GPT 4o,它的内在逻辑大概应该是这样的,就是说通过 o1 增强最重要的基座模型逻辑推理能力,而再把这种能力迁移到 GPT 4o 这种多模态通用模型上。

OpenAI o1 的做法本质上是 COT 的自动化。

我们知道,通过 COT 把一个复杂问题拆解成若干简单步骤,这有利于大模型解决复杂逻辑问题,但之前主要靠人工写 COT 来达成。从用户提出的问题形成树的根结点出发,最终走到给出正确答案,可以想像成类似 AlphaGo 下棋,形成了巨大的由 COT 具体步骤构成的树形搜索空间,这里 COT 的具体步骤的组合空间是巨大的,人写的 COT 未必最优。如果我们有大量逻辑数据,是由 <问题,明确的正确答案> 构成,则通过类似 AlphaGo 的 Monte Carlo Tree Search(MCTS)搜索 + 强化学习,确实是可以训练大模型快速找到通向正确答案的 COT 路径的。

而问题越复杂,则这个树的搜索空间越大,搜索复杂度越高,找到正确答案涉及到的 COT 步骤越多,则模型生成的 COT 就越复杂,体现在 o1 的速度越慢,生成的 COT Token 数越多。很明显,问题越复杂,o1 自己生成的隐藏的 COT 越长,大模型推理成本越高,但效果最重要,成本其实不是问题,最近一年大模型推理成本降低速度奇快,这个总有办法快速降下去。

从上面 o1 的做法可以知道 Prompt 工程会逐渐消亡。

之前解决复杂问题,需要人写非常复杂的 Prompt,而 o1 本质上是 COT 等复杂 Prompt 的自动化,所以之后是不太需要用户自己构造复杂 Prompt 的。本来让用户写复杂 Prompt 就是不人性化的,所有复杂人工环节的自动化,这肯定是大势所趋。

Agent 属于概念火但无法实用化的方向,主要原因就在于基座模型的复杂推理能力不够强。如果通过基座模型 Plan 把一个复杂任务分解为 10 个步骤,哪怕单个步骤的正确率高达 95%,要想最后把任务做对,10 个环节的准确率连乘下来,最终的正确率只有 59%,惨不忍睹。那有了 o1 是不是这个方向就前途坦荡?也是也不是,o1 的 Model Card 专门测试了 Agent 任务,对于简单和中等难度的 Agent 任务有明显提升,但是复杂的、环节多的任务准确率还是不太高。就是说,不是说有了 o1 Agent 就现状光明,但是很明显 o1 这种通过 Self Play 增强逻辑推理能力的方向应该还有很大的发展潜力,从这个角度讲说 Agent 未来前途光明问题应该不大。

OpenAI 很多时候起到一个行业指路明灯的作用,往往是第一个证明某个方向是行得通的(比如 ChatGPT、GPT 4、Sora、GPT 4o 包括这次的 o1),然后其他人开始疯狂往这个方向卷,到后来甚至卷的速度太快把 OpenAI 都甩到后面吃尾气。典型例子就是 Sora,如果 OpenAI 不是出于阻击竞争对手秀一下肌肉,大家都没有意识到原来这个方向是可以走这么远的,但当意识到这一点后,只要你专一地卷一个方向,方向明确且资源聚焦,是可能赶超 OpenAI 的,目前国内外各种视频生成模型有些甚至可能已经比 Sora 好了,Sora 至今仍然是期货状态,主要 OpenAI 想做的方向太多,资源分散导致分到具体一个方向的资源不够用,所以越往后发展期货状态的方向越多,也让人觉得尽显疲态。

OpenAI o1 等于给大家又指出了一个前景光明的方向,估计后面大家又开始都往这个方向卷。我觉得卷这个方向比去卷 GPT 4o 和视频生成要好,虽然具体怎么做的都不知道,但是大方向清楚且效果基本得到证明,过半年肯定头部几家都能摸清具体技术追上来,希望能再次让 OpenAI 吃尾气。而且这个方向看上去资源耗费应该不会特别大,偏向算法和数据一些,数据量规模估计不会特别巨大,卷起来貌似成本低一些。这是个卷的好方向。

二、预训练 Scaling Law 的来源及 O1 提到的 RL Scaling law

粗分的话,大语言模型最基础的能力有三种:语言理解和表达能力、世界知识存储和查询能力以及逻辑推理能力(包括数学、Coding、推理等理科能力,这里 Coding 有一定的特殊性,是语言能力和逻辑掺杂在一起的混合能力,Coding 从语言角度可以看成一种受限的自然语言,但是混杂着复杂的内在逻辑问题。从语言角度看,Coding 貌似是容易解决的,从逻辑角度看又相对难解决。总之,Coding 目前看是除了语言理解外,大模型做得最好的方向)。

语言理解和表达是 LLM 最强的能力,初版 ChatGPT 就可以完全胜任各种纯语言交流的任务,基本达到人类水准,目前即使是小模型,在这方面比大模型能力也不弱;世界知识能力虽说随着模型规模越大效果越好,但幻觉问题目前无法根治,这是制约各种应用的硬伤之一;逻辑推理能力一直都是 LLM 的弱项,也是最难提升的方面,从 GPT 4 开始往后,如何有效并大幅提升 LLM 的逻辑推理能力是体现不同大模型差异和优势的最核心问题。所以,大模型最重要的一个是世界知识方面如何有效消除幻觉,一个是如何大幅提升复杂逻辑推理能力。语言能力已不是问题。

从大模型的基础能力,我们再说回已经被谈滥了的大模型 Scaling law。现在普遍认为通过增加数据和模型规模来提升大模型效果的 Scaling law 模式,其增长速度在放缓。其实我们对照下大模型的三个基础能力的能力来源,基本就能看出来这是为啥(以下是我猜的,不保真):

本质上大模型的能力来源都来自训练数据,包含能体现这方面能力的训练数据越多,则这种能力越强。语言能力不用说了,任意一份预训练数据,其中都包含相当比例的语言的词法句法等成分,所以训练数据中体现语言能力的数据是最多的,这也是为何大模型的语言能力最强的原因。

而数据中包含的世界知识含量,基本是和训练数据量成正比的,明显数据量越多,包含的世界知识越多,Scaling law 是数据中包含的世界知识含量关系的一个体现,但是这里有个问题,大模型见过越多数据,则新数据里面包含的新知识比例越小,因为很多知识在之前的数据里都见过了,所以随着数据规模增大,遇到的新知识比例就越低,在世界知识方面就体现出 Scaling law 的减缓现象。

为啥逻辑推理能力最难提升?因为能体现这方面的自然数据(代码、数学题、物理题、科学论文等)在训练数据中比例太低,自然大模型就学不好,尽管通过不断增加数据,能增加逻辑推理方面数据的绝对数量,但因为占比太少,这方面提升的效果和增加的总体数据规模就不成比例,效果也不会太明显,就体现在逻辑推理能力 Scaling law 看上去的放缓。这是很自然的。这也是为何现在为了提高模型逻辑能力,往往在预训练阶段和 Post-training 阶段,大幅增加逻辑推理数据占比的原因,且是有成效的。

所以目前大模型的核心能力提升,聚焦到不断通过合成数据等方式构造更多比例的逻辑推理数据上来。但是大部分逻辑推理数据的形式是 < 问题,正确答案 >,缺了中间的详细推理步骤,而 o1 本质上是让大模型学会自动寻找从问题到正确答案的中间步骤,以此来增强复杂问题的解决能力。

OpenAI o1 提到了关于 RL 在训练和推理时候的 Scaling law,并指出这与预训练时候的 Scaling law 具有不同特性。很明显,如果 o1 走的是 MCTS 搜索技术路线,那么把 COT 拆分的越细(增加搜索树的深度),或提出更多的可能选择(节点的分支增多,就是说树的宽度越宽),则搜索空间越大,找到好 COT 路径可能性越大,效果越好,而训练和推理的时候需要算力肯定越大。看上去有着效果随着算力增长而增长的态势,也就是所谓的 RL 的 Scaling law。这其实是树搜索本来应有之义,我倒觉得把这个称为 RL 的 Scaling law 有点名不副实。

原文链接:https://weibo.com/1064649941/5078239682499316?sourceType=weixin&from=10E9195010&wm=9856_0004&featurecode=newtitle&s_channel=4&s_trans=1064649941_5078239682499316

#Vec2Face

首次!用合成人脸数据集训练的识别模型,性能高于真实数据集

研究动机

一个高质量的人脸识别训练集要求身份 (ID) 有高的分离度(Inter-class separability)和类内的变化度(Intra-class variation)。然而现有的方法普遍存在两个缺点:

1)实现了大的 intra-class variation,但是 inter-class separability 很低;

2)实现了较高的 inter-class separability,但是 intra-class variation 需要用额外的模型来提高。

这两点要么使得在合成的人脸数据集训练的模型性能表现不佳,要么难以合成大型数据集。

因此,我们通过让提出的 Vec2Face 模型学习如何将特征向量转化为对应的图片,并且在生成时对随机采样的向量加以约束,来实现高质量训练集的生成。这一方法不但可以轻松控制 inter-class separability 和 intra-class variation,而且无需额外的模型进行辅助。此外我们还提出了 Attribute Operation algorithm 来定向的生成人脸属性,这一优势也可以被用来补足各类人脸任务的数据缺陷。

  • 论文链接: https://arxiv.org/abs/2409.02979
  • 代码链接: https://github.com/HaiyuWu/Vec2Face 
  • Demo 链接: https://huggingface.co/spaces/BooBooWu/Vec2Face

本文的亮点可以归纳为:

  1. 此工作提出的 Vec2Face 模型首次实现了从特征向量生成图片的功能,并且向量之间的关系,如相似度,和向量包含的信息,如 ID 和人脸属性,在生成的图片上也会得到继承。
  2. Vec2Face 可以无限生成不同身份 (synthetic ID) 的图像!之前的生成式模型 (GAN, Diffusion model, Stable diffusion model) 最多只能生成 8 万个不同身份的图像 [1]。本文利用 Vec2Face 生成了来自于 300K 个人的 15M 张图片。
  3. 用 Vec2Face 生成的 HSFace10k 训练的模型,首次在人脸识别的年龄测试集 (CALFW) 上实现了性能超越同尺度的真实数据集 (CASIA-WebFace [2])。另外,当合成数据集的 ID 数量大于 100k 后,训练的人脸识别模型在毛发测试集 (Hadrian) 和曝光度测试集 (Eclipse) 上也同样超越了 CASIA-WebFace。

主要实验

性能对比

我们在 5 个常用的人脸识别测试集 LFW [3]、CFP-FP [4]、AgeDB [5]、CALFW [6]、CPLFW [7] 上和现有的合成数据集进行了对比。

51c大模型~合集52_大模型_34

表一:对比用 Diffusion models,3D rendering,和 GAN 方法 (从上到下) 生成的合成数据集的性能。

第一:我们在生成的 0.5M 图片规模的训练集在上实现了 state-of-the-art 的平均精度(92%),并且在 CALFW 上超越了真实数据集 (CASIA-WebFace) 的精度。这证明了我们方法的有效性。第二:之前的最好的方法 Arc2Face [8] 使用了 Stable Diffusion V1.5 并且在 WebFace42M [9] 上进行微调,而我们的方法仅用了 1M 的数据进行训练。这足以证明我们方法的高效性和有效性。第三:HSFace 首次实现了 GAN 范式训练超过其他范式。

扩大数据集的有效性

因为 Vec2Face 可以无限生成不同的身份 (ID),所以我们对 Vec2Face 的 scalability 进行了测试。我们分别生成了 1M (20K ID),5M (100K ID),10M (200K ID) 和 15M (300K ID) 的数据集。在这之前最大的人脸合成训练集仅有 1.2M (60K ID)。

51c大模型~合集52_大模型_35

表二:测试 Vec2Face 在 scalability 上的表现。

从结果上看,当我们通过生成更多的 ID 来扩大数据集后,精度也随之提高,并且提高的趋势并未衰减!这证明 Vec2Face 能够有效的生成不同的身份。

计算资源对比

理论上来说,Arc2Face 也可以实现无限 ID 的生成并且扩大数据集。然而由于 SD 需要大量的计算资源来合成人脸,这在实际应用上并不高效。具体对比如下:

51c大模型~合集52_大模型_36

表三:对比 Arc2Face 和 Vec2Face 的模型大小,推理速度和 FID。对于 Arc2Face,我们使用 LCM-lora [10] 作为 scheduler 来生成图片。

对比结果显示,即使使用 4 步的 scheduler,Vec2Face 达到了 Arc2Face 的 311 倍同时保持了更高的与原图分布的相似度。

Vec2Face 的训练和生成方法

Vec2face 的训练

数据集:从 WebFace4M 中随机抽取的 5 万个人的图片。

方法逻辑:因为人脸识别模型是将人脸图像在高维空间 (512-dim) 聚类来实现 Open-set 的识别,并且由于高维空间的稀疏性,其空间内的身份总数要远远大于训练时所用的个数。因此在高维空间随机提取向量并且保证较低的相似度,那么就可以确保身份的独特性。还因为,人脸识别模型提取出的特征向量里不仅包含了身份信息,还包含了人脸属性等信息,所以对身份向量加小幅度的噪声 

51c大模型~合集52_大模型_37

就可以在保证身份一致的前提下实现人脸属性的变化。因此,我们需要训练一个可以解码特征向量里的信息并且能够生成对应图片的模型。

51c大模型~合集52_大模型_38

Vec2Face 训练和推理框架。

为了让模型充分理解特征向量里的信息,我们的输入仅用预训练的人脸识别模型提取出来的特征向量(IM feature)。随后将由特征向量扩展后的特征图(Feature map)输入到 feature masked autoencoder(fMAE),来获取能够解码成图片的特征图。最后用一个图片解码器(Image decoder)来生成图片。整个训练目标由 4 个损失函数组成。

51c大模型~合集52_大模型_39

用于缩小合成图

51c大模型~合集52_大模型_40

和原图

51c大模型~合集52_大模型_41

之间的距离:

51c大模型~合集52_大模型_42

51c大模型~合集52_大模型_43

用于缩小合成图和原图对于人脸识别模型的相似度:

51c大模型~合集52_大模型_44

感知损失

51c大模型~合集52_大模型_45

[11] 和

51c大模型~合集52_大模型_46

用于提高合成图的图片质量。我们使用 patch-based discriminator [12, 13] 来组成 GAN 范式训练。

生成

因为 Vec2Face 仅需输入特征向量(512-dim)来生成人脸图片并且能够保持 ID 和部分人脸属性的一致,所以仅需采样 ID vector 并确保 

51c大模型~合集52_大模型_47

即可保证生成的数据集的 inter-class separability。至于 intra-class variation,我们仅需在 ID vector 加上轻微的扰动  就能够在身份一致的情况下实现图片的多样性。

然而,由于在训练集里的大部分图像的头部姿态都是朝前的(frontal),这使得增加随机扰动很难生成大幅度的头部姿态(profile)。因此,我们提出了 Attribute Operation(AttrOP)算法,通过梯度下降的方法调整 ID vector 里的数值来使得生成的人脸拥有特定的属性。

51c大模型~合集52_大模型_48

Eq.5:

51c大模型~合集52_大模型_49

其他实验

AttrOP 的影响

51c大模型~合集52_大模型_50

我们通过 AttrOP 来定向提高生成的人脸质量和对应的头部姿态的变化。这一方法能够有效的大幅提高最终模型的性能。另外,增加头部姿态的变化度的同时也提高了在年龄测试集上的表现,从而实现了对真实数据集性能的超越。

衡量现有合成数据集的身份分离度

51c大模型~合集52_大模型_51

身份分离度是衡量数据集质量的重要指标。此实验衡量了 Vec2Face 和其他现有合成数据集内身份的分离度。具体过程:1)我们通过使用人脸识别模型提取出数据集里图片的特征;2)将他们的图片特征取平均来计算出身份特征;3)计算身份与身份之间的相似度;4)我们统计了所有身份与其他身份相似度相似度小于 0.4 的个数,从而衡量分离度。结果显示,Vec2Face 能够实现和真实数据集 WebFace4M 相同的分离度。这一优势为数据集的质量提供了保障。

Noise 采样中 σ 对于精度的影响

51c大模型~合集52_大模型_52

在本文中,σ 的大小对于 noise 的采样起到了直接的影响,从而影响到人脸属性的变化程度。于是我们对它的大小做了消融实验。结果显示,当σ 过小时 (=0.3) 和  σ过大时 (0.3, 0.5, 0.9),性能出现了大幅下降。从生成的结果上来说,过小的 σ 无法提供足够的人脸属性变化从而降低模型的泛化能力。过大的 σ 无法保持身份的一致,这会使模型无法学习到好的表达。因此,选择合适的采样范围至关重要。

ID 分离度对于精度的影响 (Avg. ID sim 越大,分离度越小)

51c大模型~合集52_大模型_53

这个实验研究了身份分离度对于精度的影响。虽然身份分离度的重要性是共识,但是目前为止并未有工作来验证它的真实性。因此,我们控制了数据集种身份与身份之间的平均相似度来进行消融实验。结果显示,高的分离度会大幅降低最终识别模型的性能,而过低的分离度也无法持续对最终性能提供帮助。

在其他识别测试集上 HSFace 和 CASIA-WebFace 的性能对比

51c大模型~合集52_大模型_54

因为前文的 5 个测试集只有对头部姿态变化和年龄变化的测试,为了更广泛的对比真实数据集和 HSFace 在其他人脸属性变化上的表现,我们引入了 Hadrian (面部毛发),Eclipse (面部光照),SSLFW (相似外表),和 DoppelVer (分身)。在 Hadrian 和 Eclipse 上,我们通过扩大数据集的规模最终超越了真实数据集的性能。然而,在 SSLFW 和 DoppelVer 上,我们并未实现超越。这一表现引出了另一个哲学方面的思考:目前来说,身份 (ID) 是由相似度进行定义。然而对于双胞胎,分身,近亲等,他们之间的人脸相似度会非常高但是他们又是不同的身份。这就暴露出单纯的用相似度来定义身份的缺点。因此,如何更好的定义不同的身份对于未来的工作至关重要。



#电力、芯片制造、数据和延迟成四大限制因素

Scaling Law能续到2030年吗?

近年来,人工智能模型的能力显著提高。其中,计算资源的增长占了人工智能性能提升的很大一部分。规模化带来的持续且可预测的提升促使人工智能实验室积极扩大训练规模,训练计算以每年约 4 倍的速度增长。

从这个角度来看,人工智能训练计算的增长速度甚至超过了近代史上一些最快的技术扩张。它超过了移动电话采用率(1980-1987 年,每年 2 倍)、太阳能装机容量(2001-2010 年,每年 1.5 倍)和人类基因组测序(2008-2015 年,每年 3.3 倍)的峰值增长率。

在最近的一份报告中,Epoch AI 研究了当前人工智能训练规模的快速增长(约每年 4 倍)在 2030 年之前是否始终在技术上可行。

报告提到了可能制约扩展的四个关键因素:电源可用性、芯片制造能力、数据稀缺性和「延迟墙」(人工智能训练计算中不可避免的延迟所造成的基本速度限制)。

51c大模型~合集52_大模型_55

报告中的分析包括生产能力的扩张、投资和技术进步。除其他因素外,这包括审查先进芯片封装设施的计划增长、额外发电厂的建设以及数据中心利用多个电力网络的地理分布。为了考虑这些变化,报告纳入了各种公开来源的预测:半导体代工厂的扩张计划、电力供应商的产能增长预测、其他相关行业数据以及自己的一些研究。

他们发现,到本个十年末,2e29 FLOP 的训练运行或许是可行的。换句话说,到 2030 年,我们将很有可能训练出规模超过 GPT-4 的模型,与 GPT-4 在规模上超过 GPT-2 的程度相同。如果继续努力,到本个十年末,我们可能会看到人工智能的巨大进步,就像 2019 年 GPT-2 的简陋文本生成与 2023 年 GPT-4 的复杂问题解决能力之间的差异一样。

当然,人工智能开发者是否真的会追求这种水平的扩展,取决于他们是否愿意在未来几年投资数千亿美元用于人工智能的扩展。但这不是报告讨论的重点。

在整个分析过程中,报告假定训练运行可持续 2 到 9 个月,这反映了持续时间越来越长的趋势。报告还假设,在为分布式训练和芯片分配人工智能数据中心电力时,公司只能获得现有供应量的 10% 到 40% 左右。

制约扩展的四个关键因素

电力限制

人们已经讨论过,到 2030 年数据中心园区达到 1 至 5 GW 的计划,这将支持 1e28 至 3e29 FLOP 的训练运行(作为参考,GPT-4 可能在 2e25 FLOP 左右)。地域分布式训练可以利用多个地区的能源基础设施,进一步扩大规模。根据目前美国数据中心扩张的预测,美国的分布式网络可能容纳 2 到 45 GW,假设数据中心之间有足够的带宽,则可支持 2e28 到 2e30 FLOP 的训练运行。除此之外,如果提前 3 到 5 年进行规划,愿意支付新发电站成本的参与者可以获得更多电力。

51c大模型~合集52_大模型_56

数据中心电力容量的快速扩张潜力巨大,这一点已被多种资料来源和预测所证实。SemiAnalysis 提供的历史数据显示,2019 年至 2023 年期间,数据中心容量的年增长率约为 20%(如图 2)。2024 年和 2025 年的扩建计划旨在加快这一速度,如果按时完成,年增长率将达到 32%。

总体而言,10-30% 的年增长率似乎是可以实现的。根据 15% 的中心增长率估算,到 2030 年,美国数据中心的容量将从 40 GW 增长到 90 GW,即增加 50 GW。注意,此处使用的是对实际增长的预测范围,并以此为基础估算可行的增长,因此这一数字可以说是保守的。

报告中提到,由本地电力支持的 2030 年训练运行可能需要 1 到 5 GW,到 2030 年可达到 1e28 到 3e29 FLOP。与此同时,分布在各地的训练运行可获得 2 至 45 GW 的电力供应,并在数据中心对之间实现 4 至 20 Pbps 的连接,从而实现 2e28 至 2e30 FLOP 的训练运行。上述估计背后的假设可以在下图 3 中找到。

51c大模型~合集52_大模型_57

芯片制造能力

人工智能芯片提供了训练大型人工智能模型所需的计算能力。目前,扩展受到先进封装和高带宽内存生产能力的限制。不过,考虑到制造商计划的规模扩张以及硬件效率的提高,即使考虑到 GPU 将在多个 AI 实验室之间分配,并且部分专用于服务模型,也可能有足够的能力让 1 亿个 H100 等效 GPU 专用于训练,为 9e29 FLOP 的训练运行提供动力。然而,这一预测具有很大的不确定性,估计值从 2000 万到 4 亿个 H100 等效处理器不等,相当于 1e29 到 5e30 FLOP(比 GPT-4 大 5000 到 300000 倍)。

报告中假设了一种情况,即从现在到 2030 年,台积电 5 纳米及以下的全部产能都用于 GPU 生产。在这种情况下,潜在计算量可能会增加一个数量级,达到 1e30 到 2e31 FLOP。这一上限基于当前的晶圆产量预测,说明了如果完全解决封装、HBM 生产和晶圆分配方面的现有限制,对人工智能训练能力可能产生的最大影响。图 4 展示了这些估计值,并列出了其背后的假设。

51c大模型~合集52_大模型_58

数据短缺

训练大型人工智能模型需要相应的大型数据集。索引网络包含约 500T 的独特文本,预计到 2030 年将增加 50%。从图像、视频和音频数据中进行多模态学习可能会适度促进扩展,使可用于训练的数据增加三倍。在考虑了数据质量、可用性、多 epoch 和多模态 tokenizer 效率等不确定因素后,估计到 2030 年可用于训练的 token 相当于 400 万亿到 20 亿亿个,允许 6e28 到 2e32 FLOP 的训练运行。人工智能模型生成的合成数据可能会大幅提高这一比例。

据估计,索引网络上的文本数据量为 20 亿亿个 token (Villalobos et al, 2024)。同时,互联网上图片和视频秒数的估计值为 40 万亿。如果也使用每张图片或每秒视频 100 个 token 的高端估计值,这意味着有四亿亿个视觉 token,或六亿亿个文本和视觉 token。如果还假设到 2030 年这些数据量翻一番,80% 的数据因质量过滤而被删除(FineWeb 丢弃了约 85% 的 token),模型在这些数据上训练 10 个 epoch,那么有效数据集的规模将达到约 20 亿亿个 token。有关这些参数的完整列表以及报告选择这些值范围的理由,如图 5 所示。

51c大模型~合集52_大模型_59

延迟墙

延迟墙是一种 「速度限制」,源于向前和向后传递所需的最短时间。随着模型规模的扩大,它们需要更多的顺序操作来训练。增加并行处理的训练 token 数量(即「批大小」)可以摊销这些延迟,但这种方法也有局限性。超过「临界批大小」后,批大小的进一步增加会导致训练效率的回报递减,训练更大的模型需要连续处理更多的批。这就为特定时间范围内的训练 FLOP 设定了上限。报告估计,现代 GPU 设置上的累积延迟将使训练运行的 FLOP 上限达到 3e30 到 1e32。要超越这一规模,需要采用其他网络拓扑结构、减少通信延迟,或者采用比目前更积极的批规模扩展。

OpenAI 之前的研究将临界批大小(在这个点之后,训练的收益会大幅递减)与梯度相对于训练数据的分散程度联系了起来。在此基础上,Erdil 和 Schneider-Joseph(即将发表)推测,批大小可能与可还原模型损失的倒数成比例,根据 Chinchilla 的说法,可还原模型损失的比例大致为模型参数数量的立方根。如果这种情况成立,它将把延迟墙推回一个数量级,参见下图。

51c大模型~合集52_大模型_60

什么限制因素影响最深?

上文讲到了人工智能扩展的四个主要瓶颈。如果将它们放在一起考虑,则意味着到本个十年末,训练运行高达 2e29 FLOP 是可行的。这将代表着相对于当前模型的大约 10000 倍的扩展,并意味着扩展的历史趋势可以不间断地持续到 2030 年(图 7)。深色阴影框对应四分位数范围,浅色阴影区域对应 80% 置信区间。

51c大模型~合集52_大模型_61

最具约束力的限制因素是电力和芯片的可用性。其中,电力的可塑性可能更大,能源行业的集中度较低,而且有扩大 100 GW 电力供应的先例,如果提前三到五年计划,供应商应该能够执行。

扩大芯片制造面临多重挑战:先进封装等关键工艺大多已分配给数据中心的 GPU,而建设新的晶圆厂需要大量资本投资和高度专业化的劳动力。

数据是最不确定的瓶颈,其不确定性范围跨越四个数量级。多模态数据对提高推理能力的作用可能有限,而且我们对此类数据的可用存量、质量以及当前 token 化方法效率的估计都不如对文本数据的估计那么确定。最终,合成数据可以实现无限扩展,但计算成本较高。

最后,虽然延迟墙是一个遥远的制约因素,但它作为一个需要克服的障碍,已经出现在地平线上。通过采用更复杂的网络拓扑结构,包括更大的 pod 或 pod 之间更多的连接,可能会将延迟墙推倒。

AI实验室们会扩展到这个程度吗?

迄今为止,人工智能模型规模的不断扩大一直带来能力的提升。这为人工智能的发展灌输了一种以规模为中心的观点,导致用于训练运行的支出以每年约 2.5 倍的速度增长。早期迹象表明,这种情况可能会继续下去。

值得注意的是,据报道,微软和 OpenAI 正在为一个名为 Stargate(星际之门)的数据中心项目制定计划,该项目耗资可能高达 1000 亿美元,将于 2028 年启动。这表明,大型科技公司确实正在准备实现本文所述的巨大规模。

将 GPT-4 升级到与 GPT-6 相当的模型,再加上算法的大幅改进和后期训练的改进,可以进一步证明人工智能系统具有足够大的经济回报潜力。这些证据可能表现为:GPT-5 等较新的模型在发布的第一年内就创造了超过 200 亿美元的收入;人工智能功能的显著进步,使模型能够无缝集成到现有的工作流程中,操作浏览器窗口或虚拟机,并在后台独立运行。

人工智能能够自动完成相当一部分经济任务,其潜在回报是巨大的。一个经济体投资数万亿美元建立与计算相关的资本储备,包括数据中心、半导体制造工厂和光刻机,是有可能实现的。要了解这一潜在投资的规模,需要考虑全球每年的劳动报酬约为 6000 万美元。即使不考虑人工智能自动化带来的经济加速增长,如果开发能够有效替代人类劳动力的人工智能变得可行,那么投资数万亿美元来获取这 6000 万美元中的一小部分,在经济上也是合理的。

据标准经济模型预测,如果人工智能自动化达到取代大部分或全部人类劳动力的程度,经济增长可能会加快十倍或更多。在短短几十年内,这种加速增长可使经济产出增加几个数量级。考虑到这一潜力,提前实现完全或接近完全自动化的价值可能占全球产出的很大一部分。认识到这一巨大价值,投资者可能会将传统行业的大部分资金转投人工智能开发及其重要基础设施(能源生产和分配、半导体制造工厂、数据中心)。这种前所未有的经济增长潜力可能会推动数万亿美元的人工智能开发投资 104。