#COMPASS

上交大新型SRAM存内计算架构,开启类脑计算新时代

团队信息:这一工作由上海交大先进计算机体系结构实验室蒋力教授和刘方鑫助理教授所在课题组(IMPACT)完成,同时也获得了上海期智研究院的支持。第一作者是博士生汪宗武。

会议介绍

MICRO 全称 IEEE/ACM International Symposium on Microarchitecture,与 ISCA、HPCA、ASPLOS 并称为体系结构「四大顶会」,囊括了当年最先进的体系结构成果,被视作国际前沿体系结构研究的风向标,见证了诸多突破性成果的首次亮相,包括谷歌、英特尔、英伟达等企业在半导体领域的多项技术创新。本次会议共收到投稿 497 篇,收录文章 113 篇,录取率为 22%。

近年来,类脑计算在人工智能领域迅速崛起,尤其是脉冲神经网络(SNN)的出现,为低能耗、高效能计算提供了新的可能。然而,现有的脉冲神经网络在追求高准确性的同时,往往会增加能量消耗和计算延迟,这使得其在边缘设备上的应用面临诸多挑战。为解决这一问题,最新研究提出了一种基于 SRAM 的存内计算(CIM)架构 ——COMPASS,为 SNN 在硬件加速器上的高效部署提供了全新方案。

类脑计算的挑战与突破

传统的深度神经网络(DNN)已经在计算机视觉、自然语言处理和语音识别等领域取得了卓越的成果,但其对计算资源的巨大需求使其在能量效率方面的表现不尽如人意。相比之下,SNN 利用二进制脉冲事件代替连续激活值,以事件驱动的信息处理方式显著降低了计算需求。然而,SNN 的优势在高时效性任务中变得性能低下,这也给 SNN 的硬件实现提出了新的挑战:如何在保持高能效的同时,减少计算延迟和内存占用?

为应对这些挑战,论文提出的 COMPASS 架构创新性地利用了输入脉冲的显式稀疏性和输出脉冲的隐式稀疏性。通过引入动态脉冲模式的推测机制,该架构不仅显著减少了冗余计算,还优化了硬件资源的利用效率。此外,COMPASS 还设计了一种适用于输入和输出脉冲的时间维度压缩技术,进一步降低了内存占用,实现了高效的并行执行。

51c大模型~合集41_大模型

创新架构的技术细节

51c大模型~合集41_大模型_02

COMPASS 架构的核心在于其基于 SRAM 的存内架构的高稀疏性利用。传统的 CIM 架构面临的一个主要挑战是脉冲的不规则性和时间依赖性,这使得高并行架构中高效利用脉冲稀疏性变得困难。为了克服这些挑战,研究团队提出了 COMPASS 架构。这一架构基于 SRAM 的 CIM 技术,旨在通过高效利用输入脉冲(显式)和输出脉冲(隐式)中的不规则稀疏性,来显著提高 SNNs 的计算效率。

COMPASS 利用 SNN 的脉冲稀疏性设计了动态脉冲投机模式,实现了对推理延迟的对数时间步压缩,从而减少了冗余计算,并降低了硬件开销。为了充分发挥 CIM 架构的并行计算能力,COMPASS 架构还通过引入自适应投机窗口调度和时间脉冲稀疏表示,优化了输入和输出脉冲的处理流程,进一步降低了内存占用,实现了并行执行。

性能评估与结果

表一:COMPASS 的计算和存储资源与基线硬件对比

51c大模型~合集41_大模型_03

COMPASS 架构的性能评估结果令人瞩目。与现有的 SNN 加速器硬件实现相比,COMPASS 在端到端加速方面实现了 24.4 倍的提升,同时每次推理的能耗降低了 386.7 倍。这一结果不仅证明了 COMPASS 架构在处理 SNN 任务中的优越性,也展示了其在实际应用中的巨大潜力。

研究团队通过一系列实验对 COMPASS 的性能进行了详尽的分析。在与传统 DNN 和其他 SNN 模型的对比中,COMPASS 表现出了显著的性能优势,尤其是在处理复杂任务时,COMPASS 的低能耗特性尤为突出。这一成果表明,COMPASS 架构在实现高效、低能耗计算方面具有广阔的应用前景。

51c大模型~合集41_大模型_04

图 1:(a) 吞吐量和 (b) 能源效率的性能比较。由于稀疏性利用率低,PTB-CIM 表现出与 Strawman 方案(没有利用稀疏性)相当的性能,而 COMPASS 在所有基准测试中都提高了吞吐量和能源效率。

前景展望

随着人工智能应用场景的不断扩展,尤其是在边缘计算设备中的应用,能效比成为衡量算法和硬件设计的重要指标。COMPASS 架构的提出为这一问题提供了全新的解决方案。未来,该架构有望在更多的实际场景中得到应用,包括物联网设备、自动驾驶、智能机器人等领域。

展望未来,研究团队计划进一步优化 COMPASS 架构,使其在更多的 SNN 模型上实现高效部署。同时,随着 SRAM 技术的不断发展,COMPASS 有望进一步降低能耗,并在更大规模的应用中发挥其独特优势。这一创新成果不仅为类脑计算的研究提供了新的思路,也为未来低能耗人工智能的发展奠定了坚实基础。开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用 whaosoft aiot自动驾驶也可以哦

结语

COMPASS 架构的成功研发标志着类脑计算迈出了关键性的一步。通过高效利用脉冲稀疏性和时间压缩技术,COMPASS 不仅克服了传统 SNN 硬件实现的瓶颈,还为未来智能设备的低能耗计算提供了强有力的支持。在人工智能领域快速发展的今天,这一突破性的创新无疑将对未来计算架构的发展产生深远影响。




#扩散模型真正安全了吗?

本文第一作者为密歇根州立大学计算机系博士生张益萌,贾景晗,两人均为OPTML实验室成员,指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine Learning (OPTML) 实验室的研究兴趣涵盖机器学习/深度学习、优化、计算机视觉、安全、信号处理和数据科学领域,重点是开发学习算法和理论,以及鲁棒且可解释的人工智能。

在人工智能领域,图像生成技术一直是一个备受关注的话题。近年来,扩散模型(Diffusion Model)在生成逼真且复杂的图像方面取得了令人瞩目的进展。然而,技术的发展也引发了潜在的安全隐患,比如生成有害内容和侵犯数据版权。这不仅可能对用户造成困扰,还可能涉及法律和伦理问题。

尽管目前已有不少机器遗忘(Machine Unlearning, MU)方法 [1-3],希望让扩散模型在使用不适当的文本提示时避免生成不合时宜的图片,但其有效性存疑。

只是我们好奇,经过机器遗忘的扩散模型,真的就一定安全了吗?

51c大模型~合集41_大模型_05

为了应对这一挑战,密歇根州立大学 (Michigan State University) 和英特尔(Intel)的研究者们提出了一种高效且无需辅助模型的对抗性文本提示生成方法 UnlearnDiffAtk [4],并用优化后得到的对抗性文本提示作为检验遗忘后扩散模型安全可靠性的工具,论文目前已被 ECCV 2024 接收。本文第一作者为密歇根州立大学计算机系博士生张益萌、贾景晗,两人均为 OPTML 实验室成员,指导教师为刘思佳助理教授。

51c大模型~合集41_大模型_06

  • 论文题目:To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy to Generate Unsafe Images ... For Now
  • 论文地址:https://arxiv.org/abs/2310.11868
  • 代码地址:https://github.com/OPTML-Group/Diffusion-MU-Attack
  • Unlearned Diffusion Model Benchmark:  https://huggingface.co/spaces/Intel/UnlearnDiffAtk-Benchmark 

Unlearned DM 可以从两个角度评估模型:

  • 安全可靠性:通过对抗性文本提示攻击 (UnlearnDiffAtk) 来进行评估;
  • 图片生成能力:通过一万张生成图片平均 FID(Fréchet inception distance)和 CLIP score 进行评估。

51c大模型~合集41_大模型_07

文章与代码均已开源,研究团队还在积极收纳更多的方法到 Unlearned DM Benchmark。如有意向,欢迎邮件联系作者(zhan1853@msu.edu)沟通模型测评相关事宜。

UnlearnDiffAtk 方法有什么独特之处?

UnlearnDiffAtk 的目标是通过寻找离散的对抗性文本来进行攻击,而与之不同的是,CCE [5] 侧重于寻找连续的文本嵌入进行攻击。

然而,CCE 并不是一个理想的评估方式,因为文本反转 [6] 的初衷是通过优化生成 “新” 的词元(token),从而使扩散模型能够生成未见过的事物或风格。

因此,即使扩散模型已经遗忘了某些特定内容,仍然可以通过优化生成新的词元来使模型生成相应的事物。而 UnlearnDiffAtk 与其他对抗式文本生成方法不同,UnlearnDiffAtk 无需依靠辅助模型或未经机器遗忘的原模型提供优化指导。它利用扩散模型内在的分类器辨别能力 [7],来指导对抗性文本的生成,使得攻击更具可操作性。

优化过程中仅需一张目标图片(Target Image,

51c大模型~合集41_大模型_08

)提供指导,大大降低了对硬件的要求并提高了攻击效率。需要注意的是,目标图片不必与原有的不适当文本提示描述完全吻合,仅需包含攻击后期望得到的有害内容即可。例如,若 UnlearnDiffAtk 希望强迫遗忘后的模型生成包含裸体的图片,那么目标图片只需是网络上的任何一张裸体照片即可。

具体来说,根据 Diffusion Classifier [7] 的概念,预测输入图片 x 为标签 c 的概率变为如下:

51c大模型~合集41_大模型_09

而在扩散模型中,

51c大模型~合集41_大模型_10

的对数似然去噪误差相关,则可以得到:

51c大模型~合集41_大模型_11

通过扩散分类器 (3) 的视角,创建对抗性提示词 c’ 以规避目标遗忘后扩散模型的任务可以表述为:

51c大模型~合集41_大模型_12

然而分类只需要噪声误差之间的相对差异,不需要它们的绝对大小,所以公式(3)可以变形为

51c大模型~合集41_大模型_13

然后我们可以将攻击生成问题 (4) 变为

51c大模型~合集41_大模型_14

为了便于优化,我们通过利用 exp (⋅) 的凸性来简化公式 (6)。使用 Jensen 不等式,对于凸函数,公式 (6) 中的单个目标函数(针对特定的 j)的上界为:

51c大模型~合集41_大模型_15

由于第二项与优化变量 c’无关,通过将公式 (7) 纳入公式 (6) 并排除与 c’无关的项,我们得到以下简化的攻击生成优化问题:

51c大模型~合集41_大模型_16

任务类型

扩散模型的机器遗忘任务可分为三大类,而 UnlearnDiffAtk 在这三类任务中均展现了较强的攻击成功率:

  • 有害内容 (如:裸体,暴力,违法行为)
  • 艺术风格
  • 物体

51c大模型~合集41_大模型_17

本文不仅深入了解了扩散模型在生成安全性方面的挑战,还提出了有效的解决方案。希望这项研究能引起更多对图像生成技术安全性的关注,并推动相关技术的进一步发展。

实验结果与可视化

下述表格和可视化结果分别展示了在遗忘有害内容、遗忘艺术风格以及遗忘物体这三类任务中的表现。通过这些结果可以看出,即使在没有额外辅助模型提供优化指导的情况下,仅仅依靠扩散模型自身携带的分类器特性,UnlearnDiffAtk 依然表现出与同期工作 P4D 相当甚至更高的攻击成功率。此外,由于无需依赖额外的模型辅助,UnlearnDiffAtk 能够显著提高攻击速度,平均节省约 30% 的攻击时间。

51c大模型~合集41_大模型_18

51c大模型~合集41_大模型_19

51c大模型~合集41_大模型_20

51c大模型~合集41_大模型_21

51c大模型~合集41_大模型_22

51c大模型~合集41_大模型_23

51c大模型~合集41_大模型_24

51c大模型~合集41_大模型_25




#Cursor

Karpathy狂赞AI代码神器Cursor,直言回不到3年前无辅助编码了,却被指「带货」

热衷于开课并与网友分享新技术使用心得的 AI 大牛 Karpathy,也有被质疑「为推销某个产品而在言论中夹带私货」的一天。

这是怎么一回事呢?

昨天,Karpathy 分享了自己结合使用 AI 代码编辑器与大模型的心得体验,并发出了由衷的感叹:编程领域变化太快了。

Karpathy 在编码时正在尝试使用 VS Code Cursor 加上 Claude Sonnet 3.5 的组合,而没有使用 GitHub Copilot。他表示这种做法能够带来纯粹的双赢(net win)。Cursor 是一款 AI 代码编码器,允许用户以自然语言的方式与 AI 交互,根据用户指令来生成代码片段,提供代码检查并在出错时给出修复建议。

从个人经验来谈,过去几天,Karpathy 的大部分编码变成了写英文(包括提示词、审查并编辑生成的代码差异),并做一些「半编码」(half-coding),即你来输入自己想要的一段代码,可能还要加一些注释,这样大模型知道你的下一步意图是什么。最后只需要连按「tab」键让 AI 自动补全,这样就能完成编码。

从输出结果来看,Karpathy 表示有时会一次性得到 100 行的差异代码,这在以前可能需要花费 10 多分钟。当然他认为自己还没有充分习惯 Cursor 所有的功能,这有点像重新学习编码。

最后,Karpathy 认为自己基本上无法再回到三年前那种「无辅助」编码的状态了

接着,Karpathy 放上了 Cursor AI 代码编辑器的网站链接,并表示花 20 美元就能购买 Pro 版,然后在 Cursor 设置中选择 Sonnet 3.5。不过,他也提醒道,这套设置对新手不太友好,建议他们多看教程视频。

在评论区,大多数网友对 Karpathy 关于 AI 辅助编程体验的观点表示赞同。有人对此表示,如今 AI 对工作流程的改变无疑是成功的,人们只需要学习和调整,过个一两周就可以起飞了。

有人翻出了 Karpathy 此前的发文,「最热门的新编程语言是英语」,看来这一断言正在慢慢实现。

当然,评论区也出现了不一样的看法,比如 Perplexity CEO Aravind Srinivas 回复了一个词「sad」。这让网友百思不得其解,或许是担忧安全问题吧。

知名机器学习和 AI 研究员、《Python 机器学习》作者 Sebastian Raschka 认为,AI 确实极大提高了工作效率,但自己还是喜欢无辅助的编码,就像驾驶手动挡一样。虽然不是最实用,但很有趣。

此外,还有观点认为这是 AI 代码编辑器 Cursor 在疯狂地营销,甚至连 Karpathy 都在帮他们推销。

有人质疑 Karpathy 为什么要在没有某种关联的情况下推销 Cursor?Cursor 和 LLM 的组合除了样板、前端和其他基础操作之外非常低效,从身边同事情况来看,实际上没有人用它做一点创新的事情。

面对这种无端的质疑,Karpathy 回复称,自己与 Cursor 或 Sonnet 没有任何关联和经济利益。他只是分享自己的想法,并希望对其他人有所帮助。

原来质疑者针对的是 Karpathy 放出的花 20 美元购买 Cursor Pro 的链接,在没有任何背景的情况下,看起来就像是付费推销。Karpathy 表示,自己是为了提醒用户需要升级到 Pro 才能获得没有上限的快速高级使用权限,仅此而已。

无论如何,对于 Cursor 而言,相当于 Karpathy 又为它打了一波免费广告,简直是赚翻了。




#LN3Diff

引入DiT的原生3D通用框架,适用任意神经场、秒级生成

论文一作兰宇时为南洋理工大学(NTU)博士生,导师为 Chen Change Loy。本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。

在 ECCV 2024 中,来自南洋理工大学 S-Lab、上海 AI Lab 以及北京大学的研究者提出了一种原生 3D LDM 生成框架。具体来讲,他们针对现有原生 3D 生成模型可拓展性差、训练效率低、泛化性较差等问题,提出一种基于 3D VAE 和 3D-DiT 的两阶段通用 3D 生成框架 Latent Neural fields 3D Diffusion (LN3Diff)。该方法在 Objaverse 数据集上进行了大规模训练,并在多个基准测试中取得了优异成绩,并拥有更快的推理速度。 

  • 论文项目主页: https://nirvanalan.github.io/projects/ln3diff/
  • 论文代码: https://github.com/NIRVANALAN/LN3Diff
  • Gradio demo 地址: https://huggingface.co/spaces/yslan/LN3Diff_I23D
  • 个人主页: https://nirvanalan.github.io/
  • 论文标题: LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

研究背景

近年来,以可微渲染和生成模型为核心的神经渲染技术 (Neural Rendering) 取得了很大的进展,并在新视角合成、3D 编辑和 3D 物体生成上取得了非常好的效果。然而,相较于统一图片 / 视频生成的 LDM 框架,基于 diffusion 模型的原生 3D 生成模型依然缺少通用的框架。

目前基于 SDS 蒸馏的方法受限于优化时长和饱和度较高的问题,而基于多视图生成 + Feedforward 重建的两阶段方法受限于多视图生成效果与多样性。这些限制极大地制约了 3D AIGC 的性能与自由度。 

为了解决上述问题,研究者提出将基于 LDM (Latent Diffusion Model) 的原生生成框架引入 3D 生成,通过在 3D 隐空间直接进行 diffusion 采样来实现高效、高质量的 3D 资产生成。 

51c大模型~合集41_大模型_26

方法效果图

方法

51c大模型~合集41_大模型_27

方法概览图

尽管之前的工作也尝试使用 LDM 直接进行 3D 生成,但受制于可拓展性、生成效率与在大数据上的泛化能力,并没有成为主流的 3D 生成方案。

因此,研究者提出 Latent Neural fields 3D Diffusion (LN3Diff),一种适用于任意 Neural Fields 的通用 3D 生成框架,以实现高效、高质量、可控的 3D 生成。 

3D-aware VAE : 高效信息压缩 

首先,和图片 / 视频生成模型类似,3D 隐空间生成模型需要与之适配的 VAE 模型来实现高效的信息压缩。为了更好地兼容 3D 模态,相较于直接使用 SD VAE 模型来进行信息编码,本文选择在大规模 3D 数据上重新训练 3D-aware VAE 模型。

在编码器端,研究者选择 3D 物体的多视图 (multi-view images) 作为 3D VAE 的输入形式,以保留纹理建模能力并更好地兼容 2D 图像编码器的结构。同时将多视图图像、对应的深度图以及 Plucker 相机信息作为模型输入,并在 token 空间进行 3D-aware attention 运算以实现更好地 3D 一致性。 

在解码器端,为了实现更优的信息压缩,研究者使用基于 3D-DiT 的 VAE 解码器。为了更好地支持 3D-aware 操作,在 3D-DiT 解码器端提出 Self-plane attention 与 Cross-plane attention 来使用注意力运算在 token 空间提升 3D-aware 表达能力。随后,3D-DiT 解码器输出的 tokens 会逐步上采样为 tri-plane, 并渲染成多视图来进行目标函数计算: 

51c大模型~合集41_大模型_28

其中

51c大模型~合集41_大模型_29

为多视图重建损失,

51c大模型~合集41_大模型_30

为 VAE KL 约束,

51c大模型~合集41_大模型_31

为物体表面几何平滑约束,

51c大模型~合集41_大模型_32

用于提升 3D 材质真实性。在实验数据上,研究者使用目前最大规模的开源 3D 数据集 Objaverse 来进行 VAE 训练,并公布了 DiT-L/2 尺寸的 VAE 预训练模型供用户使用。 

DiT-based 3D Latent Diffusion Model: 通用 3D 生成框架 

在第二阶段,研究者在训练完成的 3D VAE space 上进行 conditional 的 diffusion 训练。得益于 3D-VAE 强大的压缩性能与隐空间的通用性,他们可以直接在压缩得到的 3D latent space 上使用成熟的 conditional latent diffusion model 框架进行训练。

在 ShapeNet 等较小规模数据集上,研究者使用 U-Net 模型结构进行 image-conditioned 训练;在较大规模的 Objaverse 数据集上,研究者使用 3D-aware DiT 模型进行 image-condition 和 text-condition 两个版本的模型训练。得益于 3D latent space 高效的表达能力,使用有限的计算资源 (4xA100 80GB) 便可以实现高质量的 3D diffusion 训练,并将模型尺寸 scale up 至 DiT-L/2。 

51c大模型~合集41_大模型_33

实验

数据集 ShapeNet 对比 

为了与目前 3D 生成方法进行公平对比,研究者同时选择了小规模数据集 ShapeNet 与大规模通用 3D 数据集 Objaverse 进行试验。

结果显示,在数据集 ShapeNet 的三个子类上,本文方法在各项指标均取得了 SoTA 的性能。相比于目前 unconditional 的生成方法,本文方法同时支持 text/image conditioned 生成。

51c大模型~合集41_大模型_34

以文本为条件的 Objaverse 3D 生成

在大规模 3D 数据集 Objaverse 上,本文基于 DiT 的 3D 生成模型支持从文本描述直接生成丰富、带有细节纹理的高质量 3D 资产,并支持 textured-mesh 的导出。得益于原生 3D diffusion 框架的支持,生成过程仅需数秒即可完成。 

51c大模型~合集41_大模型_35

在数值指标上,LN3Diff 同样优于目前最优的原生 text-conditioned 3D 生成方法。

51c大模型~合集41_大模型_36

以图像为条件的 Objaverse 3D 生成

考虑到 3D 内容创作更多采用图片作为参考,本文方法同样支持在给定单目图片条件下实现高质量 3D 生成。相比于多视图生成 + 重建的两阶段方法,本文方法在 3D 生成效果、多样性以及 3D 一致性上有更稳定的表现: 

模型输入 (single image condition): 

51c大模型~合集41_大模型_37

模型输出: 

51c大模型~合集41_大模型_38

51c大模型~合集41_大模型_39

51c大模型~合集41_大模型_40

模型实现 / 开源 

目前项目所有模型和测试 / 训练代码均已全面开源至 Github/Huggingface, 并支持多卡、自动混合精度训练、flash-attention 以及 BF16 等加速技巧。 




#Transfusion

统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者


本文引入了 Transfusion,这是一种可以在离散和连续数据上训练多模态模型的方法。


一般来说,多模态生成模型需要能够感知、处理和生成离散元素(如文本或代码)和连续元素(如图像、音频和视频数据)。

在离散模态领域,以预测下一个词为目标的语言模型占据主导地位,而在生成连续模态方面,扩散模型及其泛化形式则是当前最先进技术。

研究者一直试图将语言模型与扩散模型结合,一种方法是直接扩展语言模型,使其能够利用扩散模型作为一个工具,或者将一个预训练的扩散模型嫁接到语言模型上。另一种替代方案是对连续模态进行量化处理,然后在离散的 token 上训练一个标准的语言模型,这种方法虽然简化了模型架构,但也会造成信息的丢失。

在这项工作中,来自 Meta 、 Waymo 等机构的研究者展示了通过训练单个模型来预测离散文本 token 和扩散连续图像,从而实现两种模态的完全集成,且不会丢失任何信息。

具体而言,本文引入了一个训练模型的新方法 Transfusion,能够无缝地生成离散和连续的模态。Transfusion 将语言模型损失函数与扩散相结合,在混合模态序列上训练单个 transformer。

该研究还在文本和图像数据混合基础上从头开始预训练多个 Transfusion 模型,最多可达到 7B 参数量,并针对各种单模态和跨模态基准建立扩展定律。

  • 论文地址:https://arxiv.org/pdf/2408.11039
  • 论文标题:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

实验表明,Transfusion 的扩展能力显著优于将图像量化并在离散图像 token 上训练语言模型的方法。通过引入特定于模态的编码和解码层,该研究证明可以进一步提高 Transfusion 模型的性能,并且甚至可以将每张图像压缩到仅 16 个 patch。

最后将 Transfusion 方法扩展到 70 亿参数和 2 万亿多模态 token,能够生成与相似规模的扩散模型和语言模型相媲美的图像和文本,从而获得两个领域的优势。这意味着 Transfusion 模型不仅能够处理图像和文本的生成,还能在这两种类型的生成上达到领先水平,有效地结合了图像和文本生成的优点。 

在 GenEval 基准测试中,本文模型(7B)优于其他流行模型,例如 DALL-E 2 和 SDXL;与那些图像生成模型不同,它可以生成文本,在文本基准测试中达到与 Llama 1 相同的性能水平。因此,Transfusion 是一种很有前途的训练真正多模态模型的方法。

Transfusion 介绍

Transfusion 是一种训练单一统一模型来理解和生成离散和连续模态的方法。本文的主要创新是证明了可以在共享数据和参数上对不同模态使用单独的损失(针对文本使用语言建模,针对图像使用扩散)。图 1 说明了 Transfusion。

51c大模型~合集41_大模型_41

模型架构:模型中的大部分参数来自单个 transformer,用来处理每一个序列,不论其模态如何。Transformer 接收一系列高维向量作为输入,并产生相似的向量作为输出。研究者为了将数据转换成这种空间,他们使用了具有非共享参数的轻量级特定于模态的组件。

对于文本,这些是嵌入矩阵,Transformer 将每个输入的整数转换成向量空间,每个输出向量转换成一个关于词汇表的离散分布。

对于图像,研究者尝试了两种方法来压缩 k×k patch 向量的局部窗口到一个单一 transformer 向量(以及反向操作):(1)一个简单的线性层;(2)U-Net 的 up 和 down 块。图 3 展示了整体架构。 

51c大模型~合集41_大模型_42

Transfusion 注意力:语言模型通常使用因果掩码来有效地计算单个前向 - 后向传播中整个序列的损失和梯度,而不会泄露未来 token 的信息。虽然文本是自然连续的,但图像不是,并且通常使用不受限制的(双向)注意力进行建模。

Transfusion 通过将因果注意力应用于序列中的每个元素,并将双向注意力应用于每个单独图像的元素中,从而结合了两种注意力模式。这使得每个图像 patch 能够关注同一图像中的每一个其他 patch,但只限于关注序列中之前出现的文本或其他图像的 patch 。这种设计允许图像内部的高效信息交流,同时限制了与序列前面内容的交互,有助于模型在处理复杂数据序列时,更好地聚焦和整合相关信息。图 4 显示了 Transfusion 注意力掩码的示例。

51c大模型~合集41_大模型_43

训练目标:为了训练模型,研究者将语言建模目标

51c大模型~合集41_大模型_44

应用于文本 token 的预测;将扩散目标

51c大模型~合集41_大模型_45

应用于图像 patch 的预测。总损失可以表示为如下形式:

51c大模型~合集41_大模型_46

实验结果

该研究通过实验证明了 Transfusion 是一种可行、可扩展的统一多模态模型训练方法。研究者在一系列标准的单模态和跨模态基准上评估模型性能,如表 1 所示。

51c大模型~合集41_大模型_47

图 5 直观显示了扩展趋势。在每个基准测试中,Transfusion 始终表现出比 Chameleon 更好的扩展规律。虽然线条接近平行,但 Transfusion 的优势更明显。

51c大模型~合集41_大模型_48

51c大模型~合集41_大模型_49

该研究在 2T token 的数据集上训练了一个 7B 参数模型,生成的图像如下所示:

51c大模型~合集41_大模型_50

表 9 显示,Transfusion 实现了与 DeepFloyd 等高性能图像生成模型类似的性能,同时超越了之前发布的模型,包括 SDXL。

51c大模型~合集41_大模型_51

图像编辑。经过微调的 Transfusion 模型可以按照指示执行图像编辑,比如将纸杯蛋糕从盘子中移除。

51c大模型~合集41_大模型_52


#Yann LeCun不看好强化学习

五十多年前的理论还值得再研究一下?  

「相比于强化学习(RL),我确实更喜欢模型预测控制(MPC)。至少从 2016 年起,我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下,模型预测控制是零样本的:如果你有一个良好的世界模型和一个良好的任务目标,模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的,但它的使用应该是最后的手段。」

在最近发布的一个帖子中,Meta 首席人工智能科学家 Yann LeCun 发表了这样一番看法。

一直以来,Yann LeCun 都是强化学习的批评者。他认为,强化学习这种方法需要大量的试验,非常低效。这和人类的学习方式大相径庭 —— 婴儿不是通过观察一百万个相同物体的样本来识别物体,或者尝试危险的东西并从中学习,而是通过观察、预测和与它们互动,即使没有监督。

在半年前的一次演讲中,他甚至主张「放弃强化学习」(参见《GPT-4 的研究路径没有前途?Yann LeCun 给自回归判了死刑》)。但在随后的一次采访中,他又解释说,他的意思并不是完全放弃,而是最小化强化学习的使用,训练系统的正确方法是首先让它从主要观察(也许还有一点交互)中学习世界和世界模型的良好表示。

51c大模型~合集41_大模型_53

同时,LeCun 也指出,相比于强化学习,他更倾向于 MPC(模型预测控制)。

MPC 是一种使用数学模型在有限时间内实时优化控制系统的技术,自二十世纪六七十年代问世以来,已广泛应用于化学工程、炼油、先进制造、机器人和航空航天等各个领域。比如,前段时间,波士顿动力就分享了他们利用 MPC 进行机器人控制的多年经验(参见《波士顿动力技术揭秘:后空翻、俯卧撑与翻车,6 年经验、教训总结》)。

MPC 的最新发展之一是与机器学习技术的集成,即 ML-MPC。在这种方法中,机器学习算法用于估计系统模型、进行预测和优化控制动作。机器学习和 MPC 的这种结合有可能在控制性能和效率方面提供显著的改进。

LeCun 的世界模型相关研究也用到了 MPC 相关理论。

最近,LeCun 对于 MPC 的偏爱又在 AI 社区引发了一些关注。

有人说,如果我们的问题能够很好地建模,并且具有可预测的 dynamics,MPC 就会很好地发挥作用。

或许对于计算机科学家来说,信号处理和控制领域还有很多值得挖掘的东西。

不过,也有人指出,求解精确的 MPC 模型是个很难的问题,LeCun 观点中的前提 ——「如果你有一个良好的世界模型」本身就难以实现。

还有人说,强化学习和 MPC 未必是二选一的关系,二者可能有各自的适用场景。

之前已经有一些研究将二者结合起来使用,效果很好。

强化学习 vs MPC

在前面的讨论中,有网友推荐了一篇 Medium 文章,分析对比了强化学习与 MPC。

接下来,就让我们根据这篇技术博客,具体分析下两者的优缺点。

强化学习(RL)和模型预测控制(MPC)是优化控制系统的两种强大技术。两种方法都有其优点和缺点,解决问题的最佳方法取决于特定问题的具体要求。

那么,两种方法的优缺点分别有哪些,又适用于解决哪些问题呢?

强化学习

强化学习是一种通过反复试验来学习的机器学习方法。它特别适合解决复杂动力学或未知系统模型的问题。在强化学习中,智能体学习在环境中采取行动以最大化奖励信号。智能体与环境交互,观察结果状态并采取行动。然后根据结果给予智能体奖励或惩罚。随着时间的推移,智能体将学会采取能够带来更积极奖励的行动。强化学习在控制系统中有多种应用,旨在提供动态自适应方法来优化系统行为。一些常见的应用包括:

  • 自主系统:强化学习用于自主控制系统,例如自动驾驶、无人机和机器人,以学习导航和决策的最佳控制策略。
  • 机器人技术:强化学习使机器人能够学习并调整其控制策略,以完成复杂动态环境中抓取物体、操纵和运动等任务。
  • ......

51c大模型~合集41_大模型_54

强化学习(RL)工作流。

  • 智能体:学习者和决策者。
  • 环境:智能体与之交互的环境或实体。智能体观察并采取行动,影响环境。
  • 状态:对世界状态的完整描述。智能体可以完全观察或部分观察状态。
  • 奖励:指示智能体绩效的标量反馈。智能体的目标是最大化长期总奖励。智能体会基于奖励改变策略。
  • 动作空间:智能体可以在给定环境中执行的一组有效动作。有限的动作构成离散的动作空间;无限的动作构成连续的动作空间。

模型预测控制

模型预测控制(Model Predictive Control,MPC)是一种广泛使用的控制策略,已应用于许多领域,包括过程控制、机器人、自主系统等等。

MPC 的核心宗旨是使用系统的数学模型来预测未来的行为,然后利用该知识来产生控制操作,以最大化某些性能目标。

经过多年的不断改进和完善,MPC 现在可以处理日益复杂的系统和困难的控制问题。如下图所示,在每个控制间隔,MPC 算法计算控制范围的开环序列,以优化预测范围内受控体(plant)的行为。


51c大模型~合集41_大模型_55

离散 MPC 方案。

MPC 在控制系统中的应用包括:

  • 过程工业
  • 电力系统
  • 汽车控制
  • 机器人技术

其中,MPC 在机器人系统中用于规划和优化运动轨迹,确保机械臂和机器人平台在各种应用(包括制造和物流)中平稳高效地运动。

下表列出了强化学习和 MPC 在模型、学习方法、速度、稳健性、样本效率、适用场景等方面的区别。一般来说,对于难以建模或具有复杂动态的问题,强化学习是合适的选择。对于建模良好且动态可预测的问题,MPC 是一个不错的选择。

MPC 的最新进展之一是与机器学习技术的集成,即 ML-MPC。ML-MPC 采用和传统 MPC 不同的方法来进行控制,使用机器学习算法来估计系统模型、进行预测和生成控制动作。它背后的主要思想是使用数据驱动模型来克服传统 MPC 的局限性。

基于机器学习的 MPC 可以实时适应不断变化的条件,使其适用于动态和不可预测的系统。与基于模型的 MPC 相比,基于机器学习的 MPC 可以提供更高的准确性,尤其是在复杂且难以建模的系统中。

此外,基于机器学习的 MPC 可以降低模型的复杂性,使其更易于部署和维护。不过,与传统 MPC 相比,ML-MPC 也有一些局限性,比如需要大量数据来训练模型、可解释性差等等。

看来,要想真正将 MPC 引入 AI 领域,计算机科学家们还有很长的路要走。

参考链接:https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27