#falcon-mamba-7b

非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

Mamba 架构的大模型又一次向 Transformer 发起了挑战。

Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。

此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 Codestral 7B。

今天,阿布扎比技术创新研究所(TII)发布了一个新的开源 Mamba 模型 ——Falcon Mamba 7B

先来总结一波 Falcon Mamba 7B 的亮点:无需增加内存存储,就可以处理任意长度的序列,并且能够在单个 24GB A10 GPU 上运行。

目前可以在 Hugging Face 上查看并使用 Falcon Mamba 7B,这个仅用因果解码器的模型采用了新颖的 Mamba 状态空间语言模型(State Space Language Model, SSLM)架构来处理各种文本生成任务。

从结果来看,Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型,包括 Meta 的 Llama 3 8B、Llama 3.1 8B 和 Mistral 7B。

Falcon Mamba 7B 分为四个变体模型,分别是基础版本、指令微调版本、4bit 版本和指令微调 4bit 版本。

作为一个开源模型, Falcon Mamba 7B 采用了基于 Apache 2.0 的许可证「Falcon License 2.0」,支持研究和应用目的。

Hugging Face 地址:https://huggingface.co/tiiuae/falcon-mamba-7b

Falcon Mamba 7B 也成为了继 Falcon 180B、Falcon 40B 和 Falcon 2 之后,TII 开源的第四个模型,并且是首个 Mamba SSLM 架构模型

首个通用的大型纯 Mamba 模型

一直以来,基于 Transformer 的模型一直占据着生成式 AI 的统治地位,然而,研究人员注意到,Transformer 架构在处理较长的文本信息时可能会遇到困难。

本质上,Transformer 中的注意力机制通过将每个单词(或 token)与文本中的每个单词进行比较来理解上下文,它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。

但是如果不相应地扩展计算资源,模型推理速度就会变慢,超过一定长度的文本就没法处理了。为了克服这些障碍,状态空间语言模型 (SSLM) 架构应运而生,该架构通过在处理单词时不断更新状态来工作,已成为一种有前途的替代方案,包括 TII 在内的很多机构都在部署这种架构。

Falcon Mamba 7B 采用了卡内基梅隆大学和普林斯顿大学研究人员最初在 2023 年 12 月的一篇论文中提出的 Mamba SSM 架构

该架构使用一种选择机制,允许模型根据输入动态调整其参数。这样,模型可以关注或忽略特定输入,类似于注意力机制在 Transformer 中的工作方式,同时提供处理长文本序列(例如整本书)的能力,而无需额外的内存或计算资源。


TII 指出,该方法使模型适用于企业级机器翻译、文本摘要、计算机视觉和音频处理任务以及估计和预测等任务。

训练数据

Falcon Mamba 7B 训练数据高达 5500GT ,主要由 RefinedWeb 数据集组成,并添加了来自公共源的高质量技术数据、代码数据和数学数据。所有数据通过 Falcon-7B/11B 标记器进行 tokenized 操作。

与其他 Falcon 系列模型类似,Falcon Mamba 7B 采用多阶段训练策略进行训练,上下文长度从 2048 增加到了 8192。此外,受到课程学习概念的启发,TII 在整个训练阶段精心选择了混合数据,充分考虑了数据的多样性和复杂性。

在最后的训练阶段,TII 使用了一小部分高质量精选数据(即来自 Fineweb-edu 的样本),以进一步提升性能。

训练过程、超参数

Falcon Mamba 7B 的大部分训练是在 256 个 H100 80GB GPU 上完成的,采用了 3D 并行(TP=1、PP=1、DP=256)与 ZeRO 相结合的策略。下图为模型超参数细节,包括精度、优化器、最大学习率、权重衰减和 batch 大小。

具体而言,Falcon Mamba 7B 经过了 AdamW 优化器、WSD(预热 - 稳定 - 衰减)学习率计划的训练, 并且在前 50 GT 的训练过程中,batch 大小从 b_min=128 增加到了 b_max=2048。

在稳定阶段,TII 使用了最大学习率 η_max=6.4×10^−4,然后使用超过 500GT 的指数计划将其衰减到最小值

51c大模型~合集31_大模型

。同时,TII 在加速阶段采用了 BatchScaling 以重新调整学习率 η,使得 Adam 噪声温度

51c大模型~合集31_大模型_02

保持恒定。

整个模型训练花费了大约两个月时间

模型评估

为了了解 Falcon Mamba 7B 与同尺寸级别领先的 Transformer 模型相比如何,该研究进行了一项测试,以确定使用单个 24GB A10GPU 时模型可以处理的最大上下文长度。

结果显示,Falcon Mamba 能够比当前的 Transformer 模型适应更大的序列,同时理论上能够适应无限的上下文长度。 

51c大模型~合集31_大模型_03

接下来,研究者使用批处理大小为 1 ,硬件采用 H100 GPU 的设置中测量模型生成吞吐量。结果如下图所示,Falcon Mamba 以恒定的吞吐量生成所有 token,并且 CUDA 峰值内存没有任何增加。对于 Transformer 模型,峰值内存会增加,生成速度会随着生成的 token 数量的增加而减慢。

51c大模型~合集31_大模型_04

即使在标准的行业基准测试中,新模型的性能也优于或接近于流行的 transformer 模型以及纯状态空间模型和混合状态空间模型。

例如,在 Arc、TruthfulQA 和 GSM8K 基准测试中,Falcon Mamba 7B 的得分分别为 62.03%,53.42% 和 52.54%,超过了 Llama 3 8 B, Llama 3.1 8B, Gemma 7B 和 Mistral 7B。然而,在 MMLU 和 Hellaswag 基准测试中,Falcon Mamba 7B 远远落后于这些模型。

TII 首席研究员 Hakim Hacid 在一份声明中表示:Falcon Mamba 7B 的发布代表着该机构向前迈出的重大一步,它激发了新的观点,并进一步推动了对智能系统的探索。在 TII,他们正在突破 SSLM 和 transformer 模型的界限,以激发生成式 AI 的进一步创新。

目前,TII 的 Falcon 系列语言模型下载量已超过 4500 万次 —— 成为阿联酋最成功的 LLM 版本之一。

Falcon Mamba 7B 论文即将放出,大家可以等一等。

参考链接:

https://huggingface.co/blog/falconmamba

https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/




#芯片架构成为边缘AI最佳并行计算选择

一、什么是边缘 AI?

边缘 AI(AI Edge)是人工智能 (AI) 与边缘计算交叉的先进技术,这一概念源于 AI 从云端向边缘下沉的分布式计算范式转变。边缘 AI 的核心是将 AI 算法直接嵌入到产生大量数据的本地环境中,例如智能手机、物联网设备或本地服务器,通过位于网络 “边缘”(即更靠近数据源)的设备和系统进行实时数据处理和分析。

相对于传统的数据中心或云计算平台的 AI 训练或推理,边缘 AI 的主要优势在于 “就地处理”,大大减少了数据传输和处理的延迟,这在智能监控、自动驾驶、实时医疗诊断或工业自动化控制等应用场景中尤其重要。

实现边缘 AI 计算的设备和系统主要包括:

  1. 智能终端:主要用于产生或收集数据的设备,如智能传感器、智能手机、AI PC 或物联网设备等;
  2. 边缘 AI 服务器:直接对所收集数据进行处理和分析的边缘设备及软硬件系统,比如专用的大语言模型(LLM)AI 推理服务器、智能驾驶区域计算中心服务器等;
  3. 通信网络设备:尽管边缘 AI 应用对通信网络的带宽和速率要求没有云端那么高,但也必须提供可靠的高速连接才能达到边缘 AI 所需的低延迟和实时性要求。

本文主要讨论边缘 AI 服务器及其市场发展趋势、对 AI 加速处理器的要求,以及适合边缘 AI 应用的并行计算架构和处理器实现。

二、边缘 AI 服务器市场趋势

AI 服务器是指专为人工智能应用而设计的高性能计算机设备,能够支持大规模数据处理、模型训练、推理计算等复杂任务。AI 服务器通常配备高性能的处理器、高速内存、大容量高速存储系统,以及高效的散热系统,以满足 AI 算法对计算资源的极高需求。按不同的分类标准,AI 服务器可以大致分为训练服务器、推理服务器、GPU 服务器、FPGA 服务器、CPU 服务器、云端 AI 服务器,以及边缘 AI 服务器等。

据 Gartner 预测,从现在到 2027 年,AI 服务器市场规模将保持高速增长,年复合增长率高达 30%。该机构发布的《2024 年第一季度全球服务器市场报告》显示,今年 Q1 全球服务器市场销售额为 407.5 亿美元,同比增长 59.9%;出货量为 282.0 万台,同比增长 5.9%。在众多 AI 服务器供应商中,浪潮信息蝉联全球第二,中国第一,其服务器出货量在全球市场占比 11.3%,同比增长 50.4%,在 TOP5 厂商中增速第一。

另据中商产业研究院发布的《2024-2029 年中国服务器行业需求预测及发展趋势前瞻报告》,2022 年末,国内市场总规模超过 420 亿元,同比增长约 20%;2023 年约为 490 亿元,市场增速逐步放缓;预计 2024 年市场规模将达 560 亿元。从出货量来看,2022 年中国 AI 服务器市场出货量约 28.4 万台,同比增长约 25.66%;2023 年约为 35.4 万台,预计 2024 年将达到 42.1 万台。

在 AI 大模型发展早期,AI 服务器需求以模型训练为主,因而训练型服务器占据市场主导地位。目前,AI 服务器市场中 57.33%为训练型服务器,推理型服务器占比达 42.67%。然而,随着生成式 AI 应用往边缘端渗透,预计未来推理型服务器将逐渐成为市场主流,边缘 AI 服务器从出货量上将超过云端训练和推理服务器。

IDC 最新发布的《中国半年度边缘计算市场(2023 全年)跟踪》报告数据显示,2023 年中国边缘计算服务器市场继续保持稳步上升,同比增长 29.1%。IDC 预测,到 2028 年,中国边缘计算服务器市场规模将达到 132 亿美元。

51c大模型~合集31_大模型_05

作为边缘计算的重要组成部分,2023 年定制边缘服务器规模已达 2.4 亿美元,相较 2022 年增长 16.8%。从厂商销售额角度来看,边缘定制服务器市场中占比较大的厂商分别是浪潮信息、联想、华为、新华三。随着边缘计算应用的多样化发展,新兴服务器厂商在车路协同、边缘 AI 和智能终端等业务场景和应用市场将有较大突破,使得边缘服务器市场呈现出多样化格局。

三、适合边缘 AI 的理想计算架构

PC 时代由 WINTEL(微软 Windows + 英特尔 CPU)联盟主导、智能手机时代由 Android+Arm 联盟主导,AI 时代将由哪个联盟主导呢?一个新的联盟正初露端倪,那就是由英伟达和台积电组成的 NT 联盟(Nvidia+TSMC)。据华尔街投资专家预测,2024 年 NT 联盟总营收预计将达到 2000 亿美元,总净利润 1000 亿美元,总市值有望突破 5 万亿美元。由云端 AI 训练和 AI 大模型应用驱动的英伟达 GPU 和台积电 AI 芯片制造业务将成为今年最大的赢家。

尽管英伟达在云端 AI 训练和推理市场占据了绝对主导地位,但在边缘 AI 应用场景中英伟达的 GPGPU 却不是最佳选择,因为其计算架构固有的高功耗和高成本问题限制了其在更为广泛而分散的边缘 AI 应用中的作用。计算机架构领域的学者专家都在寻求能够替代 GPGPU 的高能效并行技术架构,基于特定域专用架构(DSA)的 ASIC 设计是一种可行的关键思路,比如谷歌的张量处理单元 (TPU) ,这种专为加速机器学习工作负载而设计的处理器采用脉动阵列架构,可高效执行乘法和累加运算,主要面向数据中心应用。另外一个思路是以三星为代表的神经处理单元 (NPU) ,它专为移动场景而设计,具有节能的内积引擎,可利用输入特征图稀疏性来优化深度学习推理的性能。

虽然 TPU 和 NPU 都能够提供部分替代 GPGPU 的高性能和节能解决方案,但它们的专用设计属性限制了其多功能性和广泛的适用性。总部位于美国加州且在台湾和大陆都有研发中心的边缘 AI 芯片初创公司耐能(Kneron)提出了可重构 NPU 的方案,使得 NPU 芯片有 ASIC 高性能而又不牺牲数据密集型算法的可编程性。凭借独特创新的架构和优异的性能,耐能团队获得 IEEE CAS 2021 年 Darlington 最佳论文奖。耐能第 4 代可重构 NPU 可以支持同时运行 CNN 和 Transformer 网络,既可做机器视觉,也可运行语义分析。与仅面向特定应用的普通 AI 模型不同,耐能的可重构人工神经网络(RANN)技术更加灵活,可满足不同应用需求并适应各种计算体系架构。据该公司宣称,其边缘 GPT AI 芯片 KL830 可应用于 AI PC、USB 加速棒和边缘服务器,当与 GPU 配合使用时,NPU 可将设备能耗降低 30%。

可重构硬件是另一种可提供高性能和节能计算的解决方案,现场可编程门阵列 (FPGA) 是可重构硬件计算的代表,其特点是细粒度可重构性。FPGA 利用具有可编程互连的可配置逻辑块来实现自定义计算内核。这种定制的计算能力使得基于 FPGA 的加速器能够部署在金融计算、深度学习和科学仿真等广泛的大规模计算应用中。然而,FPGA 提供的位级可重构性会带来明显的面积和功率额外开销,而且没有规模成本效益,这极大地限制了其在需要低功耗和小尺寸的应用场景中的适用性。

粗粒度可重构架构 (CGRA) 代表另一类可重构硬件。与 FPGA 相比,CGRA 提供粗粒度的可重构性,例如字级可重构功能单元。由于 CGRA 内部的 ALU 模块已经构建完成,且其互联也要比 FPGA 更简单、规模更小,因此其延时和性能要显著好于在门级上进行互连形成组合计算逻辑的 FPGA。CGRA 更适合 word-wise 类型 (32bit 为单位) 的可重构计算,而且可以缓解 FPGA 存在的时序、面积和功率开销问题,是未来边缘 AI 的理想高性能并行计算架构。

下面我们大致梳理一下 CGRA 的发展历程:

  1. 早在 1991 年,国际学术界就开启了可重构芯片的研究;
  2. 2003 年,欧洲宇航防务集团 (EADS) 率先在卫星上采用可重构计算芯片;
  3. 2004 年,欧洲 IMEC 提出动态可重构结构 ADRES,在三星的生物医疗、高清电视等系列产品中得到应用,日本的瑞萨科技也采用这种架构。
  4. 2006 年,清华大学微电子所魏少军教授带领的可重构计算团队开始进行可重构计算理论和架构研究;
  5. 2017 年,美国国防高级研究计划局(DARPA)宣布启动电子复兴计划(Electronics Resurgence Initiative,简称 ERI),将 “可重构计算” 技术列为美国未来 30 年的战略技术之一;
  6. 2018 年,基于清华大学可重构计算技术的清微智能成立,正式开启商业化进程。2019 年,清微智能量产全球第一款可重构智能语音芯片 TX210,证明了可重构计算的商业价值。2020 年,清微智能获得中国电子学会技术发明一等奖;2023 年,国家大基金二期投资清微智能。目前,清微智能共有边缘端 TX2、TX5 系列芯片,以及用于服务器领域的 TX8 系列三大芯片产品。其中,TX2 和 TX5 系列芯片已应用于智能安防、金融支付、智能穿戴,智能机器人等多个领域;面向云端市场的 TX8 高算力芯片主要应用场景是 AI 大模型的训练和推理。
  7. 国内另一家基于可重构计算技术的 AI 芯片初创公司珠海芯动力于 2017 年成立,其可重构并行处理器(RPP)架构是改进版的 CGRA。2021 年首颗芯片 RPP-R8 成功流片,2023 年进入金融计算、工业摄像和机器人等边缘 AI 应用市场,并与浪潮信息达成战略合作进入边缘 AI 服务器市场。

国际计算机学术界和高科技产业界已形成共识,基于 CGRA 架构的可重构计算芯片具备广泛的通用计算能力,可以应用于各种边缘 AI 计算场景,是解决通用高算力和低功耗需求的必由之路。

四、RPP 处理器架构详解

RPP 和 CGRA 都是属于粗粒度的可重构阵列,都可以达到类似 ASIC 的面积密度和功率效率,而且都是可以用软件编程的。但是,RPP 在可重构类型和编程模型方面跟 CGRA 还是不同的,具体表现为:

1. RPP 是准静态可重构阵列,而传统 CGRA 一般用于动态可重构阵列。静态可重构整列是指每个指令在处理单元(PE)的执行不随时间变化,数据流也是不变的。对于编译器来讲,静态的可重构阵列不需要对指令在时间上进行安排,这样就可以让 RPP 构造更加简单,指令的分配速度很低。因此,RPP 很容易实现一个大型的阵列,譬如 32x32 的阵列。RPP 比传统 CGRA 更加适用于大规模并行计算。

2. RPP 使用的是多线程 SIMT 编程模型,而 CGRA 通常使用的是单线程语言编程。RPP 可以兼容 CUDA 语言,更加适合并行计算。CUDA 语言要求编程人员从一开始就考虑数据的并行度,把并行算法用 CUDA 语言表现出来;编译器则不需要分析并行计算度,编译器就非常简单;CUDA 语言是 SIMT 类型,只用于数据并行的计算,而且并行度在一个程序里保持不变。CGRA 则通常使用 C 语言 + 独立的编译器,虽然理论上可以覆盖任意的计算类型,但是编译器非常复杂,很难达到较高的编译效率。

下面图表对 RPP 及几个主流的可重构加速架构做了对比。

51c大模型~合集31_大模型_06

RPP 架构的优势可以总结为以下四点:

  1. 具有垫片暂存器(gasket memory)的环形可重构并行处理架构,允许在不同数据流之间高效地重用数据;
  2. 分层式内存设计具有多种数据访问模式、地址映射策略和共享内存模式,可实现高效灵活的内存访问;
  3. 各种硬件优化机制,如并发内核执行、寄存器拆分和重新填充,以及异构标量和向量计算,从而提高了整体硬件利用率和性能;
  4. 一个兼容 CUDA 的端到端完整软件栈,具有编译器、运行时环境、高度优化的 RPP 库,可实现边缘 AI 应用的快速高效部署。

芯动力基于 RPP 架构提出了 RPP 硬件设计框图,并通过 R8 芯片真实的展现出这种并行计算架构的优越性。这种硬件设计实现主要由一个环形可重构处理器(Circular Reconfigurable Processor)、一个内存单元和一个序列器组成,见下图。

  1. 循环可重构处理器是大规模并行计算的核心计算组件。
  2. 内存单元被分成多个内存组,每个内存组都与一个缓存配对,以利用程序的时间和空间局部性实现高效的数据重用。只有当环形可重构处理器内的寄存器和缓冲区已满时,中间数据才会被传输并存储在内存单元中。
  3. 序列器用于解码和分发指令到环形可重构处理器,并使用缓存来存储从 DDR 收到的指令。

51c大模型~合集31_大模型_07

环形可重构处理器包括 NPU 处理单元 (PE) 和一个垫片内存。每个 PE 都配备了一个内存端口,以方便对内存单元进行数据访问。内存端口设计有模式控制器、地址计算单元和多个多路复用器,以支持不同的数据访问模式和共享内存模式。为了实现灵活的处理器内通信,每个 PE 都集成了一个开关盒 (SB) 和一个互连开关盒 (ICSB),以实现高效的数据转发。这些 PE 按线性顺序连接,垫片内存充当第一个和最后一个 PU 之间的桥梁,从而形成环形拓扑。

环形可重构处理器内的数据处理从第一个 PE 开始,并以流水线方式遍历 PE,中间计算结果按顺序输出到后续 PE。垫片内存缓存最后一个 PE 的输出并将它们重新循环到第一个 PE,从而最大限度地提高数据局部性并消除内存单元的内存流量。PE 中的关键计算组件是处理引擎。在每个 PE 中,都有多个算术逻辑单元 (ALU),其中每个 ALU 都与数据寄存器和地址寄存器耦合。这些数据寄存器聚合在一起形成一个数据缓冲区,便于在每个 PE 内快速访问数据。

此外,线性交换网络和垫片存储器的组合实现了灵活的数据流控制和高效的数据重用,同时消除了传统基于网格的 CGRA 设计中复杂的网络路由。结合对内存单元的灵活高效数据访问,RPP 可以优化数据流处理,最小化内存流量,从而最大限度地提高资源利用效率。

RPP 处理器采用 SIMT 编程模型来为灵活多线程管道启用流式数据流处理。

51c大模型~合集31_大模型_08

为了确保与现有 GPGPU 软件生态系统的兼容性,芯动力的 RPP 处理器采用了拥有广泛用户群的 CUDA。CUDA 代码由基于 LLVM 的前端解析,为 RPP 后端生成 PTX 代码。RPP 编译器将 CUDA 内核解释为数据流图并将它们映射到虚拟数据路径(VDP)。然后根据硬件约束将 VDP 分解为多个物理数据路径(PDP),每个 PDP 的配置由序列器在运行时生成。

RPP 的软件堆栈可以支持广泛的大规模并行应用,包括机器学习、视频 / 图像处理和信号处理等。对于机器学习应用,该堆栈与不同的主流框架兼容,例如 PyTorch、ONNX、Caffe 和 TensorFlow。此外,用户可以灵活地使用 CUDA 定义他们的自定义程序。这些高级应用程序由 RPP 框架处理,该框架包含一个编译器和不同领域特定的库。在软件堆栈的底部,采用 RPP 运行时环境和 RPP 驱动程序来确保使用工具链编译的程序可以在底层硬件上无缝执行。

五、RPP 处理器 R8 能效对比

基于以上 RPP 处理器硬件设计和完整软件堆栈实现的 RPP-R8 芯片在计算性能和能效上表现如何呢?

R8 芯片的性能参数如下表所示:

51c大模型~合集31_大模型_09

针对边缘计算场景,芯动力将 RPP-R8 芯片与两款英伟达边缘 GPU 进行了比较:Jetson Nano 和 Jetson Xavier AGX。Jetson Nano 的芯片尺寸与 RPP 相似,可在物理面积限制内提供相关比较;选择 Jetson Xavier AGX 是基于其与 RPP-R8 相当的理论吞吐量。芯动力在 ResNet-50 推理上评估了这三个 AI 加速平台,其中 Jetson Nano 的吞吐量来自基准测试论文,而 Xavier AGX 的性能数据来自英伟达官方网站。

51c大模型~合集31_大模型_10

如上表所示,RPP-R8 的实测运行吞吐量分别是 Jetson Nano 和 Jetson Xavier AGX 的 41.3 倍和 2.3 倍。要知道,Jetson Xavier AGX 的芯片尺寸几乎是 R8 的三倍,工艺也更先进(12 nm vs. 14 nm),但其性能低于 R8。在能效方面,R8 的能效分别是 Jetson Nano 和 Jetson Xavier AGX 的 27.5 倍和 4.6 倍。这些结果表明,在面积和功率预算有限的边缘 AI 场景中,RPP-R8 的表现明显优于 Jetson Nano 和 Jetson Xavier AGX。

51c大模型~合集31_大模型_11

深度学习推理是一种广受认可的大规模并行工作负载,也是 RPP-R8 硬件的关键应用。鉴于 Yolo 系列模型与 ResNet-50 等分类模型相比表现出更高的计算复杂度,芯动力选择英伟达 Jeston Nano Orin 作为 GPU 平台,其峰值吞吐量比 Jetson AGX Xavier 更高,为 40 TOPS。由于 CPU 通常不是为高性能深度学习推理而构建的,因此选择 Jetson Xavier Nx 作为比较低端的 GPU 平台,具有 21 TOPS 的峰值吞吐量。评估批处理大小为 1、2 和 4 的工作负载,反映了真实的边缘场景。上图显示了三个平台的吞吐量性能比较,RPP-R8 在 Yolo-v5m 和 Yolo-v7 tiny 上展示了更高的吞吐量。在批量大小为 1 的情况下,RPP-R8 的吞吐量大约比 Jeston Nano Orin 高 1.5× ∼2.5 倍,比 Jeston Xavier Nx 高 2.6× ∼4.3 倍。

评估与测试结果表明,RPP 在延迟、吞吐量和能效方面优于传统的 GPU、CPU 和 DSP 等架构。RPP 处理器的性能提升归功于其独特的硬件特性,主要包括:1) 循环数据流处理:中间结果流经 PE 之间的流水线寄存器和 FIFO,显著减少了数据移动和到远程内存存储的内存流量;与 GPU 和 CPU 中的数据处理相比,这种模式效率更高。2) 分层内存系统:RPP 通过其分层内存系统最大化数据局部性。RPP-R8 芯片面积的很大一部分(约 39.9%)专用于片上存储器。这种设计选择提供了广泛的内存容量,增强了数据重用并减少了频繁访问外部存储器的需求。3) 矢量化和多线程管道:RPP 的硬件架构和编程模型可实现有效的矢量化和多线程管道。这种设计充分利用了 RPP 进行并行处理的全部计算潜力,确保其资源得到最大程度的利用,从而提高性能。

除了在能耗、延迟和吞吐量方面的优势外,RPP 还因其小面积而脱颖而出。只有 119 平方毫米的芯片面积消耗使得 RPP-R8 成为面积受限的边缘计算的理想平台。RPP 的另一个特点是其高可编程性,由全面的端到端软件堆栈支持,可显著提高部署效率。与 CUDA 的兼容性使用户能够利用熟悉的 CUDA 生态系统,从而缩短学习曲线并促进更容易的采用。支持即时编程和图形编程模式,为用户提供了高度的灵活性,满足各种计算需求。包括 OpenRT 和 RPP-BLAS 在内的不同库支持也促进了各种场景中的高性能和高效部署。全栈解决方案,包括硬件架构和软件支持,使 RPP 在各种边缘计算硬件中脱颖而出。

六、RPP 架构得到国际学术权威认可

由芯动力携手英国帝国理工、剑桥大学、清华大学和中山大学等顶尖学府的计算机架构团队共同撰写的论文《Circular Reconfigurable Parallel Processor for Edge Computing》(RPP 芯片架构)已成功被第 51 届计算机体系结构国际研讨会(ISCA 2024)的 Industry Track 收录。芯动力创始人兼 CEO 李原博士与帝国理工博士毕业生 Hongxiang Fan(现在英国剑桥的三星 AI 中心做研究科学家)受邀在阿根廷布宜诺斯艾利斯举行的 ISCA 2024 会议上发表演讲,与 Intel 和 AMD 等国际知名企业的专家同台交流。

本届 ISCA 共收到来自全球 423 篇高质量论文投稿,经过严谨的评审流程,仅有 83 篇论文脱颖而出,总体接收率低至 19.6%。其中,Industry Track 的录取难度尤为突出,接收率仅为 15.3%。

作为计算机体系结构领域的顶级学术盛会,ISCA 由 ACM SIGARCH 与 IEEE TCCA 联合举办。自 1973 年创办以来,一直是推动计算机系统结构领域进步的先锋力量,其广泛的影响力和卓越的贡献使其成为谷歌、英特尔、英伟达等行业巨头竞相展示前沿研究成果的高端平台。ISCA 与 MICRO、HPCA、ASPLOS 并称为四大顶级会议,而 ISCA 更是其中的佼佼者,论文录取率常年保持在 18% 左右。多年来,众多在 ISCA 上发表的研究成果已成为推动半导体和计算机行业发展的关键动力。

本次入选的可重构并行处理器(RPP)论文为边缘计算领域注入了强劲动力。实验结果充分证实,作为一款并行计算的硬件平台,RPP 的性能全面超越当前市场上的 GPU,特别是在对延迟、功耗和体积有着极高要求的应用场景中表现尤为出色。

六、结语

ChatGPT 引爆了 AI 大模型,从而带动了 GPU 和 AI 加速器的巨大需求。AI 应用的发展趋势将从云端 AI 训练和推理逐渐往边缘和端侧 AI 渗透,为各种 AI 应用提供软硬件支持的 AI 服务器也同样遵循从数据中心到边缘计算的分布式扩展趋势。传统 GPGPU 在边缘 AI 应用场景中开始暴露出明显的架构缺陷,其高成本、高功耗和高延迟问题迫使业界专家寻求更为高能效的并行计算架构。

在对比 CPU、GPU、ASIC、FPGA 和 NPU 等不同计算架构后,我们发现可重构计算架构 CGRA 是比较适合边缘 AI 应用的,尤其是芯动力提出的可重构并行处理器(RPP)。通过与英伟达同类 GPU 对比分析,基于 RPP 架构的 R8 芯片在延迟、功耗、面积成本、通用性和快速部署方面都表现出色,我们认为这是目前最理想的边缘 AI 并行计算架构。

在今年 7 月份阿根廷举行的 ISCA2024 学术会议上,关于 RPP 处理器架构的论文得到国际学术权威认可。随着边缘 AI 的发展,AI 服务器和 AI PC 将迎来快速增长的黄金时期,而支持这类边缘 AI 设备的 AI 加速器也将同步增长。由珠海芯动力科技提出的 RPP 处理器芯片也将得到业界认可,成为边缘 AI 应用场景中最为理想的 AI 加速处理器。



#不用部署,实现大模型切换自由

Token、算力免费薅!咱AI开发者今年整个秋天的奶茶都省出来了!

作为全公司产品做的最好的工程师,同时也是代码写得最好的产品经理,你深刻地知道:搞个靠谱的 AI 应用需要灵感,而好的灵感则需要一个靠谱的 demo 来验证。

然而……

当你已喝上了秋天的第一杯奶茶时,你的 demo 调用的却还是隔壁工位的小胡今年春天部署的第一个大模型…我们都知道:不是小胡懒得更新,而是帮你的 demo 换个模型 API 真的有点麻烦……

首先,随着模型文件体积的不断增大,仅下载这些文件就需要花费个几天时间;而当文件下载完成后,又常常面临存储空间不足的问题,每增加一个新的模型版本,账单基数就又跳个台阶在下个月等着你……

其次,尝试部署一个全新的模型就像是开启一个未知的盲盒,你永远无法预测在跟随教程部署过程中会遇到什么样的 bug……

最后,即便 API 终于运行起来,你却发现它在实际应用到你的 demo 中时并不契合……

这些挑战不仅耗费时间,更是对资源和创新精神的一大考验。

模型社区上海清湛智帆 AIFanSuper 算力平台联手来为你解决这些AIGC应用 demo 开发过程中头疼的问题了~

  选择模型

通过访问  进入「小土同学」的首页,即可检索各种模型,并点击进入所选模型的实测频道。

为了使老伙计们能够尽快使用最新推出的尖端中文大模型,本周将逐步在「小土同学」上线的首批 10 个常用模型,后续我们还将持续从社区服务号的「今日开源」推送中选择一些模型部署上线,并免费为老伙计们开放实测频道和公共 API。这些模型不仅支持函数调用、扩展上下文等具体场景,还包括如 Llama 3.1 70B 等大参数量模型~

  进入频道

进入实测频道页面后,老伙计们可以通过页面底部的对话框对已处于启动状态的模型进行推理实测。如果频道中暂时没有处于启动状态的公共线路,您可以选择心仪的线路并一键启动。

 如何实现模型 API 切换自由?

如所选模型实测频道的免费公共线路已处于启动状态,用户可在「小土同学」的实测频道界面查看该模型的推理 API 。点击「调用」按钮后,用户即可获取该模型的OpenAI风格对话 API 调用密钥。

 如何实现 DEMO 开发Token、算力自由?

为了确保公共线路的稳定使用,我们对免费调用模型 API的频率进行了限制。用户可以通过开启专属线路来获得无 Token 和调用频次限制的专属 API 。

上海清湛智帆算力平台为所有通过实名注册的 AIFanSuper 用户一次性发放 500 元免费算力券。老伙计们可以按照以下步骤领取和使用算力券,启动由清湛智帆算力平台提供的专属线路服务:

上海清湛智帆从成立之初就旨在为AI开发者/研究人员提供高效、稳定、安全的智算算力平台 AIFanSuper,助力科学智能、具身智能及垂类模型等领域的模型训练与推理。

同时,上海清湛智帆算力平台——AIFanSuper 也将陆续上线 400+ 常用模型和 200+ 数据集为基础打包好的 40+ 预置镜像,可在 AIFanSuper 平台中实现一键部署,减少开发者对模型的配置时间。

为庆祝此次合作,AIFanSuper 官方还将为各位老伙计提供限时大额算力补贴!其中Tesla V系列的租用价格将低至5折;NVIDIA A100/A800限时7折 !

老伙计们通过上述步骤获得的 500 元的算力券在有效期内除了开启清湛已有的模型API线路之外,也可用于直接购买AIFanSuper上的算力和存储空间部署自己心仪的模型!

最后,再为各位老伙计重点介绍下咱们的战略合作伙伴上海清湛智帆

上海清湛智帆背靠清华大学人工智能研究院雄厚的技术实力,为 AI 开发者/研究人员提供高效、稳定、安全的智算算力平台 AIFanSuper,助力科学智能、具身智能及垂类模型等领域的模型训练与推理。

AIFanSuper 将成为用户友好、覆盖全球开源模型与公共数据集三位一体的 AI 算力平台,推动前沿科技的发展与创新。



#clapper

开源AI视频工具,你只需要当导演,HuggingFace工程师打造

用 Clapper 做视频,你只需要当导演就行了。

Sora 一出,视频领域似乎已经进入了生成式 AI 时代。不过直到今天,我们仍然没有用上 OpenAI 的官方视频生成工具,等不及的人们已经开始寻找其他的方法。

最近几周,一款开源的视频编辑工具 Clapper 引发了人们的关注。

51c大模型~合集31_大模型_12

与很多科技公司提供的视频生成器不同,Clapper 是一款开源 AI 故事可视化工具,于一年前推出原型。它的设计目的并非取代传统视频编辑器,或使用 3D 场景作为输入的现代 AI 编辑器。

Clapper 的理念是集合各类生成式 AI 技术,让任何人都能通过交互式、迭代和直观的过程使用 AI 创建视频。无需外部工具、电影制作或 AI 工程技能。在 Clapper 中,你无需直接编辑视频和音频文件序列,而是通过调整高级、抽象的概念,如角色、位置、天气、时间段、风格等,基于 AI Agent 来迭代你的故事。

Clapper 的作者 Julian Bilcke 是 HuggingFace 的一名 AI 前端工程师。他表示,为了向这个方向继续努力,他还在开发导演模式:目标是让使用者可以全屏播放视频,舒适地坐在导演椅(或沙发)上,向 Agent 大喊命令,让 AI 制作电影。

51c大模型~合集31_大模型_13

最近几天,Julian Bilcke 已经上线了使用大模型将任意文本转换为时间线等新功能。而 Clapper 的热度也水涨船高,在 GitHub 上已经拥有超过 1100 的 Star 量。

  • GitHub 链接:https://github.com/jbilcke-hf/clapper
  • HuggingFace 链接:https://huggingface.co/spaces/jbilcke-hf/clapper/tree/main
  • 试用网址:https://clapper.app/

如何使用

既然是开源工具,我们主要看的当然是具体好不好用。

还记得 AI 大牛 Karpathy 创作 AI 短视频的体验吗?为了将《傲慢与偏见》开头的三句话变成动画版,足足花了这位顶尖高手一个小时。虽然只有三句话,三个场景,但这个工作流远比三句话要复杂。他先用 Claude 根据原文生成了一系列图像提示词,再将这些提示词输入文生图模型生成对应的图像,再交给视频模型制作动画,配音的任务分配给了 Elevenlabs,最后在 Veed Studio 里把所有片段整合起来。

于是,Karpathy 做完后发推吐槽,称:「创业者们,机会来了!市面上急需一个能够整合、简化这些流程的 AI 工具。」

Clapper 正是一个集成了所有这些功能的一站式平台。

通常想做一条短视频,需要经历以下几个步骤。首先需要一个故事和脚本,然后根据脚本画出分镜,再根据分镜拍摄或寻找素材,将它们在剪辑软件拼合起来,添加动画效果和特效,再有选择性地配上口播、背景音乐或音效。因此,影视制作行业中编导、导演、摄像、剪辑、后期、配音等分工应运而生。

而在 Clapper,视频制作遵循另一条逻辑。它的每条轨道不像 Premier、剪映等剪辑软件一样对应着视频或图片素材,而是对应着一个具体的工种。

51c大模型~合集31_大模型_14

剪映的素材轨道

51c大模型~合集31_大模型_15

Clapper 的轨道

在用 AI 做视频这件事上,我们就是 AI 的甲方。Clapper 就像一个由业内最强的 AI 组成的剧组。Clapper 内置像 GPT-4o,Claude 3.5(Sonnet)等一系列「顶流」大模型。它就像乙方的执行导演一样,负责将你的需求对接给对应的「AI 编导」。

51c大模型~合集31_大模型_16

从上面的图中可以看出,第一条轨道代表着故事版,和 Clapper 内置的大模型对话,它将通过 API 调取文生图模型,让 AI 分镜老师来生成对应的图片,作为视频画面的基础。



51c大模型~合集31_大模型_17

通过 Clapper 可以访问以上文生图模型

以 Clapper 给出的样片为例,接下来的轨道依次对应场景、旁白、摄像机的视角、背景音乐以及音效。你可以要求 ElevenLabs 或 Fal.ai 为这个西部废土世界的故事生成一些废墟的风声或者枪战的爆炸声。

而 Clapper 还有一项功能,可能真的向「会说话就能拍电影」的愿望迈进了一大步。我们可以直接向 Clapper 导入剧本,并且在「故事」一栏细致地为你的主人公创造人设。

51c大模型~合集31_大模型_18

以《绿野仙踪》为例,我们不仅可以为人物添加更加个性化的人物描述,还可以上传图片,为女主人公多萝西设置视觉形象。这意味着我们可以请世界上的任何演员来扮演这个角色,哪怕你想看 18 岁的小李子演多萝西,都可以实现。Clapper 的功能细致到你可以调整人物的年龄和音色,每个场景的陈设,多萝西的房间有什么家具,他们冒险的目的地「翡翠城」的房子长什么样子,都可以在 Clapper 中随心调整。

51c大模型~合集31_大模型_19

当然,你也可以先用 AI 画一些气氛图出来,说不定能更进一步地激发你的灵感和创意。

不过,虽然 Clapper 的功能已经充分地考虑了做视频的需求,但是它的效果却有些差强人意。不仅画面中人物的动作有些「鬼畜」,不符合物理运动规律。视频的整体效果更像是会动的 PPT,缺乏镜头之间的转场和连续感,并且配乐也 AI 味十足,听起来没有旋律,还有些杂音。6

可能生成式 AI 想要改变视频制作的流程,还需要很长时间,但 Clapper 的出现或许能给还在给传统视频剪辑软件拓展 AI 功能的大厂们,提供了一条新的落地思路。

参考内容:

https://news.ycombinator.com/item?id=41221399

https://x.com/aigclink/status/1818111874531205216



#Bailing-TTS

首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

自 2024 年 GPT-4o 出现以来,业内各公司纷纷投入巨大的资源进行 TTS 大模型的研发。近几个月内,中文语音合成大模型如雨后春笋般涌现,如 chattts、seedtts、cosyvoice 等。

虽然当前语音合成大模型在中文普通话上的效果已与真人几乎无异,但面对中国纷繁复杂的方言,TTS 大模型却鲜有涉猎,训练一个统一的中文各方言语音合成大模型是一项极具挑战的任务。

行业痛点与技术瓶颈

当前,语音合成大模型技术在普通话领域已经取得了显著进展,但在方言领域的发展却十分缓慢。中国拥有数十种主要方言,每一种方言都有独特的语音特征和语法结构,这使得训练一个覆盖各种方言的 TTS 大模型变得异常复杂。

现有的 TTS 大模型大多专注于普通话,无法满足多样化的语音合成需求。此外,方言语料库的稀缺以及高质量标注数据的匮乏,也进一步增加了技术难度。

巨人网络 AI Lab 的技术创新与突破

为了解决上述难题,巨人网络 AI Lab 团队中的算法专家和语言学家共同努力,基于中国方言体系,构建了涵盖 20 种方言、超过 20 万小时的普通话和方言数据集。通过这一庞大的数据集,我们训练出了第一个支持多种普通话方言混说的 TTS 大模型 ——Bailing-TTS。Bailing-TTS 不仅能够生成高质量的普通话语音,还能够生成包括河南话、上海话、粤语等在内的多种方言语音。

  • ArXiv: https://arxiv.org/pdf/2408.00284
  • Homepage: https://giantailab.github.io/bailingtts_tech_report/index.html
  • 论文标题:Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation

以下是Bailing-TTS 河南话的合成效果:

文本1:

汴水东流无限春,隋家宫阙已成尘。行人莫上长堤望,风起杨花愁杀人。

生成语音1:

文本2:

我嘞爱好也可多了,好听豫剧,那腔调儿,听着得劲儿嘞很。没事嘞时候我也好出去溜达溜达,逛逛俺河南嘞大好风光。我还好捣鼓点儿吃嘞,像那烩面呀、胡辣汤呀,你别说,我自己做嘞也可像回事儿。

生成语音2:

再给大家听一下普通话零样本克隆的效果:

Prompt 1:青年-男

生成1:这个问题,嗯嘶,从另一个角度看,是不是对我们来说也是一件好事?

Prompt 2:少年-男

生成2:喽,明天又是周末啦,一起去看个电影吧

Prompt 3:老年-女

生成3:说起我们以前的事,啊,那真是三天三夜都说不完。

Prompt 4:幼童-女

生成4:哦,你说的是这个啊,这是我去海边的时候捡到的。

我们采取了多项创新技术来实现这一目标:

1. 统一的方言 Token 规范:我们将各方言的 token 规范统一,并使普通话与各方言的 token 有部分重叠,以利用普通话提供基础发音能力。这使得我们能够在有限的数据条件下,实现高质量的方言语音合成。

2. 精细化 Token 对齐技术:我们提出了基于大规模多模态预训练的精细化 token-wise 对齐技术。

3. 层次混合专家结构:我们设计了一种层次混合专家体系结构,用于学习多个汉语方言的统一表示和每种方言的特定表示。

4. 层次强化学习增强策略:我们提出了层次化的强化学习策略,通过基础训练策略和高级训练策略相结合的方法,进一步增强 TTS 模型的方言表达能力。

实现细节


51c大模型~合集31_大模型_20

图 1 Bailing-TTS 整体架构

1. 基于大规模多模态预训练的精细化 Token 对齐

为了实现文本和语音 token 的精细化对齐,我们提出了一个多阶段、多模态的预训练学习框架。

第一阶段,我们使用无监督的采样策略,在大规模数据集上进行粗略训练。第二阶段,我们采用精细化采样策略,在高质量的方言数据集上进行细粒度训练。这一方法能够有效地捕捉文本和语音之间的细粒度关联关系,促进两种模态的对齐。

2. 基于层次混合专家 Transformer 网络结构

为了训练适用于多种汉语方言的统一 TTS 模型,我们设计了一种层次混合专家网络结构和多阶段多方言 token 学习策略。

首先,我们提出了一种专门设计的混合专家体系结构,用于学习多个汉语方言的统一表示和每种方言的特定表示。然后,我们通过基于交叉注意力的融合机制,将方言 token 注入 TTS 模型的不同层次,以提升模型的多方言表达能力。

3. 层次强化学习增强策略

我们提出了一种层次化的强化学习策略,通过采用基础策略训练和高级训练策略相结合的方法,进一步增强 TTS 模型的方言表达能力。基础训练策略支持探索优质的方言语音表达,高级训练策略在此基础上强化不同方言的语音特色,从而实现多种方言的高质量语音合成。

51c大模型~合集31_大模型_21

图 2 Dialect MoE 结构

实验结果

Bailing-TTS 在普通话、多种方言的鲁棒性、生成质量、自然度上已达到与真人较为接近的水平。

51c大模型~合集31_大模型_22

表 1 Bailing-TTS 在中文普通话、方言上的测试结果

在实际的应用场景测评中,Baling-TTS 均取得了不错的效果。

51c大模型~合集31_大模型_23

表 2 Bailing-TTS 在中文普通话、方言上的说话人微调和零样本克隆的测试结果

技术的落地应用与未来前景

目前,这项多方言 TTS 大模型已经在多个实际场景中得到应用。例如,在游戏中为 NPC 配音,视频创作中进行方言配音等。通过这一技术,游戏和视频内容能够更加贴近地域文化,提升用户的沉浸感和体验感。

未来,随着端到端语音交互大模型的进一步发展,这项技术将在方言文化保护、游戏 AI NPC 方言交互等领域展现更大的潜力。在方言保护场景中,通过支持多种方言的语音交互,可以让下一代便捷地学习、传承、守护汉语方言,让汉语方言文化源远流长。在游戏场景中,会说方言的可语音交互的智能 NPC,将进一步提升游戏内容的表现力。

巨人网络 AI Lab 将继续致力于推动这一技术的创新和应用,为用户带来更智能、更便捷的语音交互体验。开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用