#exo

电脑平板组AI集群,在家就能跑400B大模型

不用H100,三台苹果电脑就能带动400B大模型。

背后的功臣,是GitHub上的一个开源分布式AI推理框架,已经斩获了2.5k星标。

利用这个框架,几分钟就能用iPhone、iPad等日常设备构建出自己的AI算力集群。

这个框架名叫exo,不同于其他的分布式推理框架,它采用了p2p的连接方式,将设备接入网络即可自动加入集群。

开发者使用exo框架连接了两台MacBook Pro和一台Mac Studio,运算速度达到了110TFLOPS。

同时这位开发者表示,已经准备好迎接即将到来的Llama3-405B了。

exo官方也放话称,将在第一时间(day 0)提供对Llama3-405B的支持。

而且不只是电脑,exo可以让iPhone、iPad等设备也加入本地算力网络,甚至Apple Watch也同样能够吸纳。

随着版本的迭代,exo框架也不再是苹果限定(起初只支持MLX),有人把安卓手机和4090显卡也拉进了集群。

最快60秒完成配置

与其他分布式推理框架不同,exo不使用master-worker架构,而是点对点(p2p)地将设备进行连接。

只要设备连接到相同的局域网,就可以自动加入exo的算力网络,从而运行模型。

在对模型进行跨设备分割时,exo支持不同的分区策略,默认是环内存加权分区。

这会在环中运行推理,每个设备分别运行多个模型层,具体数量与设备内存成比例。

而且整个过程几乎无需任何手动配置,安装并启动之后系统就会自动连接局域网内运行的设备,未来还会支持蓝牙连接。

在作者的一段视频当中,只用了60秒左右就在两台新的MacBook上完成了配置。

可以看到,在60秒左右时,程序已然开始在后台运行。

另外从上面这张图中还能看出,exo还支持tiny chat图形化界面,同时还有兼容OpenAI的API

不过,这样的操作只能在集群中的尾节点(tail node)上实现。

目前,exo支持苹果MLX框架和开源机器学习框架tinygrad,对llama.cpp的适配工作也正在进行。

美中不足的是,由于iOS实现更新跟不上Python,导致程序出现很多问题,作者把exo的手机和iPad端进行了暂时下线,如果确实想尝试,可以给作者发邮件索取。

网友:真有那么好用?

这种利用本地设备运行大模型的方式,在HakerNews上也引发了广泛的讨论。

本地化运行的优点,一方面是隐私更有保障,另一方面是模型可以离线访问,同时还支持个性化定制。

也有人指出,利用现有设备搭建集群进行大模型运算,长期的使用成本要低于云端服务。

但针对exo这个具体的项目,也有不少人表达了心中的疑问。

首先有网友指出,现有的旧设备算力水平无法与专业的服务商之间差了数量级,如果是出于好奇玩一玩还可以,但想达到尖端性能,成本与大型平台根本无法比较。

而且还有人表示,作者演示用的设备都是高端硬件,一个32GB内存的Mac设备可能要价超过2000美元,这个价格还不如买两块3090。

他甚至认为,既然涉及到了苹果,那可以说是和“便宜”基本上不怎么沾边了。

这就引出了另一个问题——exo框架都兼容哪些设备?难道只支持苹果吗?

网友的提问则更加直接,开门见山地问支不支持树莓派。

作者回复说,理论上可以,不过还没测试,下一步会进行尝试。

除了设备自身的算力,有人还补充说,网络传输的速度瓶颈,也会限制集群的性能。

对此,框架作者亲自下场进行了解释:

exo当中需要传输的是小型激活向量,而非整个模型权重。

对于Llama-3-8B模型,激活向量约为10KB;Llama-3-70B约为32KB。

本地网络延迟通常很低(<5ms),不会显著影响性能。

作者表示,目前该框架已经支持tinygrad,因此虽然测试主要在Mac设备上展开,(理论上)支持能运行tinygrad的所有设备。

目前该框架仍处于实验阶段,未来的目标是把这个框架变得像Dropbox(一款网盘)一样简单。

BTW,exo官方也列出了一些目前计划解决的缺点,并进行了公开悬赏,解决这些问题的人将获得100-500美元不等的奖金。

GitHub:https://github.com/exo-explore/exo

参考链接:https://x.com/ac_crypto/status/1814912615946330473



#Llama 3.1泄密

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

快准备好你的 GPU!

Llama 3.1 终于现身了,不过出处却不是 Meta 官方。

今日,Reddit 上新版 Llama 大模型泄露的消息遭到了疯传,除了基础模型,还包括 8B、70B 和最大参数的 405B 的基准测试结果

下图为 Llama 3.1 各版本与 OpenAI GPT-4o、Llama 3 8B/70B 的比较结果。可以看到,即使是 70B 的版本,也在多项基准上超过了 GPT-4o

图源:https://x.com/mattshumer_/status/1815444612414087294

显然,3.1 版本的 8B 和 70B 模型是由 405B 蒸馏得来的,因此相比上一代有着明显的性能提升。

有网友表示,这是首次开源模型超越了 GPT4o 和 Claude Sonnet 3.5 等闭源模型,在多个 benchmark 上达到 SOTA

与此同时,Llama 3.1 的模型卡流出,细节也泄露了(从模型卡中标注的日期看出基于 7 月 23 日发布)。

有人总结了以下几个亮点:

  • 模型使用了公开来源的 15T+ tokens 进行训练,预训练数据截止日期为 2023 年 12 月;
  • 微调数据包括公开可用的指令微调数据集(与 Llama 3 不同)和 1500 万个合成样本;
  • 模型支持多语言,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。

图源:https://x.com/iScienceLuvr/status/1815519917715730702

虽然泄露的 Github 链接目前 404 了,但有网友给出了下载链接(不过为了安全,建议还是等今晚的官方渠道公布):

不过这毕竟是个千亿级大模型,下载之前请准备好足够的硬盘空间:

以下是 Llama 3.1 模型卡中的重要内容:

模型基本信息

Meta Llama 3.1 多语言大型语言模型 (LLM) 集合是一组经过预训练和指令微调的生成模型,大小分别为 8B、70B 和 405B(文本输入 / 文本输出)。Llama 3.1 指令微调的纯文本模型(8B、70B、405B)针对多语言对话用例进行了优化,在常见的行业基准上优于许多可用的开源和闭源聊天模型。

模型架构:Llama 3.1 是优化了的 Transformer 架构自回归语言模型。微调后的版本使用 SFT 和 RLHF 来对齐可用性与安全偏好。

支持语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

从模型卡信息可以推断,Llama 3.1 系列模型的上下文长度为 128k。所有模型版本都使用分组查询注意力(GQA)来提高推理可扩展性。

预期用途

预期用例。Llama 3.1 旨在用于多语言的商业应用及研究。指令调整的纯文本模型适用于类助理聊天,而预训练模型可以适应各种自然语言生成任务。

Llama 3.1 模型集还支持利用其模型输出来改进其他模型(包括合成数据生成和蒸馏)的能力。Llama 3.1 社区许可协议允许这些用例。 

Llama 3.1 在比 8 种受支持语言更广泛的语言集合上进行训练。开发人员可以针对 8 种受支持语言以外的语言对 Llama 3.1 模型进行微调,前提是遵守 Llama 3.1 社区许可协议和可接受使用策略, 并且在这种情况下负责确保以安全和负责任的方式使用其他语言的 Llama 3.1。

软硬件基础设施

首先是训练要素,Llama 3.1 使用自定义训练库、Meta 定制的 GPU 集群和生产基础设施进行预训练,还在生产基础设施上进行了微调、注释和评估。

其次是训练能耗,Llama 3.1 训练在 H100-80GB(TDP 为 700W)类型硬件上累计使用了 39.3 M GPU 小时的计算。这里训练时间是训练每个模型所需的总 GPU 时间,功耗是每个 GPU 设备的峰值功率容量,根据用电效率进行了调整。 

训练温室气体排放。Llama 3.1 训练期间基于地域基准的温室气体总排放量预估为 11,390 吨二氧化碳当量。自 2020 年以来,Meta 在全球运营中一直保持净零温室气体排放,并将其 100% 的电力使用与可再生能源相匹配,因此训练期间基于市场基准的温室气体总排放量为 0 吨二氧化碳当量。

用于确定训练能源使用和温室气体排放的方法可以在以下论文中找到。由于 Meta 公开发布了这些模型,因此其他人不需要承担训练能源使用和温室气体排放。

论文地址:https://arxiv.org/pdf/2204.05149

训练数据

概述:Llama 3.1 使用来自公开来源的约 15 万亿个 token 数据进行了预训练。微调数据包括公开可用的指令数据集,以及超过 2500 万个综合生成的示例。 

数据新鲜度:预训练数据的截止日期为 2023 年 12 月。

Benchmark 评分

在这一部分,Meta 报告了 Llama 3.1 模型在标注 benchmark 上的评分结果。所有的评估,Meta 都是使用内部的评估库。

安全风险考量

Llama 研究团队致力于为研究界提供宝贵的资源来研究安全微调的稳健性,并为开发人员提供适用于各种应用的安全且强大的现成模型,以减少部署安全人工智能系统的开发人员的工作量。

研究团队采用多方面数据收集方法,将供应商的人工生成数据与合成数据相结合,以减轻潜在的安全风险。研究团队开发了许多基于大型语言模型 (LLM) 的分类器,以深思熟虑地选择高质量的 prompt 和响应,从而增强数据质量控制。

值得一提的是,Llama 3.1 非常重视模型拒绝良性 prompt 以及拒绝语气。研究团队在安全数据策略中引入了边界 prompt 和对抗性 prompt,并修改了安全数据响应以遵循语气指南。 

Llama 3.1 模型并非设计为单独部署,而是应作为整个人工智能系统的一部分进行部署,并根据需要提供额外的「安全护栏」。开发人员在构建智能体系统时应部署系统安全措施。

请注意,该版本引入了新功能,包括更长的上下文窗口、多语言输入和输出,以及开发人员与第三方工具的可能集成。使用这些新功能进行构建时,除了需要考虑一般适用于所有生成式人工智能用例的最佳实践外,还需要特别注意以下问题: 

工具使用:与标准软件开发一样,开发人员负责将 LLM 与他们所选择的工具和服务集成。他们应为自己的使用案例制定明确的政策,并评估所使用的第三方服务的完整性,以了解使用此功能时的安全和安保限制。

多语言:Lama 3.1 除英语外还支持 7 种语言:法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。Llama 可能可以输出其他语言的文本,但这些文本可能不符合安全性和帮助性性能阈值。

Llama 3.1 的核心价值观是开放、包容和乐于助人。它旨在服务于每个人,并适用于各种使用情况。因此,Llama 3.1 的设计宗旨是让不同背景、经历和观点的人都能使用。Llama 3.1 以用户及其需求为本,没有插入不必要的评判或规范,同时也反映了这样一种认识,即即使在某些情况下看似有问题的内容,在其他情况下也能达到有价值的目的。Llama 3.1 尊重所有用户的尊严和自主权,尤其是尊重为创新和进步提供动力的自由思想和表达价值观。

但 Llama 3.1 是一项新技术,与任何新技术一样,其使用也存在风险。迄今为止进行的测试尚未涵盖也不可能涵盖所有情况。因此,与所有 LLM 一样,Llama 3.1 的潜在输出无法事先预测,在某些情况下,该模型可能会对用户提示做出不准确、有偏差或其他令人反感的反应。因此,在部署 Llama 3.1 模型的任何应用之前,开发人员应针对模型的具体应用进行安全测试和微调。

模型卡来源:https://pastebin.com/9jGkYbXY

参考信息:https://x.com/op7418/status/1815340034717069728

https://x.com/iScienceLuvr/status/1815519917715730702

https://x.com/mattshumer_/status/1815444612414087294



#神经网络也有空间意识

学会在Minecraft创建地图,登上Nature子刊

这是人类首次证明神经网络可以创建自己的地图。

想象一下,你身处一个陌生的小镇,即使一开始周围的环境并不熟悉,你也可以四处探索,并最终在大脑中绘制出一张环境地图,里面包含建筑物、街道、标志等相互之间的位置关系。这种在大脑中构建空间地图的能力是人类更高级认知类型的基础:例如,有理论认为,语言是由大脑中类似地图的结构编码的。

然而, 即使是最先进的人工智能和神经网络,也无法凭空构建这样的地图。 

计算生物学助理教授、Heritage Medical 研究所研究员 Matt Thomson 说:「有一种感觉是,即使是最先进的人工智能模型,也不是真正的智能。它们不能像我们一样解决问题;不能证明未经证实的数学结果,也不能产生新的想法。」

「我们认为,这是因为它们无法在概念空间中导航;解决复杂问题就像在概念空间中移动,就像导航一样。人工智能做的更像是死记硬背 —— 你给它一个输入,它给你一个回应。但它无法综合不同的想法。」

 最近,Thomson 实验室的一篇新论文发现,神经网络可以使用一种叫做「预测编码」的算法来构建空间地图 。该论文于 7 月 18 日发表在《自然 - 机器智能》(Nature Machine Intelligence)杂志上。

  • 论文地址:https://www.nature.com/articles/s42256-024-00863-1
  • 代码地址:https://github.com/jgornet/predictive-coding-recovers-maps

在研究生 James Gornet 的带领下,两人在游戏《我的世界》(Minecraft)中构建了环境,将树木、河流和洞穴等复杂元素融入其中。他们录制了玩家随机穿越该区域的视频,并利用视频训练了一个配备预测编码算法的神经网络。

他们发现,神经网络能够学习 Minecraft 世界中的物体彼此之间是如何组织的,并且能够「预测」在空间中移动时会遇到的环境。

51c大模型~合集9_Mac

预测编码算法与 Minecraft 游戏的结合成功地「教会」了神经网络如何创建空间地图,并随后使用这些空间地图来预测视频的后续帧,结果预测图像与最终图像之间的均方误差仅为 0.094%。

更重要的是,研究小组「打开」了神经网络(相当于检查内部结构),发现各种物体的表征是相对于彼此进行空间存储的。换句话说,他们看到了存储在神经网络中的 Minecraft 环境地图。

神经网络可以导航人类设计者提供给它们的地图,例如使用 GPS 的自动驾驶汽车,但这是人类首次证明神经网络可以创建自己的地图。这种在空间上存储和组织信息的能力最终将帮助神经网络变得更加「聪明」,使它们能够像人类一样解决真正复杂的问题。

这个项目展示了人工智能真正的空间感知能力,而这在 OpenAI 的 Sora 等技术中仍然看不到,后者存在一些奇怪的故障。 

James Gornet 是加州理工学院计算与神经系统(CNS)系的学生,该系涵盖神经科学、机器学习、数学、统计学和生物学。

「CNS 项目确实为 James 提供了一个地方,让他从事其他地方不可能完成的独特工作,」Thomson 说。「我们正在采用一种生物启发的机器学习方法,让我们能够在人工神经网络中反向设计大脑的特性,我们希望反过来了解大脑。在加州理工学院,我们有一个非常容易接受这类工作的社区。」

执行预测编码的神经网络

受预测编码推理问题中隐式空间表示的启发,研究者开发了一个预测编码智能体的计算实现,并研究了该智能体在探索虚拟环境时学习到的空间表示。

他们首先使用 Minecraft 中的 Malmo 环境创建了一个环境。物理环境的尺寸为 40 × 65 格单位,囊括了视觉场景的三个方面:一个山洞提供了一个全局视觉地标,一片森林使得视觉场景之间具有相似性,而一条带有桥梁的河流则限制了智能体如何穿越环境(图 1a)。

51c大模型~合集9_Mac_02

智能体遵循路径,路径由 A* 搜索确定,以找到随机取样位置之间的最短路径,并接收每条路径上的视觉图像。

为了进行预测编码,作者构建了一个编码器 - 解码器卷积神经网络,编码器采用 ResNet-18 架构,解码器采用转置卷积的 ResNet-18 架构(图 1b)。编码器 - 解码器架构使用 U-Net 架构将编码的潜在单元传递到解码器中。多头注意力处理编码潜在单元序列,以编码过去的视觉观察历史。多头注意力有 h = 8 个头。对于维度为 D = C × H × W 的编码潜在单元,在高度 H、宽度 W 和通道 C 的情况下,单个头部的维度为 d = C × H × W/h。


51c大模型~合集9_Mac_03

预测编码器通过最小化实际观测值与预测观测值之间的均方误差来近似预测编码。预测编码器在 82,630 个样本上进行了 200 个 epoch 训练,使用了具有 Nesterov 动量的梯度下降优化,权重衰减为 5 × 10^(-6),学习率为 10^(-1),并通过 OneCycle 学习率调度进行调整。优化后的预测编码器预测图像与实际图像之间的均方误差为 0.094,具有良好的视觉保真度(图 1c)。

51c大模型~合集9_Mac_04

参考链接:

https://techxplore.com/news/2024-07-neural-network-minecraft.html

https://www.tomshardware.com/tech-industry/artificial-intelligence/neural-network-learns-to-make-maps-with-minecraft-code-available-on-github



#WE-MATH

真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳

本文作者来自北京邮电大学、腾讯微信、华中科技大学、北京理工大学。作者列表:乔润祺,谭秋纳,董冠霆,伍敏慧,孙冲,宋晓帅,公却卓玛,雷尚霖,卫喆,张淼萱,乔润枫,张一凡,纵晓,徐一达,刁沐熙,包志敏,李琛,张洪刚。其中,共同第一作者乔润祺是北京邮电大学博士生,谭秋纳是北京邮电大学硕士生,通讯作者是北京邮电大学张洪刚副教授,该文章为乔润祺在微信实习期间完成。

随着人工智能技术的快速发展,能够处理多种模态信息的多模态大模型(LMMs)逐渐成为研究的热点。通过整合不同模态的信息,LMMs 展现出一定的推理和理解能力,在诸如视觉问答、图像生成、跨模态检索等任务中表现出色。这种多模态能力使得 LMMs 在各类复杂场景中的应用潜力巨大,而为了严谨科学地检验 AI 是否具备较强的推理能力,数学问答已成为衡量模型推理能力的重要基准。

回顾 AI 的发展历程,我们发现人类的认知和思考问题的方式对 AI 的发展产生了深远的影响。诸如神经网络、注意力机制等突破均与人类的思维模式息息相关。想象一下,人类在解答一个数学问题时,首先需要熟知题目所考察的知识点,而后利用相关知识进行逐步推理从而得出答案。但模型在作答时,其推理过程是否与人类一致呢?

聚焦于数学问题,我们发现模型可以回答出复杂问题,但在一些简单问题面前却捉襟见肘。为探究这一现象的原因,受人类解题思维模式的启发,我们首先对先掌握知识点,再运用其进行逻辑推理的解题过程建模如下:

51c大模型~合集9_图形化界面_05

其中 (X, Y) 和 (x_i, y_i) 分别表示数学问题和每个子问题中的问题与答案,P_reason 代表 LMMs 的综合运用能力 (知识泛化)。基于此,We-Math 首先基于 67 个原子知识点构建了一个多层级树状知识体系,紧接着以原子知识及推理答案为依据,通过将多知识点的复杂问题拆解为多个原子知识点对应的子问题来探究模型的作答机制。

  • 题目:WE-MATH: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?
  • 论文:https://arxiv.org/pdf/2407.01284
  • 主页:https://we-math.github.io/
  • 代码:https://github.com/We-Math/We-Math
  • 数据集:https://huggingface.co/datasets/We-Math/We-Math

目前 We-Math 在当日的 HuggingFace Daily Paper 中排名第一,并在推特上的浏览量达到 10K+!

We-Math Benchmark

1. 数据构成

We-Math 测评数据集共包含 6.5k 个多模态小学数学问题和一个多层级知识架构,每一个数学问题均有对应的知识点(1-3 个)。其中所有问题的知识点均被 5 层 99 个节点(最后一层包含 67 个知识点)的知识架构所涵盖。并且如下图所示,为了缓解模型在解决问题过程中固有的问题,我们参考教材与维基百科,启发式的引入了 67 个知识点的描述,从而为 LMMs 的推理过程提供必要的知识提示。

2. 题目拆解

为了合理的评估模型的作答机制,我们严格以人类作答的标准答案为依据,按照复杂问题所包含的知识点,将其拆解成了 n 个子问题,其中 n 表示复杂问题包含的知识点数量。

如下图所示,对于一道复杂问题:Mary 从一个圆形花坛的最北端点沿花坛边缘走到最东端点,走过的距离是 50.24 米,求解圆形花坛的面积。在解题过程中,首先需要根据 “东南西北方向” 知识点,通过 “最北” 和 “最东” 两个方向的条件,求得 Mary 走过路径所对应的圆心角大小(“最北” 和 “最东” 的夹角为 90 度)。接着,根据 “圆的周长” 知识点,通过圆心角的大小为 90 度和 Mary 走过的路径长度的条件,计算出圆形花坛的周长,并求得圆形花坛的半径。最后,根据 “圆的面积” 知识点,通过求得的半径的条件,计算出圆形花坛的面积,至此完成题目的求解。

分析上述解题过程,为了探究模型的答题机制以及模型的细粒度推理表现,可以将原题按照其对应的知识点拆解成三个子问题,具体而言,第一问:Mary 从一个圆形花坛的最北端点沿花坛边缘走到最东端点,求她走过路径的圆弧所对应的圆心角的度数;第二问:圆形花坛中,90 度圆心角所对应的圆弧弧长为 59.24m,求解圆形花坛的半径;第三问:求半径为 32m 的圆形花坛的面积。

3. 度量标准

在此基础上,如下图所示,我们引入一种新的四维度量标准,即知识掌握不足 (IK)、泛化能力不足 (IG)、完全掌握 (CM) 和死记硬背 (RM)。

  • 知识掌握不足 (IK): 模型无法作答出复杂问题,并在子问题中出现错误,我们推测模型无法作答出复杂问题的原因是因为对知识点掌握不足所导致的。
  • 泛化能力不足 (IG): 模型无法作答出复杂问题,但是所有的子问题中均回答正确,我们推测模型无法作答出复杂问题的原因是因为缺少综合运用能力(泛化能力)。
  • 完全掌握 (CM): 模型可以作答出复杂问题,并且可以作答出所有的子问题,这种现象是合理且被期望得到的。
  • 死记硬背 (RM): 模型可以作答出复杂问题,但在子问题中出现错误,这与人类的逻辑思维相悖,如果一个模型可以解决复杂的多步问题,但无法作答出解答过程中所需的单步问题,我们认为这种情况是不合理的,考虑模型存在机械记忆的情况。

其中 IK、IG、CM 之间存在 IK<IG<CM 的层次关系,即模型需要先掌握知识,才可以讨论综合运用的能力,而 RM 我们认为是一种不合理的现象。此外,考虑到模型的不稳定性,当前判定结果是否属于 RM 的标准较为严格。因此,我们提出了一种更灵活的宽松标准。如上图所示,在包含两个知识点的问题中,TFT 和 FTT 情况根据宽松标准(Loose Metric)被视为 CM(而非 RM)。我们在文章的附录中同样讨论了四维度指标在三步问题中的情况。因此,结合上述情况我们最终提出了一个综合打分度量标准,以此评估 LMM 推理过程中的固有问题。

实验与结论

We-Math 目前在 17 个大模型中完成了评测,共包含 4 个闭源模型与 13 个开源模型。其中表 1 与图 6 展示了 LMMs 在不同知识点数量下的结果与模型在第二层级知识点下的表现;表 2 与图 7、图 8、图 9 展示了 LMMs 在四维指标下的结果以及在严格和宽松标准下的综合打分结果;图 10 展示了 KCA 策略对模型在 IK 问题中的缓解结果。

LMMs 在不同知识点数量下的表现及其在第二层级知识点下的表现

  • 模型作答情况与题目所包含的知识点数量呈现较明显的负相关关系,即题目包含的知识点越多,模型作答情况越不理想。我们也提议可以通过题目包含的知识点数量对题目的难易度进行建模。
  • 模型在与计算相关的知识点下表现较好,在细粒度视觉问题上表现欠佳。也进一步表明 LMMs 在应用公式上较为擅长,但在理解和综合应用知识方面仍有局限。
  • GPT-4o 表现最佳,在包含不同知识点数量的题目中均保持领先,并在不同的知识点下基本保持领先。
  • LMMs 展现了一定的参数压缩潜力。在不同的 LMMs 中,LLaVA-NeXT-110B 的表现最接近 GPT-4。而令人惊喜的是,尽管参数规模较小,InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 等模型的表现也展现出了较好的表现。

LMMs 在四维指标下的表现及其在严格和宽松标准下的综合评分结果

  • 多数模型存在 “知识掌握不足” 和 “死记硬背” 的问题,尤其是在较小的模型中更加明显。并且,“知识掌握不足” 仍是大多数模型的主要问题。
  • GPT-4o 在 “死记硬背” 的衡量维度上大幅领先于其他模型,进一步说明 GPT-4o 更贴近于人类的解题方式,其所呈现的结果更加可靠,意味着模型真正的学到了知识,而不是 “死记硬背”。
  • GPT-4o 在 “知识掌握不足” 这个衡量维度上大幅领先于其他模型,已经逐渐迈向下一阶段,需要进一步提升 “知识泛化能力”。

LMMs 在 KCA 策略下的表现

  • 模型在 KCA 策略下整体表现有所提升。如上图所示,不同参数规模的 LMMs 在引入 KCA 策略后,在严格和宽松指标上均表现出一致的性能提升。
  • KCA 策略显著缓解了 IK 问题,但对 IG 问题的改善并不明显。这与人类直觉一致,因为知识描述主要解决的是推理知识的缺口。然而,要解决 IG 问题,需要全面提升 LMMs 的知识泛化能力,这也为未来研究指明了方向。

总结

在本文中,我们提出了 WE-MATH,一个用于细粒度评测 LMMs 在视觉数学推理任务中作答机制的综合基准。WE-MATH 共包含 6.5k 个视觉数学问题,涵盖 5 层 67 个知识点的多级知识架构。我们开创性地根据题目所需的知识点将其拆解为多个子问题,并引入了一种新的四维度指标用于细粒度的推理评估。通过 WE-MATH,我们对现有的 LMMs 在视觉数学推理中的表现进行了全面评估,并揭示了模型作答情况与题目所包含的知识点数量呈现较明显的负相关关系。

此外,我们发现多数模型存在死记硬背的问题 (RM),并且知识掌握不足(IK)是 LMMs 最大的缺陷。然而,GPT-4o 的主要挑战已从 IK 逐渐转向 IG,这表明它是第一个迈向下一个阶段的模型。最后,我们对 KCA 策略和错误案例的分析进一步启发性地引导现有的 LMMs 向人类般的视觉数学推理发展。