• PA 2 是一款世界模型,能够在物理世界中实现先进的视觉理解与预测能力。它还支持在零样本情况下进行机器人任务规划,能应对陌生物体和新环境。
  • V-JEPA 2 是我们迈向「高级机器智能(AMI)」的重要一步,目标是打造能在现实世界中运行的有用 AI 代理。
  • 我们还发布了三个新基准测试,用于评估模型从视频中推理物理世界的能力。

今天我们正式发布 V-JEPA 2 —— 这是首个通过视频训练的世界模型,在视觉理解与物理预测方面达到了行业领先水平。同时,它还具备零样本规划和机器人控制能力,能够应对从未见过的新环境与物体。

我们正在朝着“高级机器智能(AMI)”的目标迈进,这需要 AI 系统能像人类一样理解世界、规划如何执行陌生任务,并快速适应复杂多变的环境。

V-JEPA 2 拥有 12 亿参数,基于我们 2022 年发布的 Meta 联合嵌入预测架构(JEPA) 构建。此前,我们已验证 JEPA 架构在图像和 三维点云 等数据类型上表现优异。继去年发布的首个视频训练模型 V-JEPA 后,V-JEPA 2 在动作预测和世界建模方面全面升级,使机器人可以与陌生环境和新物体互动并完成任务。

我们同步发布三项全新基准测试,帮助研究人员评估其模型在视频中的学习与推理能力。通过这项工作,我们希望为开发者和研究人员提供更好的模型与评估工具,从而推动 AI 系统的整体进步,并最终改善人们的生活。

1 什么是世界模型?

我们都知道,网球被抛向空中后会因为重力落下。如果它悬在空中、突然改变方向、甚至变成一个苹果,那就太不寻常了。这种物理直觉并不是成年后通过教育获得的,而是儿童在牙牙学语之前通过观察世界就能建立起来的。

世界模型的远期目标,是帮助 AI 在物理世界中具备推理与规划能力。为了实现这一目标,我们开发了 V-JEPA 2——一个主要基于视频训练的世界模型。视频是一种丰富、易获取的信息来源。

我们将 V-JEPA 2 的代码和模型检查点公开,供商业与科研用途,期望通过开源共建的方式,推动世界模型技术的发展,最终彻底改变 AI 与现实世界的互动方式。

这些能力都来自我们内心的“世界模型”,它帮助我们预测未来情境,选择最优行动路径。

AI 也需要这种模型,才能“想清楚再行动”。因此,我们认为世界模型应具备以下三大能力:

  • 理解(Understanding):识别和理解视频中的物体、动作和运动;
  • 预测(Predicting):推测世界未来状态,及行动带来的变化;
  • 规划(Planning):基于预测结果,规划一系列行动以达成目标。