#Llama 3.1

美国太平洋时间 7 月 23 日,Meta 公司发布了其最新的 AI 模型 Llama 3.1,这是一个里程碑时刻。Llama 3.1 的发布让我们看到了开源 LLM 有与闭源 LLM 一较高下的能力。

Meta 表示,“到目前为止,开源 LLM 在功能和性能方面大多落后于闭源模型。现在,我们正迎来一个由开源引领的新时代。”

Meta 称 Llama 3.1 是目前最强的生成式 AI 产品。4 月份,Meta 已经发布了 Llama 3,被称为是 “我们最先进的开源 LLM 的下一代产品”。

此次 Llama 3.1 发布的产品有 8B、70B 和 405B 三个尺寸。

其中最受关注的是 Llama 3.1 405B。Meta 表示 Llama 3.1 405B 是目前全球最大、功能最强的公共基础模型,可与 OpenAI 和 Google 开发的顶级模型一争高下

Meta 在官方博客中表示:“Llama 3.1 405B 是首个公开可用的模型,在通用常识、可引导性、数学、工具使用和多语言翻译方面可与顶级 AI 模型相媲美。405B 模型的发布将带来前所未有的创新和探索机会。”

Meta 称他们在超过 150 个基准数据集上进行了性能评估,并将 Llama 3.1 与竞品进行了比较,结果显示 Llama 3.1 405B 在各项任务中都有能力与当前最先进的闭源模型一较高下。

8B 和 70B 在与同级别的小参数模型对比中也表现优异。

Llama 3 的推出以及 Meta 向生成式 AI 的全面转型,使得这一产品被广泛应用于 Meta 的大多数产品线,包括 Instagram、Messenger 和 WhatsApp。

此外,Meta CEO 扎克伯格表示,将 AI 作为开源工具向所有人开放也非常重要

扎克伯格在一篇文章中写道:“开源将确保世界上更多的人能享受到 AI 带来的红利和机会。这种权利不应该集中在少数公司手中,而且这项技术可以更均衡、更安全地部署到整个社会。”

Meta 开发开源 AI 模型的努力也促使其他 AI 开发者,包括去中心化 AI 公司 Venice AI、Brave 浏览器开发者 Brave 和 Perplexity AI,将 Llama 3 添加到他们的平台上。

Venice AI 创始人 Erik Voorhees 在 5 月的一次 Twitter Space 中表示:“Meta 值得高度赞扬,因为他们花费了数亿美元来训练一个最先进的模型,并免费向全世界开放。”

Meta 表示,在提供更多功能的过程中,开发 Llama 3.1 405B 面临的最大挑战是模型规模的整体增长,支持更大的 12800,0-token 上下文窗口,并提供多语言支持。根据该公司表示,其 Meta AI 现在可以用法语、德语、印地语、意大利语、葡萄牙语和西班牙语进行响应。

关于 AI 安全性方面,扎克伯格强调 AI 应避免所有类型的伤害

扎克伯格表示:“非故意伤害是指即使操作人员无意,AI 系统也可能造成伤害。故意伤害是指不法分子使用 AI 模型故意造成伤害。”

在故意滥用的情况下,主要的 AI 开发者 —— 包括 Meta、Anthropic、OpenAI、Google 和 Microsoft—— 对与选举相关的提示施加了限制,以遏制使用其模型传播错误信息。

扎克伯格指出,非故意伤害涵盖了人们对 AI 的大部分担忧,并表示开源软件的透明性也有助于缓解这些担忧。Llama 3 的发布还包括 Llama Guard 3,一款旨在监控和执行模型道德使用的工具。

扎克伯格表示:“从历史角度看,开源软件因此更加安全。同样,使用 Llama 及其安全系统如 Llama Guard 可能比闭源模型更安全。”

扎克伯格接着表示,他相信 Llama 3.1 的发布将成为 AI 行业的一个拐点。

扎克伯格说:“归根结底,开源 AI 代表了世界上最好的一次利用这项技术创造最大经济机会和安全性的机会。”


#Llama成大模型顶流

扎克伯格掀论战:玩开源,时代变了

开源与闭源的纷争已久,现在或许已经达到了一个新的高潮。

说到开源大模型,Llama 系列自诞生以来就是典型代表,其优秀的性能与开源特点让人工智能技术的应用性和可访问性大大提升。任何研究人员和开发者都能够从中获益,让研究和应用变得更加广泛。

现在,Meta Llama 3.1 405B 正式发布。在官方博客中,Meta 表示:「直到今天,开源大语言模型在功能和性能方面大多落后于封闭模型。现在,我们正在迎来一个开源引领的新时代。」

与此同时,Meta 创始人、CEO 扎克伯格亲自撰写长文阐述开源对所有开发者、对 Meta、对世界的意义。他表示,开源是 AI 积极发展的必要条件。以 Unix 和 Linux 的发展为例,开源 AI 将更有利于创新、数据保护和成本效益。

他还认为,开源 Llama 模型能够建立一个完整的生态系统,确保技术进步,并且不会因为竞争而失去优势。Meta 有着成功的开源历史,通过开源 AI 模型,扎克伯格希望促进全球技术的平等和安全应用。 

原文链接:https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

以下是原文内容:

扎克伯克为 Meta 注入开源基因

在高性能计算的早期,各大主流科技公司都投入大量资金开发各自的闭源 Unix 版本。当时很难想象会有其他方法能开发出如此先进的软件。

然而,开源的 Linux 逐渐流行起来:最初是因为它允许开发人员自由修改代码且价格更实惠,而后来它变得更先进、更安全,并且拥有比任何闭源 Unix 更广泛的生态系统,支持更多的功能。今天,Linux 已成为云计算和运行大多数移动设备的操作系统的行业标准基础, 大家都因其卓越的产品受益。 

我相信人工智能的发展也与其发展轨迹类似。今天,一些科技公司正在开发领先的闭源模型,但开源正在迅速缩小差距。

去年,Llama 2 仅能与一代旧型号相媲美。而在今年,Llama 3 在某些领域已经可以与行业中领先的模型竞争甚至领先。明年开始,我们预计未来的 Llama 模型将成为行业中最先进的大模型。在此之前,Llama 也已经在开放性、可修改性和成本效益方面领先。

今天,我们正迈出下一步 —— 使开源 AI 成为行业标准。我们发布了首个前沿级开源 AI 模型 Llama 3.1 405B,以及改进版的 Llama 3.1 70B 和 8B 模型。较于闭源模型,这些开源模型在成本效益上显著提升,特别是 405B 模型的开源特性,使其成为微调和蒸馏小型模型的最佳选择。 

除了发布这些模型,我们还与多家公司合作,拓展更广泛的生态系统。亚马逊、Databricks 和英伟达正在推出全套服务,支持开发者微调和蒸馏他们自己的模型。像 Groq 这样的创新者已经为所有新模型构建了低延迟、低成本的推理服务。

这些模型将在包括 AWS、Azure、Google、Oracle 等所有主要云平台上可用。Scale.AI、戴尔、德勤等公司已经准备好帮助企业采用 Llama 并使用他们自己的数据训练定制模型。随着社区的成长和更多公司开发新服务,我们可以共同使 Llama 成为行业标准,并将 AI 的益处带给每个人。

Meta 致力于开源 AI,以下是我认为开源是最佳开发平台的原因,为什么开源 Llama 对 Meta 有利,以及为什么开源 AI 对世界有益,并由此将长期存在。

开源 AI 之于开发者

当我与全球的开发者、CEO 和政府官员交谈时,通常听到几个主题:

  • 我们需要训练、微调和蒸馏自己的模型。每个组织都有不同的需求,这些需求最好通过使用不同规模并使用特定数据训练或微调的模型来满足。设备上的任务和分类任务需要小型模型,而更复杂的任务则需要大型模型。现在,你可以使用最先进的 Llama 模型,继续用自己的数据训练它们,然后将它们蒸馏成最适合你需求的模型规模 —— 无需我们或任何其他人看到你的数据。
  • 我们需要掌控自己的命运,而不是被闭源供应商「锁死」。许多组织不希望依赖他们无法自己运行和控制的模型。他们不希望闭源模型供应商能够更改模型、改变使用条款,甚至完全停止服务。他们也不希望被锁定在拥有模型专有权的单一云平台上。开源使得兼容工具链的广泛生态系统成为可能,你可以轻松地在这些工具之间切换。
  • 我们需要保护我们的数据。许多组织处理需要保护的敏感数据,无法通过云 API 发送到闭源模型。一些组织则根本不信任闭源模型供应商对其数据的处理。开源解决了这些问题,因为它使你可以在任何你想要的地方运行模型。众所周知,开源软件会因为开发过程更加透明,而更安全。
  • 我们需要一个高效且经济的模型。开发者可以在自己的基础设施上运行 Llama 3.1 405B,进行推理,成本大约是使用闭源模型(如 GPT-4)的 50%,适用于用户端和离线推理任务。
  • 我们希望投资于将成为长期标准的生态系统。许多人看到开源的发展速度快于封闭模型,他们希望在能够长期提供最大优势的架构上构建自己的系统。

开源 AI 之于 Meta

Meta 的商业模式是为人们构建最佳体验和服务。为了实现这一目标,我们必须确保始终能够获取最佳技术,而不是被锁定在竞争对手的封闭生态系统中,这样他们就不能限制我们所开发的内容。 

我想分享一个重要经历:虽然苹果公司允许我们在其平台上构建内容,但是当我们构建服务时仍受到了限制。无论是他们对开发者的税收、他们施加的任意规则,还是他们阻止的所有产品创新,显而易见,如果我们能够构建产品的最佳版本,并且竞争对手无法限制我们构建的内容,Meta 和许多其他公司将能够为人们提供更好的服务。从哲学层面上讲,这也是我如此坚信在 AI 和 AR/VR 领域为下一代计算机建立开放生态系统的一个重要原因。

人们常常问我是否担心因为开源 Llama 而失去技术优势,但我认为这忽略了大局,原因有以下几点:

首先,为了确保我们能够长期保持技术领先,并且不被锁定在闭源生态系统中,Llama 需要发展成一个完整的生态系统,包括工具、效率改进、硬件优化和其他集成。如果只有我们公司使用 Llama,这个生态系统将不会发展,我们的境况也不会比 Unix 的闭源变种好多少。

其次,我预计 AI 开发将继续保持高度竞争,这意味着在任何给定时刻,开源某个模型不会使我们在与下一个最佳模型的竞争中失去巨大优势。Llama 成为行业标准的途径是通过一代又一代地保持竞争力、高效性和开放性。 

第三,Meta 与闭源模型提供商的一个关键区别在于,销售 AI 模型的访问权限并不是我们的商业模式。这意味着公开发布 Llama 不会削弱我们的收入、可持续性或投资研究的能力,而闭源提供商则会受到影响。(这也是为什么一些闭源提供商一直在游说公共管理者反对开源的原因之一。)

最后,Meta 在开源项目上有着丰富的成功经验。通过与开放计算项目分享我们的服务器、网络和数据中心设计,并使供应链标准化,我们节省了数十亿美元。通过开源 PyTorch、React 等领先工具,我们从生态系统的创新中受益匪浅。这种方法长期以来一直极具效果。

开源 AI 之于世界

我相信开源对于 AI 的未来是有必要的。AI 比任何其他现代技术都更有潜力提高人类的生产力、创造力和生活质量,并且能够在加速经济增长的同时推动医学和科学研究的进步。开源将确保全球更多的人能够从 AI 的发展中获得利益和机会,权力不会集中在少数几家公司手中,并且技术能够更均匀和安全地在社会中部署。

关于开源 AI 模型的安全性,存在着持续的争论。我的观点是,开源 AI 将比替代方案更安全。我认为各国政府最终会得出支持开源的结论,因为这将使世界更加繁荣和安全。

在我理解的安全性框架中,我们需要防范两类危害:无意和故意。

  • 无意的危害是指 AI 系统可能在运行时非故意地造成伤害。例如,现代 AI 模型可能在无意中给出错误的健康建议。或者,在未来场景中,有人担心模型可能会无意中自我复制或过度优化目标,从而对人类造成损害。
  • 故意的危害是指不良行为者使用 AI 模型以造成伤害为目的。

值得注意的是,无意的危害涵盖了人们对 AI 的多数担忧 —— 从 AI 系统对数十亿用户的影响到大多数真正灾难性的科幻场景。在这方面,开源所带来的安全性更加显著,因为系统更透明,可以被广泛审查。

历史上,开源软件由于这一原因一直更安全。同样,使用 Llama 及其安全系统如 Llama Guard,可能会比闭源模型更安全和更可靠。因此,大多数关于开源 AI 安全性的讨论集中在故意的危害上。

我们的安全流程包括严格的测试和红队评估,以检验我们的模型是否有可能造成实质性伤害,此目标是在发布前减轻风险。由于这些模型是开源的,任何人都可以自行进行测试。我们必须牢记,这些模型是通过互联网上已有的信息训练的,所以在考虑危害时,起点应该是模型是否能比从 Google 或其他搜索结果快速获取的信息造成更多的危害。

通过区分个体或小规模行为者与拥有大量资源的大规模行为者(如国家)所能做的事情,将会有益于推理故意伤害。

在未来的某个时候,个别恶意行为者可能会利用 AI 模型的智能,从互联网上现有的信息中制造出新型危害。在这一点上,力量的均衡对 AI 安全至关重要。

我认为生活在一个 AI 广泛部署的世界中会更好,因为这样可以使大型行为者制衡小型恶意行为者。这也是我们在社交网络上管理安全的方式,凭借更强大的 AI 系统识别并阻止那些经常使用小规模 AI 系统的不太复杂的行为者。

更广泛地说,大型机构在大规模部署 AI 时将促进社会的安全和稳定。只要每个人都能访问类似代际的模型,那么拥有更多算力资源的政府和机构将能够制衡拥有较少计算资源的恶意行为者。

在考虑未来的机遇时,请记住,今天的大多数领先科技公司和科学研究都是建立在开源软件之上的。如果我们共同投资于开源 AI,下一代公司和研究就会获得使用的机会。这包括刚刚起步的初创企业,以及那些可能没有资源从头开发 SOTA AI 的大学和国家的人们。

总而言之,开源 AI 代表了在全球范围内我们可以利用这项技术为所有人创造最大的经济机会和安全保障。

合作行稳,开源致远

在过去的 Llama 模型中,Meta 为自身开发发布了这些模型,但并未重点关注建立更广泛的生态系统。这次发布,我们采取了不同的方式。我们正在内部组建团队,使尽可能多的开发者和合作伙伴能够使用 Llama,并且积极建立合作伙伴关系,以便生态系统中的更多公司能够为他们的客户提供独特的功能。

我相信 Llama 3.1 的发布将成为行业的一个转折点,大多数开发者将开始使用开源技术,我预计这种方式将会以我们的开源为起点。

我希望我们可以共同努力将 AI 的益处带给全世界。

你现在可以在 llama.meta.com 上访问这些模型。

马克·扎克伯格 


#击败GPT-4o的开源模型如何炼成

经历了提前两天的「意外泄露」之后,Llama 3.1 终于在昨夜由官方正式发布了。

Llama 3.1 将上下文长度扩展到了 128K,拥有 8B、70B 和 405B 三个版本,再次以一已之力抬高了大模型赛道的竞争标准。

对 AI 社区来说,Llama 3.1 405B 最重要的意义是刷新了开源基础模型的能力上限,Meta 官方称,在一系列任务中,其性能可与最好的闭源模型相媲美。

下表展示了当前 Llama 3 系列模型在关键基准测试上的性能。可以看出,405B 模型的性能与 GPT-4o 十分接近。

与此同时,Meta 公布了《The Llama 3 Herd of Models》论文,揭示了 Llama 3 系列模型迄今为止的研究细节。

论文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

接下来,让我们看一下论文内容。

Llama3 论文亮点

1、在使用 8K 上下文长度进行预训练后,Llama 3.1 405B 使用 128K 上下文长度进行连续训练,且支持多语言和工具使用。

2、与以前的 Llama 模型相比,Meta 加强了预处理和预训练数据的 Curation pipelines,以及后训练数据的质量保证和过滤方法。

Meta 认为,高质量基础模型的开发有三个关键杠杆:数据、规模和复杂性管理。

首先,与 Llama 的早期版本相比,Meta 在数量和质量两方面改进了用于预训练和后训练的数据。Meta 在大约 15 万亿的多语言 Token 语料库上对 Llama 3 进行了预训练,相比之下,Llama 2 只使用了 1.8 万亿 Token。

此次训练的模型规模远大于以前的 Llama 模型:旗舰语言模型使用了 3.8 × 10²⁵ 次浮点运算(FLOPs)进行预训练,超过 Llama 2 的最大版本近 50 倍。

基于 Scaling law,在 Meta 的训练预算下,当前的旗舰模型已是近似计算最优的规模,但 Meta 对较小模型进行的训练时间已经远超计算最优的时长。结果表明,这些较小模型在相同推理预算下的表现优于计算最优模型。在后训练阶段,Meta 使用了 405B 的旗舰模型进一步提高了 70B 和 8B 模型这些较小模型的质量。

3、为了支持 405B 模型的大规模生产推理,Meta 将 16 位 (BF16) 量化为 8 位 (FP8),从而降低了计算要求,并使模型能够在单个服务器节点上运行。

4、在 15.6T token(3.8x10²⁵  FLOPs)上预训练 405B 是一项重大挑战,Meta 优化了整个训练堆栈,并使用了超过 16K H100 GPU。

正如 PyTorch 创始人、Meta 杰出工程师 Soumith Chintala 所说,Llama3 论文揭示了许多很酷的细节,其中之一就是基础设施的构建。

5、在后训练中,Meta 通过多轮对齐来完善 Chat 模型,其中包括监督微调(SFT)、拒绝采样和直接偏好优化。大多数 SFT 样本由合成数据生成。

研究者在设计中做出了一些选择,以最大化模型开发过程的可扩展性。例如,选择标准的密集 Transformer 模型架构,只进行了少量调整,而不是采用专家混合模型,以最大限度地提高训练的稳定性。同样,采用相对简单的后训练程序,基于监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO),而不是更复杂的强化学习算法, 因为后者往往稳定性较差且更难扩展。

6、作为 Llama 3 开发过程的一部分,Meta 团队还开发了模型的多模态扩展,使其具备图像识别、视频识别和语音理解的能力。这些模型仍在积极开发中,尚未准备好发布,但论文展示了对这些多模态模型进行初步实验的结果。

7、Meta 更新了许可证,允许开发者使用 Llama 模型的输出结果来增强其他模型。

在这篇论文的最后,我们还看到了长长的贡献者名单:

这一系列因素,最终造就了今天的 Llama 3 系列。

当然,对于普通开发者来说,如何利用 405B 规模的模型是一项挑战,需要大量的计算资源和专业知识。

发布之后,Llama 3.1 的生态系统已准备就绪,超过 25 个合作伙伴提供了可与最新模型搭配使用的服务,包括亚马逊云科技、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud 和 Snowflake 等。



#数学大统一理论里程碑进展

几何朗兰兹猜想获证明

历经三十年的努力,数学家已经成功证明了一个名为「朗兰兹纲领(Langlands program)」的宏大数学愿景的主要部分。

一个由 9 位数学家组成的团队成功证明了几何朗兰兹猜想(Geometric Langlands Conjecture),这是现代数学领域涉及范围最广的范式之一。

马克斯・普朗克数学研究所的著名数学家 Peter Scholze(他并未参与此证明)说:这项证明是三十年辛苦研究所到达的顶点。「看到它得到解决真是太好了。」

朗兰兹纲领是由罗伯特・朗兰兹(Robert Langlands)在 1960 年代提出的。其是对傅里叶分析的广泛泛化,而傅里叶分析是一个影响深远的框架,可将复杂的波表示成多个平滑震荡的正弦波。朗兰兹纲领在三个不同的数学领域都有重要地位:数论、几何和所谓的函数域(function field)。这三个领域通过一个类比网络连接在了一起,而这个网络也被称为数学的「罗塞塔石碑(Rosetta stone)」。

现在,一系列论文证明了这个罗塞塔石碑的几何栏位的朗兰兹猜想:https://people.mpim-bonn.mpg.de/gaitsgde/GLC/

德克萨斯州大学奥斯汀分校的 David Ben-Zvi 说:「其它领域还没有得到过如此全面和有力的证明。」

朗兰兹纲领的几何版本的主要先驱之一 Alexander Beilinson 说:「这是美丽的数学,最美的那一类。」

该证明包含 5 篇论文,加起来超过 800 页。它们来自 Dennis Gaitsgory(马克斯・普朗克研究所)和 Sam Raskin(耶鲁大学)领导的一个团队。

Gaitsgory 过去 30 年来一直致力于证明几何朗兰兹猜想。这几十年来,他及其合作者获得了大量研究成果,并在这些基础上完成了这项证明。格勒诺布尔 - 阿尔卑斯大学的 Vincent Lafforgue 将这些进步比作是「不断升高的海」;他说这就像是 20 世纪杰出数学家亚历山大・格罗滕迪克(Alexander Grothendieck)的研究精神 —— 通过创造一个不断升高的思想之海来解决困难问题。

Dennis Gaitsgory(左图)和 Sam Raskin(右图),他们领导的一个九人团队证明了几何朗兰兹猜想。

要验证他们的新证明成果还需要些时日,但很多数学家都表示相信其核心思想是正确的。Lafforgue 说:「该理论的内部一致性很好,所以很难相信它错了。」

在证明之前的几年里,该研究团队创建了不止一条通往问题核心的路径。「他们得到的理解是如此的丰富和广泛,以至于他们从所有方向包围了这个问题。」他说,「它已无路可逃。」

大统一理论

1967 年,时年 30 岁的普林斯顿大学教授罗伯特・朗兰兹在他手写给安德烈・韦伊(André Weil,这个罗塞塔石碑的创立者)的一份 17 页信件中阐述了他的愿景。朗兰兹写到,在这个罗塞塔石碑的数论和函数域栏位上,有可能创造出一种广义版的傅里叶分析,并且其将具有惊人的范围和力量。

在经典的傅里叶分析中,对于两种不同的思考波图(比如声波)的方式,会使用一种名为傅立叶变换的过程来创造的它们之间的对应关系。在这对应关系的一侧是这些波本身。(我们称之为波侧 /wave side)。这包括简单的正弦波(在声学中就是纯音)以及由多个正弦波组成的复杂波。在这对应关系的另一侧是余弦波的频谱 —— 声学中的音高。(数学家称之为谱侧 /spectral side)。

傅立叶变换就是在这两侧之间来回。在一个方向上,其可将波分解成一组频率;在另一个方向上,则可根据其组成频率重建出波。这种双向变换的能力造就了数不清的应用 —— 没有它,我们就不会拥有现代电信、信号处理、磁共振成像或现代生活的许多其它必需品。

朗兰兹提出,罗塞塔石碑的数论和函数域栏位也有类似的变换,只是这里的波和频率都更加复杂。

在下面的视频中,罗格斯大学的数学家 Alex Kontorovich 将带我们穿过这片数学大陆,了解朗兰兹纲领核心的令人惊叹的对称性。

视频来源:https://www.youtube.com/watch?v=_bJeKUosqoY

在这些栏位中的每一个,都有一个由一组特殊函数组成的波侧,这些特殊函数类似于重复的波。这些特殊函数中最纯粹的被称为特征函数(eigenfunction),其作用就类似于正弦波。每个特征函数都有一个特征频率。不过,虽然正弦波的频率是一个数值,但特征函数的频率则是一个无限的数值列表。

还有谱侧。这由数论中的对象组成;朗兰兹认为这些对象标记了特征函数的频谱。他提出,存在一种类似于傅立叶变换的处理机制可将这里的波侧与谱侧连接起来。「这件事有点神奇。」Ben-Zvi 说,「这不是我们没有任何理由时就能事先预计的东西。」

波与其频率标签来自大不相同的数据领域,因此如果能证明它们之间的对应关系,必定能带来丰厚的回报。举个例子,在 1990 年代时,一个相对较小的函数集的数论朗兰兹对应的证明就让 Andrew Wiles 和 Richard Taylor 证明了费马大定理 —— 这个问题曾是数学领域最著名的待证明问题之一,数学界已经为此努力了三个世纪。

加州大学伯克利分校的 Edward Frenkel 表示:朗兰兹纲领被视为「数学的大统一理论」。然而,即便数学家已经努力证明了朗兰兹愿景中越来越大的部分,但他们也很清楚这个愿景并不完备。在这块罗塞塔石碑的几何学栏位,波与频率标签的关系似乎无法体现出来。

一粒沙

正是从朗兰兹的研究工作开始,数学家对几何朗兰兹对应(geometric Langlands correspondence)的谱侧的样子有了一个想法。韦伊设定的罗塞塔石碑的第三个栏位(几何)涉及紧黎曼曲面(compact Riemann surface),包括球面、甜甜圈形曲面以及多孔甜甜圈形曲面。一个给定的黎曼曲面都有一个对应的对象,称为基本群(fundamental group),其跟踪的是环绕曲面的环线的不同形式。

数学家猜想,几何朗兰兹对应的谱侧应当由基本群的特定蒸馏形式构成,这些特定的蒸馏形式也被称为基本群的表征(representation)。

如果要在罗塞塔石碑的几何栏位体现出朗兰兹对应,那么黎曼曲面基本群的每个表征都应该是一个频率标签 —— 但是什么的频率标签呢?

对于频率似乎标记了基本群表征的特征函数,数学家找不到任何集合。然后到了 1980 年代,如今就职于芝加哥大学的 Vladimir Drinfeld 意识到:通过将特征函数替换成名为特征层(eigensheaf)的更复杂对象,有可能创建起几何朗兰兹对应 —— 不过那时候,他只知道少数特征叠层的构建方式。

层(sheaf)比函数深奥很多,因此数论学家那时候不知道该如何理解这个朗兰兹对应的几何表亲。但几何朗兰兹纲领(尽管其波侧玄奥难懂)相较于数论版本的朗兰兹纲领有着一个大优势。在几何朗兰兹中,特征层的频率由黎曼曲面上的点控制,球体或甜甜圈上的每个点在近距离看起来非常相似。但在数论朗兰兹中,频率由素数控制,并且每个素数都有其特有的性质。伦敦帝国学院的数论学家 Ana Caraiani 说:数学家不知道「如何以一种很好的方式从一个素数到另一个素数。」

黎曼曲面在物理学领域具有重要作用,尤其是在共形场论中,其控制着亚原子粒子在某些力场中行为。在 1990 年代早期,Beilinson 和 Drinfeld 展示了可以如何使用共形场论来构建某些特别好的特征层。

与共形场论这种连接关系让 Beilinson 和 Drinfeld 开始思考如何为层(sheaf)构建一种傅里叶分析。Ben-Zvi 说:「这就像是引发结晶的一粒沙子。」

Beilinson 和 Drinfeld 提出了一个丰富的愿景,阐述了几何朗兰兹对应理应的工作方式。这不仅是基本群的每个表征都应该标记一个特征层的频率。他们认为,这种对应关系也应当尊重两侧的重要关系,Beilinson 和 Drinfeld 称这种展望是「最好的希望」。

1990 年代中期,Beilinson 在特拉维夫大学通过一系列讲座介绍了这一发展中的研究图景。Gaitsgory 那时在此读研究生,努力吸收其中每句话。他回忆说:「我就像一只刚孵化的小鸭子,获得了一种印随行为。」

此后的 30 年里,几何朗兰兹猜想一直是 Gaitsgory 数学生涯的主要驱动力。他说:「这些年都在不停地工作,离目标越来越近,开发不同的工具。」

上升之海

Beilinson 和 Drinfeld 只是松散地陈述了他们的猜想,事实证明他们有点过于简化「最好的希望」中的关系理应的工作方式了。2012 年时,Gaitsgory 与威斯康星大学麦迪逊分校的 Dima Arinkin 搞清楚了如何将这「最好的希望」变成一个精确的猜想。

之后一年,Gaitsgory 写了一份大纲,阐述了证明几何朗兰兹猜想的可能方式。该大纲依赖大量中间陈述,其中很多当时都尚未得到证明。Gaitsgory 及其合作者开始着手证明它们。

接下来的几年时间里,Gaitsgory 和多伦多大学的 Nick Rozenblyum 写了两本关于层的书,加起来接近 1000 页。在这套两卷本中,几何朗兰兹纲领只被提及了一次。Gaitsgory 说:「但其目的是奠定基础,后来我们也大量使用到了这些基础。」

2020 年,Gaitsgory 突然发现他没什么日程安排了。他说:「我花了三个月时间躺在床上,只是思考。」这些思考最终促成了一篇论文(有 6 位作者)。虽然这篇论文专注于朗兰兹纲领的函数域栏位,但其中也包含「一粒种子」—— 这粒种子后来变成了证明几何朗兰兹猜想的关键组件:一种用于理解特征层如何促进所谓的「白噪声」的方法。

其他七位研究者的照片。左起顺时针方向:Dario Beraldo、Lin Chen(陈麟)、Kevin Lin、Nick Rozenblyum、Joakim Færgeman、Justin Campbell 和 Dima Arinkin。

在经典的信号处理领域,可由正弦波构建声波,其频率对应于声音中的音高。仅仅知道声音包含哪些音高是不够的 —— 还需要知道每个音高的响度有多大。这些信息让你可将声音写成正弦波的组合形式:只需从幅度为 1 的正弦波开始,然后让正弦波乘以适当的响度因子,再将这些正弦波加在一起。所有不同的幅度为 1 的正弦波之和就是我们常说的「白噪声」。

在几何朗兰兹纲领的世界里,特征层的作用就类似于正弦波。Gaitsgory 及其合作者识别出了一种名为庞加莱层(Poincaré sheaf)的东西,其作用似乎就类似于白噪声。但这些研究者并不清楚能否将每个特征层都表示在庞加莱层中,更不用说它们是否都具有相同的幅度了。

2022 年春,Raskin 与他的研究生 Joakim Færgeman 展示了如何使用那篇六作者论文中的思想来证明每个特征层都确实可表示在庞加莱层中。Gaitsgory 在谈到对几何朗兰兹猜想的证明时说:「在 Sam 的和 Joakim 的论文之后,我很确信我们能在短时间内做到。」

研究者需要证明,所有特征层对庞加莱层都有同等的贡献,并且基本群表征标记了这些特征层的频率。他们认识到,最难的部分是处理这种基本群的表征:不可约表征。

这些不可约表征的解决方案出现之时,Raskin 的个人生活正一片混乱。在他与 Færgeman 在网上发布了他们的论文几周后的某天,Raskin 不得不匆忙地将他怀孕的妻子送往医院,然后再回家送儿子第一次去幼儿园。Raskin 的妻子在医院住了六周,直到他们的第二个孩子降生。在这段时间里,Raskin 的生活一直在轮轴转 —— 为了保证儿子的正常生活,他无休止地在家、儿子的学校和医院之间来回奔忙。他说:「我那时的全部生活就是车和照顾人。」

他在驾驶途中与 Gaitsgory 打电话探讨数学。在那几周的第一周快结束时,Raskin 意识到他可以将这个不可约表征问题简化成证明三个当时已经触手可及的事实。「对我来说,那段时间很神奇。」他说,他的个人生活「充满了对未来的焦虑和恐惧。对我来说,数学是一种需要根植(grounding)和冥想的东西,可以让我摆脱那种焦虑。」

到 2023 年初,Gaitsgory 和 Raskin 以及 Arinkin、Rozenblyum、Færgeman 和其他四名研究人员一起,对 Beilinson 和 Drinfeld 的「最好的希望」进行了完整的证明,并由 Gaitsgory 和 Arinkin 进行了修订。(其他研究者为伦敦大学学院的 Dario Beraldo、清华大学的 Lin Chen(陈麟)、芝加哥大学的 Justin Campbell 和 Kevin Lin。)该团队又用了一年时间将该证明写下来。他们在今年二月份在网上发布了该证明。尽管这些论文遵循 Gaitsgory 在 2013 年制定的大纲,但其中简化了 Gaitsgory 的方法并在很多方面做出了改进。Lafforgue 说:「对于这个无与伦比的成就,很多聪明人为此贡献了很多新想法。」

「他们不仅仅是证明了它,」Ben-Zvi 说,「他们围绕它开发了整个世界。」

更远的海岸

对 Gaitsgory 来说,这个数十年梦想的实现远非故事的结束。还有许多进一步的难题有待数学家解决 —— 更深入地探索其与量子物理学的联系、将该结果扩展到带穿孔的黎曼曲面、搞清楚其对罗塞塔石碑的其它栏位的影响。Gaitsgory 在一封电子邮件中写到:「这感觉(至少对我来说)更像是凿下了一块大石头,但我们离核心依然还很远。」

研究其它两个栏位的研究者现在急切地想要将这个证明转译过去。Ben-Zvi 说:「其中一个主要碎片得到解决这一事实应该会对朗兰兹对应的整体研究产生重大影响。」

但并非所有东西都能带过去 —— 举个例子,在数论和函数域设置中,并没有与共形场论思想相对应的东西,而共形场论能让研究者在几何设置中构建起特殊的特征层。在将该证明中的很多东西用于其它栏位之前,还需要一些费力的调整。伯克利的 Tony Feng 说:我们还不清楚是否能「将这些思想转移到一个原本没想过能使用它们的不同环境中。」

但很多研究者都乐观地相信这个上升的思想之海最终会漫延到其它领域。Ben-Zvi 说:「它将渗透穿过学科之间的所有障碍。」

过去十年中,研究者已经开始发现几何栏位与另外两个栏位之间的联系。「如果(几何朗兰兹猜想)在 10 年前就被成功证明,那么结果会大不相同。」Feng 说,「人们就不会认识到它的影响可能会拓展到(几何朗兰兹)社区之外。」

在将几何朗兰兹证明转译到函数域栏位方面,Gaitsgory、Raskin 及其合作者已经取得了一些进展。(Raskin 暗示说,Gaitsgory 和 Raskin 在后者的长期驾驶途中得到的一些发现「还有待揭示」。)如果转译成功,则可能得到一个比数学家之前知道或甚至猜测的还要远远更加精准的函数域朗兰兹版本。

而从几何栏位到数论栏位的大多数转译都会经过函数域。但在 2021 年,巴黎 Jussieu 数学研究所的 Laurent Fargues 和 Scholze 设计了一个所谓的虫洞(wormhole),可将几何栏位的思想直接带到数论朗兰兹纲领的某一部分。

Scholze 说:「我肯定是一个想要转译这些几何朗兰兹证明的人。」考虑到这片上升之海包含上千页文本,这绝非易事。「我目前落后几篇论文,」Scholze 说,「正在努力研读他们在 2010 年左右的成果。」

现在,几何朗兰兹研究者终于将他们的长篇论证述诸论文,Caraiani 希望他们能有更多时间与数论方向的研究者讨论。她说:「人们有着非常不同的思考问题的方式。如果他们能够放慢脚步,彼此交谈,了解对方的观点,那总会有好处的。」她预测说这项新成果的思路必定会传播到数论领域,这只是个时间问题。

正如 Ben-Zvi 说得那样:「这些结果是如此的稳健,以至于你一旦开始,就很难再停下来。」

原文链接:https://www.quantamagazine.org/monumental-proof-settles-geometric-langlands-conjecture-20240719/