#猎户座

「草莓」即将上线,OpenAI新旗舰大模型曝光,代号「猎户座」


ChatGPT 要进化了?


本月初,OpenAI 创始人、CEO 山姆・奥特曼突然在 X 上发了一张照片,勾起了大家强烈的好奇心。

「四个红草莓,其中还有一个未成熟的青色草莓,这不妥妥地是在说下一代 AI 大模型 GPT-5 要来了吗?」奥特曼在回应网友时也在暗示,惊喜马上就来。

据科技媒体 The Information 报道,传说中的「草莓」真的要来了!

两位参与该项目的人士表示,OpenAI 计划最早在今年秋天推出代号为 「草莓」(之前称为 Q*,发音为 Q Star)的新人工智能,作为聊天机器人的一部分(可能集成在 ChatGPT 内)。「草莓」 可以解决它以前从未见过的数学问题(这是当今的聊天机器人无法准确做到的),并且训练后还可以解决涉及编程的问题,但它并不局限于回答技术问题。

据 The Information 报道,OpenAI 正在开发新旗舰 LLM,代号「Orion」。该模型旨在改进去年年初推出的现有旗舰 LLM——GPT-4。

而「草莓」旨在改进即将推出的「Orion(猎户座)」,并且 OpenAI 已经向安全监管人员展示了「草莓」模型。较小版本的「草莓」可以以聊天机器人的形式推出。

知情人士表示:OpenAI 正在使用较大版本的「草莓」来生成用于训练 Orion 的数据。这种人工智能生成的数据被称为「合成数据」。这意味着「草莓」可以帮助 OpenAI 克服获取足够高质量数据的限制,以便利用现实世界的数据(例如从互联网上提取的文本或图像)训练新模型。

当给予额外的「思考」时间时,「草莓」可以回答用户更主观的问题,例如产品营销策略。

OpenAI 推出「草莓」是为了保持对话式人工智能或大型语言模型的霸主地位。该技术还将对未来完成多步骤任务的智能体产品产生影响。 OpenAI 希望在智能体领域开辟更多收入机会。

为什么「草莓」对「Orion」如此重要

「草莓」最重要的应用之一是为下一代旗舰大语言模型 Orion 生成高质量的训练数据。该代号此前从未被报道过。

简单来说,「草莓」 可以生成更高质量的训练数据。智能体初创公司 Minion AI 的首席执行官、GitHub Copilot 的前首席架构师 Alex Graveley 表示,使用「草莓」生成更高质量的训练数据可以帮助 OpenAI 减少其模型生成的错误(也称为幻觉)数量,他还指出之所以能够做到这一点,是因为「训练数据中的歧义性较少」。

这里不得不提一下,OpenAI CEO 山姆・奥特曼在五月份的一次活动中曾说道:「我们觉得我们已经为下一个模型提供了足够的(数据),我们做了各种各样的实验,包括生成合成数据。」下一个模型可能指的就是「Orion」。

OpenAI 内部也在推动通过一种称为蒸馏(distillation)的过程来简化和缩小「草莓」。

现在还不能确定基于「草莓」的最终的产品将会是什么样子,但一个显而易见的想法是将「草莓」的推理能力融入到 ChatGPT。其结果是答案可能会更准确,但可能会更慢。

这意味着「草莓」可能不太适合用户期望立即得到响应的需求,但非常适合对时间不太敏感的用例。

或许我们可以想象,在不久的将来,ChatGPT 用户可以根据自身对时间的敏感程度来打开或关闭「草莓」。

今年夏天,OpenAI 已经向安全监管人员展示了「草莓」模型。此次演示可能是 OpenAI 努力向政策制定者提高透明度的一部分。

鉴于今年早些时候,Ilya Sutskever 等几位安全负责人的离职,对 OpenAI 来说,技术透明将尤其重要。

参考链接:

https://www.theinformation.com/articles/openai-races-to-launch-strawberry-reasoning-ai-to-boost-chatbot-business?rc=ks2jbm

https://www.theinformation.com/articles/openai-shows-strawberry-ai-to-the-feds-and-uses-it-to-develop-orion?rc=ks2jbm




#杂文

孟瑜获杰出博士论文奖,中科大获最佳学生论文,KDD 2024全部奖项放出

ACM SIGKDD(国际数据挖掘与知识发现大会,KDD) 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。

今年的 KDD 大会是第 30 届,8 月 25 日 - 29 日在西班牙巴塞罗那召开,最佳论文奖、时间检验奖、杰出博士论文奖等奖项也逐一揭晓。

其中有多位华人研究者获奖,孟瑜的《Efficient and Effective Learning of Text Representations》获得了 KDD 2024 杰出博士论文奖,最佳论文奖(研究方向)颁给了六位华人学者参与的《CAT: Interpretable Concept-based Taylor Additive Models》,最佳学生论文(研究方向)颁给了中国科学技术大学、华为合作的《Dataset Regeneration for Sequential Recommendation》。KDD 2024 最佳论文奖(应用数据科学方向)由领英获得,此外,大会还颁发了两项时间检验奖。

杰出博士论文奖

KDD 2024 杰出博士论文奖颁发给了《Efficient and Effective Learning of Text Representations》,作者是弗吉尼亚大学助理教授孟瑜(Yu Meng )。

孟瑜于 2024 年加入弗吉尼亚大学 (UVA) 计算机科学 (CS) 系,担任助理教授(tenure-track)。此前,他获得了伊利诺伊大学厄巴纳 - 香槟分校 (UIUC) 的博士学位,与韩家炜教授一起工作。他还曾在普林斯顿 NLP 小组担任访问研究员,与陈丹琦一起工作。

论文摘要:文本表示学习在广泛的自然语言处理 (NLP) 任务中发挥了关键作用。这些表示通常是通过深度神经网络将原始文本转换为向量获得的。LLM 的最新进展已经证明了学习通用文本表示的巨大潜力,可适用于广泛的应用。这一成功由两个关键因素支撑:

  • 在预训练和微调中使用广泛的文本数据来训练 LLM;
  • LLM 的规模可扩展到包含数百亿甚至数千亿个参数。

因此,训练 LLM 需要大量成本,包括获取大量带标签的数据以及支持这些大型模型所需的基础设施。在这些挑战的基础上,本文旨在开发高效且有效的文本表示学习方法,涉及以下关键内容:

利用球面空间进行文本表示学习。表示空间的传统选择是欧几里得空间,但非欧几里得球面空间在通过方向相似性捕捉语义相关性的研究方面表现出卓越的能力。本文的工作重点是利用球面表示空间进行文本表示学习的自监督技术。

使用球面文本表示法发现主题结构。基于在球面空间中学习到的文本表示法,本文开发了通过联合建模主题和文本语义自动从给定语料库中发现主题结构的方法。

使用 LLM 生成训练数据以实现自然语言理解 (NLU)。要在 NLU 任务上实现稳健的性能,通常需要大量人工标注的训练样本来微调预训练的文本表示。为了减轻人工标注的需求,本文开发了一种新范式,使用 LLM 作为训练数据生成器来取代人工标注过程。

这些努力共同促进了文本表征更高效、更有效的学习,解决了训练和使用 LLM 面临的挑战。

论文详细内容请参阅:

https://scholar.google.com/citations?view_op=view_citation&hl=en&user=S2-yZKcAAAAJ&cstart=20&pagesize=80&citation_for_view=S2-yZKcAAAAJ:_Qo2XoVZTnwC

杰出博士论文奖(亚军)

此次还有两项研究获得了本届 KDD 的杰出博士论文奖(亚军)。


  • 论文标题:Make Knowledge Computable: Towards Differentiable Neural-Symbolic AI 
  • 机构:加利福尼亚大学
  • 作者:Ziniu Hu
  • 论文地址:https://escholarship.org/uc/item/3ft4t0nj

论文摘要:本论文探讨了神经人工智能系统与符号人工智能系统的交叉点。近年来的深度学习方法能够记忆大量的世界知识,但在此基础上进行符号推理仍存在局限性;而符号 AI 擅长解决推理任务,但在适应新知识方面效率较低。此前将两者结合的研究主要集中在构建基于解析的系统,这类系统需要大量的中间标签标注,且难以扩展。

作者的研究目标是使神经模型能够以可微分的方式与符号推理模块进行交互,并实现无需中间标签的端到端训练的这种神经 - 符号模型。为实现这一愿景,作者开展了以下研究工作:

  • 设计新型推理模块:设计可微分的神经模块,能够进行符号推理,包括知识图谱推理和复杂的逻辑推理。  
  • 通过自监督学习:从结构化和符号知识库中获取自监督信号来训练神经模型,无需额外的标注。  
  • 跨领域泛化:神经 - 符号系统的模块化设计天然有助于更好地进行分布外、词汇外、跨语言和跨类型的泛化。


  • 论文标题:Artificial Intelligence for Data-centric Surveillance and Forecasting of Epidemics
  • 机构:佐治亚理工学院
  • 作者:Alexander Rodriguez
  • 论文地址:https://repository.gatech.edu/entities/publication/aa292b79-26bb-4aec-a3f3-0fd87911ff74/full

论文摘要:对流行病的监控和预测是政府官员、企业和公众进行决策和规划的重要工具。尽管人们在理解疾病如何在人群中传播方面取得了多项进展,但从许多方面来看,人们对流行病传播的理解仍处于初期阶段。许多主要的挑战源于复杂的动态因素,如人员流动模式、政策遵守情况,甚至数据收集程序的变化。随着收集和处理新来源数据的努力,拥有许多变量的细粒度数据逐渐变得可用。然而,这些数据集很难通过传统的数学流行病学和基于智能体的建模方法来利用。相反,流行病学中的 AI 方法面临数据稀疏、分布变化和数据质量差异的挑战。

51c大模型~合集42_大模型

AI 技术在流行病学动态方面也缺乏理解,可能会导致不切实际的预测。为了解决这些挑战并向数据中心方法迈进,本论文提出了几个框架。具体来说,作者通过多个实例展示了将 AI 的数据驱动表达能力引入流行病学,可以实现对流行病更为敏感和精准的监控与预测。

研究方向论文奖

最佳论文

KDD 2024 最佳论文奖(研究方向)颁给了《CAT: Interpretable Concept-based Taylor Additive Models》。

  • 作者:Viet Duong, Qiong Wu, Zhengyi Zhou, Hongjue Zhao, Chenxiang Luo, Eric Zavesky, Huaxiu Yao, Huajie Shao
  • 论文地址:https://arxiv.org/pdf/2406.17931
  • 项目地址:https://github.com/vduong143/CAT-KDD-2024

论文摘要:作为一种新兴的可解释技术,广义相加模型(Generalized Additive Models,GAMs)让神经网络单独学习每个特征的非线性函数,然后通过线性模型组合以进行最终预测。尽管 GAM 可以在特征级别解释深度神经网络 (DNN),但它们需要大量模型参数,并且容易过度拟合,从而难以训练和扩展。

此外,对人类来说,在具有许多特征的现实数据集中,基于特征的解释的可解释性会降低。为了解决这些问题,最近的研究已转向基于概念的可解释方法。这些方法试图将概念学习作为做出预测之前的中间步骤,并用人类可理解的概念来解释预测。然而,这些方法需要领域专家用相关名称及其真实值广泛地标记概念。

基于此,该研究提出了一种可解释的、基于概念的新型泰勒相加模型 ——CAT,以简化这个过程。CAT 不需要领域专家来注释概念及其真实值。相反,它只需要用户简单地将输入特征分类为广泛的组,这可以通过快速元数据审查轻松完成。

具体来说,CAT 首先将每组输入特征嵌入到一维高级概念表征中,然后将概念表征输入到新的白盒泰勒神经网络(TaylorNet)中。 TaylorNet 旨在使用多项式学习输入和输出之间的非线性关系。多个基准的评估结果表明,CAT 可以优于基准或与基准竞争,同时减少对大量模型参数的需求。重要的是,它可以通过高级概念有效地解释模型预测。

最佳学生论文

KDD 2024 最佳学生论文(研究方向)颁给了《Dataset Regeneration for Sequential Recommendation》。

  • 机构:中国科学技术大学、华为
  • 作者:Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Suojuan Zhang, Sirui Zhao, Defu Lian, Enhong Chen
  • 论文地址:https://arxiv.org/pdf/2405.17795
  • 项目链接:https://anonymous.4open.science/r/KDD2024-86EA

论文摘要:序列推荐系统(SR)是现代推荐系统中的关键组件,其目标是捕捉用户不断变化的偏好。为了增强 SR 系统的能力,已经进行了大量研究。这些方法通常遵循以模型为中心的范式,即基于固定数据集开发有效模型。然而,这种方法往往忽略了数据中潜在的质量问题和缺陷。基于数据中心化 AI 的潜力,研究团队提出了一种新颖的数据中心化范式,利用名为 DR4SR 的模型无关数据集再生框架来开发理想的训练数据集。该框架能够生成具有出色跨架构泛化能力的数据集。此外,他们还引入了 DR4SR + 框架,它结合了模型感知的数据集定制功能,能够为目标模型专门定制再生的数据集。

为了验证数据中心化范式的有效性,研究团队将该框架与各种以模型为中心的方法结合,观察到在四个广泛使用的数据集上性能显著提升。我们还进行了深入分析,探索数据中心化范式的潜力,并提供了宝贵的见解。

应用数据科学方向

最佳论文

KDD 2024 最佳论文(应用数据科学方向)颁给了《LiGNN: Graph Neural Networks at LinkedIn》。

  • 机构:领英
  • 作者:Fedor Borisyuk, Shihai He, Yunbo Ouyang, Morteza Ramezani, Peng Du, Xiaochen Hou, Chengming Jiang, Nitin Pasumarthy, Priya Bannur, Birjodh Tiwana, Ping Liu, Siddharth Dangi, Daqi Sun, Zhoutao Pei, Xiao Shi, Sirou Zhu, Kay Shen, Kuang-Hsuan Lee, David Stein, Baolei Li, Haichao Wei, Amol Ghoting, Souvik Ghosh
  • 论文地址:https://arxiv.org/pdf/2402.11139

论文摘要:这篇论文介绍了已部署的大规模图神经网络(GNNs)框架 LiGNN,并分享了领英开发和部署大规模 GNN 的经验。论文提出了一系列算法改进来提升 GNN 表示学习的质量,包括具有长期损失的时间图架构,通过图密集化、ID 嵌入和 multi-hop 相邻采样实现的有效冷启动解决方案。

具体来说,论文介绍了如何通过自适应相邻采样、训练数据 batch 的分组和切片、专用共享内存队列和局部梯度优化,在 LinkedIn 图上构建大规模训练,并将训练速度提高 7 倍。研究者总结了从 A/B 测试实验中收集到的部署经验和教训。这项工作中介绍的技术帮助提高了约 1% 的工作应用回听率、2% 的广告点击率提升、0.5% 的日活用户提升、0.2% 的会话提升和 0.1% 的每周活跃用户数提升。这项工作有望为大规模应用图神经网络的工程师提供实用的解决方案和见解。

最佳论文亚军

KDD 2024 最佳论文亚军(应用数据科学方向)颁给了《Nested Fusion: A Method for Learning High Resolution Latent Structure of Multi-Scale Measurement Data on Mars》。

  • 机构:佐治亚理工学院、加州理工学院
  • 作者:Austin Wright, Duen Chau, Scott Davidoff
  • 论文地址:https://dl.acm.org/doi/pdf/10.1145/3637528.3671596
  • 项目链接:https://github.com/pixlise/NestedFusion.

论文摘要:火星探测车「毅力号」代表了火星测量精度的代际变化,然而这种精度的提高也为探索性数据分析技术带来了新的挑战。探测车上的多个仪器分别测量科学家感兴趣的特定属性,因此分析底层现象如何共同影响多个不同的仪器,对于全面了解数据至关重要。然而,每个仪器的分辨率各不相同,使得不同数据层的映射变得复杂。

这项研究提出了 Nested Fusion 方法,该方法能够结合不同分辨率的任意分层数据集,并在可能的最高分辨率下生成潜在分布,编码不同测量和尺度之间的复杂相互关系。

51c大模型~合集42_大模型_02

该方法能够对大型数据集高效处理,甚至可以对未见过的数据进行推理,并在真实的火星探测车数据上,超越了现有的降维和潜在分析方法。他们已在 NASA 喷气推进实验室(JPL)内的火星科学团队中部署了 Nested Fusion 方法,并且通过多轮参与式设计,大大提升了科学家的探索性分析工作流程。

时间检验奖

大会还评出了两项时间检验奖。

KDD 2024 时间检验奖(研究方向)颁给了《DeepWalk: online learning of social representations》。

  • 机构:纽约州立大学石溪分校
  • 作者:Brian Perozzi, Rami Al-Rfou, Steven Skiena
  • 论文链接:https://arxiv.org/pdf/1403.6652
  • 项目链接:https://github.com/phanein/deepwalk

论文摘要:这篇论文介绍了研究团队所提出的一种用于学习网络中顶点隐层表示的新方法 ——「DeepWalk」。这些隐层表示将社会关系编码在连续的向量空间中,统计模型则可以轻松利用这些表示。

DeepWalk 将语言建模和无监督特征学习(或深度学习)从词序列推广到了图结构。DeepWalk 通过截断随机游走获取局部信息,并将游走等同视为句子,从而学习隐层表示。他们在多个社交网络的多标签网络分类任务中展示了 DeepWalk 的隐层表示,例如 BlogCatalog、Flickr 和 YouTube。

51c大模型~合集42_大模型_03

结果表明,DeepWalk 在有缺失信息的情况下,表现优于能够看到全局网络视图的其他强大基线方法。特别是在标注数据稀缺的情况下,DeepWalk 的表示可以将

51c大模型~合集42_大模型_04

分数提高最多 10%。在某些实验中,DeepWalk 使用少于 60% 的训练数据时,仍能超越所有基线方法。DeepWalk 具有可扩展性,它是一种在线学习算法,能够构建有用的增量结果,且易于并行化。这些特性使其适用于广泛的实际应用场景,如网络分类和异常检测。

KDD 2024 时间检验奖(应用数据科学方向)颁给了《U-Air: when urban air quality inference meets big data》。

51c大模型~合集42_大模型_05

  • 机构:微软亚洲研究院
  • 作者:Yu Zheng, Furui Liu, Hsun-Ping Hsieh
  • 论文链接:http://chbrown.github.io/kdd-2013-usb/kdd/p1436.pdf

论文摘要:这篇论文介绍了研究团队所提出的一种基于协同训练框架的半监督学习方法。关于城市空气质量的信息(例如 PM2.5 的浓度),对于保护人类健康和控制空气污染至关重要。然而,城市中空气质量监测站的数量有限,并且空气质量在城市空间中又呈现非线性变化,并受多种因素的影响,例如气象、交通流量和土地利用等。在本文中,研究团队基于现有监测站报告的(历史和实时)空气质量数据,以及在城市中观察到的各种数据来源(如气象、交通流量、人员流动、道路网络结构和兴趣点 POIs),推断整个城市的实时、细粒度的空气质量信息。

他们提出了一种基于协同训练框架的半监督学习方法,该框架包含两个独立的分类器。一个是基于人工神经网络(ANN)的空间分类器,它将空间相关特征(如 POI 的密度和高速公路的长度)作为输入,以建模不同地点之间空气质量的空间相关性。另一个则是基于线性链条件随机场(CRF)的时间分类器,使用时间相关特征(如交通和气象)来建模一个地点空气质量的时间依赖性。

51c大模型~合集42_大模型_06

研究团队在北京和上海所获取的五个真实数据源的基础上进行了广泛的实验评估。结果表明,与四类基线方法(包括线性 / 高斯插值、经典扩散模型、决策树和 CRF 等著名分类模型,以及 ANN)相比,他们所提出的基于协同训练框架的半监督学习方法具有显著优势。

更多信息,可参考大会官网:

https://kdd2024.kdd.org/awards/




#Llama-3不算真开源

今年10月,权威定义就要来了


你给翻译翻译,什么是开源?


开源大模型的标杆 Llama 3,居然都「被闭源」了。今天,开源再次成为了人们讨论的话题。

如今,开源的人工智能算法无处不在,从个人开发者到大型科技公司,大家都在享受最新技术带来的成果。

就连目前最热门的大模型领域,也区分了开源和闭源两个互相竞争的大方向。人们认为,随着开源技术的扩散与交流,开源的大模型最终将赶上 OpenAI 这样的业界顶尖水平。这或许就是扎克伯格等人理想中的繁盛景象。

不过,在层出不穷的新 AI 模型评论区里,我们也经常看到有人吐槽「连权重、数据都没有,这算什么开源?」

这个时候,一家有影响力的机构终于决定站出来,对开源这件事下一个定义了。

今年 10 月,「真开源」定义就要来了

开放源代码促进会(OSI)最近公布了其对「开源 AI」的最新定义草案。此举旨在澄清 Open Source 这一术语在快速发展的科技领域中,经常出现的模糊用法。

这个定义似乎来的正是时候。一个月前,大模型领域刚刚经历过一轮开源技术更新。Meta 发布了迄今为止最强的开源大模型 Llama 3.1 405B,宣布所有 Llama 版本的总下载量已超过 3 亿次,创业公司 Mistral 也紧接着宣布开源了 Large 2 大模型。

这些公司发布的预训练 AI 语言模型带有权重使用限制,同时继续使用了「开源」标签。这引发了开发者们对 AI 技术背景下什么才是真「开源」的激烈争论。

因为最近一段时间,开源变得越来越像是一个营销术语,将大模型描述为「开源」可以让人们对其变得更加信赖,即使研究人员和开发者时常会被这些许可证所限制。

Llama-3.1 发布的时候,Yann LeCun 曾宣传了开源的优势。

OSI 给出的定义下,很多事情需要我们来重新审视。例如,Meta 的 Llama 3 模型虽然可以自由获取,但 Meta 针对使用 Llama 系列模型的公司规模及通过该模型生成的内容类型,设定了特定的许可限制。因此,Llama 不符合 OSI 为软件定义的传统开源标准。

文生图模型 Flux 实际上也不是真正的开源。由于这种模糊性,OSI 通常用「开放权重」或「代码可用」等术语来指代那些含有代码或权重限制或缺乏配套训练数据的 AI 模型。

为了正式解决「真假开源」的问题,一向倡导开源的 OSI 召集了一个专家团队来为「开源」下定义。这个约 70 人的团队由研究人员、律师、政策制定者组成,其中还有来自 Meta、Google 和亚马逊等大型科技公司的代表。他们起草的最新草案为判断 AI 模型是否符合开源标准提出了「四项基本自由」:不限制使用目的,允许深入研究其工作原理,支持随意修改,无论是否进行过修改都允许用户自由分享模型。

这「四项基本自由」也沿用了人们对开源软件的定义。OSI 希望通过对「开源 AI」树立明确的标准,方便开发者、研究人员和用户在创建、研究或使用 AI 工具做出更明智的决策。

OSI 执行董事 Stefano Maffulli 在 Linux 基金会 AI_dev 大会上发布了对开源定义的最新版草案

换句话说,开源对于 AI 更加稳定安全:如果 AI 模型做到了真正的「开源」,研究人员将能分析 AI 模型背后的工作方式,AI 系统的潜在软件漏洞也将更加明显。相较于 OpenAI 的「闭源」系统 ChatGPT,其确切的架构是一个严格保密的秘密。

据 OSI 的项目时间表显示,他们预计在 2024 年 10 月在 All Things Open 会议上正式宣布「开源 AI」定义的最终版。

那么在这个定义下,有哪些大模型是「开源」的呢?据说在第一批名单里包括 EleutherAI 的 Pythia、Ai2 的 OLMo 和开源集体 LLM360 等。

「创新不应该需要许可」

在五月份的新闻发布会上,OSI 强调了为真正的「开源」AI 厘清定义的重要性。「AI 与常规软件不同,需要迫使所有利益相关者重新审视开源原则对该领域的适用性」,OSI 的执行董事 Stefano Maffulli 说,「OSI 相信每个人都应保有对技术的主导权和控制权。我们还认识到,当定义明确后,它将推动 AI 系统更加透明、更紧密的协作和无需许可的创新,市场就会繁荣发展。」

OSI 的最新草案不止要求「开源」模型本身及其权重,还要求对整个系统更加广义的开放。 一个 AI 系统要想被认定为「开源」,必须提供 OSI 定义的「适合修改的形式」,其中包括训练数据的详细信息、用于训练和运行系统的全部源代码,以及模型权重和参数。这些都必须在 OSI 认可的许可证或条款下提供。

值得注意的是,这份草案并没有强制要求公开原始训练数据。相反,它要求提供关于训练数据和方法的详细元数据。比如数据的来源、选择标准、预处理技术以及其他相关细节,方便研究者重建类似的系统。

这种方法旨在不公开实际数据集的情况下提供透明度和可复制性,在坚持开源原则的同时,从表面上解决了潜在的隐私和版权问题。不过是否能达成预计的效果,可能还有待进一步讨论。

训练数据的来源缺乏透明度,已经导致了一系列针对大型 AI 公司的诉讼。从 OpenAI 这样的业内带头人到 Suno 这样的小应用,这些公司的生成式 AI 产品除了声称包含「可公开访问的信息」外,并未披露太多有关其训练集的信息。很多人呼吁开源模型应该披露所有训练集,不过由于版权和数据所有权等问题,这一标准很难执行。

「这个定义最有趣的是,他们允许不公开训练数据,」独立 AI 研究员 Simon Willison 在接受外媒 Ars Technica 采访时说道:「这是一个非常务实的方法 —— 如果不允许这样,那就几乎就没有模型算『开源』了。」

OSI 想明确「开源」的定义,这个想法可以追溯到 2022 年,当时它首次开始联系有关组织,邀请他们一起来定义这个术语。

「经过近两年,我们从世界各地征求意见,来确定适合 AI 系统的开源原则,OSI 现在正在全球巡讲,希望能够完善并验证草案中的定义,」Maffulli 表示,「定义『开源』的研讨会仍在进行,现在参与还不晚,可以通过 OSI 网站找到论坛,发表评论建言献策。」

当最终定义在 10 月揭晓时,新的「开源」AI 定义可能对行业产生深远影响。它将影响公司以何种形式发布 AI 模型,并塑造未来的法规,例如加州备受争议的 SB-1047 法案。

希望新的定义,能够进一步推动大模型领域的技术创新。 

参考内容:

https://arstechnica.com/information-technology/2024/08/debate-over-open-source-ai-term-brings-new-push-to-formalize-definition/

https://opensource.org/deepdive/drafts/open-source-ai-definition-draft-v-0-0-9




#Partial coherence enhances parallelized photonic computing

牛津光计算论文登Nature正刊,分析帕金森患者步态准确率达92.2%

本文第一作者为牛津大学 Harish Bhaskaran 院士课题组董博维博士。Harish Bhaskaran 院士课题组的多名科研人员 2022 年在国内联合创立光计算芯片公司光本位科技,该公司在今年7月份的世界人工智能大会上宣布所研发的 128*128 矩阵规模光计算芯片算力密度和算力精度达到商用标准,董博维博士目前已与该公司建立合作关系,从光源、相变材料、硅光互联架构等多维度共同推进光子存算在人工智能领域的商业化落地。

光计算时代或许正在加速到来。

随着人工智能等技术对算力的需求日益增长,而传统电子计算的算力供给能力与人工智能产生的算力需求之间存在失配,这促使人们寻找新的算力增长点。

光计算具有高并行度、高能效比和高速度的特点,在构建大规模矩阵-矩阵并行计算系统时具有巨大优势。近年来,光计算领域涌现出许多研究成果和进展。

近日,牛津大学 Harish Bhaskaran 院士课题组董博维博士等研究人员在《Nature》正刊上发表论文「部分相干光可增强并行光计算」。

  • 论文链接:https://www.nature.com/articles/s41586-024-07590-y
  • 论文标题:Partial coherence enhances parallelized photonic computing

在论文中,他们证明了,降低光学相干性能够增强光子卷积处理。他们展示了一种利用降低的时间相干性(即部分相干系统)的光子卷积处理系统,以在不显著牺牲准确度的情况下提高处理并行性,并有可能实现大规模光子张量核。

这种方法消除了对众多移相器或 MRR 的精确控制的需求,并通过使用部分相干光源减轻了对严格反馈控制和热管理的要求。

研究者在两个用于计算应用的光子平台中展示了部分相干处理的广泛适用性:首先,他们使用相变材料光子存储器,通过 3×3 光子张量核进行并行卷积处理,对十名帕金森病患者的步态进行分类,实现了 92.2% 的准确率。其次,他们使用带有嵌入式 EAM 的 9×3 硅光子张量核实现了高速 0.108 TOPS 卷积处理器,用于矢量编码和权重设置,并结合片上光电探测器对 MNIST 手写数字数据集进行分类,准确率达到 92.4%。

光计算将加速人工智能新变革

光计算大多通过芯片作为载体,在光芯片上实现。光芯片指的是在用成熟 CMOS 电芯片工艺节点(180nm、130nm、90nm)改造而成的硅基光电子工艺下流片的芯片,可以运用在通信、传感和计算上。光通信领域,各大光通信厂商都已开始全面将设备芯片化,如将光开关集成到硅光芯片上,使得面积和功耗都下降 10-100 倍;传感领域,激光雷达厂商正在积极推动将固态雷达设备用硅光芯片替代,以缩小面积和降低成本;而计算是对硅光芯片工艺要求更高、调制更复杂的领域,技术上集成了通信、传感的先进工程化经验,也面向更庞大的人工智能市场。

光计算芯片是为人工智能而生。从理论基础上,光计算芯片天然适配于做并行、大规模的线性运算,而线性运算是当今世界所有主流人工智能算法的基石。从产业结构上,人工智能天然需要用大规模、大算力、安全可控的算力集群来完成生产力的跃迁,而在产生大量算力的同时,能耗控制决定了算力集群的效率和成本。光计算芯片提供了一个超大算力、超低能耗的算力集群的发展路线。在人工智能众多新兴领域里,光计算芯片天然适配于大模型、自动驾驶、具身智能等。

大模型的训练和推理需要大量的算力,光计算芯片可以极大降低大模型所需硬件的固定成本和使用成本。在固定成本方面,光计算芯片造价成本低,且无需先进制程流片。在使用成本方面,光计算芯片能效比极高,同样算力下耗电量仅为电芯片的 1/100。可以说,光计算芯片是最适合于大模型未来发展的算力核心硬件。

自动驾驶在从 L3 至 L5 的发展过程中,算力需求会从每辆车 300TOPS 激增到 2000TOPS,在现有自动驾驶电芯片的能耗条件下,L5 所需求的算力会带来超过千瓦的耗电量,目前的电池是难以持续支撑的。光计算芯片提供了一个在大算力前提下不产生大功耗的解决方案,从而保证了新能源汽车在 L5 全自动驾驶下依然有出色的续航表现。

具身智能系统要实现与人类互动并完成多样化指令要求,决策层的多模态处理不可或缺。作为具身智能的实体之一,智能机器人的强化学习和模型训练方面需要强大的算力支持。光计算芯片具备的高速率、低延迟、高并行能力、低能耗、不易受干扰等特性,能够为具身智能系统的技术发展和产业化应用提供重要基础支撑。

大规模光计算芯片调控成本高

光计算芯片可以解决大模型、自动驾驶、具身智能的痛点,但由于光的波特性需要复杂调控,实现大规模光计算芯片一直是个难题。

大规模光计算芯片需使用多个激光光源,每个激光的波长和相位需要精准调控。同时,光信号处理硬件也需要实现对波长和相位的精准调控。这类似往水池中的不同位置同时丢下多个石块,并要求在特定的观测点能够观测到固定的水纹。所需精准调控虽然理论上可行,但调控复杂,且需要巨大的调控成本,限制了光计算芯片的大型化发展。

过去的一个世纪内,科学家们专注于实现对光源波长和相位的精准控制,提升光学相干性(图 1)。使用高相干性激光是实现新兴光应用的基本思路,包括光计算。已展示的光计算系统皆使用高品质激光作为光源。

51c大模型~合集42_大模型_07

图 1:   高光学相干性加速新兴光应用的发展。图源:董博维.

部分相干光可增强并行光计算

近日发表在《Nature》上的工作打破了使用高品质相干光这一思维惯性,反常规地探究了降低光源相干性对光计算芯片的影响,展示了低品质光源可提高光计算性能。牛津大学 Harish Bhaskaran 院士(英国皇家工程院院士)课题组董博维博士等研究人员,展示了使用单一光源即可运行大规模光计算芯片,无需复杂的光源及片上波长、相位调控。

研究人员发现,通过降低光源的品质,打破光源的相干性,可以有效消除光计算芯片中的相位噪声问题,避免复杂的系统相位调控,同时通过提升带宽利用率大幅提高系统算力。

研究人员在存内光计算芯片和电吸收调制器阵列光计算芯片两个平台内展示了这一新方法的优越性。与现有技术相比,这项新技术有望将光芯片算力提升两个数量级,且通过降低系统控制复杂度大幅降低系统能耗。

打破光源相干性,消除相位敏感性

通过降低光源相干性,使用部分相干光源,相位敏感性可被彻底消除,一个窄带部分相干光即可应对多个输入通道。这一方法解耦了波长数量与输入通道数量的关联性。

假设光计算芯片的工作带宽为 80nm,部分相干光的线宽为 0.8nm,此时输入通道数可为任意大小,且计算并行度可为固定的数值 100,从而提供比传统相干光源光计算系统高 100 倍的算力。

研究人员通过实验验证了这一假设。如图 2 所示,在光计算系统中,若在多输入通道中使用单一激光,会发生明显的由干涉引起的强度扰动,影响计算结果(图 2b)。若使用单一部分相干光,可观测到强度扰动被彻底消除,得到稳定的计算结果(图 2c)。

51c大模型~合集42_大模型_08

图 2:   部分相干光彻底消除干涉引起的光强扰动,使单一光源对应任意大小的光计算芯片成为可能。图源:Nature.



#一次性解决一千个问题,AI让数学摆脱蛮力计算

陶哲轩IMO演讲全文

在探索「数学之美」的路上,人工智能到底走到哪一步了?说到这个话题,可能没人比数学家陶哲轩更懂。他几乎是最常用 AI 辅助证明的数学家之一,还在今年的 AI 数学奥林匹克竞赛(AIMO 进步奖)担任了顾问委员。

最近,在 IMO 2024 的一场演讲中,陶哲轩全面回顾和展望了计算机与人工智能在数学研究中应用范式的演变。

视频链接:https://www.youtube.com/watch?v=e049IoFBnLA

为期一个小时的演讲中,他从早期计算工具讨论到现代机器学习和形式化证明助手的演变过程,还着重介绍了最近取得的突破和面临的挑战。陶哲轩强调,虽然人工智能在数学领域的作用越来越大,但人类的洞察力和创造力对于在该领域取得有意义的进展仍然至关重要。

以下是陶哲轩演讲全文:

谢谢!回到 IMO 我很开心,在 IMO 的那段时间是我一生中最快乐的时光之一。现在回想起来,仍然觉得很美好。我希望大家都能玩得开心,无论你是否取得了好成绩,不仅仅是在比赛中,在社交活动中也是如此。

我的演讲主题是人工智能,更广泛地说,是如何用计算机辅助数学。你们都听说过人工智能以及它如何改变一切。今年早些时候,DeepMind 发布了一款新产品 AlphaGeometry。因此,这场演讲我将更多地讨论这些工具如何开始改变数学研究。

数学研究不同于数学竞赛,解决一个问题不止需要 3 个小时,而是需要几个月。有时,你解决不了问题,就必须改变问题。虽然在技巧上有一些重叠,但这与数学竞赛绝对不同。因此,AI 的加入太令人兴奋了,而且具备变革性。

但另一方面,这也是一种连续性。我们使用计算机和机器进行数学运算已经有很长一段时间了。即使做数学的方式和性质正在发生变化,但我们实际上是沿袭了机器辅助的悠久传统。

那么,有个问题:我们使用机器进行数学运算有多久了?

答案是数千年。这是罗马人用来做数学运算的机器,它不是很灵巧。

计算机呢?我们用计算机做数学题有多久了?大约有 300 到 400 年。有点奇怪吧,因为现代计算机直到 20 世纪 30 年代和 40 年代才出现。在此之前,计算机并不是电子的,而是机械的,再之前,它们是「人类」。「计算机」实际上是一种职业,是「计算的人」。

这是世界大战期间的「计算机集群」,用来计算弹道等等。这些计算机通常都是女孩,因为男人们的工作是打仗。还有一些程序员,他们负责告诉女孩们该做什么。那时计算能力的基本单位和 CPU 无关。

所以,一千个女孩这样工作一小时,能完成多少计算量?

正如我所说,我们使用计算机的历史可以追溯到 18 世纪甚至更早。在那个时代,计算机最基本的用途就是建立表格。我上高中时还在课程中学习如何使用这些已被淘汰的表格。

当然,现在我们有了计算器和电脑。现在我们仍然使用表格。在数学研究中,我们依赖表格,即使现在叫它们数据库,但本质上是一个东西。

数学领域的许多重要成果都是通过数论中的表格首次发现的。数论中最基本的成果之一叫做素数理论。Legendre 和 Gauss 发现了它,虽然无法证明这一点,但他们推测这是真的。

在数论中有一个非常核心的问题,叫做伯金 - 斯旺顿模猜想((Birch and Swinnerton-Dyer),我想在这里谈谈。

这个猜想也是通过大量的表格发现的。现在,包括我在内的很多数学家都在使用一个表格,叫做「整数序列在线百科全书」(Online Encyclopedia of Integar Sequences,OEIS)。也许你也会遇到它,你可能会认出很多整数序列。

比如我告诉你 1,1,2,3,5,8,13 这个序列,OEIS 就是一个包含数十万个类似序列的数据库。

很多时候,数学家在研究一个问题时,都会涉及到一些数字的自然序列。例如,也许有一个取决于 n 的空间序列,你可以计算出这些数字中的前五六个或前十个,然后将其放入 OEIS 中进行比较。

如果你运气好的话,这个序列已经被别人放在那里了。它可能来自于一个完全不同的来源,比如是对其他数学问题的研究。这就给了你一个很大的线索 —— 两个问题之间存在着联系,许多研究都是这样产生的。

表格就是我们最早使用计算机的方法之一。当你想到用计算机来做数学题时,你会想到数值运算,它是可持续计算的正式名称。你想要做一个非常庞大的计算,就需要做很多很多的算术运算。

把它输出给计算机,我们从上世纪 20 年代就开始做了。也许第一个真正进行科学计算的人是 Hendrick Lorentz。他的任务是建一个巨大的像办公室一样的东西,他们想知道水流的内部是怎么回事,所以他们必须建立一些流体方程模型。

他用了一大堆人类计算机来解决这个问题,且不得不发明了浮点运算来完成这项工作。他意识到,想让很多人快速完成大量计算,应该用浮点来表示大量不同大小的数字。

当然,我们现在用计算机来建模各种事物,比如解决大量线性方程或偏微分方程,做一些商业计算。它还可以解决代数问题,许多几何题原则上也都可以通过科学计算来解决。

不幸的是,一旦它的计算规模增加,其复杂性就会变成指数级。因此,直到最近,用计算机代数软件蛮力解决这些问题还不太可行。但现在有了人工智能系统,这件事也许就更有希望了。

另一种已变得相当强大的科学计算是所谓的 SAT 求解器。它们基本上可以解决逻辑难题。比如,如果你有 10 个陈述或者 1000 个陈述都是真的或假的,而你知道,如果第 3 个陈述是真的,第 6 个陈述是真的,那么第 7 个陈述一定是假的。如果给你一大堆这样的限制条件,SAT 求解器就会尝试接受所有这些信息,然后总结:你能证明这些句子的某种组合吗?

SAT 求解器还有一个更花哨的版本,叫做 SMT 求解器。在这里,你还会有一些变量 x、y 和 z,你还会假设一些法则。但不幸的是,它们的规模也非常大,根本无法很好地扩展。同样,解决这些问题的时间和复杂度也会呈指数级增长。一旦超过 1000 个左右的命题,就很难在任何合理的时间内运行这些。

但它们实际上可以解决一些问题。比如最近的一个成功案例,如图所示,可能只有计算机才能解决,我认为只凭一个人根本解出不来。

这就是所谓的毕达哥拉斯三元组问题,在大型计算机服务器计算之前,这个问题一直没有解决。

问题是,你把自然数染成两种颜色:红色或蓝色,但无论你如何给这两个自然数着色,其中一种颜色都必须包含一个毕达哥拉斯三元组 A、B、C 三个数。

现在我们知道了,事实上并不需要穷举,只需要查到 7824。

这个证明需要 7 个 CPU-year 计算。他们生成了 200 兆字节,后来被压缩到 68 千兆字节。这就是我们利用计算机进行大量案例分析的一种方式。

但近年来,我们开始用更有创意的方式使用计算机。因此,有三种方式可以利用计算机进行数学运算。我觉得我真的很兴奋,尤其是当它们相互结合,并与更经典的数据库 —— 表格和符号计算,这种科学计算结合在一起的时候。

首先,我们利用机器学习和较新的网络来发现新的联系,并找出不同类型数学之间的关联方式,而这些方式是人类无法看到或不太可能看到的。

尤其是大型语言模型,某种意义上说,它是机器学习的大型版本,是一种可以使用自然语言的算法,比如 ChatGPT 等。它们可以生成可能的证明、解决问题的方法,这些方法有时有效,有时无效。在我之后的演讲中,你会看到更多这样的例子。

不过,还有另一种技术刚刚被日常数学家所使用,这就是所谓的形式化证明辅助。计算机语言是用来编写可执行代码的,而形式化辅助证明则是用来检查事物的语言,用来检查某个论证是否真实,是否能从数据中得出结论。

这些语言使用起来相当烦人,而现在它们变得越来越容易上手了。它们促进了许多有趣的数学项目,如果没有这些证明辅助工具,这些项目是不可能完成的,而且它们将来会与我在这里介绍的其他工具结合得非常好。

所以,我想谈谈使用机器和计算机辅助数学研究的新成果。从证明辅助开始吧。是的,历史上第一个真正意义上的计算机辅助证明可能是四色定理的证明,即「任何一张地图,只用四种颜色,就能让相邻的国家染上不同的颜色」。

1976 年那时,还没有辅助证明。实际上,当时做的尚不能称之为计算机证明。如今,这是一个需要大量计算的证明,其中一半由计算机完成,一半由人类完成。

他们证明四色定理的方法是:你基本上可以归纳出国家的数量,并证明如果你有一个庞大的地图,其中有一些国家的子图,那么就会产生一个大约有 1000 到 2000 个特殊子图的列表。

其中有一些工作他们可以通过计算机完成,但也不得不手工将每张图表输入程序并进行检查。这项任务实际上是由人工计算机完成的,其中一位作者的女儿不得不花上几个小时手动检查。工作非常繁琐,而且过程并不完美。有很多小错误,他们不得不更新表格。因此,这并不是现代计算机证明的标准,计算机可验证的证明是在九十年代才出现的,当时只用了 700 多个图就得到了一个更简单的证明。

但现在,所有需要检查的东西,都可以通过一种非常精确的方式找到属性列表。你可以用你喜欢的计算机语言(C 或 Python 或其他语言)编写代码,用几页纸和几百行代码就能检查出来,几分钟就能搞定。然后再实际检查它是否完全正确,并提供一个一直到数学公理的证明。

从证明首次出现,到我们可以用计算机完全验证,这中间有一个巨大的鸿沟。

另一个有名的例子是开普勒猜想。说起来非常简单。即如何在三维空间中最有效地堆叠球体,以最大限度地填充空间。如下展示了一种「三角形」的堆积方式,它看起来就像水果店里堆着的橘子一样。还有一种对偶的立方堆积方式。两种堆积方式的密度是相同的,都约为 74%。

51c大模型~合集42_大模型_09

问题是,开普勒猜想,这个难题困扰了数学家几个世纪。二维空间的最佳堆积并不难证明。但拓展到 24 维度,我们直到最近才得出答案,乌克兰女数学家 Viazovska 最近解决了这个问题。

有一种证明开普勒猜想的策略,虽然堆叠的球的数量是无限的,但我们可以先试着把它简化成一个有限的问题,用电脑来处理。

匈牙利数学家 Tóth 在 50 年代提出了一个重要的想法,即将开普勒猜想的证明转化为一个有限的组合问题。每次堆积时,空间会被细分成一些称为「沃罗诺伊区域」的多面体。这些区域是通过找出哪些点更接近某个球体而不是其他球体来确定的。

可以通过计算「沃罗诺伊区域」的体积等属性,进一步得知球体在空间中的排列密度。因此,如果你能算出这些多面体的体积在平均上如何变化,那么就可以估算堆积密度的最大值。你还可以尝试找出这些多面体之间的关系,比如,如果一个多面体非常大,可能会导致附近的多面体非常小。

因此,你可以试着找到一些不等式,基于这些不等式,进行线性规划等数学运算,最后得出了一个正确的值。然而,尽管许多人尝试了这种方法,有些甚至声称成功了,但没有一个被公认为是正式的证明。

这个问题最终首先由 Thomas Hales 和他的合作伙伴 Ferguson 解决了。他基本上采用了与前人相同的策略,但在技术层面做了很多调整,比如他没有直接计算多面体体积,而是发明了一种评分系统,通过对每个单元进行科学评分来优化计算。

这些评分基于体积并进行了微调,目标是通过线性不等式约束不同单元的得分,最终计算出密度的最大值,从而得出开普勒猜想在三维中的答案。

这种方法非常灵活,但也因为过于灵活,导致有太多变量,比如设置评分的方法等。这也把问题搞得更复杂了。

Hales 和 Ferguson 意识到,一旦计算函数的最小值时出了问题,就得改变得分函数,从头再来。但这样一来,所有已经检查过的工作都得重做。于是,评分系统变得越来越复杂。他们在这方面的工作持续了将近十年,每改一次都需要花费数月来调整。

Hales 在一篇文章中曾写道:「这种不断调整的做法并不受同行们欢迎。每当我在学术会议上展示自己的新成果,我总是在展示不同函数的最小值。而且更糟糕的是,新函数与我之前的论文不完全兼容,因此我不得不回去修改和补充早期的工作。」当然尽管如此,他们最终还是证明出来了开普勒猜想在三维中的答案。

起初,他们并不打算用计算机辅助证明,但随着项目越来越复杂,他们不可避免地越来越多用到计算机。按照当时的标准,这个证明的规模极为庞大。到 1998 年,整个证明包括了 250 页的笔记以及 3GB 的计算机程序和数据。

同时,使用计算机导致 Thomas Hales 的论文难以通过审查。Hales 把论文提交给了数学顶级期刊之一《数学年刊》(Annals of Mathematics),整个审稿过程持续了四年,审稿委员会包括 12 名审稿人。最终,他们表示 99% 地确定证明是正确的,但无法完全确认其中的所有计算。出于这种不确定性,编辑们采取了非常罕见的做法,发表了论文,并附上了一个来自编辑的保留说明,提醒读者有未完全验证的部分。不过后来,这个保留说明被移除了。

当时,关于计算机辅助证明是否可以被视为真正的数学证明存在相当大的争议。即使在论文发表后,仍有一些数学家质疑这是否真正构成一个完整的证明。

这可能是第一个用计算机辅助数学证明的大事件。这促使数学家们开始推动如何将证明过程完全形式化。Thomas Hales 因此创建了一个项目 ——「Flyspeck」,基于已有的计算机语言,他带领团队构建了一种适用于数学证明的语言,来形式化他的开普勒猜想证明。

起初,他估计这一过程需要 20 年,但在 21 位合作者的帮助下,他在 12 年内完成了,并在 2014 年正式发表。如今,我们对「Flyspeck」充满信心。即便整个过程非常艰难,在过去的几年中,我们仍在逐渐摸索出一种更好的工作流程来形式化证明。

彼得・朔尔策(Peter Scholze)是一位非常杰出的年轻数学家,曾获得菲尔兹奖,他因许多成就而闻名,其中之一就是他创造了一个极具潜力的数学领域,称为「凝聚态数学(Condensed Mathematics)」。这个领域结合了代数、范畴论等工具,应用于泛函分析的理论,如度量空间等。在泛函分析中,传统上比较抗拒代数方法的应用,但凝聚数学原则上可以用代数方法解决一些关于函数空间的某些问题。

朔尔策建立了「凝聚群」和「凝聚向量空间」这一整套理论。他的主要观点是,我们在研究生课程中学习的函数空间的范畴是不正确的,或者说并非具备最佳性质的自然范畴。然而,这套理论中有一个非常重要的消失定理需要证明,尽管朔尔策没有详细解释其中的符号和术语。

朔尔策的凝聚数学理论中有一个非常难的消灭定理(vanishing theorem),涉及某个范畴论群的计算。这个消失定理是他理论的基础,如果无法证明该定理,那么凝聚数学的框架就无法发挥其应有的潜力。

他在博客中写道:自己花了一整年时间,深陷于证明这个定理的过程中,几乎因此而疯狂。最终,他把推理写在了纸上,但没有人敢详细查看其中的细节。因此,他仍然对这个定理存有疑虑。他指出,如果这个凝聚数学的表述能有效应用于泛函分析领域,那么它的意义将极为重要。然而,他也表示,99.9% 的确定性仍然不够,因为这一工作的主题具有极其基础性的作用。

他说:「他很高兴看到世界各地有许多学习小组在讨论相关竞赛事件,但他们都没有深入到这个定理的证明部分。」他表示,这趟数学旅程并不是很有趣。他还强调,这可能是他最重要的一项工作,因此必须确保其正确性。

他很希望将这个定理用更现代的语言进行形式化。他使用一种叫做 Lean 的 Preface 语言。Lean 是近年来得到广泛开发的语言,背后有一个众包的数学库开发团队。越深入和高级的数学领域证明就越显得繁琐,尤其是像这种高深的数学领域,使用 Lean 可以帮助更加简洁地形式化复杂的证明过程。

数学库已经发展成为一个核心资源,它已经证明了许多中间结果。你在本科数学课程中可能会看到的一些基础内容,比如基础微积分、群论或拓扑学的基本概念等,都已经被形式化。因此,Lean 提供了一个坚实的基础,让你不必从数学公理重新开始,而是从大致相当于本科数学教育的水平出发。尽管与更高级的数学研究还有很大差距,但这一基础已经能大大帮助复杂数学问题的形式化过程。

为了形式化这个定理,他们不得不添加许多额外的内容,因为 Lean 的数学库目前仍不完整。在数学的许多领域里,比如同调代数理论和层理论,还需要被加入到这个库中。这些高级数学工具对于更复杂的数学证明是必要的,但 Lean 目前的库还没有完全覆盖这些内容,因此需要继续扩展以支持更广泛的数学领域。

在 EMEA 项目中,仅用了 18 个月,他们就能够能用 Lean 自动化地证明这一定理,Lean 的证明基本上是正确的。他们还找到了一些简化方法。有些步骤用代码实现起来太难,因此他们被迫寻找一些捷径。这个项目带来的是长远的价值。首先,他们极大地丰富了 Lean 的数学库,能够处理大量的抽象代数了。那些为支持该项目而构建的软件,后续的项目也在用。

例如,EMEA 项目中衍生出了一种名为「蓝图」的工具。想象一下,要直接形式化一个长达 50 页的证明,确实很痛苦。你需要在脑海中保持整个证明的连贯性。

「蓝图」的界面

为此,我们找到了正确的工作流程:首先为这个大型证明编写一个「蓝图」,它将证明分解成了数百个小步骤。每个步骤都可以单独形式化,然后将它们组合起来。你首先编写这个「蓝图」,你的团队成员可以分别处理不同部分。这种拆分还让我们得到了一点启示:如果想以人类的方式阅读数学证明,「蓝图」是最佳选择。

目前,人们正在致力于将这份长达数万行的形式化证明转换回人类可读的形式。为此,已经开发了一些新工具。例如,你可以将 Lean 的格式转换成人类可读的形式。这里有一个拓扑问题的例子。这里的所有文本都是计算机根据形式化证明自动生成的,看起来和一个人类写出来的没什么差别。

它同样使用数学语言,但它的互动性更强。你可以点击任何位置,它会告诉你你当前处于哪个位置,假设是什么,你要证明什么,变量是什么。如果某个步骤太简略,你可以展开,它会解释每个词的来源。如果你愿意,还可以一直深入探索每一个细节。

我觉得这是一个很棒的想法。我相信未来的教材会以这种互动的形式编写。你先对它们进行形式化,然后就可以制作出更加互动的教材,内部内容也会更加灵活多样。

受此启发,我自己也开始了一个形式化的项目。去年,我与其他几个人一起解决了一个关于组合产物的问题。

这个证明大约有 33 页,我们在相对较短的时间内完成了它的形式化,可能依然是最快形式化的研究论文。用了三周时间,团队有 20 人左右,利用了所有已经开发出来的蓝图工具完成了这一切。总的来说,这种方法让证明过程更加开放和协作化。而且你还能获得很多漂亮的可视化图表。正如我之前提到的,第一步是把你的大定理拆解成许多小部分。我们有一个定理,称为 PFR,接下来我们会解释为什么。在这张图的底部,有一个表示「宇宙」的小气泡。

然后我们引入了所有这些其他陈述,比如说某个证明必须依赖于之前的几个陈述,而这些陈述又依赖于更早的陈述。因此,形成了一个依赖图,图中的不同颜色表示这些陈述是否已形式化。绿色的气泡表示这个陈述已经在你的形式化语言中得到了正式证明 ;蓝色的气泡表示这个陈述还没有形式化,但已经准备好进行形式化,因为所有定义都已经就位。

51c大模型~合集42_大模型_10

而白色气泡表示,连陈述都还没有被形式化,需要有人把陈述写出来。因此,这就形成了一棵任务树。这个项目的妙处在于,你可以让所有人独立合作,处理任务图中的不同部分。每个小气泡对应一个陈述,而你不需要理解整个证明,只需处理你负责的那一部分就可以了。

比如,这个问题是一个常见选择题,但参与的人中有概率论领域的专家,也有一些根本不是数学家的人。他们是计算机程序员,但非常擅长解决这类小型谜题。所以每个人都挑选了一个他们觉得自己能处理的小气泡,并完成了它。最后,我们在三周内完成了整个项目,这真的是一个非常令人兴奋的项目。

在数学领域,我们通常不会与这么多人合作,通常一个团队最多也就五个人左右。这是由于合作大型项目时,团队中每个人的数学水平都要值得信任。需要确保他们的工作都是正确的,并且达到一定的质量标准。但这一般不太可能。

但用 Lean 编译器做这种项目,它可以自动检查。上传无法编译的内容会被编译器拒绝。因此,你可以与从未见过面的人通过 Lean 合作。我在这个过程中遇到了很多人,也为在 Lean 社区遇到的伙伴写了不少推荐信。

51c大模型~合集42_大模型_11

Lean 的格式让数学家们可以更好地分工合作。

擅长 Lean 的专家可以专注于将项目的一部分转化为 Lean,不太熟悉 Lean 的数学家可以继续原来的工作,将用 Lean 将其程式化的工作留给其他人。虽然 Lean 不能做到完全精确。如果你懂这门语言,AI 给出答案是可读的,但它看起来有点单薄并且不太符合常规。但它可以把任务分解,有一些人可以从宏观角度审视整个项目,有的人可以专注于自己擅长的一小部分。我认为这种研究方式在数学领域将越来越常见。

使用这些工具仍然挺痛苦的。虽然这些工具正在降低门槛,变得对用户更友好,但我们仍然需要具备一些编程专业知识,比如改格式比手算要多花 10 倍的时间。

另一方面,比如图中的定理中有一个数字 12,在证明过程中想要把这个 12 改成 11。但是这样必须重写整个证明,或者一个一个地把 12 剪切粘贴成 11。但当我们将其程式化后,这个效率大大提高了,把 12 更改为 11 只花了几天时间。只把某处的 12 改成了 11,编译器自动在五个类似的地方报错了。

像这类工作已经不需要亲自处理了,我们直接针对它做优化。因此,对于一些特定的数学研究,通过程式化的方法实际比传统方法更快。

目前,也有相当多这种用计算机辅助的大型数学证明项目正在进行。其中最引人瞩目的应数 Kevin Buzzard 正在用 Lean 证明费马大定理,他刚刚获得了一笔巨额资助。他表示,完成这项工作的主要工作大概需要五年时间,实际上,该项目已经开始取得进展。

下面来谈谈机器学习对数学领域的应用,我先跳过用机器学习来解偏微分方程的话题,谈谈机器学习的另一个应用。数学中的「纽结理论」(Knot Theory)是一个相当有趣的领域。它是众多的数学领域的交汇处。

2021 年,Alex Davies 等人通过机器学习拓展了对「纽结理论」的新认知。

从本质来看,一个结是一个在空间中闭合的环状或曲线。如果能够通过连续的变形,将一个结平滑地转换为另一个结,且在整个过程中结不穿越自身,那么这两个结在数学上被认为是「同胚」的。这种连续变形的过程,确保了结的拓扑性质得以保持,也就是说,在拓扑学的视角下,它们的类型是等价的。

我们可以通过机器学习来自动地识别结的性质,并对其变化的过程进行一些分析,例如,对不同类型的结进行分类,或者预测结的性质,比如它们的形态是否稳定,或者预测它可能转变成什么新形状。这些知识可以扩展到材料科学、生物学等等领域,从而为这些领域带来新的见解和解决方案。

51c大模型~合集42_大模型_12

「同胚」的结

「纽结理论」中的核心问题之一便是判断两个结是否具有等价性。面对两个结,我们是否能够找到一种方式,将一个结变换为另一个?

通常,我们通过「结不变量」来解决这个问题。「结不变量」往往是一系列数字或多项式,它们与结的结构紧密相关,并且在结的任何连续变换下都保持恒定。换言之,这些数值或多项式的不变性为我们提供了一种可靠的判断标准:如果两个结的「结不变量」不相等,那么这两个结就不可能是等价的。这是一种判断结等价的定量方法。

「结不变量」也有多种类型,其中一种称为「signature」。它通过一种特定的计数方法。首先,将结展平,然后计算交叉点的数量,区分哪些线段是相互跨越的,哪些是相互位于下方的。基于这些交叉点的信息,我们可以构造一个特定的矩阵。通过进一步的数学处理,我们得到一个名为「signature」的整数。

此外,还有一些著名的多项式也是「结不变量」,如「琼斯多项式」(Jones polynomial)和「霍姆费利多项式」(HOMFLY-PT polynomial)。不过,在此我就不深入讨论这些内容了。这些多项式、不变量为我们提供了深入理解结的复杂性和多样性的有力工具。

此外,还有一种判断标准,名为「双曲不变量」(hyperbolic invariants)。它源于几何学。你可以取结的补集,被称为双曲空间(hyperbolic space)。这种空间带有特定的几何结构,具备距离的概念,并且可以度量体积和其他一些不变量,它是实数或复数,可以用来判断两个结是否等价。

表格中展示了 1991 年由 Hildebrand 和 J. Weeks 进行的关于结的双曲不变量的研究。

这里列出了一系列关于结的假设,包括双曲体积、同调尖顶形状等等,它们涉及实数和复数。然而,没人知道这两者之间有什么联系。因此,有两种独立的方式来生成关于结的统计数据,但它们之间没有关联。

直到最近,人们才开始使用机器学习来解决这个问题。他们创建了数百万个结的数据库,并用这些数据训练了一个神经网络。结果发现,训练后的神经网络,可以根据所有的双曲几何不变量来预测签名,大约 90% 的时候它可以猜对。

这就形成了一个黑箱,它能够告诉你这些几何不变量中某处隐藏了签名的信息,但却不能解释这个黑箱的内部原理。不过这仍然有用,因为一旦有了这个黑箱,你就可以进行实验。接下来他们进行了显著性分析。

这种分析的原理是黑箱接收大约 20 个不同的输入,而输出是一个签名那么你可以通过改变每一个输入,来观察输出的变化概率。20 个输入中只有 3 个对输出起了重要作用,其他 17 个几乎没有影响,而且这 3 个也不是他们最初预期的。比如,他们本以为体积会很重要,但结果显示体积几乎无关紧要。三个重要的输入是长程平移和子午线平移的实数部分和复数部分。

一旦他们确定了最重要的输入就可以直接绘制签名与这三个输入之间的关系图,然后用人的视觉网络,而不是神经网络来观察其中的明显模式。通过观察这些图,他们可以提出一些关于问题的猜想。

尽管他们最初的猜想是错误的,但他们重新利用神经网络,证明了这个猜想的错误性,并根据错误之处进行了修正,最终得出了正确的猜想,成功解释了这个现象。一旦他们得出正确的陈述,他们就能够证明这一点,说明为什么签名与这些特定的不变量有如此密切的关系。

我认为这展示了机器学习在数学中的一个应用方式,它并不直接帮你解决问题,但能提供很多有用的提示,指引你去寻找关键的联系,不过最终还是需要人类来做出真正的关联。

最后,我们来谈谈大型语言模型,它们是最引人注目、也最为人所知的。神经网络已经存在了 20 年左右,而大型语言模型大约在 5 年左右就已经出现了,但直到最近,它们的输出才接近人类水平。你们可能都听说过 GPT-4,这是 ChatGPT 的一个模型。

非常著名的是,当 GPT-4 发布时,有一篇论文描述了它的能力。研究人员给它输入了 2022 年国际数学奥林匹克(IMO)的一道题,是一个稍微简化的版本。如果你研究过 2022 年的 IMO 题目,你会发现它不是完全相同的形式,这是一个简化版本。不过 GPT-4 给出了完整且正确的解答,它确实解决了一道 IMO 的题目。

但其实这是他们挑出来的。他们测试了数百道国际数学奥林匹克(IMO)级别的问题,成功率大概只有 1%。所以虽然这道特定的问题能够被解决,但他们必须以正确的方式来格式化问题才能得到解答。不过,尽管如此,这依然相当令人惊叹。

另一个有意思的是,某些人类觉得困难的事情,AI 可能可以轻松完成。而人类觉得容易的事情,AI 却常常难以处理。这是一种非常不同的解决问题方式。有研究人员曾让模型做一个简单的算术计算,像是 7×4 + 8×8。

模型只是根据输入猜测最可能的输出,结果它猜的答案是 120。然后它停顿了一下,说:「也许我应该解释一下为什么是 120。」于是它逐步展开解答,但当它一步一步进行计算时,实际上得出了正确的答案 ——92,而不是它最初猜的 120。如果你接着问:「等等,你之前说答案是 120。」 它会回复:「哦,那是个笔误,抱歉,正确答案是 92。」

所以它们并不是通过从基本原理推导出答案,而是每一步都在猜测接下来最自然的输出是什么。令人惊讶的是,有时候这种方法有效,但很多时候却不奏效。而如何让它们变得更加准确,仍然是一个正在进行的研究课题。

所以,人们正在尝试各种方法来改进这些模型。你可以将这些语言模型与其他更可靠的软件连接起来。实际上,接下来的演示中你会看到一个大型语言模型与其他工具连接的案例。在这种情况下,你不需要自己进行计算,而是将计算外包给 Python。不过你还可以做另一件事,强制语言模型只生成正确的答案,方法是让它们输出特定的编程语言格式。如果代码不能编译,你就把它返回给 AI,让 AI 重新尝试。

或者你也可以直接教它一些解决问题的技巧,比如我用来解决国际数学奥林匹克(IMO)问题的技巧,像是尝试简单例子、反证法,或者一步一步地证明等等。人们正在尝试各种各样的方法。虽然目前我们还远远没有能够解决大多数数学奥赛问题,更别提数学研究问题了,但我们确实在不断取得进展。除了能够直接解决问题外,AI 还可以作为某种灵感来源。

实际上,我自己也使用过这些模型,并尝试各种问题。我曾遇到一个难题,尝试了几种方法都没有成功。于是,作为实验,我向 GPT 询问它会建议使用哪些其他技术来解决这个问题。它给了我一个包含 10 种技术的列表,其中大概有五种是我已经试过但明显无用的方法,还有几种也不太有帮助。

但其中有一种技术我没有尝试过,那就是对这个特定问题使用生成函数。当它提出这个建议时,我意识到这确实是正确的方向,但我之前忽略了。所以,作为一个可以交流的人,它还是有一定用处的。虽然现在并不是特别出色,但也并非完全无用。

另一个已经变得非常有用的 AI 辅助类型是用于证明辅助的工具。正如我所说,写正式的证明是一项非常繁琐的任务,就像任何非常严苛的计算机语言一样,你必须确保语法完全正确,如果你漏掉一步,它就无法编译。现在有一些工具,比如我用过的 GitHub Copilot。

你可以写下证明的一半,然后它会试着猜测下一行应该是什么。在大约 20% 的情况下,Copilot 会猜出接近正确的内容,然后你可以选择接受它的建议。比如,在一个实例中,我正尝试证明某个命题,灰色部分是 Copilot 建议的代码。结果发现第一行没什么用,但第二行却上解决了这个问题。所以,你不能完全依赖它的输入,因为它不一定能编译成功。但如果你大致了解代码的工作方式,它可以为你节省很多时间。

51c大模型~合集42_大模型_13

这些工具正在不断改进。现在,如果证明只有一两行,它们可能能够自动完成。还有一些实验在进行中,尝试让 AI 生成证明,接着将其反馈给编译器,如果编译出错,再把错误信息传回 AI。

可以看到,这种方法可以处理大约四到五行的证明。当然,一个完整的大型证明通常有数万行,因此我们还远没有达到能够立刻将证明完全形式化的水平。但即便如此,它已经成为一个相当有用的工具了。

我们现在处于什么阶段?有人希望在未来几年内,我们能够直接使用计算机来解决数学问题。我认为距离这个目标,还有很长的路要走。对于一些细分领域中的问题,我们可以构建一个 AI 专家。但它们并不完全可靠。因此,至少在接下来的几年里,AI 将大概率扮演一个辅助的角色。

除了我们熟知的那种 AI 辅助「蛮力计算」之外,我认为还有一个特别令人兴奋的方向。尽管目前还没有真正成功,但是 AI 已经非常擅长生成猜想。我们已经看到了一些例子,AI 已经可以推测两个统计数据之间的联系。所以现在我们寄希望于创建庞大的数据集,将大量数据「喂」给 AI,然后它们就会自动生成各种数学对象间的联系。其实这还并没有实现,我们还不清楚如何做到这一点。当然,我们还没做出那种大体量的数据集。但我认为 AI 能生成数学猜想在将来很有可能成为现实。

证明数学定理是一个艰难、持久的过程。我们现在一次只能解决一个问题,如果效率够高,也许你也可以同时解决两三个问题。但是当我们有了 AI,可以一次性处理 1000 个类似的问题。你可以直接告诉 AI:「尝试用这种方法解决这 1000 个问题」,我们再检查结果,可能其中 35% 的问题已经用这种方式解决了。

此外,我能够将相似的问题综合起来一并解决。这种方法允许我们对整个问题集进行探索,而不是孤立地逐个击破。这是目前无法做到的,因为它可能需要几十年的时间,通过几十篇论文,用各种技术慢慢弄清楚。目前,我们仍然需要证明老式的定理。因为我们还没找到引导 AI 自动证明的方法。

但是凭借未来强大的 AI 能力,你将真的可以开始以一种真正前所未有的规模进行数学运算,未来将会非常激动人心。




#Loss of plasticity in deep continual learning

深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature

人工神经网络、深度学习方法和反向传播算法构成了现代机器学习和人工智能的基础。但现有方法往往是一个阶段更新网络权重,另一个阶段在使用或评估网络时权重保持不变。这与许多需要持续学习的应用程序形成鲜明对比。

最近,一篇发表在《nature》杂志上的研究论文《Loss of plasticity in deep continual learning》证明:标准的深度学习方法在持续学习环境中会逐渐失去可塑性(plasticity),直到它们的学习效果不比浅层网络好。

  • 论文地址:https://www.nature.com/articles/s41586-024-07711-7

值得注意的是,人工智能先驱、强化学习教父、DeepMind 杰出研究科学家,阿尔伯塔大学计算机科学教授 Richard S. Sutton 是这篇论文的作者之一。

简单来说,该研究使用经典的 ImageNet 数据集、神经网络和学习算法的各种变体来展示可塑性的丧失。只有通过不断向网络注入多样性的算法才能无限期地维持可塑性。基于这种思路,该研究还提出了「持续反向传播算法」,这是反向传播的一种变体,其中一小部分较少使用的单元被持续随机地重新初始化。实验结果表明,基于梯度下降的方法是不够的,持续的深度学习需要随机的、非梯度的成分来保持可变性和可塑性。

ImageNet 数据库包含数百万张用名词(类别)标记的图像,例如动物类型和日常物品。典型的 ImageNet 任务是猜测给定图像的标签。

为了使 ImageNet 适应持续学习,同时最大限度地减少所有其他变化,该研究通过成对的类构建了一系列二元分类任务。例如,第一个任务可能是区分猫和房屋,第二个任务可能是区分停车标志和校车。利用数据集中的 1000 个类,该研究能够以这种方式形成 50 万个二元分类任务。

对于每个任务,该研究首先在两个类的图像子集上训练深度学习网络,然后在这些类的单独测试集上测量其性能。在一个任务上训练和测试后,下一个任务从一对不同的类开始。研究团队将此问题称为「持续 ImageNet(Continual ImageNet)」。在持续 ImageNet 中,任务的难度随着时间的推移保持不变。性能下降意味着网络正在失去学习能力,这是可塑性丧失的直接表现。

该研究将各种标准深度学习网络应用于 Continual ImageNet,并测试了许多学习算法和参数设置。为了评估网络在任务中的性能,该研究测量了正确分类测试图像的百分比。

该研究发现:对于经过良好调整的网络,性能往往首先提高,然后大幅下降,最终接近或低于线性基线。当性能开始下降时,网络架构、算法参数和优化器的具体选择会产生影响,但多种选择都会导致性能严重下降。标准深度学习方法在后续任务中无法比线性网络更好地学习,这直接证明这些方法在持续学习问题中效果不佳。

51c大模型~合集42_大模型_14

令人惊讶的是,Adam、Dropout 和归一化等流行方法实际上增加了可塑性的损失;而 L2 正则化在许多情况下减少了可塑性的损失。

51c大模型~合集42_大模型_15

研究团队发现:显式保持网络权重较小的算法通常能够保持可塑性,甚至在许多任务中能够提高性能。

该研究基于上述发现,提出了反向传播算法的一种变体 —— 持续反向传播,该算法向网络注入可变性并保持其某些权重较小。

方法

持续反向传播

持续反向传播算法将选择性地对网络中低效的单元进行初始化处理。研究团队定义了名为「贡献效用」的值来衡量每个单元的重要性。如果神经网络中某个隐藏单元对它所连接的下游单元的影响很小,那么它的作用就可能被网络中其他更有影响力的隐藏单元掩盖。

贡献效用通过计算即时贡献的移动平均值来衡量,这个值由衰减率表示。在所有实验中,初始衰减率 η 设置为 0.99。在前馈神经网络中,第 l 层第 i 个隐藏单元在时间 t 的贡献效用

51c大模型~合集42_大模型_16

更新如下:

51c大模型~合集42_大模型_17

其中

51c大模型~合集42_大模型_18

是时间 t 时第 l 层第 i 个隐藏单元的输出,

51c大模型~合集42_大模型_19

代表其权重,

51c大模型~合集42_大模型_20

代表第 l+1 层的单元数量。

当一个隐藏单元被重新初始化时,它的输出的权重将被初始化为零。这么做是为了新添加的隐藏单元不会影响模型已经学到的功能。但是这样也容易导致新的隐藏单元很快被重新初始化。

为了防止这种情况,研究团队设置了「成熟阈值」,在 m 次更新前,即使新的隐藏单元的效用是零,也不会被重新初始化。当更新次数超过 m 后,每一步「成熟单元」的一部分 ρ(称为替换率),在每一层都会被重新初始化。替换率 ρ 通常设置为一个非常小的值,这意味着在数百次更新后只替换一个单元。例如,在 CIFAR-100 中,研究团队将替换率设置为 10 的负五次方,每一步,大约 0.00512 个单元被替换。这相当于大约每 200 次更新替换一次。

最终的算法结合了传统的反向传播和选择性重新初始化两种方法,以持续地从初始分布中引入随机单元。每次更新时,持续反向传播将执行梯度下降并选择性地重新初始化。

前馈神经网络的持续反向传播如算法1所示。处理小批量数据时,可以采取一种更经济的方法:通过对小批量数据上的即时贡献效用取平均值,而不是保持一个运行平均值来节省计算量。

51c大模型~合集42_大模型_21

51c大模型~合集42_大模型_22

在 ImageNet 上的应用

研究使用了包含 1000 个类别的 ImageNet 数据库,每个类别有 700 张图片,分为 600 张训练图像和 100 张测试图像。在二元分类任务中,网络首先在 1200 张训练图像上训练,然后在 200 张测试图像上评估分类准确度。

所有在持续 ImageNet 上使用的算法都采用了具有三个卷积加最大池化(convolutional-plus-max-pooling)层和三个全连接层的卷积网络。最终层有两个单元,对应两个类别。在任务变更时,这些单元的输入权重会重置为零。这种做法在深度持续学习中是标准做法,尽管它为学习系统提供了关于任务变化时间的特权信息。

线性网络的性能在持续 ImageNet 上不会下降,因为它在每个任务开始时都会重置。通过在数千个任务上取均值,得到线性网络性能的低方差估计值,作为基线。

网络使用带有动量的 SGD 在交叉熵损失上进行训练,动量参数设为 0.9。研究者测试了不同的步长参数,但为了清晰起见,只展示了 0.01、0.001 和 0.0001 的步长性能。

该研究还通过网格搜索确定了 L2 正则化、收缩和扰动以及持续反向传播算法的超参数,以在 5000 个任务上获得最高的平均分类准确度。L2 正则化和收缩扰动的超参数包括步长、权重衰减和噪声方差,持续反向传播的超参数包括步长和替换率,成熟度阈值设为 100。

研究者对所有超参数集合进行了 10 次独立运行,然后对表现最佳的超参数集合进行了额外的 20 次运行,总共 30 次。

51c大模型~合集42_大模型_23

CIFAR-100 的类别增量学习

在 CIFAR-100 的类别增量学习中,开始时,模型可以识别 5 种类型的图片,随着训练时间越来越长,模型能识别的图片种类越来越多,比如能同时学习 100 种类别的图片。在这个过程中,系统将通过测试检验自己的学习效果。数据集由 100 个类别组成,每个类别有 600 张图像,其中 450 张用于创建训练集,50 张用于验证集,100 张用于测试集。

每次增加学习的类别后,网络被训练 200 个周期,总共增加 20 次,共训练 4000 个周期。研究团队在前 60 个周期中将学习率设置为 0.1,接下来的 60 个周期为 0.02,此后的 30 个周期为 0.004,最后的 40 个周期为 0.0008。在每次增加的 200 个周期中,研究团队选出了在验证集上准确度最高的网络。为了防止过拟合,在每轮训练中,新网络的权重将被重置为上一轮准确度最高网络的权重。

他们选择了 18 层的 ResNet 做实验。在将输入图像呈现给网络之前,该研究进行了几个步骤的数据预处理。首先,将每张图像中所有像素的值重新缩放到 0 和 1 之间。然后,每个通道中的每个像素值通过该通道像素值的平均值和标准差分别进行中心化和重新缩放。最后,在将图像输入给网络之前,该研究对每张图像应用了三种随机数据转换:以 0.5 的概率随机水平翻转图像,通过在每边填充 4 个像素然后随机裁剪到原始大小来随机裁剪图像,以及在 0-15° 之间随机旋转图像。预处理的前两步应用于训练集、验证集和测试集,但随机转换仅应用于训练集中的图像。

该研究测试了多个超参数,以确保在特定架构下保持每个算法的最佳性能。对于基础系统,该研究测试的权重衰减参数取值范围为 {0.005, 0.0005, 0.00005}。对于「持续反向传播」,该研究测试的成熟度阈值取值范围为 {1000, 10000},替换率的取值范围为

51c大模型~合集42_大模型_24

,采用了公式 (1) 中描述的贡献效用。成熟度阈值为 1000,替换率为 10^(-5) 时,表现最佳。

51c大模型~合集42_大模型_25

作为参考,该研究还实现了一个具有与基础系统相同超参数的网络,但在每次增量的开始时都会重新初始化。图 2b 显示了每个算法相对于重新初始化网络的性能表现。

持续反向传播在全部的 100 个类别中的最终准确率为 76.13%,而扩展数据图 1b 展示了在成熟度阈值为 1000 时,持续反向传播在不同替换率下的性能表现。



#AnyGraph

港大黄超团队推出AnyGraph, 首次揭秘图大模型的Scaling Law

本文的主要作者来自香港大学的数据智能实验室 (Data Intelligence Lab@HKU)。第一作者是香港大学的博士后夏良昊,指导老师为黄超教授。香港大学数据智能实验室专注于人工智能和数据挖掘的研究,涵盖大语言模型、图神经网络、信息检索、推荐系统和时空数据挖掘等领域。实验室的研究成果在多个顶级会议上(如 WWW、SIGIR、KDD)获得了诸多荣誉,包括最具影响力论文和最佳论文候选。

AnyGraph 大模型,图模型泛化性的突破,致力于解决以下关键技术挑战:

  • 结构异质性:应对图结构信息中的分布偏移。
  • 特征异质性:处理跨图数据集的多样特征表示。
  • 快速适配:使模型迅速适应新的不同的图学习领域,展现敏捷适应力。
  • 大模型能力涌现:随着数据量和模型参数的增长,性能显著提升,释放模型潜能。

AnyGraph 的主要特点:

  • 图混合专家(GraphMoE):采用一系列专家模型,巧妙解决跨域异质性问题。
  • 轻量级图专家路由机制:快速适应策略,使模型能够迅速响应新的数据集和领域。
  • 自适应且高效的图专家模型:专为处理具有广泛图结构模式和特征空间的模型而定制设计。
  • 广泛训练和测试:在 38 个多样化的图数据集上经过严格验证,展现出卓越的泛化能力和模型扩展性,证明了其涌现能力。

51c大模型~合集42_大模型_26

作为一种重要的数据形式,图数据在社交网络、学术网络、交通系统和生物网络等多个领域有广泛应用。图模型,例如图神经网络(GNN),学习图中节点的表征向量,来捕捉结构信息和节点上的特征信息,从而进行准确预测。

近年来,图学习领域取得了显著进展,主要得益于图神经网络(GNNs)的强大功能、一些微调方法的提出、以及最近一些将图数据空间与自然语言空间进行对齐的尝试。然而,当前最先进的图模型在跨领域的泛化性能上仍显不足。

现有方法往往严重依赖繁琐的微调过程,难以应对真实图结构复杂、多样化的特点。这种无法快速无缝适应新图域的能力,阻碍了图学习技术的广泛应用。因此,解决这一挑战,搭建一个具有跨领域、强泛化性能的图基础模型,对于图学习领域至关重要。

为此,研究团队推出 AnyGraph, 首次揭秘图大模型的 Scaling Law。

  • 论文链接: https://arxiv.org/pdf/2408.10700
  • 项目地址: https://github.com/HKUDS/AnyGraph
  • 实验室主页: https://sites.google.com/view/chaoh

考虑到图数据的特点,以及受到语言和图像数据基础模型的启发,研究团队致力于解决以下几个关键问题:

  • 结构异质性:不同应用领域的图数据在结构上可以存在极大的差别,例如节点的平均度数、紧密子图出现的频率、噪音和缺失边数据的比例等。图结构模式的多样性,对图基础模型的容纳能力提出了严重的挑战。
  • 特征异质性:作为图数据的重要组成部份,节点特征在不同数据集中却存在普遍且极大的差异。例如,有的数据集采用离散的类别特征,有的可能采用连续的数值特征,有的采用文本语意 embedding,有的采用图结构的统计信息。此外,不同数据集的节点特征在向量维度这一基本特点上甚至都具有极大的差异。如何使图基础模型在零样本情况下处理不同图的异质特征,是一个关键挑战。
  • 快速适应以实现广泛应用。有效的图基础模型的关键能力之一是能够高效地适应新的图数据集和领域。理想模型应能够迅速调整其参数和学习策略,以处理之前未见过的图数据集的结构和分布特征,而无需进行大量的重新训练或微调。
  • 图基础模型的扩展定律与变革性能力。在计算机视觉和自然语言处理等领域中,成功的基础模型具有一个关键特性 —— 扩展定律(Scaling Law),即随着模型大小或训练数据集的增加,性能会系统地提升。探索图基础模型是否适用这一定律,也是本文研究的一个重要问题。

为了解决上述问题, AnyGraph 提出了以下关键性技术。

图 MoE 模型

不同图之间巨大的结构和特征差异,促使我们采用一种更 “松散” 的模型架构。AnyGraph 的 MoE 架构使用完全不同的专家模型来处理差异极大的图数据,模型无需在高度耦合的单个神经网络中巧妙地容纳不同数据的建模和处理过程。

具体来说,AnyGraph 的 MoE 架构包含多个图数据专家模型,每个专家模型均能对所有输入的图数据进行处理和预测,但所擅长的领域和模式不同。例如,有的专家模型擅长处理文本 embedding 特征,有的擅长处理图的邻接矩阵特征;有的专家模型擅长处理稠密数据,而有的擅长处理稀疏数据。

为了向每个专家模型分配适合的任务,AnyGraph 设计了一种专家路由机制,在训练和测试过程中,基于专家模型对数据的擅长程度进行匹配。

基于这一 MoE 架构,AnyGraph 对图数据的知识存储在不同的专家模型中,而不同的专家模型不需要进行相互的协调和耦合,从而更容易地容纳图数据之间的巨大差异,解决跨领域情况下的结构和特征异构性问题。

此外,MoE 架构使得 AnyGraph 仅需使用几分之一的模型参数,就可以完成单个大模型具备的训练和预测效果,大大提升了模型的快速适应能力。

下图展示的消融实验中,我们验证了采用单个模型(-MoE)相对于使用 MoE 架构的劣势。

51c大模型~合集42_大模型_27

轻量化的图专家路由机制

专家模型路由负责为输入的数据集匹配适合的专家,以进行更准确的预测、以及更适当的专家训练。

受到图自监督学习的启发,我们的图专家路由采用一种自监督损失,来衡量不同专家模型完成不同数据集的能力,以进行匹配。

在不引入额外标签数据的情况下,我们的自监督任务损失可以准确衡量专家模型处理不同图数据的误差程度。在模型调试过程中,我们发现这一自监督路由算法与遍历所有分配情况所得到的最优分配方案相差无几。

下图展示了我们的路由机制对数据集的分配情况,可以看到,相关的数据集总是被分到同样的专家模型中,例如 arxiv-ta, Photo, GReads, Fitness 等使用同样特征空间的数据集,以及 ML1M 和 ML10M 这两个同源数据集。此外,路由算法的准确性,不仅可以在训练数据集上观察到,在下图右半部分中,模型从未见过的测试数据集也可以进行准确路由。这体现了 AnyGraph 路由机制的通用性和模型的泛化性能。

51c大模型~合集42_大模型_28

自适应且高效的图专家

结构和特征的异构性,在模型设计的底层带来了诸多挑战,例如模型如何处理不同维度的特征向量、如何处理二维可变长的邻接矩阵、图专家如何设计可以高效处理不同图类型的变换和预测。

我们的图专家模型采用奇异值分解 SVD 方法对邻接矩阵和节点特征矩阵进行了维度统一。同时,这种统一的特征处理过程,具有一定的语义统一性,为跨数据集的零样本预测打下了基础。

由于我们在高层采用了 MoE 架构集成多个预测模型,我们在单个图专家中采用了简单的 MLP 网络,希望所有的建模问题都能通过采用合适的特征变换来解决。这样做大大增强了模型的效率,使 AnyGraph 甚至在训练效率上超过传统的图网络模型。

下图实验对比了 AnyGraph,以及普通的 GCN 方法、预训练方法 GraphCL 三种方法,在不同数据集下测试它们训练 100 个 step 所花费的时间。可以看到,尽管 AnyGraph 采用了更多的参数、更大的模型,但由于单个专家模型的高效性,训练时间与简单的基线方法相近、甚至更少。

51c大模型~合集42_大模型_29

此外,文章进一步探究了不同模型在应对新数据时的快速适应能力。下图实验对比了三种方法随着训练步数的增加,在训练数据集上性能的提升曲线。实验对比的方法包括对一个随机初始化的 GCN 模型进行从头训练、对一个预训练的 GraphCL 模型进行微调、以及对预训练的 AnyGraph 进行微调。

首先,可以观察到 AnyGraph 在未经微调时的零样本预测效果远优于两种基线方法。这源于 AnyGraph 出色的跨领域和零样本泛化能力。其次,AnyGraph 的效果曲线更快到达收敛状态,这体现了使用 MoE 架构、选择合适且高效的专家模型进行微调,可以更快地进行模型适应。此外,可以观察到 GraphCL 的预训练在 PPA 数据集上不仅没有为它带来性能的优势,反而对学习新数据造成了负面影响。这体现了图模型进行跨领域迁移的困难,这源于不同领域图数据巨大的异构性。

51c大模型~合集42_大模型_30

广泛训练和测试

数据集

AnyGraph 采用了共 38 个数据集进行训练和测试,数据集涵盖了电商、学术网络、生物信息网络、交通网络、网页关联网络、社交网络等多个类别。共包括 14,437,372 个节点和 199,265,688 条边。不同数据集采用的节点特征方法不同,囊括了无节点特征、不同的文本 embedding 方法、词袋特征、类别特征等不同的方法。具体数据集统计信息如下所示

51c大模型~合集42_大模型_31

为了更好地观测模型在大规模测试中的性能,我们将测试数据集分为了多个不同的集合。不同集合之间不包含同源数据集,例如收集自同一个网络服务平台;不同集合的数据集之间也不共享特征构建方法,例如同一种文本 embedding 方法,只可能出现在 Link1 和 Link2 两个集合的其中之一。通过这种方式,模型在零样本测试时完全未接触过测试数据的数据源和特征方法,能测试模型更真实的零样本性能表现。

51c大模型~合集42_大模型_32

文章提供了两个版本的预训练模型,分别在 Link1 和 Link2 两个集合上训练得到。在零样本测试中,这两个模型只会被用于测试它们未见过的数据集。例如使用在 Link1 上训练的模型测试 Link2 上的表现。在测试 Ecommerce、Academic、Others 这些包括了 Link1 和 Link2 两类数据集的情况时,文章分别采用两个预训练模型,对未见过的数据集进行测试,再整合计算数据集合的整体预测性能。

AnyGraph 的零样本预测性能

AnyGraph 在零样本预测上的效果如下所示:

51c大模型~合集42_大模型_33

除了与现有图模型的少样本预测能力进行对比,文章还对比了现有的其他图基础模型,一个是基于文本特征的 GraphGPT,一个是基于结构特征的 OpenGraph。可以看到,在更多数据集的泛化性能测试上,AnyGraph 取得了更好的效果。并且,文章还对比了一个除了文本特征的消融版本 AnyGraph-F,从而验证了 AnyGraph 对结构和文本两种特征均能进行有效的利用。

51c大模型~合集42_大模型_34

AnyGraph 的扩展定律

为了探索 AnyGraph 的性能增长是否符合扩展定律(Scaling Law),文章调整了 AnyGraph 的模型参数量和训练数据量。前者通过调整模型的表征维度、网络层数、专家数量,而后者通过从小到大增加训练数据集的数量。

测试效果如下所示,该实验分为对跨领域数据集的测试,以及对单个领域跨数据集的测试。在每个子图的实验中,包含了以下三项:

  • 左:在模型参数量影响下,对未见过数据集的零样本预测性能变化
  • 中:在模型参数量影响下,对训练过数据集的全样本预测性能变化
  • 右:在训练数据量影响下,对未见过数据集的零样本预测性能变化

从结果可以得出以下几点结论:

  • AnyGraph 的零样本能力遵循 Scaling Law:虽然模型的全样本预测能力出现了增长的饱和,但其零样本能力随着参数量和数据量的增长不断上升,这说明 AnyGraph 模型的零样本能力遵循 Scaling Law,这一观测结果有两个重要原因,首先是测试的任务需要具备一定的难度,全样本预测只需要模型在训练数据集上具备泛化能力,相对较为简单,因此容易出现性能增长的饱和;而跨数据集、跨领域的零样本预测挑战性高,仍有很大的增长空间。其次,AnyGraph 的 MoE 架构使得它更容易容纳不同数据集的多样化图数据模式,从而具备更大的潜力随着参数量和数据量的增大而提升。
  • AnyGraph 的涌现能力:在测试曲线中常常可以观测到,模型性能常常在经历了一定的增长停滞后,出现突变式提升。这符合在视觉和文本大模型中观测到的涌现能力特点,说明 AnyGraph 具备了产生变革式泛化能力的基础。
  • 不足的训练数据引入 bias:在数据量增长实验中可以观察到一个典型的特征,在早起的数据量增长中,模型性能经历了一个断崖式的下跌,这是由于训练数据不足,而新引入的训练数据与测试数据集存在较大的偏离,导致模型训练存在较大的 bias。这一问题可以通过扩大训练数据量解决,这样做不仅增强了模型性能,也可以增强训练的鲁棒性。

51c大模型~合集42_大模型_35

总结

AnyGraph 框架是一个高效且有效的图基础模型,专为应对不同图数据集中结构和特征异质性的多方面挑战而设计。AnyGraph 采用创新性的专家混合(MoE)架构,并结合动态专家路由机制,使其在跨域泛化能力方面达到了最先进的水平。在 38 个不同的图数据集上进行的广泛实验不仅突显了 AnyGraph 在零样本学习性能上的卓越表现,还证明了其对分布偏移的鲁棒性以及其遵循规模定律的能力,从而随着模型大小和数据量的增加而提高了预测精度。该模型在训练和推理效率上的表现,通过与现有方法的比较得到了验证,进一步巩固了其实际应用性。