#DetToolChain
提升GPT-4V、Gemini检测任务性能,你需要这种提示范式
本文作者来自浙江大学、上海人工智能实验室、香港中文大学、悉尼大学和牛津大学。作者列表:吴逸璇,王逸舟,唐诗翔,吴文灏,贺通,Wanli Ouyang,Philip Torr,Jian Wu。其中,共同第一作者吴逸璇是浙江大学博士生,王逸舟是上海人工智能实验室科研助理。通讯作者唐诗翔是香港中文大学博士后研究员。
多模态大模型(Multimodal Large Language Models,MLLMs)在不同的任务中表现出了令人印象深刻的能力,尽管如此,这些模型在检测任务中的潜力仍被低估。在复杂的目标检测任务中需要精确坐标时,MLLMs 带有的幻觉又让它常常错过目标物体或给出不准确的边界框。为了让 MLLMs 赋能检测,现有的工作不仅需要收集大量高质量的指令数据集,还需要对开源模型进行微调。费时费力的同时,也无法利用闭源模型更强大的视觉理解能力。为此,浙江大学联合上海人工智能实验室和牛津大学提出了 DetToolChain,一种释放多模态大语言模型检测能力的新提示范式。不需要训练就能让多模态大模型学会精确检测。相关研究已经被 ECCV 2024 收录。
为了解决 MLLM 在检测任务上的问题,DetToolChain 从三个点出发:(1)针对检测设计视觉提示(visual prompts),比传统的文字提示(textual prompts)更直接有效的让 MLLM 理解位置信息,(2)把精细的检测任务拆解成小而简单的任务,(3)利用 chain-of-thought 逐步优化检测结果,也尽可能的避免多模态大模型的幻觉。
与上述的 insights 对应,DetToolChain 包含两个关键设计:(1)一套全面的视觉处理提示(visual processing prompts),直接在图像中绘制,可以显著缩小视觉信息和文本信息之间的差距。(2)一套全面的检测推理提示 (detection reasoning prompts),增强对检测目标的空间理解,并通过样本自适应的检测工具链逐步确定最终的目标精确位置。
通过将 DetToolChain 与 MLLM 结合,如 GPT-4V 和 Gemini,可以在无需指令调优的情况下支持各种检测任务,包括开放词汇检测、描述目标检测、指称表达理解和定向目标检测。
- 论文标题:DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM
- 论文链接:https://arxiv.org/abs/2403.12488
什么是 DetToolChain?
图 1 DetToolChain 的整体框架
如图 1 所示,对于给定的查询图像,MLLM 被指示进行以下步骤:
I. Formatting:将任务的原始输入格式转化为适当的指令模板,作为 MLLM 的输入;
II. Think:将特定的复杂检测任务分解为更简单的子任务,并从检测提示工具包中选择有效的提示(prompts);
III. Execute:按顺序迭代执行特定的提示(prompts);
IV. Respond:运用 MLLM 其自身的推理能力来监督整个检测过程并返回最终响应(final answer)。
检测提示工具包:Visual Processing Prompts
图 2:visual processing prompts 的示意图。我们设计了 (1) Regional Amplifier, (2) Spatial Measurement Standard, (3) Scene Image Parser,从不同的角度来提升 MLLMs 的检测能力。
如图 2 所示,(1) Regional Amplifier 旨在增强 MLLMs 对感兴趣区域(ROI)的可见性,包括将原始图像裁剪成不同部分子区域,重点关注目标物体所在子区域;此外,放大功能则使得可以对图像中特定子区域进行细粒度观察。
(2) Spatial Measurement Standard 通过在原始图像上叠加带有线性刻度的尺子和指南针,为目标检测提供更明确的参考,如图 2 (2) 所示。辅助尺子和指南针使 MLLMs 能够利用叠加在图像上的平移和旋转参考输出准确的坐标和角度。本质上,这一辅助线简化了检测任务,使 MLLMs 能够读取物体的坐标,而不是直接预测它们。
(3) Scene Image Parser 标记预测的物体位置或关系,利用空间和上下文信息实现对图像的空间关系理解。Scene Image Parser 可以分为两类:首先,针对单个目标物体,我们用质心、凸包和带标签名称及框索引的边界框标记预测的物体。这些标记以不同格式表示物体位置信息,使 MLLM 能够检测不同形状和背景的多样物体,特别是形状不规则或被大量遮挡的物体。例如,凸包标记器标记物体的边界点并将其连接为凸包,以增强对形状非常不规则的物体的检测性能。其次,针对多目标,我们通过场景图标记器(scene graph marker)连接不同物体的中心,以突出图像中物体之间的关系。基于场景图,MLLM 可以利用其上下文推理能力来优化预测的边界框并避免幻觉。例如,如图 2 (3) 所示,Jerry 要吃奶酪,因此它们的 bounding box 应该非常接近。
检测提示工具包:Detection Reasoning Prompts
为了提高预测框的可靠性,我们进行了检测推理提示(如表 1 所示),以检查预测结果并诊断可能存在的潜在问题。首先,我们提出了 Problem Insight Guider,突出困难问题并为查询图像提供有效的检测建议和相似例子。例如,针对图 3,Problem Insight Guider 将该查询定义为小物体检测的问题,并建议通过放大冲浪板区域来解决它。其次,为了利用 MLLMs 固有的空间和上下文能力,我们设计了 Spatial Relationship Explorer 和 Contextual Object Predictor,以确保检测结果符合常识。如图 3 所示,冲浪板可能与海洋共现(上下文知识),而冲浪者的脚附近应该有一个冲浪板(空间知识)。此外,我们应用 Self-Verification Promoter 来增强多轮响应的一致性。为了进一步提升 MLLMs 的推理能力,我们采用了广泛应用的 prompting 方法,例如 debating 和 self-debugging 等。详细描述请见原文。
图 3 检测推理提示可以帮助 MLLMs 解决小物体检测问题,例如,利用常识定位人脚下的冲浪板,并鼓励模型在海洋中检测冲浪板。
图 4 一个 DetToolChain 应用于旋转目标检测的例子(HRSC2016 数据集)
实验:免训练也能超越微调方法
如表 2 所示,我们在 open vocabulary detection(OVD)上评估了我们的方法,测试了在 COCO OVD benchmark 中 17 个新类、48 个基础类和所有类的 AP50 结果。结果显示,使用我们的 DetToolChain,GPT-4V 和 Gemini 的性能均显著提升。
为了展示我们的方法在指称表达理解上的有效性,我们将我们的方法与其他零样本方法在 RefCOCO、RefCOCO + 和 RefCOCOg 数据集上进行了比较(表 5)。在 RefCOCO 上,DetToolChain 使得 GPT-4V 基线在 val、test-A 和 test-B 上的性能分别提升了 44.53%、46.11% 和 24.85%,展示了 DetToolChain 在 zero-shot 条件下优越的指称表达理解和定位性能。
#Entropy Law
中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
本工作由中科大认知智能全国重点实验室 IEEE Fellow 陈恩红团队与华为诺亚方舟实验室完成。陈恩红教授团队深耕数据挖掘、机器学习领域,在顶级期刊与会议上发表多篇论文,谷歌学术论文引用超两万次。诺亚方舟实验室是华为公司从事人工智能基础研究的实验室,秉持理论研究与应用创新并重的理念,致力于推动人工智能领域的技术创新和发展。
数据是大语言模型(LLMs)成功的基石,但并非所有数据都有益于模型学习。直觉上,高质量的样本在教授 LLM 上预期会有更好的效率。因此,现有方法通常专注于基于质量的数据选择。然而,这些方法中的大多数独立地评估不同的数据样本,忽略了样本之间复杂的组合效应。如图 1 所示,即使每个样本质量完美,由于它们的互信息冗余或不一致性,它们的组合可能仍然次优。尽管基于质量的子集由所有三个优质样本组成,但它们编码的知识实际上是冗余和冲突的。相比之下,另一个由几个相对较低质量但多样化的样本组成的数据子集在教授 LLM 方面可能传达更多信息。因此,基于质量的数据选择并未完全符合最大化 LLM 知识掌握的目标。
而本文旨在揭示 LLM 性能与数据选择之间的内在关系。受 LLM 信息压缩本质的启发,我们发现了一条 entropy law,它将 LLM 性能与数据压缩率和前几步模型训练的损失加以联系,分别反映了数据集的信息冗余程度和 LLM 对数据集中固有知识的掌握程度。通过理论推导和实证评估,我们发现模型性能与训练数据的压缩率呈负相关,而这通常会产生较低的训练损失。基于 entropy law 的发现,我们提出了一种非常高效且通用的数据选择方法用于训练 LLM,名为 ZIP,其旨在优先选择低压缩率的数据子集。ZIP 分多阶段、贪心地选择多样化的数据,最终获得一个具有良好多样性的数据子集。
- 团队:中科大认知智能全国重点实验室陈恩红团队,华为诺亚方舟实验室
- 论文链接: https://arxiv.org/pdf/2407.06645
- 代码链接: https://github.com/USTC-StarTeam/ZIP
图 1
Entropy law
我们对数据压缩与 LLM 性能之间的关系进行理论分析。直觉上,训练数据的正确性和多样性会影响最终模型的性能。同时,如果数据存在严重的内在冲突或模型对数据编码的信息掌握不佳,LLM 的性能可能会次优。基于这些假设,我们将 LLM 的性能表示为 Z ,其预期会受到以下因素的影响:
- 数据压缩率 R:直觉上,压缩率越低的数据集表明信息密度越高。
- 训练损失 L:表示数据对模型来说是否难以记忆。在相同的基础模型下,高训练损失通常是由于数据集中存在噪声或不一致的信息。
- 数据一致性 C:数据的一致性通过给定前文情况下下一个 token 的概率的熵来反映。更高的数据一致性通常会带来更低的训练损失。
- 平均数据质量 Q:反映了数据的平均样本级质量,可以通过各种客观和主观方面来衡量。
给定一定量的训练数据,模型性能可以通过上述因素来估计:
其中 f 是一个隐函数。给定一个特定的基础模型,L 的规模通常取决于 R 和 C,可以表示为:
由于具有更高同质性或更好数据一致性的数据集更容易被模型学习,L 预计在 R 和 C 上是单调的。因此,我们可以将上述公式重写为:
其中 g' 是一个反函数。通过结合上述三个方程,我们得到:
其中 h 是另一个隐函数。如果数据选择方法不会显著改变平均数据质量 Q,我们可以近似地将变量 Q 视为常数。因此,最终性能可以粗略地表示为:
这意味着模型性能与数据压缩率和训练损失相关。我们将这种关系称为 Entropy law。
基于 Entropy law,我们提出两个推论:
- 如果将 C 视为常数,训练损失直接受压缩率影响。因此,模型性能由压缩率控制:如果数据压缩率 R 较高,那么 Z 通常较差,这将在我们的实验中得到验证。
- 在相同的压缩率下,较高训练损失意味着较低的数据一致性。因此,模型学到的有效知识可能更有限。这可以用来预测 LLM 在具有相似压缩率和样本质量的不同数据上的性能。我们将在后续展示这一推论在实践中的应用。
ZIP:高度轻量化的数据选择算法
在 entropy law 的指导下,我们提出了 ZIP 这一数据选择方法,通过数据压缩率来选择数据样本,旨在在有限的训练数据预算下最大化有效信息量。出于效率考量,我们采用了一种迭代多阶段贪心范式,以高效地获得具有相对低压缩率的近似解。在每轮迭代中,我们首先使用全局选择阶段来选择一组具有低压缩率的候选样本池,找到信息密度高的样本。然后,我们采用粗粒度的局部选择阶段,选择一组与已选样本冗余度最低的较小样本集。最后,我们使用细粒度的局部选择阶段,最小化要添加样本之间的相似性。上述过程持续进行直到获得足够的数据,具体算法如下:
实验结果
1.ZIP 选择算法对于不同 LLM、在不同 LLM 对齐阶段的有效性
对比不同的 SFT 数据选择算法,基于 ZIP 选择数据所训练得到的模型性能上展现出优势,并且在效率上也占优。具体结果见下表:
得益于 ZIP 的模型无关、内容无感知的特性,其同样也可应用于偏好对齐阶段的数据选择。而 ZIP 所选择的数据同样展现出了较大的优势。具体结果见下表:
2.Entropy law 的实验验证
基于 SFT 数据选择实验,我们基于模型效果、数据压缩率以及模型在前几步训练的损失,分别拟合了多条关系曲线。结果见图 2 以及图 3,我们从图中可以观察到三个因素之间的紧密关联。首先,低压缩率数据通常会带来更好的模型效果,这是因为 LLMs 的学习过程与信息压缩高度相关,我们可以将 LLM 视为数据压缩器,那么压缩率较低的数据意味着更多的知识量,从而对压缩器更有价值。同时,可以观察到较低的压缩率通常伴随着更高的训练损失,这是因为难以压缩的数据携带了更多的知识,对 LLM 吸收其中蕴含的知识提出了更大的挑战。
图 2 Mistral-7B
图 3 Llama-3-8B
3.Entropy law 的实际应用
我们提供了一个 entropy law 在真实场景中指导 LLM 训练数据增量更新的应用。在该任务场景中,训练数据量保持相对稳定,只有一小部分数据会被修改。结果见图 4,其中
到
是逐渐增量更新的 5 个数据版本,出于保密要求,仅提供不同压缩率下模型效果的相对关系。根据 entropy law 预测,假设每次增量更新后数据质量没有显著下降,可以预期随着数据压缩率的降低,模型性能会有所提升。这一预测与图中数据版本
到
的结果一致。然而,数据版本
显示出损失和数据压缩率的异常增加,这预示了由于训练数据一致性下降导致的模型性能下降的潜在可能。这一预测通过随后的模型性能评估进一步得到证实。因此,entropy law 可以作为 LLM 训练的指导原则,无需在完整数据集上训练模型直到收敛,便可预测 LLM 训练失败的潜在风险。鉴于训练 LLM 的高昂成本,这一点尤其重要。
图 4
#深入理解深度学习
这可能是当今最全面、最新的深度学习概述之一。
爆火的深度学习领域,最近又有了热门学习资料。
近日,麻省理工出版社的新书《Understanding Deep Learning》(深入理解深度学习)迎来了中文版。
这本书一共分为 21 个章节,涵盖了深度学习领域的许多关键概念,包括基本构建、Transformer 架构、图神经网络 GNN、强化学习 RL、扩散模型等等。对于不论是初学者,还是已有工作经验的开发者来说都有极高的价值。
- GitHub 链接:https://github.com/careywyr/UnderstandingDeepLearning-ZH-CN
- 书籍原链接:https://udlbook.github.io/udlbook/
目前,该书的英文电子版下载量已达到 34.4 万。
该书的实体版本在去年 12 月正式发布,全书共 541 页,不过它的电子版一直在继续更新。目前在网站上,作者还提供了 68 个 Python 笔记本练习,可以帮助读者通过编程实践加深理解。
本书希望以准确易懂的方式,向人们介绍深度学习的基础思想,旨在帮助刚入门的读者理解深度学习背后的原理。对于想要深入理解本书内容的读者来说,只需要本科水平的数学知识就能读懂。
具体来说,该书在前面的部分介绍了深度学习模型,并讨论了如何训练、评估这些模型,如何提高它们的性能的方法。在接下来的部分,作者会带领我们考察专门用于图像、文本和图数据的架构。后续的章节探讨了生成模型和强化学习。倒数第二章探讨了这些以及其他尚未完全理解的方面。最后一章讨论了 AI 伦理。
目录
第一章 - Introduction 介绍
第二章 - Supervised learning 监督学习
第三章 - Shallow neural networks 浅层神经网络
第四章 - Deep neural networks 深度神经网络
第五章 - Loss functions 损失函数
第六章 - Fitting models 训练模型
第七章 - Gradients and initialization 梯度和初始化
第八章 - Measuring performance 性能评估
第九章 - Regularization 正则化
第十章 - Convolutional networks 卷积网络
第十一章 - Residual networks 残差网络
第十二章 - Transformers
第十三章 - Graph neural networks 图神经网络
第十四章 - Unsupervised learning 无监督学习
第十五章 - Generative adversarial networks 生成对抗网络
第十六章 - Normalizing flows 标准化流
第十七章 - Variational autoencoders 变分自编码器
第十八章 - Diffusion models 扩散模型
第十九章 - Deep reinforcement learning 深度强化学习
第二十章 - Why does deep learning work? 为什么深度学习有效?
第二十一章 - Deep learning and ethics 深度学习与伦理
参考链接:
https://x.com/tuturetom/status/1814689613304508777
#LLM范式的转变
盛名一时的BERT哪去了?这个问题的答案昭示了LLM范式的转变
编码器模型哪去了?如果 BERT 效果好,那为什么不扩展它?编码器 - 解码器或仅编码器模型怎么样了?
在大型语言模型(LLM)领域,现在是仅解码器模型(如 GPT 系列模型)独领风骚的时代。那编码器 - 解码器或仅编码器模型发展如何呢?为什么曾经盛名一时的 BERT 却渐渐少有人关注了?
近日,AI 创业公司 Reka 的首席科学家和联合创始人 Yi Tay 发布了一篇博客文章,分享了他的看法。Yi Tay 在参与创立 Reka 之前曾在 Google Research 和谷歌大脑工作过三年多时间,参与过 PaLM、UL2、Flan-2、Bard 等著名 LLM 以及 PaLI-X 和 ViT-22B 等多模态模型的研发工作。以下为他的博客文章内容。
基础简介
总体上看,过去这些年的 LLM 模型架构主要分为三大范式:仅编码器模型(如 BERT)、编码器 - 解码器模型(如 T5)、仅解码器模型(如 GPT 系列模型)。人们常常搞不清楚这些,并且对这些分类方法和架构有所误解。
首先要理解的一点是:编码器 - 解码器模型实际上也是自回归模型。在编码器 - 解码器模型中,解码器本质上依然是因果解码器。其无需预填充解码器模型,而是会将某些文本卸载到编码器,然后再通过交叉注意力发送给解码器。是的,T5 模型也是语言模型!
这类模型的一种变体是前缀语言模型(Prefix Language Model),简称 PrefixLM,其工作方式几乎一样,只是没有交叉注意力(以及其它一些小细节,比如编码器 / 解码器之间共享权重以及没有编码器瓶颈)。PrefixLM 有时也被称为非因果解码器。简单来说,编码器 - 解码器、仅解码器模型和 PrefixLM 整体上差别不大!
在 Hyung Won 近期的精彩讲座中,他娴熟地解释了这些模型之间的关系。
同时,BERT 这样的仅编码器模型的去噪方式不一样(即 in-place);并且从某种程度上讲,仅编码器模型要在预训练之后真正发挥作用,需要依靠分类「任务」头。后来,T5 等模型采用了一种「修改版」的去噪目标,其使用了一种序列到序列的格式。
为此,需要指出:T5 中的去噪并非一种新的目标函数(在机器学习意义上),而是一种跨输入的数据变换,即你也可以使用一个因果解码器训练跨度损坏目标(span corruption objective )。
人们总是假设编码器 - 解码器模型必定是去噪模型,部分原因是 T5 实在过于具有代表性。但事实并不总是如此。你可以使用常规的语言建模任务(比如因果语言建模)训练编码器 - 解码器。反过来,也可以使用跨度损坏任务训练因果解码器。正如我前面说的那样,这基本上就是一种数据变换。
还有一点值得注意:一般来说,有 2N 个参数的编码器 - 解码器的计算成本与有 N 个参数的仅解码器模型一样,这样一来,它们的 FLOP 和参数量之比就不一样了。这就像是在输入和目标之间分配「模型稀疏性」。
这不是什么新东西,也不是我自己想出来的。2019 年的 T5 论文中就有,并且 UL2 论文也再次强调了这一点。
目前来说,很高兴能把这一点说清楚。现在来说目标。
关于去噪目标(它没起作用吗?无法扩展吗?还是太容易了?)
这里的去噪目标是指「跨度损坏」任务的任意变体。这有时候被称为「填充」或「填空」。表达它的方式有很多,比如跨度长度、随机性、sentinel token 等。想必你已明白其中关键。
尽管 BERT 式模型的去噪目标基本是就地的(in-place,比如分类头位于掩码 token 上),但「T5 风格」要更现代一点,即通过编码器 - 解码器或仅解码器模型来处理数据变换。在这样的数据变换中,被掩蔽的 token 只是会被「移回去」以便模型给出预测。
预训练的主要目标是以尽可能最高效和有效的方式构建与下游任务对齐的内部表征。这种内部表征越好,就更容易将这些学习到的表征用于后续任务。我们都知道,简单的下一词预测「因果语言建模」目标表现出色,并且已成为 LLM 革命的核心。现在的问题是去噪目标是否同样出色。
根据公开信息,我们知道 T5-11B 的效果相当好,即使在对齐和经过监督式微调之后(Flan-T5 XXL 的 MMLU 分数是 55+,在当时来说,这个规模的模型已经相当好了)。因此,我们可以得出这样的结论:去噪目标的迁移过程(预训练→对齐)在这个规模上相对来说效果不错。
我的看法是,去噪目标的效果很好,但还不足以单独作为目标。一个巨大的缺点源自所谓的更少的「损失暴露(loss exposure)」。在去噪目标中,仅有少量 token 会被掩蔽和得到学习(即被考虑到损失中)。反过来,在常规的语言建模中,这接近于 100%。这使得每个 FLOP 的样本效率非常低,这使得在 flop 基础上的比较中,去噪目标的劣势很大。
去噪目标的另一个缺点是其比常规语言建模更不自然,因为它会以一种奇怪的方式重新设定输入 / 输出的格式,这使得它们不太适合少样本学习。(但在少样本任务上,仍可能通过调整这些模型让其表现得相当优良。)因此,我认为去噪目标应该只能用作常规语言建模的补充目标。
统一的早期以及 BERT 类模型消失的原因
类似 BERT 的模型逐渐消失,现在已经没多少人再谈它们了。这也能解释为什么我们现在看不到超大规模的 BERT 模型了。原因是什么?这很大程度上是因为任务 / 建模范式的统一和转变。BERT 式模型很繁琐,但 BERT 模型被弃用的真正原因是:人们希望一次性完成所有任务,因此采用了一种更好的去噪方法 —— 使用自回归模型。
在 2018-2021 年期间,出现了一种隐含的范式转变:从单任务微调转变成大规模多任务模型。这慢慢地将我们导向了统一的 SFT 模型,这就是我们如今看到的通用模型。使用 BERT 却很难做到这一点。我认为这与「去噪」关系不大。对于还想使用这样的模型(即 T5)的人,他们找到了一种重新表达去噪预训练任务的方法,这使得如今 BERT 式模型已经基本上被弃用了,因为我们已有更好的替代方案。
更确切地说,编码器 - 解码器和仅解码器模型无需特定于任务的分类头就能用于多种任务。对于编码器 - 解码器,研究者和工程师开始发现放弃编码器的效果就和 BERT 编码器差不多。此外,这还能保留双向注意力的优势 —— 该优势让 BERT 在小规模(往往是生产规模)上可与 GPT 竞争。
去噪目标的价值
去噪预训练目标也能以一种类似常规语言建模的方式学习预测下一个词。但是,不同于常规因果语言建模,这需要对序列使用一种数据变换,使得模型可以学习「填空」,而不是简单地预测从左到右的自然文本。
值得注意的是,去噪目标有时也称为「填充任务」,有时会与常规语言建模任务一起在预训练过程中混合使用。
虽然确切的配置和实现细节可能有所不同,但当今的现代 LLM 可能在某种程度上组合使用语言建模和填充。有趣的是,这种「语言模型 + 填充」的混合实际上也大概在同一时期四处传播(如 UL2、FIM、GLM、CM3),许多团队都带来了自己独具特色的混合方案。顺带一提,目前已知的以这种方式训练的最大模型很可能是 PaLM-2。
还需要说明一点,预训练任务混合也可以按顺序堆叠,不一定必须同时混合,比如 Flan-T5 起初是在 1T 跨度损坏 token 上训练的,然后换到前馈语言建模目标的 100B token,之后再进行 flan 指令微调。某种程度上讲,这适合混合去噪 / LM 目标模型。需要明确的是,前缀语言建模目标(不要与架构混淆)单纯只是因果语言建模,其有一个随机确定和发送到输入端的分割点(没有损失和非因果掩码)。
顺便一提,填充可能起源于代码 LLM 领域,其中「填空」更像是写代码所需的一个功能。同时,UL2 的动机更多是将去噪目标和双向 LLM 擅长的任务类别与固有的生成任务(例如总结或开放式生成)统一起来。这种自回归式的解码「向后移」的优点是:其不仅能让模型学习更长程的依赖关系,还能让其隐式地受益于非显式的双向注意力(因为为了填空,你已经看过了未来)。
有一个传说中的经验:去噪目标学习的表征在特定任务类别上表现更好,有时候还会有更高的样本效率。在 U-PaLM 论文中,我们展示了少量的跨度损坏 up-training 如何改变在一组 BIG-Bench 任务上的行为和涌现现象。在此基础上,对使用这一目标训练的模型进行微调通常可以得到更好的监督式微调模型,尤其是当规模较小时。
在单任务微调方面,可以看到 PaLM-1 62B 模型被小得多的 T5 模型击败。在相对较小的规模上,「双向注意力 + 去噪目标」是一记漂亮的组合拳!我相信很多实践者也注意到了这种情况,尤其是在生产应用中。
双向注意力如何呢?
对语言模型来说,双向注意力是一种有趣的「归纳偏置」—— 人们常常将其与目标和模型骨干混淆。在不同的计算领域,归纳偏置的用途也各不相同,并且也可能对扩展曲线造成不同的影响。话虽如此,相比于较小规模,双向注意力在规模较大时可能就没那么重要了,或者可能对不同的任务或模态有不同的影响。举个例子,PaliGemma 使用了 PrefixLM 架构。
Hyung Won 也在他的演讲中指出:PrefixLM 模型(使用双向注意力的仅解码器模型)也存在缓存问题,这是这类架构的一个固有缺陷。但是,我认为有很多方法可以解决这个缺陷,但这超出了本文的范围。
编码器 - 解码器架构的优缺点
相比于仅解码器模型,编码器 - 解码器架构有优势也有劣势。第一种情况是编码器端不受因果掩码的限制。在某种程度上,你可以在注意力层上放开手脚,激进地执行池化或任何形式的线性注意力,而不必担心自回归的设计限制。这是一种将不太重要的「上下文」卸载到编码器的好方法。你也能把编码器做小点,这也是个优势。
必需编码器 - 解码器架构的一个例子是 Charformer,其中大胆使用了编码器并缓解了字节层面的模型的速度劣势。在编码器方面进行创新可以快速获益,同时无需担心因果掩码的重大缺陷。
同时,相比于 PrefixLM,编码器 - 解码器的一个缺点是输入和目标必须分配固定的预算。举个例子,如果输入预算是 1024 token,那么编码器端就必须填充到这个值,而这可能会浪费大量计算。相反,在 PrefixLM 中,输入和目标可以直接连接起来,从而可以缓解这个问题。
与当今模型的相关性和关键要点
当今时代,要成为一位合格的 LLM 研究者和实践者,一项关键能力是能同时从架构方面和预训练方面推断归纳偏置。理解其中微妙的差异可帮助人们进行外推和持续创新。
以下是我的关键要点:
- 编码器 - 解码器和仅解码器模型都是自回归模型,它们在实现层面上有差异,也有各自的优缺点。它们是略有不同的归纳偏置。至于选用哪一种,这取决于下游用例和应用限制。与此同时,对于大多数 LLM 用例和利基用例而言,可以认为 BERT 式的编码器模型已经过时。
- 去噪目标主要能作为因果语言模型的补充。它们已经被成功用作训练阶段的「支持目标」。使用去噪目标训练因果语言模型通常能带来某种程度的帮助。尽管这在代码模型领域非常常见(即代码填充),但对于如今的通用模型,使用因果语言模型加某个去噪目标来进行预训练的做法也挺常见。
- 双向注意力能给较小规模模型带来很大助益,但对较大模型来说可有可无。这大都是传言。我认为双向注意力具有一种归纳偏置,就类似于对 Transformer 模型做的许多其它类型的修改。
最后,总结一下。目前已经没有大规模版本的 BERT 模型在运营了:BERT 模型已被弃用,取而代之的是更灵活的去噪(自回归)T5 模型。这主要是由于范式统一,即人们更喜欢使用一个通用模型去执行各种任务(而不是使用特定于某任务的模型)。与此同时,自回归去噪有时可作为因果语言模型的副目标。
原文链接:https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising
#Grok图像理解功能
Grok图像理解功能上线,单挑ChatGPT结果惊人!无地标照片秒定位,18世纪手稿一眼识别
能识别并转录18世纪手稿、还能推测无地标照片拍摄地……马斯克本人也出来官宣:Grok现在能够理解图像了!
就在刚刚,xAI为Grok增加了图像理解功能!
马斯克本人也出来官宣了,并称「Grok现在能够理解图像了,甚至还可以解释笑话」。
在马斯克举的例子中,Grok根据给出的这张meme图,从场景设置、笑话的前提、转折、幽默之处、额外的幽默层面、视觉笑点6个方面来解释了它。
这个笑话幽默地利用了对历史和科学的误解。以下是详细解释:
场景设置:漫画展示了两个守卫站在山丘上,周围有许多标着「物理学家」的尸体。守卫们在讨论这些物理学家是否真的死了,还是在装死。
笑话的前提:幽默来自第二个画面中的关键台词,一个守卫说「艾萨克·牛顿发明了重力」。这句话暗示了这些物理学家之所以不动(因此看起来像是死了),是因为重力的存在。而实际上,牛顿并不是「发明」了重力,而是用数学描述了它。
转折:笑话的关键在于,每次检查尸体时,这些尸体都会被「发现」。这讽刺了科学方法中的「观察与实验」,即通过观察来发现规律。
幽默之处:这个笑话结合了对科学历史的误解(牛顿没有发明重力,而是描述了它)和对科学发现的字面理解。那些人躺在那里不动是因为重力的作用,但每次检查时,守卫却当作是每次都在「发现」新东西,而不是认识到重力是他们不起来的原因。
额外的幽默层面:情境的荒谬性也增加了笑料。守卫们在一个检查尸体死活的场景里,用科学发现的术语,这种不恰当的应用增强了喜剧效果。
视觉笑点:尸体周围标有「发现」的标签,而守卫们认真地讨论这些人是否真的死了,还是因为重力在「装死」,这种视觉上的荒诞感也加强了笑话的幽默效果。
总体而言,漫画通过这种情景幽默讽刺了科学概念的误解或错误应用,同时还调侃了物理学家们对复杂理论的过度关注,以至于忽略了简单的现实状况。
不少网友调侃道:Grok比美国政客还要聪明有趣!甚至连它都知道什么是笑话。
但其实,这个笑话解释得太过复杂,让人云里雾里!
有网友在评论区补充了更恰当的解释:「真糟糕,我以为笑话是,物理学家们听到牛顿『发明了重力』忍不住要起来纠正,所以才停止装死...」
不少网友讨论道:
「是的,Grok的解释太过『高智商』以至于它重新变得愚蠢。」
「Grok解读太多毁了这个笑话!」
还有网友直言:「整个评论区都很奇怪,因为几乎没有人意识到Grok完全没理解这个笑话。那些知名的网红们都表现得像机器人一样。」
没想到马斯克本人出来官宣还闹了个乌龙!
不过,除了理解笑话还不太行,Grok倒是在其他的图像理解任务中展现出了不错的水平。
AI Breakfast发帖称:「Grok 2具有令人难以置信的OCR功能。它能够完美地转录这份几乎难以辨认的18世纪手稿文件。」
宾夕法尼亚大学沃顿商学院的副教授Ethan Mollick也发帖称赞了Grok的图像理解能力。
他将一张在日本大阪拍摄的照片传给Grok和GPT-4o,并让它们推测这张照片的拍摄地。据他所说,所有位置信息都从图像中删除,且没有可见的路标和广告牌。
GPT-4o回答道:「这张图片展示了一座大型工业起重机,位于水边,可能靠近一个港口或船厂。周围的建筑和起重机的结构表明,它可能位于一个具有大量海洋活动的城市的工业区。根据可见的细节,这个地点可能是在美国、日本或其他以重工业而闻名的沿海城市。」
在被要求进一步缩小范围的时候,GPT-4o能直接猜到是日本。
Grok也同样先分析了一遍照片的内容,最后捕捉到了照片中的「亚洲感」,给到「很可能是像日本、韩国或新加坡这样的亚洲船厂」的结论。
还有网友也分别给Grok和GPT-4o发了一张在葡萄牙首都里斯本拍摄的照片,让它们推测这张照片的拍摄地。
Grok回答道:
图片中的陶瓷作品的设计让人联想到传统的代尔夫特陶器,这是一种荷兰锡釉陶器,以其蓝白配色而闻名。这种风格与荷兰有着密切的关联。因此,这张照片很可能是在荷兰拍摄的,或者是在一个荷兰风格陶瓷流行的地方拍摄的。
GPT-4o回答道:
这张图片展示了一件陶瓷作品,其设计风格让人联想到传统的葡萄牙或荷兰陶瓷,尤其是蓝色花卉图案配以白色背景的设计。这种风格通常出现在葡萄牙(Azulejos)或荷兰(Delftware)。鉴于你位于里斯本,因此葡萄牙很可能是拍摄地点。
显然,ChatGPT完胜!但Grok的回答也不赖,已经十分接近正确答案。
不过目前,Grok还不能处理某些文件格式(例如PDF)。一名用户在马斯克的帖子下评论道:
「埃隆,Grok怎么回事?它无法处理照片或PDF,老实说,它在功能上感觉远远落后于ChatGPT。你曾对它进行了很多宣传,但作为用户,我可以告诉你:Grok需要重大改进。如果目标是设定一个新标准,它还远远不够。是时候让它赶上来了,你不觉得吗?」
马斯克回复说:「不久后就可以了。我们在几个月内完成的事情是其他人花费数年时间才能做到的。」
参考资料:
https://x.com/grok/status/1850808322074509434
https://x.com/AiBreakfast/status/1850961980892615161
https://x.com/emollick/status/1851025478833819947
https://x.com/MesutGenAI/status/1851048640472563798
#勾股定理还能这样证明
论文已上期刊,数学家表示赞叹。
几千年过去了,勾股定理还能有新发现?而且还是被两个高中生发现的?
这个人人都会的初中二年级数学知识,在学术领域居然有了新发展。本周二,UCLA 数学终身教授、菲尔兹奖得主陶哲轩在社交网络上的一番点赞引起了人们的兴趣。
陶哲轩表示,这是一篇有趣的论文,在简单探讨了两种证明是否算是同一种证明的话题之后,他提醒我们:即使是最古老和最完善的数学基础知识,有时也可以从新的角度重新审视。
在中国,周朝时期的商高提出了勾股定理的一个特例:「勾三股四弦五」。在西方,最早提出并证明此定理的为公元前六世纪古希腊的毕达哥拉斯学派,他们用演绎法证明了直角三角形斜边平方等于两直角边平方之和。所以该定理也被称为「毕达哥拉斯定理」。
勾股定理是人类早期发现并证明的重要数学定理之一,至今已成为数学定理中证明方法最多的定理之一 —— 从微分证明到面积证明,有超过 400 种证明方法。
两位高中生一口气发现了十种新方法,她们是如何证明的呢?
论文作者,前高中生 Ne’Kiya Jackson 和 Calcea Johnson。
数学家赞叹:全新思路
故事要从 2022 年讲起,那年美国高中生 Ne’Kiya Jackson 和 Calcea Johnson 在回答数学竞赛的一道加分题时,发现了一种证明几千年历史勾股定理的新方法,令老师们赞叹不已。这仅仅是个开始。
她们写道:「在 500 美元奖金的激励下,我们决定独立承担这项任务。事实证明,这比我们最初想象的要难得多。为了得出一个证明,我们每个人都花了很多个漫长的夜晚,但都失败了。经过大约一个月的脑力劳动,我们每个人都完成并提交了我们的工作。我们高中的数学志愿老师 Rich 先生认为我们的证明足够新颖,可以在数学会议上发表。我们当时对自己的工作都没有那么自信,但我们还是决定继续下去。」
在接下来的两到三个月里,她们把所有的空闲时间都花在完善这些证明上。最终,她们获得了成功。
她们所在的学校,新奥尔良圣玛丽学院的一名志愿者鼓励她们将这个成果提交给专业会议。到 2023 年 3 月,他们成为在亚特兰大举行的美国数学学会东南分会会议上发言的最年轻的人。
她们表示:「令我们惊讶的是,我们的高中作业得到了认真对待,我们获准在 2023 年 3 月的美国数学学会东南分会会议上发言。作为会上最年轻的人和最年轻的演讲者,我们很害怕,但我们知道这是我们之前所有努力的结晶,这给了我们发言的信心。」
如今,去年开始上大学的 Jackson 和 Johnson 又取得了另一项成就:它们已经完成了一篇详细介绍该方法证明的学术论文,新工作于周一发表在科学期刊《美国数学月刊》上。
- 论文标题:Five or Ten New Proofs of the Pythagorean Theorem
- 论文链接:https://www.tandfonline.com/doi/full/10.1080/00029890.2024.2370240#abstract
Calcea Johnson 目前在路易斯安那州立大学读环境工程专业,Ne’Kiya Jackson 正在路易斯安那泽维尔大学攻读药学博士学位。
与多年来历代数学家使用代数、几何方式解释勾股定理的方式不同,Johnson 和 Jackson 使用三角学来证明它 —— 一个专注于三角形研究的数学分支。
专家认为 Johnson 和 Jackson 的方法极其具有挑战性,因为三角学作为一个领域本质上是基于勾股定理(毕达哥拉斯定理)的。那么使用三角函数来证明该定理通常需要数学家所说的「循环论证」。然而根据新的研究,证明并不是循环的。
「我们在证明中使用的定理…… 都没有假设毕达哥拉斯定理是正确的,」作者在论文中写道。
英国布里斯托大学数学学院名誉教授 Tom Murdoch 称这项研究令人印象深刻,「我认为这项研究的有趣之处在于,很多人认为这是不可能的。」
三角函数基于正弦和余弦,它们表示为直角三角形某些长度的比率。很容易陷入循环论证,而这项研究的吸引力在于,他们找到了一条使用正弦和余弦的论证路线,同时并不假设毕达哥拉斯定理是正确的。
Johnson 和 Jackson 在研究中概述了使用三角学证明该定理的五种新方法,他们的方法揭示了另外五种证明,总共十种。两人在 2023 年的会议上只展示了其中一种证明,在新论文中,还有九种是全新的。这里我们重点来看看她们给出的五种证明以及她们发现这些证明方式的思路,更多详情可访问原论文。
勾股定理的五种证明
由于前面已经证明了等腰直角三角形的勾股定理,因此在下面五个证明的前四个中,会假设 ABC 是一个非等腰直角三角形,其中 𝑎<𝑏,也就等价于 𝛼<45°<𝛽。根据 [引用 1] 的严格要求,下面每个证明都将从直角三角形的图形开始。
第一种证明
在第一个证明中,他们首先是沿 △𝐴𝐵𝐶 的 AC 边进行翻折,得到一个等腰三角形 𝐴𝐵𝐵′。
现在,如图 8 所示,基于 𝐴𝐵𝐵′ 构建一个直角三角形 𝐴𝐵′𝐷,其中直角在 𝐵′ 处。然后在 △𝐵′𝐵𝐷 中填充逐步变小的 △𝐴𝐵𝐶 的相似三角形。
图 8
由于 𝐵𝐵′ 的长度为 2a,并且是 △𝐵′𝐸𝐵 的较长直角边,因此边的比值 a : b : c 表明较短直角边 BE 的长度为
但 BE 是 △𝐵𝐹𝐸 的较长直角边,因此 △𝐵𝐹𝐸 的斜边 BF 的长度为根据构造,每个三角形的较短直角边也是下一个三角形的较长直角边,这意味着连续三角形的比率为 𝑎/𝑏;但间隔一个三角形的比率为 𝑎²/𝑏²,因此
因此,直角三角形 𝐴𝐵′𝐷 的斜边 AD 的长度为
在 △𝐴𝐵′𝐷 中,有 cos (2𝛼)=𝐴𝐵′/𝐴𝐷=𝑐/𝐴𝐷,因此 𝐴𝐷=𝑐/cos (2𝑎)。
将 AD 的两个等式合并到一起,可得:
请注意,其中一步使用了众所周知的收敛级数求和公式:
第二种证明
给定直角三角形 ABC,如下图所示,沿边 BC 找到一个点 D,使得 ∠𝐵𝐴𝐷=𝛼。这样一来,∠𝐴𝐷𝐶=90−2𝛼=𝛽−𝛼。
图 9
我们首先将正弦定理应用于 △𝐴𝐶𝐷:
由此得出
接下来,对 △𝐴𝐵𝐷 使用正弦定理:
比较 BD 的两个值,可得
,化简可得 𝑎²+𝑏²=𝑐²。
第三种证明
首先,在 AC 边上找到一个点 D,使得 ∠𝐶𝐵𝐷=𝛽−𝛼,因此 ∠𝐴𝐵𝐷=𝛽−(𝛽−𝛼)=𝛼 且 ∠𝐵𝐷𝐶=90−(𝛽−𝛼)=2𝛼。如图 10 所示。
图 10
根据定义, sin (2𝛼)=𝐵𝐶/𝐵𝐷,因此
那么,
于是可得:
但由于 △𝐴𝐵𝐷 是等腰三角形,有 𝐴𝐷=𝐵𝐷,因此
,消去 2b 后可得 𝑎²+𝑏²=𝑐²。第四种证明
首先,如图 11 所示,画出斜边 AB 的垂直平分线 DE(使得 △𝐴𝐸𝐷∼△𝐴𝐵𝐶),然后构造矩形 AOBC 并画出它的对角线。
图 11
根据反射对称性,∠𝐵𝐶𝐷=∠𝐶𝐵𝐷=𝛽,然后 ∠𝐷𝐶𝐸=90−𝛽=𝛼 且 ∠𝐵𝐷𝐶=180−(𝛽+𝛽)=2𝛼。还有∠𝐶𝐷𝐸=90−2𝛼=𝛽−𝛼。
由于 𝐴𝐷=𝐵𝐷,有𝐴𝐷=𝐵𝐷=𝑐/2,而 △𝐴𝐸𝐷 的边之比 a:b:c 表明𝐷𝐸=𝐴𝐷(𝑎/𝑏)=𝑎𝑐/2𝑏 且 𝐴𝐸=𝐴𝐷(𝑐/𝑏)=𝑐²/2𝑏。因此
对 △𝐶𝐷𝐸 使用正弦定理可得:
第五种证明
与前四个证明不同,第五个证明仅适用于等腰直角三角形。
给定直角三角形 ABC,且有 𝛼≤𝛽,对于任意常数 𝑘(0<𝑘<1),可以画出一条线 DE 并使得 △𝐴𝐵𝐶∼△𝐴𝐷𝐸 具有比例因子 k。然后再画一条线 DF,使得 ∠𝐸𝐷𝐹=2𝛼。然后选择一个适当的 k 值,使得 F 位于 B 和 C 之间。
图 12
如果 ∠𝛼<45,则 DF 和 EC 可以延伸至点 G 处相交,从而得到一个直角三角形 DEG,其中 ∠𝐺=𝛽−𝛼。由于 𝐷𝐸∥𝐵𝐶,则可得 ∠𝐵𝐹𝐷=∠𝐸𝐷𝐹=2𝛼,则 ∠𝐵𝐷𝐹=180−(2𝛼+𝛽)=𝛽。对 △𝐵𝐷𝐹 使用正弦定理,可得
于是,
而在 △DEG 中,有 sin (𝛽−𝛼)=𝐷𝐸/𝐷𝐺,因此
则可得
并且由于 sin (𝛽−𝛼)=𝐶𝐹/𝐹𝐺,可得
当 ∠𝛼=45 时,仍然有 𝐵𝐹=(1−𝑘)𝑐²/2𝑎 (如果 M 是 BD 的中点,则 𝐵𝑀=(1−𝑘)𝑐/2 且 𝐵𝐹=𝑐/𝑎・𝐵𝑀)并且仍然有
因此对于任何直角三角形 ABC,可知
这两位高中生是如何得到这五种证明的?
在任何创造性活动中,都有一个基本问题:「我能用已有的东西创造什么?」
对于勾股定理,这个问题就变成了:「给定直角三角形 ABC,我可以创建哪些直角三角形?」
这两位高中生对这一问题进行了解答。他们对新三角形的创建做了限制,使其角是 △𝐴𝐵𝐶 的三个角 𝛼、𝛽 和 90 (=𝛼+𝛽) 度的「整数和」和 / 或「整数差」。
引理 1
a. 如果 ABC 是等腰直角三角形(因此 𝛼=𝛽=45),那么所有角是 𝛼 和 𝛽 的整数线性组合的三角形就只有等腰直角三角形。
b. 如果直角三角形 ABC 中的 𝛼 < 𝛽,则存在一个直角三角形,其锐角为 2𝛼 和 𝛽−𝛼。此外,2𝛼 和 𝛽−𝛼 是 𝛼 和 𝛽 的唯一整数线性组合,它们将是每对 {𝛼,𝛽} 的直角三角形的锐角。
证明
a. 由于等腰三角形 ABC 的所有三个角都是 45 的倍数,因此任何新三角形(其角度限制为 △𝐴𝐵𝐶 角度的和和 / 或差)中的所有三个角仍然是 45 的倍数,因此这个三角形必须是等腰直角三角形。也就是说,如果从等腰直角三角形开始,就无法创建一个新三角形。
b. 现在假设 𝛼 < 𝛽。如果新构造的直角三角形中锐角的大小为 𝑚𝛼 + 𝑛𝛽 (𝑚,𝑛∈ℤ),则其补角大小为 90 – (𝑚𝛼 + 𝑛𝛽) =(𝛼+𝛽)–(𝑚𝛼 + 𝑛𝛽) = (1−𝑚)𝛼 + (1−𝑛)𝛽。如果整数 n 和 1−𝑛 都非零,因此其中一个(例如 n)必定为负数,则用 ⏧𝑛⏧ 替换 n,可知其中一个角度为 𝑚𝛼 – 𝑛𝛽,其中 m > n > 0。但是当 𝛼 为 90𝑛/(𝑚+𝑛) 度时,其补角 𝛽 为 90𝑚/(𝑚+𝑛) 度,这种构造会得到一个三角形,其角度为
这是不可能的,说明必定有 𝑛=0,这样对于某个 𝑚∈ℕ,其中一个锐角为 𝑚𝛼。
如果 𝑚=1,那就会得到原始三角形 ABC。如果 𝑚=2,那会得到一个新的直角三角形,其锐角为 2𝛼 和 𝛽 – 𝛼。(请注意,由于 𝛼 <45,因此 2𝛼 < 90。)最后,可以看到 𝑚 ≥ 3 是不可能的,因为不存在 30 ≤ 𝛼 < 45 的三角形。
该引理为这两位高中生提供了证明勾股定理的思路(对于非等腰直角三角形):从原始三角形 ABC 开始,尝试以尽可能多的方式创建一个新的直角三角形,其角度为 2𝛼、𝛽 – 𝛼 和 90 度。
举个例子,为了创建 2𝛼 角,一种明显方法是将两个 △𝐴𝐵𝐶 组合到一起,如图 13 所示。
图 13
这会得到一个等腰三角形𝐴𝐵𝐵′,其角度分别为 2𝛼、𝛽 和 𝛽;下一步是取其中的 𝛽 角,并将其转换为 𝛽 – 𝛼 或 90 度。
要在顶点 𝐵′ 处创建 90 度角,可构造一条射线,使它与 𝐵𝐵′ 形成 𝛼 角。如果将边 AB 延伸到点 D 处与该射线相交,则会获得前面第一个证明的图像。
图 14
又或者,如果在斜边 AB 的另一侧创建 2𝛼 角,并延伸 CB 以与新射线相交于点 D,如下所示,则将获得第二个证明的图形。
图 15
这种简单的方法可得到许多新证明,其中五个如上所示,还有五个(或更多)留给感兴趣的读者去发现。
有时,对于问题过于了解,会让我们陷入认为它「理所当然」的束缚。能用全新的眼光看待问题,也是一种稀缺的能力。
这些「高中水平」的内容你看懂了吗?快快拿起纸笔也来尝试一番证明吧!
参考内容:
https://mathstodon.xyz/@tao/113391326199704210
https://www.cnn.com/2024/10/29/science/teens-pythagorean-theorem-study/index.html
https://www.cbsnews.com/news/high-school-students-pythagorean-theorem-trigonometry-proof-60-minutes/
#GitHub Copilot
那些转到 Cursor 的用户,会不会又被吸引过来呢?
从今天起,GitHub Copilot 用户可以有更多模型选择了。
包括 Anthropic 的 Claude 3.5 Sonnet、Google 的 Gemini 1.5 Pro 以及 OpenAI 的 o1-preview 和 o1-mini,这些模型首先在 Copilot Chat 中推出。
此前,OpenAI o1-preview 和 o1-mini 已经推出,Claude 3.5 Sonnet 将在下周逐步推出,Google 的 Gemini 1.5 Pro 将在未来几周内推出。
Claude 3.5 Sonnet
Anthropic 发布的 Claude 3.5 Sonnet 模型擅长处理整个软件开发生命周期的编码任务 —— 从初始设计到错误修复、从维护到优化。在这些任务中,Claude 3.5 Sonnet 都表现的非常出色。
,时长00:44
Gemini 1.5 Pro
Google 最新 Gemini 模型在各种编码场景中表现出极高的能力。Gemini 1.5 Pro 上下文窗口达 200 万个 token,并且原生支持多模态,能够同时处理代码、图像、音频、视频和文本。
,时长00:20
o1-preview 以及 o1-mini
OpenAI o1-preview 和 o1-mini 模型配备了比 GPT 4o 更先进的推理能力。这些模型的推理能力可以更深入地理解代码约束和边缘情况,从而产生高效、高质量的结果。
,时长00:32
Perplexity + GitHub Copilot
除了对模型更新外,现在 Perplexity 也已经集成到 GitHub Copilot 中,可以帮助用户回答编程中遇到的问题,这项新功能还能提供实时可验证的参考来源,增加答案的可靠性。
,时长01:16
GitHub Spark
为了实现 GitHub 覆盖 10 亿开发者的愿景,研究团队还推出了 GitHub Spark。这是一款完全以自然语言构建应用程序的 AI 原生工具。
Spark 集成了 AI 功能和外部数据源,用户无需管理任何云资源。利用创意反馈循环,用户从初始提示开始,并可以在构建应用程序时查看实时预览,轻松查看每个请求的选项,并自动保存每次迭代的版本,以便他们可以随时比较不同版本的效果。
,时长01:14
看到这,GitHub Copilot 这次更新诚意还是很大的。
在此之前,Copilot 首个公开版本使用的是 Codex,也就是 OpenAI GPT-3 的早期版本,之后 2023 年推出 Copilot Chat,搭载的也是 OpenAI 的模型 GPT-3.5 和后来的 GPT-4。
现在 Copilot 接入了更多模型供大家选择,大家纷纷猜测可能是受到 Cursor 的影响,毕竟 Cursor 把默认模型切到了 Claude,虽然 OpenAI 重金进行了投资。
GitHub Copilot CEO Thomas Dohmke 也进行了一波宣传,Claude 3.5 Sonnet 上线 Copilot。
有网友认为,这是 GitHub Copilot 追赶 Cursor 的一种表现,随着新模型的加入,GitHub Copilot 会赢回一批用户。毕竟很多程序员都转到 Cursor 了,因为那里可以使用 Claude-3.5-Sonnet。
还有网友表示,「可能要切换回 VS Code 了。」
「太好了!也许我可以重新激活我的 GitHub Copilot 订阅。」
还有网友表示:「老实说,我不认为 Cursor 是一个可靠的解决方案。它只是在使用 4o 和 Claude 方面比 Copilot 更胜一筹。如果 Copilot 也这么做,这很容易被取代,而微软确实这么做了。」
不过有人并不同意,表示「GitHub 花了两年时间才承诺类似的功能,在速度方面,Cursor 赢麻了,再次超越微软。」
「Cursor 并没有被杀死。」
GitHub Copilot 和 Cursor 你选哪个?欢迎评论区留言。
参考链接:
https://github.blog/news-insights/product-news/bringing-developer-choice-to-copilot/
#AI公司的时代已经结束了
今年的大模型,上半年异常热闹,下半年有些凉凉。
做底层大模型研发,就像一场旷日持久的马拉松,研发成本高、技术门槛高,迭代竞争激烈。拿 OpenAI 来说,研发带来的年亏损高达 50 亿美元。这样的财务压力显然不是一般的 AI 公司所能承受之重。AI 创业公司也往往显得十分务实,始终将商业化和盈利变现作为核心考量。
AI 在寻找自己用武之地的路上,视频生成算得上是离应用最近的赛道之一。然而今天,AI 视频生成的「顶流」Runway 的 CEO 却给 AI 公司「判了死刑」。在他的公开信中,第一段就写着:「我认为 AI 公司的时代已经结束了。」
Runway 联合创始人兼 CEO Cristóbal Valenzuela Barrera
这封信的全文是这样的:
Runway 不是一家 AI 公司。Runway 是一家媒体和娱乐公司。实际上,我认为 AI 公司的时代已经结束了。
这并不是因为 AI 失败了 —— 恰恰相反,而是因为 AI 正在成为像电力或互联网一样的基础设施。在今天称自己为 AI 公司,就像在 2024 年称自己为互联网公司一样。这没有意义,因为人人都在用 —— 每家公司都使用互联网;每家公司都将使用人工智能。
对于 Runway 来说,我们的重点是艺术、媒体和更广泛的娱乐领域。我们在七年前创办 Runway 的愿景至今未改:人工智能是讲故事的必备工具。为了实现这一愿景,我们不得不反其道而行之,建立最好的研究团队,来提供支持最佳产品的最佳模型。
我经常将我们的工作比作一种新型「相机」。这里的「相机」并不是字面上的捕捉图像,而要诉诸更长远的历史尺度。相机不仅仅创造了摄影 —— 它催生了整个行业、经济和艺术形式。电影、电视、TikTok —— 所有这些都源于那个能捕捉光与时间的革命性工具。
我认为 Runway 的工作是为一个全新的媒体景观打下基础。就像相机改变了我们捕捉现实的方式,人工智能也正在改变我们创造现实的方式。Runway 构建的模型和技术只是一个开始 —— 它们相当于那些最初的银版照片,原始但充满无限可能。
银版摄影是一种早期的摄影技术,于 1839 年由法国人 Louis Daguerre 发明。
许多人错误地将人工智能看作是终极目标。他们错了,AI 只是一种工具,是支撑更伟大成就的途径与方式。真正的革命不在于技术本身,而在于它能够实现的事物:开创新的表达形式、开启新的故事讲述方式、寻找连接人类经验的新方法。
传统媒体就像是一条单行道。创作通过既定的渠道流向消费者。即使分发首先被社交媒体、流媒体先后颠覆,但这个基本模式仍然存在:有人创造,其他人消费。角色清晰,界限明确。然而,现在我们正在见证一种全新的情形。
想象一下,你在观看的节目能在观看过程中自动生成 —— 这是一种真正动态的内容,它能够回应你、理解你、完全为你量身定制。模拟世界,让内容能够实时自我塑造,才能消解创造与分发之间的界限。这不仅是构建全新媒体景观的基础,也将从根本上重新定义媒体:它既是互动的、生成性的、个性化的,同时又是共享和普遍的。
这也是为什么纯 AI 公司正在过气。现在亟待解决的根本问题不再是单纯的技术 —— 而是我们能用技术创造什么?下一波创新不会源于那些专注于研究模型的公司。模型已经成为一种商品。技术基础现已稳固,行业内没有任何秘密。真正的变革将来自于那些知道如何使用这些工具来创造新的媒体形式、新体验和新的叙事方式的人。基础设施已经铺好,接下来才是重头戏:用 AI 创造有意义的事物。
AI 公司的终结,标志着全新的开始:全新媒体的诞生。这不仅仅是新的平台或格式,而是全新的创造和体验内容的方式。我们不再致力于构建一个人工智能公司。这是一个更加令人兴奋的使命,就像 Runway 一直以来所追求的:回归我们的初心。
「抓马」的 Runway
Runway 成立于 2018 年,创始人兼首席执行官 Cristóbal Valenzuela Barrera 认为人工智能在艺术创作领域具有巨大潜力。因此,Runway 自创立之初就致力于为设计师、艺术家和开发人员提供工具和平台。
Runway 的创始团队:从左到右分别为 Alejandro Matamala、 Cristóbal Valenzuela Barrera、Anastasis Germanidis
回顾 Runway 发展历程,我们会发现一些「抓马」事件:Stable Diffusion 背后团队互撕、突然删除 HuggingFace 库......
今天提到 Stable Diffusion,我们或许会认为它是 Stability AI 的研究工作,但实际上,这个模型的技术来源是发表在 CVPR 2022 中的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》,署名作者一共五位,分别来自慕尼黑大学、海德堡大学和 Runway。2022 年,Runway 官宣发布了 Stable Diffusion v1.5,并和 Stability AI 因 Stable Diffusion 版权问题而引发矛盾。
而今年 8 月底,Runway 突然删除、清空了他们在 HuggingFace 上的所有内容,包括 Stable Diffusion v1.5。在 Hugging Face 主页上,Runway 声明不再维护 HuggingFace。
尽管这些事件有些抓马,但 Runway 一直在视觉生成领域持续发力。例如,近期 Runway 推出的视频生成基础模型 Gen-3 Alpha 可以创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。
最近,Gen-3 Alpha 还发布了一个新功能 ——Act-One,可以让用户上传一段视频,来驱动视频角色做出同样的表情、动作,可以说颠覆了动捕行业。
如果说「AI 公司的时代已经结束了」,那么 Runway 似乎一直在艺术、媒体和更广泛的娱乐领域创造工具和价值。或许,正如 CEO 所说,AI 在未来是一种基础设施,更值得思考和探索的是 AI 的应用方向。
对 Runway CEO 的观点,你认同吗?
参考链接:https://cvalenzuelab.com/newmedia?continueFlag=f3092b4cb56e4530d15c61194d05f9f9
#ROCKET-1
该研究成果由来自北京大学的蔡少斐、王子豪、连可为、牟湛存、来自北京通用人工智能研究院的马晓健研究员、来自加州大学洛杉矶分校的刘安吉共同完成。通讯作者为北京大学助理教授梁一韬。所有作者均隶属 CraftJarvis 研究团队。
在游戏和机器人研究领域,让智能体在开放世界环境中实现有效的交互,一直是令人兴奋却困难重重的挑战。想象一下,智能体在《我的世界(Minecraft)》这样的环境中,不仅要识别和理解复杂的视觉信息,还需要利用鼠标和键盘精细地控制游戏画面,快速做出反应,完成像导航、采矿、建造、与生物互动等任务。面对如此庞大且复杂的交互空间,如何能让智能体能理解并执行人类的意图呢?
针对这个问题,CraftJarvis 团队提出利用 VLMs (视觉语言模型)强大的视觉语言推理能力来指导任务的完成,并创新地提出了一种基于视觉 - 时间上下文提示(Visual-Temporal Context Prompting)的任务表示方法。该方法允许人类或 VLMs 在当前和历史游戏画面中将希望进行交互的物体分割出来,来传达具体的交互意图。为了将交互意图映射为具体的鼠标键盘操作,该团队进一步训练了一个以物体分割为条件的底层策略 ROCKET-1。这种融合了视觉 - 时间上下文提示的智能体架构为开放世界的交互奠定了基础,预示了未来游戏 AI 和机器人互动的新可能性。
- 论文链接: https://arxiv.org/pdf/2410.17856
- 项目主页: https://craftjarvis.github.io/ROCKET-1
研究创新点
视觉 - 时间上下文提示方法
架构对比图;(e) 为基于视觉 - 时间上下文提示的新型架构
视觉 - 时间上下文提示是一种全新的任务表达方式。通过整合智能体过去和当前的观察信息,该方法利用物体分割信息,为智能体提供空间和交互类型的线索,从而让低级策略能够准确识别和理解环境中的关键对象。这一创新使得智能体能够在执行任务时始终保持对目标对象的关注。
基于物体分割的条件策略 ROCKET-1
基于因果 Transformer 实现的 ROCKET-1 架构
ROCKET-1 是一种基于视觉 - 时间上下文的低级策略,能够在视觉观察和分割掩码的支持下预测行动。通过使用 Transformer 模块,ROCKET-1 可以在部分可观测(Partially Observable)环境中推理过去和当前观测的依赖关系,实现精准的动作预测。与传统方法不同,ROCKET-1 能够处理细微的空间和时序变化,并始终关注要进行交互的物体,显著提升了与环境交互的成功率。
反向轨迹重标注策略
反向轨迹重标记流程示意
训练 ROCKET-1 需要收集大量带有物体分割的轨迹数据。传统的数据标注方法成本高、效率低,CraftJarvis 团队提出了一种逆向轨迹重标注方法,利用 SAM-2 的物体分割能力在倒放的视频中连续地对发生交互的物体生成分割注释。这种方法能够根据现有的交互事件重建数据集,使得 ROCKET-1 在离线条件下即可完成高效训练,减少了对人工标注的依赖,并为大规模数据处理提供了切实可行的解决方案。
充分释放预训练基础模型的能力
CraftJarvis 团队将具身决策所依赖的能力分解为视觉语言推理、视觉空间定位、物体追踪和实时动作预测,并巧妙地组合 GPT-4o、Molmo、SAM-2、ROCKET-1 加以解决。
为了应对复杂任务规划的挑战,该团队引入了 GPT-4o,目前最先进的视觉语言模型之一。可以进行强大的视觉语言推理,将复杂的任务分解为一系列具体的物体交互指令。此外,该团队采用了 Molmo 模型来将 GPT-4o 的交互意图翻译为观察图像中的坐标点,用以精确定位交互物体。
为了应对对象跟踪的挑战,该团队引入了 SAM-2,一个先进的视频分割模型。SAM-2 不仅能够通过点提示对物体进行分割,还可以在时间上连续追踪目标,即便物体在视野中消失或重新出现时也能有效保持跟踪。这为 ROCKET-1 提供了稳定的对象信息流,确保了在高频变化的环境中智能体的交互精度。
实验成果
为了验证 ROCKET-1 的交互能力,CraftJarvis 团队在《我的世界》中设计了一系列任务,包括采矿、放置物品、导航和与生物互动等。
《我的世界》交互任务评测集
ROCKET-1 评测结果
实验结果显示,ROCKET-1 在这些任务上,尤其在一些具有高空间敏感性的任务中,获得的成功率远高于现有方法(在多数任务上实现了高达 90% 的成功率提升),ROCKET-1 表现出了出色的泛化能力。即便在训练集中从未出现的任务(如将木门放到钻石块上),ROCKET-1 依然能够借助 SAM-2 的物体追踪能力完成指定目标,体现了其在未知场景中的适应性。
此外,该团队也设计了一些需要较为复杂的推理能力的长期任务,同样展示了这套方法的杰出性能。
ROCKET-1 在解决任务时的截图
需要依赖规划能力的长期任务性能结果
视觉 - 时间上下文方法的提出和 ROCKET-1 策略的开发不仅为 Minecraft 中的复杂任务带来了全新解决方案,也在通用机器人控制、通用视觉导航等领域展示了广泛的应用前景。