51c大模型~合集171

原创

whao143 2025-08-16 19:52:43 博主文章分类：人工智能 ©著作权

©著作权归作者所有：来自51CTO博客作者whao143的原创作品，请联系作者获取转载授权，否则将追究法律责任

#Time Is a Feature

dLLM的「Free Lunch」！浙大&蚂蚁利用中间结果显著提升扩散语言模型

本文第一作者王文，浙江大学博士生，研究方向是多模态理解与生成等。本文通讯作者沈春华，浙江大学求是讲席教授，主要研究课题包括xx智能、大模型推理增强、强化学习、通用感知模型等。

近年来，扩散大语言模型（Diffusion Large Language Models, dLLMs）正迅速崭露头角，成为文本生成领域的一股新势力。与传统自回归（Autoregressive, AR）模型从左到右逐字生成不同，dLLM 依托迭代去噪的生成机制，不仅能够一次性生成多个 token，还能在对话、推理、创作等任务中展现出独特的优势。当你还在等传统 LLM「一个字一个字」地憋出答案时，dLLM 早已通过几轮迭代「秒」出完整结果，带来前所未有的生成效率。

然而，速度的提升并不意味着完美的答案。现有 dLLM 的解码策略往往只关注最后一次迭代的生成结果，直接舍弃了中间多轮迭代中蕴含的丰富语义与推理信息。这些被忽视的中间预测，实际上可能暗藏着更准确、更接近真相的答案。一旦被丢弃，不仅造成信息浪费，还可能让模型错失做对题目的最佳时机。

更令人意外的是，研究团队在数学推理任务中观察到了一种「先对后错」的现象：模型先是得出了正确答案，却在随后的迭代中将其「推翻」，转而采用错误答案，最终导致整体回答错误。以下图为例，模型在第 55 步时明明已经得到正确的 25，却在后续生成中改成了 2，并一直坚持到最后也未能修正。

51c大模型~合集171_大模型

正是基于这一关键观察，来自浙江大学的研究团队从时序视角切入，提出了 Temporal Self-Consistency Voting 与 Temporal Consistency Reinforcement 两种方法，对模型的性能进行优化与提升。

论文标题：Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

论文地址：https://arxiv.org/abs/2508.09138

项目主页：https://aim-uofa.github.io/dLLM-MidTruth/

Github：https://github.com/aim-uofa/dLLM-MidTruth

Huggingface Paper：https://huggingface.co/papers/2508.09138

Temporal Self-Consistency Voting：从时间维度「抓住」模型最靠谱的答案

51c大模型~合集171_大模型_02

在传统的自回归（AR）模型中，majority vote 通常需要针对同一个 prompt 多次生成完整回答，再根据出现频率选出最高票的答案。虽然这种方法在提升准确率方面有效，但代价是成倍增加计算开销，往往需要耗费数倍的推理时间与资源。

而研究团队结合 dLLM 的迭代生成特性，提出了 Temporal Self-Consistency Voting (TCV) 方法。它不必额外生成多条回答，而是直接利用 dLLM 在去噪过程中每个时间步的中间结果，进行一次「时间轴上的投票」来选出最终答案。考虑到 dLLM 在迭代去噪中理论上会逐渐趋于稳定与确定，TCV 还为不同时间步的结果分配了不同权重，从而更精准地捕捉最可靠的预测。

该方法的主要创新之处在于，它巧妙地将「多数投票」理念与 dLLM 的时间维度信息结合起来，实现了几乎零额外计算成本的性能提升，同时充分挖掘了中间预测中的潜在价值。

Temporal Consistency Reinforcement：

用时序一致性训练出更稳的 dLLM

研究团队针对 dLLM 的中间预测结果，创造性地提出了 Temporal Semantic Entropy (TSE) 这一概念。TSE 通过计算模型在不同迭代步骤中预测结果的语义熵，来衡量生成过程中的一致性程度。直观来说，熵越低，说明模型在迭代中越稳定、越坚定自己的选择；熵越高，则意味着生成路径摇摆不定、易于被干扰。

51c大模型~合集171_大模型_03

在实验分析中，他们发现了一些颇具规律性的现象：在相对简单、模型准确率较高的数据集（如 GSM8K 和 SVAMP）上，TSE 值普遍较低；而在同一个数据集中，模型答对的问题的 TSE 往往显著低于答错的问题。这一发现表明，稳定的生成路径往往与更好的任务表现高度相关。

基于这一洞察，研究团队提出了 Temporal Consistency Reinforcement (TCR) 方法，将 TSE 直接作为奖励信号，引导模型在训练中主动降低 TSE，从而提升生成路径的稳定性。进一步地，他们还利用 scoring rule，将 TSE 与传统的正确性奖励相结合，实现「双重监督」——既让模型追求正确答案，又保持推理过程的一致性，最终训练出更稳定、性能更优的 dLLM。

实验结果

研究团队在三个主流数学推理数据集（GSM8K、MATH500、SVAMP）以及一个逻辑推理数据集（Countdown）上进行了系统测试。结果显示，Temporal Self-Consistency Voting 几乎不增加额外计算成本，就能在多个数据集上稳定带来性能提升，验证了从中间迭代中挖掘信息的有效性。

51c大模型~合集171_大模型_04

与此同时，Temporal Consistency Reinforcement 的表现同样令人惊艳——仅仅利用 Temporal Semantic Entropy (TSE) 作为唯一奖励信号，就能在 Countdown 数据集上实现 24.7% 的显著提升。更进一步，当将 TSE 与传统的正确性奖励结合时，不仅在 Countdown 上提升至 25.3%，在 GSM8K、MATH500、SVAMP 上也分别取得了 +2.0%、+4.3%、+6.6% 的绝对增幅，全面超越了仅依赖正确性奖励的效果。

51c大模型~合集171_大模型_05

训练后模型性质分析

51c大模型~合集171_大模型_06

研究团队对训练后模型进行分析发现：模型生成更稳定、输出更简洁。具体表现为：

时间一致性提升：生成过程更稳，中间预测波动减少；
仍有提升空间：虽然表现更好，但模型在中间预测上仍有可优化空间；
输出更精炼：有效 token 数下降，答案更简短，可能也更不容易「自打脸」。

这表明，通过 Temporal Consistency Reinforcement，不仅让模型跑得快，也更能稳稳抓住正确答案。

总结

总体来看，这项工作揭示了 dLLM 生成过程中的「先对后错」现象，并提出了两种创新方法——Temporal Self-Consistency Voting 和 Temporal Consistency Reinforcement。它们利用中间预测的时间一致性和语义稳定性，不仅显著提升了模型在数学与逻辑推理任务上的表现，也为未来挖掘 dLLM 潜力提供了全新的思路。

#TREAD

DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学

「兄弟们，DiT 是错的！」

最近一篇帖子在 X 上引发了很大的讨论，有博主表示 DiT 存在架构上的缺陷，并附上一张论文截图。

51c大模型~合集171_大模型_07

图 1. 我们引入了 TREAD，这是一种能够显著提升基于 token 的扩散模型骨干网络训练效率的训练策略。当应用于标准的 DiT 骨干网络时，我们在无引导 FID 指标上实现了 14/37 倍的训练速度提升，同时也收敛到了更好的生成质量。

图中横轴代表训练时间（以 A100 GPU 的小时数为单位，log 尺度，从 100 小时到 10000 小时），纵轴代表 FID 分数（越低越好，代表生成图像质量越高）。

博主认为，这个图的核心信息不是 TREAD 的速度优势，而是 DiT 的 FID 过早稳定，暗示 DiT 可能存在「隐性架构缺陷」，导致其无法继续从数据中学习。

51c大模型~合集171_大模型_08

博主提到的论文发表于今年 1 月（3 月更新 v2），介绍了一种名为 TREAD 的新方法，该工作通过一种创新的「令牌路由」（token routing）机制，在不改变模型架构的情况下，极大地提升了训练效率和生成图像的质量，从而在速度和性能上都显著超越了 DiT 模型。

具体而言，TREAD 在训练过程中使用「部分令牌集」（partial token set） vs 「完整令牌集」（full token set），通过预定义路由保存信息并重新引入到更深层，跳过部分计算以减少成本，同时仅用于训练阶段，推理时仍采用标准设置。这与 MaskDiT 等方法类似，但更高效。

论文标题：TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training

论文地址：https://arxiv.org/abs/2501.04765

代码：https://github.com/CompVis/tread

博主在后续回复中逐步展开了对 DiT 的批判，并解释 TREAD 如何暴露这些问题。

博主指出，该论文揭示了 DiT 模型的设计缺陷。具体来说，研究发现在训练过程中，如果将模型中的一部分计算单元替换为「恒等函数」（Identity Function）—— 也就是让这些单元什么计算都不做，仅仅是「直通」数据，相当于被临时禁用了 —— 模型的最终评估分数反而会提高。

51c大模型~合集171_大模型_09

接着博主指出 DiT 的两个「可疑」的设计：

整个架构都使用「后层归一化」（Post-LayerNorm）

51c大模型~合集171_大模型_10

博主认为 DiT 使用了一种已知不太稳定的技术（后层归一化），来处理一个数值范围变化极其剧烈的任务（扩散过程）。

adaLN-zero

51c大模型~合集171_大模型_11

博主认为，这个模型虽然整体上自称是「Transformer」架构，但在处理最关键的「指导信息」（即条件数据）时，并没有使用强大的 Transformer，而是用了一个非常简单的 MLP 网络（多层感知机）。

更具体地，adaLN-zero 通过完全覆盖注意力单元的输入，并注入任意偏置来覆盖输出，这限制了模型的表达能力，相当于「讨厌注意力操作」（hate the attention operation），从而削弱了 DiT 的整体潜力。

51c大模型~合集171_大模型_12

博主还提到与早期论文相关的 LayerNorm 研究，指出 LayerNorm 的偏置和增益参数可能对梯度调整影响更大，而非真正改善模型性能。他认为，adaLN-zero 正是利用了这一点，名为「梯度调节」，实则像是在「给小模型偷偷注入过拟合的偏置」。

51c大模型~合集171_大模型_13

论文标题：Understanding and Improving Layer Normalization
论文地址：https://arxiv.org/abs/1911.07013

看了这篇帖子，DiT 的作者，纽约大学计算机科学助理教授谢赛宁有些忍不住了。

在 2022 年，谢赛宁发表了 DiT 的论文，这是扩散模式首次和 Transformer 相结合。

51c大模型~合集171_大模型_14

论文标题：Scalable Diffusion Models with Transformers
论文链接：https://arxiv.org/pdf/2212.09748

在 DiT 问世之后，Transformer 逐步代替原始扩散模型中的 U-Net，在图像和视频生成任务中生成高质量的结果。

其核心思想是采用 Transformer 代替传统的卷积神经网络作为扩散模型的主干网络。

51c大模型~合集171_大模型_15

这一方法业已成为 Sora 和 Stable Diffusion 3 的基础架构，同时也确定了 DiT 的学术地位。

在 DiT 论文刚刚问世时，就已接连受到质疑，甚至以「缺乏创新」为由被 CVPR 2023 拒稿。

这一次面对 DiT 在数学和形式上都「是错的」的论调，谢赛宁发推做出了几点回应。

51c大模型~合集171_大模型_16

从字里行间来看，谢赛宁对这个帖子多少有些情绪：

我知道原帖是在钓鱼骗点击率，但我还是咬一下钩……

坦白讲，每个研究者的梦想其实就是发现自己的架构是错的。如果它永远都没问题，那才是真正的大问题。

我们每天都在用 SiT、REPA、REPA-E 等方法试图打破 DiT，但这需要基于假设、做实验、进行验证，而不是只在脑子里扮演式地做科学…… 否则，你得出的结论不仅仅是错的，而是根本连错都谈不上。

也难怪谢赛宁语气有些不善，原帖博主的一些说法可能有些拱火的嫌疑：

51c大模型~合集171_大模型_17

51c大模型~合集171_大模型_18

谢赛宁也从技术角度对于原帖子提出的一些问题进行了回复，在对原帖的部分问题进行了反驳后，他也同样说明了 DiT 架构目前存在一些硬伤。

截至今天，DiT 的问题：

tread 更接近于 stochastic depth，我认为它的收敛性来自正则化效应，这让表示能力更强（注意推理过程是标准的 —— 所有模块都会处理所有 token）；这是非常有意思的工作，但和原帖说的完全不是一回事。
Lightning DiT 已经是经过验证的稳健升级版（结合了 swiglu、rmsnorm、rope、patch size=1），有条件就应该优先使用它。
没有任何证据表明 post-norm 会带来负面影响。
过去一年最大的改进点在于内部表示学习：最早是 REPA，但现在有很多方法（例如 tokenizer 层面的修正：VA-VAE / REPA-E，把语义 token 拼接进噪声潜变量、解耦式架构如 DDT，或者通过分散损失、自表示对齐等正则化手段）。
始终优先采用随机插值 / 流匹配（SiT 在这里应该是基线）。
对于时间嵌入，使用 AdaLN-zero；但遇到更复杂的分布（如文本嵌入）时，应采用交叉注意力。
不过要用对方式 —— 采用 PixArt 风格的共享 AdaLN，否则会白白浪费 30% 的参数。
真正的「硬伤」其实是 DiT 里的 sd-vae：这是显而易见却长期被忽视的问题 —— 它臃肿低效（处理 256×256 图像竟需要 445.87 GFlops？）、不是端到端的。像 VA-VAE 和 REPA-E 只是部分修复，更多进展还在路上。

评论网友也对回应中提到的技术细节感兴趣，谢赛宁也都对相关疑惑做出了回复：

51c大模型~合集171_大模型_19

51c大模型~合集171_大模型_20

算法的迭代进步总是伴随着对现有算法的质疑，虽说所谓「不破不立」，但 DiT 仍然在擂台中央，不是么？

#LongVie

Sora没做到的，LongVie框架给解决了，超长视频生成SOTA

从 Sora 的惊艳亮相到多款高性能开源模型的诞生，视频生成在过去两年迎来爆发式进步，已能生成几十秒的高质量短片。然而，要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频，仍面临巨大挑战。

为此，上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab、英伟达等机构提出 LongVie 框架，系统性解决可控长视频生成中的核心难题。

项目主页：https://vchitect.github.io/LongVie-project/
视频：https://www.youtube.com/watch?v=SOiTfdGmGEY&t=1s
论文：https://arxiv.org/abs/2508.03694
Github：https://github.com/Vchitect/LongVie

，时长02:12

难点剖析

直接利用当前的可控视频生成模型生成分钟级长视频时，通常会出现以下问题：

时序不一致：前后画面细节与内容不连贯，出现闪烁等现象。
视觉退化：随时长增长，出现颜色漂移、清晰度下降等问题。

51c大模型~合集171_大模型_21

解决时序不一致：两项关键策略

LongVie 从「控制信号」与「初始噪声」两条路径入手：

1. 控制信号全局归一化（Control Signals Global Normalization）

将控制信号在全片段范围内统一归一化，而非仅在单一片段内归一化，显著提升跨片段拼接时的一致性。

2. 统一噪声初始化（Unified Noise Initialization）

各片段共享同一初始噪声，从源头对齐不同片段的生成分布，减少前后帧外观与细节漂移。

（下图展示了两项策略带来的前后一致性提升）

51c大模型~合集171_大模型_22

解决视觉退化：多模态精细控制

单一模态的控制难以在长时间下提供稳定而全面的约束，误差会随时间累积并引发画质下降。LongVie 融合密集控制信号（如深度图）与稀疏控制信号（如关键点），并引入退化感知训练策略，在更贴近长序列退化分布的条件下训练模型，使长视频生成在细节与稳定性上同时受益。

（下图给出了单一模态与多模态对比示例）

51c大模型~合集171_大模型_23

一图看懂 LongVie 框架

51c大模型~合集171_大模型_24

从左至右，LongVie 先将跨片段的稠密（深度）与稀疏（关键点）控制视频做全局归一化，并为所有片段采用统一的噪声

51c大模型~合集171_大模型_25

初始化。随后在具体某一片段生成时，将全局归一化后的控制信号、上一片段的末帧与文本提示送入模型，最终生成当前片段的视频，接着不断生成后面的片段，从而生成长视频。

51c大模型~合集171_大模型_26

控制信号怎么融合更稳更强？团队把标准 ControlNet（a）和两种变体（b、c）都做了对比测试，结果显示变体（c）效果更好、训练更稳定，最终被采纳。

LongVie 能力展示

LongVie 支持多种长视频生成下游任务，包括但不限于：

视频编辑：对长视频进行一致性的内容修改与编辑。
风格迁移：对整段长视频执行统一且时序连贯的风格迁移。
Mesh-to-Video：从三维体素出发生成逼真的长视频。

（如下图为不同任务的效果示例）

51c大模型~合集171_大模型_27

51c大模型~合集171_大模型_28

51c大模型~合集171_大模型_29

LongVGenBench：首个可控超长视频评测基准

当前缺乏面向可控长视频生成的标准化评测。为此，作者团队提出 LongVGenBench—— 首个专为超长视频生成设计的基准数据集，包含 100 个时长超过 1 分钟的高分辨率视频，旨在推动该方向的系统研究与公平评测。

基于 LongVGenBench 的定量指标与用户主观测评显示，LongVie 在多项指标上优于现有方法，并获得最高用户偏好度，达到 SOTA 水平。（详见下表与用户研究结果）

51c大模型~合集171_大模型_30

51c大模型~合集171_大模型_31

#Look-Back

当VLM学会了“回头看” ！Qwen-2.5-VL突破性发现，7B模型自主激活'视觉反思'，感知任务性能提升6.3%

无需额外图像输入，Qwen-2.5-VL 7B 凭「Look-Back」机制在推理后期自发“回头看”关键视觉信息，一举将数学与感知任务平均提升约7%和6.3%，刷新多模态推理范式。

本文主要解决了什么问题

1. 多模态大语言模型（MLLMs）在推理后期过度依赖文本信息，忽视视觉输入整合的问题。现有方法通常依赖显式注入视觉信息来引导模型重新关注图像，但这种做法增加了推理复杂度，并未充分利用模型本身的视觉融合推理能力。 2. 缺乏对MLLMs自发视觉注意力机制的研究。现有方法普遍假设模型不具备自主重新聚焦视觉输入的能力，因此依赖外部干预。本文提出关键问题：是否可以在不显式注入视觉信息的前提下，引导模型自发地重新聚焦于视觉输入。 3. 模型在生成视觉反思行为时触发率低的问题。通过简单的Prompt引导虽然能观察到视觉注意力的增强，但触发率极低（平均6.248%），难以稳定实现视觉融合推理。

本文的核心创新是什么

1. 提出Look-Back方法：一种隐式训练范式，使MLLMs能够在推理过程中自主决定何时、何地以及如何重新关注视觉输入，而无需显式注入图像信息或修改模型结构。 2. 发现MLLMs具备自发视觉注意力机制：通过注意力图分析，证实即使不显式提供图像输入，模型在生成特定Token（如<back>）时仍能自然地将注意力重新聚焦到图像的关键区域。 3. 两阶段训练框架：

- 冷启动监督微调（SFT）：使用高阶模型（如GPT-4o）生成带有`<back>` Token的反思性推理样本，构建初始训练数据集。
- 强化学习（RL）：基于GRPO算法，设计格式Reward函数，激励模型自发生成视觉反思行为。

4. 无需额外输入或结构修改：Look-Back完全依赖模型内部机制，避免了显式重输入图像或引入额外Token的繁琐流程。

结果相较于以前的方法有哪些提升

1. 在多个多模态基准测试中性能显著提升：

- 在数学任务中，Semantic-back平均提升7%（从48.5%到55.5%），Solution-back提升7.9%（从48.5%到56.4%）。
- 在感知任务中，Semantic-back提升6.3%（从61.3%到67.6%），Solution-back提升6%（从61.3%到67.3%）。

2. 与开源推理MLLMs相比具有竞争力：

- 尽管参数量更小，Look-Back仍能缩小与闭源模型（如GPT-4o和o3）之间的差距，尤其在Solution-back设置下表现突出。

3. 提升模型泛化能力：

- 尽管训练数据主要为数学任务，Look-Back在感知任务中也表现出良好的泛化能力，说明其机制具有跨任务适应性。

4. 可视化注意力机制验证：

- 通过注意力图分析，验证了模型在生成`<back>` Token时确实聚焦于图像中的关键区域，证明了视觉反思行为的真实性与有效性。

局限性总结

1. 冷启动数据构建依赖高阶模型：

- 当前方法依赖GPT-4o等闭源模型生成带有`<back>` Token的样本，限制了方法的可扩展性和开源友好性。

2. 触发率低的问题仍未完全解决：

- 即使通过强化学习提升，`<back>` Token的触发率仍然有限，表明模型在自主生成视觉反思行为方面仍存在挑战。

3. 训练数据的模态和任务偏差：

- 实验中主要使用数学推理数据进行训练，导致在感知任务上的提升略逊于数学任务，说明训练数据的多样性对模型泛化能力有重要影响。

4. 存在潜在的Reward攻击风险：

- 模型可能通过生成空`<back>` Token序列来“走捷径”获取格式Reward，说明强化学习训练中仍需更精细的控制机制。

5. 方法对模型架构和预训练基础敏感：

- 实验表明，Qwen-2.5-VL具备一定的视觉反思能力，而更早版本（如Qwen-2-VL）则表现不佳，说明方法对模型基础能力有较高依赖。

深入阅读版本导读

多模态大语言模型（MLLMs）在多模态推理方面取得了显著进展。然而，它们在推理后期往往过度依赖文本信息，忽视了视觉输入的关键整合。当前方法通常通过显式注入视觉信息来指导推理过程来解决这个问题。在本工作中，通过分析MLLMs的注意力模式，作者做出了一个有趣的观察：在适当引导下，即使没有显式注入视觉信息，MLLMs也能在推理后期自发地将注意力重新集中在视觉输入上。这种注意力的自发转变表明MLLMs本质上具备执行视觉融合推理的能力。基于这一见解，作者提出了Look-Back，这是一种隐式方法，旨在引导MLLMs在推理过程中以ego驱动的方式“回顾”视觉信息。Look-Back使模型能够自主决定何时、何地以及如何重新关注视觉输入，无需显式的模型结构约束或额外的输入。作者通过在多个多模态基准上的广泛实证评估证明，Look-Back显著增强了模型的推理和感知能力。

1 引言

随着多模态推理（Amizadeh等人2020；Garcez等人2019；Gupta和Kembhavi2023；Thawakar等人2025；Guo等人2024；Bai等人2023；Hurst等人2024；Xu等人2024）和带验证性 Reward 的强化学习（RLVR）（Shao等人2024b；Guo等人2025；Meng等人2025；Peng等人2025）的发展，多模态大语言模型（MLLMs）（Liu等人2023；团队2025；Wang等人2024b；Liao等人2025；Lin等人2025；Wan等人2025b）在联合处理图像和文本输入以执行复杂任务方面取得了显著进展（Google2025；OpenAI2025；Jaech等人2024；Pang等人2024）。然而，最近的研究表明，大多数方法在推理的后期阶段仍然主要依赖文本，忽视了视觉模态（Zheng等人2025b；Fan等人2025；Su等人2025；Zhang等人2025d；Yang等人2025b；Hu等人2024；Liu等人2025e；Zou等人2024）。具体而言，在推理过程中，模型对视觉信息的关注度逐渐降低，在后期阶段几乎降至零（Sun等人2025；Tu等人2025；Chen等人2024b），以至于后期阶段的视觉信息对推理结果的影响微乎其微（Sun等人2025）。

然而，人类在多模态推理中自然地将视觉和认知处理相结合（Najemnik和Geisler 2005；Tversky、Morrison和Betrancourt 2002；Tversky 2005；Kosslyn 1996；Goel 1995；Larkin和Simon 1987；Zhang和Norman 1994），而OpenAI的o3（OpenAI 2025）则代表了该领域从单纯基于文本的推理向与视觉信息深度整合的逐步转变。尽管取得了这些进展，但大多数现有方法仍然明确地注入视觉信息（Zheng等人 2025b；Su等人 2025；Zhang等人 2025d；Wang等人 2025d；Chern等人 2025），例如重新输入图像或将图像 Token 重新注入模型（Sarch等人 2025；Wu等人 2025a；Xu等人 2025；Zhang等人 2025b；Gupta和Kembhavi 2023）。这些方法本质上引导模型重新关注视觉线索。基于此，作者提出了一个关键的研究问题：> MLLMs能否通过ego指导的方式隐含地学习何时以及如何重新聚焦于视觉输入，而不是显式地重新注入视觉信息？

基于上述问题，作者进行了一项初步实验以验证模型能够自主重新聚焦于图像。具体而言，作者将一个简单的 Prompt （如图2所示）引入到原始的CoT框架中。令人惊讶的是，在推理的后期阶段，模型自发地增强了其对图像的关注，重新聚焦于视觉输入，而无需任何额外的显式输入或模型结构约束。

51c大模型~合集171_大模型_32

为了更好地利用模型对图像的自主注意力现象，作者提出了Look-Back方法，该方法旨在以自然和ego驱动的方式引导MLLMs在推理过程中"回顾"视觉信息，从而增强其对视觉输入的注意力。具体而言，作者开发了一个两阶段训练框架。在第一阶段，作者利用先进的MLLMs生成带有 Token 的反思数据，随后进行冷启动微调，为后续的强化学习训练奠定基础。在第二阶段，作者仅对GRPO算法引入基于 Token 的格式 Reward ，旨在通过强化学习进一步强化模型对视觉信息的关注能力。

如图1所示，Look-Back能够有效鼓励MLLMs自发生成与图像相关的反思性推理内容，而无需显式注入视觉信息，并在推理后期自主增强对图像的关注（即重新聚焦于图像）。通过分析注意力图，作者确认模型确实在 Token 中关注了正确的视觉位置。Look-Back使模型能够自主决定何时（触发 Token 的时间由模型决定）、何地（选择图像中特定的区域进行关注）以及如何（自主决定如何增强注意力）对视觉输入进行反思，所有这一切均无需显式输入或对模型的结构施加约束。

51c大模型~合集171_大模型_33

本文旨在提出一种由模型自发生成的隐式视觉融合推理范式，而非仅仅评估哪种范式最为有效。作者使用Qwen-2.5-VL-7B模型（团队2025）在多个广泛使用的多模态推理基准上进行了全面的实验验证。结果表明，通过引导模型自发重新聚焦于图像Look-Back，可以持续提升推理和感知任务中的性能。作者的主要贡献总结如下：

通过分析注意力变化趋势，作者发现，在不明确注入视觉信息的情况下，现有的MLLM能够自主关注视觉输入。
作者提出了回溯隐式训练范式，该范式在冷启动微调后，通过简单地修改格式 Reward 函数即可触发模型的视觉反射行为。
在多个多模态基准测试上的广泛评估表明，Look-Back能够持续提升推理和感知任务的表现。

2 MLLMs是否知道何时以及如何反思视觉输入？

近期研究（Hu等人2024；Zhang等人2025d；Su等人2025；Fan等人2025；Liu等人2025e；Zheng等人2025b）表明，多模态大语言模型（MLLMs）在推理后期阶段往往过度依赖文本信息，忽视了视觉输入的关键整合。随着推理过程的推进，对视觉信息的关注度逐渐降低，这显著影响了视觉语言模型的可靠性和性能。当前方法通常通过显式注入视觉信息来指导推理过程，例如将图像重新输入模型，以此解决这一问题。

然而，这引发了一个基本问题：能否在不依赖外部干预的情况下，使MLLMs自发地重新激活对视觉输入的关注？为探究此问题，作者进行了一项初步实验，采用了一种简单的 Prompt 修改方法，鼓励模型生成cback Token ，并随后基于视觉信息重新审视其响应。

令人惊讶的是，如图2所示，该模型展现出卓越的自发性视觉注意力恢复能力。在生成 Token 时，模型自然地将大量注意力重新导向视觉输入，中央图表中"Image Token"注意力比例的急剧上升便是明证。关键在于，这并非对图像的泛泛浏览；模型的推理精准地基于视觉证据。底部注意力图提供了有力证据：在生成序列时，模型会专门聚焦于相应目标——例如，在生成"yellow" Token 时关注黄色公交车，在生成"car" Token 时关注金色汽车。这种目标性重新聚焦是内在发生的，无需显式注入视觉信息或对模型架构进行结构修改。

51c大模型~合集171_大模型_34

表1中的结果在多个基准测试上展示了定量改进，这初步验证了MLLMs具备ego导向视觉反思的潜在能力。为进一步验证反向机制带来的性能提升，作者对“Back prompt”成功触发视觉反思的问题子集进行了专门分析。如表2所示，比较该特定问题子集上的性能表明，参与视觉反思在所有基准测试中带来了更大的改进。然而，表1中的“触发率”揭示了关键局限性：即使经过精心调整的 Prompt ，仅修改 Prompt 不足以始终触发这种反思行为，导致平均触发率仅为。因此，作者提出使用强化学习来进一步激励该机制。

51c大模型~合集171_大模型_35

3 回溯方法

所提出的回溯方法旨在引导多模态大语言模型（MLLMs）在推理过程中自发地重新聚焦视觉输入，从而增强其视觉融合推理能力。具体而言，回溯方法包含两个主要阶段：监督微调（SFT）和强化学习（RL）。

冷启动初始化

为解决与 Token 自发触发相关的稳定性问题以及模型通过 Reward 劫持进行的 Reward 操纵（详见讨论部分），作者首先构建了一个用于冷启动初始化的监督微调数据集。具体而言，根据 Token 触发的时机，作者将回退 Prompt 分为两类：

语义级回溯（Semantic-back）：在推理过程中被触发，允许模型重新审视对中间推理步骤至关重要的视觉细节，并随后继续其正在进行中的推理。: 解级回溯（Solution-back）：在模型生成初步解决方案后被触发，促使模型通过重新考虑视觉输入进行全面反思。

作者设计了两种明确的输出格式，如下所示（详见附录B）。

数据构建。作者设计了一个特定的数据构建过程，如图3（A）所示，该过程由以下三个步骤组成：

51c大模型~合集171_大模型_36

模型推理：首先，作者使用Qwen-2.5-VL-7B对数据集进行思维链（Chain-of-Thought, CoT）推理。对于每个问题，作者进行次独立推理（在作者的实验中，或）。
CoT选择：基于推理结果，作者计算准确率 Reward ，并选择 Reward 方差较高且难度较大的问题。
High-Level模型插入：问题、图像、模型生成的思维链推理过程以及正确答案被输入到GPT-o4-mini中，该模型根据预定义规则自动插入回溯 Token 。对于答案正确的样本，会插入与图像验证相关的回溯 Token 。对于答案错误的样本，会插入基于图像信息修正答案的回溯 Token ，并相应调整最终答案。

通过上述步骤，每个样本都获得了一个带有明确 Token 的稳定冷启动响应。这产生了一个带有显式回溯 Token 的稳定冷启动数据集。

监督微调（SFT）。使用由 Token 生成的冷启动数据集，作者应用SFT来指导模型一致地触发回溯行为。每个样本表示为，其中表示输入图像，代表问题，是回溯 Token序列，是答案序列。训练目标是如下：

51c大模型~合集171_大模型_37

其中表示数据集，将回溯 Token 和答案序列连接起来。

回顾强化学习

为进一步提升模型自主重访视觉输入的能力，作者采用群体相对策略优化（GRPO）算法进行强化学习。相较于传统的策略优化方法，GRPO在样本群体内执行策略梯度优化，使模型能够高效生成更多样化且丰富的推理响应。优化目标如下：

51c大模型~合集171_大模型_38

其中和分别是裁剪超参数和KL散度惩罚系数。为了更稳定地引导模型触发视觉审查行为，作者仅修改了格式 Reward 函数。具体而言，格式 Reward 函数定义如下：

51c大模型~合集171_大模型_39

完整的 Reward 函数是格式 Reward 和准确率 Reward 的组合，定义为：

其中表示响应的准确度 Reward，是一个超参数，用于调整格式 Reward 与准确度 Reward 之间的平衡。本质上，作者设计的 Reward 函数为模型提供了内在动机，使其能够自主地重新审视视觉信息。这使模型能够在推理过程中主动反思视觉输入，类似于人类自然地重新审视视觉信息，而无需显式地重新注入图像。

4 回顾实验分析实验设置

Baseline 与基准测试。为了评估Look-Back的有效性，作者在一组包含八个基准测试的实验中进行了测试，这些基准测试分为两类：数学任务和感知任务。数学基准测试包括

MathVerse（张等人 2024）、MathVision（王等人 2024a）、MathVista（陆等人 2023）、WeMath（乔等人 2024）和GeoMath（谭等人 2025），而感知基准包括HallusionBench（关等人 2024）、TallyQA（阿查里亚、卡夫勒和卡南 2019）和MME（傅等人 2024）。作者分别计算了每个类别的平均性能。此外，作者将LookBack与三种类型的 Baseline 进行了比较：（1）闭源多模态大语言模型（MLLMs），如GPT-4o（哈斯特等人 2024）和o3（OpenAI 2025）；（2）开源通用MLLMs，如Qwen2.5-VL32B（团队 2025）和InternVL3-38B（朱等人 2025）；（3）开源推理MLLMs，如MM-Eureka8B（孟等人 2025）、R1-VL-7B（张等人 2025a）、VL-Rethinker-7B（王等人 2025a）、OpenVLThinker7B（邓等人 2025）、ThinkLite-VL-7B（王等人 2025c）、VLAA-Thinker-7B（陈等人 2025a）、VisionR1-7B（黄等人 2025）、MM-Eureka-Qwen-7B（孟等人 2025）、R1-Onevision-7B（杨等人 2025b）和NoisyRollout-7B（刘等人 2025b）。

训练数据集。在强化学习（RL）阶段，作者从Geo170K（Gao等人，2023）、Math360K（Shi等人，2024）、Geometry3K（Lu等人，2021）和K12（Meng等人，2025）数据集中选取了15k个数学问题用于训练。在监督微调（SFT）阶段，作者应用了第3.1节中概述的数据构建过程，对RL阶段的15k个问题进行处理，分别生成了4k和10k个冷启动数据集，用于Semantic-back和Solution-back。

实现细节。训练在八块NVIDIA A800 GPU上进行，作者在Qwen2.5-VL7B-Instruct模型上执行了冷启动SFT和随后的RL训练。作者使用LLaMA-Factory（Zheng等人，2024）框架进行SFT。为了防止过拟合，作者只训练了一个epoch。对于RL，作者采用了EasyR1（Sheng等人，2024；Zheng等人，2025a）框架，其中默认 Reward 权重，记作，设置为 0.1 。在 15 k数据集上进行了两个epoch的训练，使用批处理大小为128（每个样本12次rollout）和采样温度为1.0。其他设置请参见附录A。

主要结果

数学推理。如表3所示，作者的LookBack方法基于Qwen2.5-VL-7B构建，在所有基准测试中均优于基础模型。具体而言，在五个数学基准测试中，Semantic-back平均提升了7%（从48.5%提升至55.5%），而Solution-back则提升了7.9%（从48.5%提升至56.4%）。此外，作者还将Look-Back与十种不同的开源推理MLLM进行了比较。尽管各模型的训练数据和时长存在差异，使得直接比较存在困难，但Look-Back仍展现出具有竞争力的性能。尽管参数数量显著较少，但Solution-back得益于“回溯”机制，缩小了与闭源模型的差距。

51c大模型~合集171_大模型_40

感知推理。尽管作者的训练主要利用了数学推理数据，但值得注意的是，在感知基准测试中，Semantic-back实现了平均提升6.3%（从61.3%提升至67.6%），而Solution-back相较于 Baseline 模型提升了6%（从61.3%提升至67.3%）。此外，Look-Back在与其他开源推理MLLMs的竞争中表现出强大的竞争力。这些结果突显了“回溯”机制在增强多模态推理系统泛化能力方面的重要性。

消融研究

回溯效果。作者进一步研究了Look-Back框架中每个阶段的贡献。如表4所示，移除Look-Back训练中的RL阶段或SFT阶段会导致模型性能显著下降。此外，与不包含任何回溯机制的标准GRPO相比，语义级回溯机制和解决方案级回溯机制均通过应用回溯实现了性能提升。有关训练过程的进一步分析请参见附录D。

反射率消融实验。由于模型的回溯过程包含验证和基于反射的错误纠正，在SFT冷启动阶段提供单一回溯数据集是不合理的，因为这极易导致 Reward 攻击。因此，作者以语义级回溯机制为例，对SFT数据集的反射率进行了消融研究。表5所示的结果表明，不同类型任务的最佳反射率位于30%至50%之间。过低的反射率和过高的反射率都会导致模型性能下降。因此，在本研究中作者采用了50%的反射率。

51c大模型~合集171_大模型_41

定性推理分析

在观察到跨多个基准测试的定量性能提升之外，作者进行了定性分析以验证Look-Back改变了MLLM注意力模式。具体而言，如图4所示，Look-Back在数学和感知任务中始终如一地提升了注意力。与标准GRPO相比，LookBack使模型在推理后期阶段能够重新聚焦于视觉输入以进行验证。

51c大模型~合集171_大模型_42

进一步的定性分析（附录C）揭示了来自五个不同基准的具体案例，突显了Semantic-back和Solution-back如何有效利用Look-Back机制，通过明确地将推理与视觉证据相结合来纠正初始错误。这表明Look-Back能够有效引导MLLMs自主确定何时、何地以及如何重新审视视觉信息，从而超越了对文本推理的单一依赖。这一发现进一步支持了作者的核心观点：在适当的指导下，MLLMs能够在没有明确视觉 Prompt 的情况下进行视觉融合推理。

对抗 Reward 攻击：模型通过生成空的 back Token 序列，学会了走捷径，从而在不进行真实推理的情况下获得格式 Reward 。这与先前的研究发现（Yue et al. 2025）一致，即强化学习可能无法在基础模型之上提升推理能力。作者假设这个问题之所以出现，是因为Qwen2-VL本身缺乏足够的视觉反思能力，而Qwen-2.5-VL可能由于预训练而具备这种能力。

5 进一步讨论

失败尝试

在作者尝试利用模型自发重新聚焦图像的能力时，作者遇到了一些失败和挫折。在本节中，作者分析了这些失败的经验，但强调这些失败并不意味着该方法本身存在根本性缺陷。

在弱模型中的 Reward 攻击。作者最初对Qwen-2-VL模型应用了回溯训练，但遇到了enSFT冷启动数据需求问题。最初，作者使用GPT-4o生成CoT数据，并随后插入 Token 。然而，作者观察到在模型冷启动后性能有所下降。受Wan等人（2025a）的启发，作者转而使用模型生成的数据，并优化插入方式，从而提升了性能。作者假设，在同构模型输出上进行微调可以减少分布偏差，更好地与冷启动目标——即保持输出格式的一致性——相契合。

冷启动影响

扩展冷启动数据。为评估冷启动数据规模对性能的影响，作者使用Solution-back方法对2.5k、5k、7.5k和10k个样本进行了实验，所有样本均为数学性质。如图5所示，随着冷启动数据的增加，数学任务的平均得分有所提高，表明在冷启动阶段进行扩展有助于持续性能提升。然而，感知任务的性能略有下降，尽管整体性能保持相对稳定。作者假设，使用纯数学数据进行冷启动可能会限制感知任务的进一步泛化。引入更多样化的SFT和RL数据可以进一步提升整体鲁棒性。

51c大模型~合集171_大模型_43

语义回溯与解法回溯的性能差异。如表4所示，触发两种类型的方法均能提升多个基准测试的性能。语义回溯在感知任务上表现更优，而解法回溯则在数学任务上表现更佳。作者推测早期回溯有助于及时确认视觉线索，从而受益于感知任务。相比之下，将回溯推迟至CoT推理之后，能够实现更全面的验证，同时最小化对推理链的干扰，从而更适合数学任务。

6 相关工作

近年来，多模态复杂推理取得了显著进展，经历了四个主要阶段：早期显式模块探索、监督微调与测试时扩展、强化学习驱动的进步，以及多模态对齐和原生视觉推理能力的持续演进。

多模态推理的早期发展（Shao等人2024a；Zhang等人2023；Hu等人2024）。在多模态语言模型（MLLM）发展的早期阶段，多模态推理依赖于显式 Prompt 和多模块协作。例如，Visual-CoT（Shao等人2024a）采用推理链和视觉采样进行动态视觉推理。Visual-SketchPad（Hu等人2024）引入了包含视觉草图的三个阶段工作流程，以增强可解释性。与此同时，Multimodal-CoT（Zhang等人2023）提出了一种两阶段框架，将推理链生成与答案推理解耦。

监督微调与测试时缩放 (Xu等人 2024; Wang等人 2025e; Du等人 2025; Ma等人 2024; Yang等人 2025a; Kumar等人 2025; Yang等人 2024)。随着OpenAI O1等模型的出现 (Jaech等人 2024)，基于大规模合成思维链数据的监督微调 (SFT) 成为主流。这一范式转变的核心特征是从基于模块的方法转向数据驱动方法。例如，Virgo (Du等人 2025) 通过利用不同长度的思维链数据动态调整推理深度。LLaVA-CoT (Xu等人 2024) 采用结构化推理模板，约束模型遵循多步推理过程。TACO (Ma等人 2024) 通过SFT数据应用动态规划策略进行工具调用学习。测试时缩放 (TTS) (Ma等人 2024; Kumar等人 2025; Muennighoff等人 2025; Zhang等人 2023) 在不更新模型参数的情况下进一步增强推理，为强化学习方法奠定基础。

强化学习突破（Lightman等人2023；Wang等人2025a；Meng等人2025；Zhang等人2025a；Park等人2025；Yu等人2025a；Li等人2025c；Liu等人2025d；Wang等人2025g；Yu等人2025b；Feng等人2025a；Liu等人2025c；Zhou等人2025；Wang等人2025f；Liu等人2025a；Xia等人2025；Yao等人2025；Ma等人2025）。DeepSeek-R1（Guo等人2025）的成功标志着复杂推理进入强化学习微调（RFT）的新时代。在多模态领域，DIP-R1（Park等人2025）探索了细粒度图像处理，而Perception-R1（Yu等人2025a）直接编码图像块，有效将测试时增强方法与RFT训练相结合。MM-Eureka（Meng等人2025）通过基于规则的 Reward 在视觉推理方面取得了显著进展。STAR-R1（Li等人2025c）、VL-Rethinker（Wang等人2025a）和InfiMMR（Liu等人2025d）进一步证明了强化学习在空间、医学（Chen等人2024a）和xx（Zhang等人2025c；Zhao等人2025a；Shen等人2025）推理方面的有效性。

视觉思维演化 (Wu and Xie 2024; Li et al. 2025a,b; Feng et al. 2025b; Zheng et al. 2025b; Su et al. 2025; Zhang et al. 2025d; Wang et al. 2025d; Chern et al. 2025; Wu et al. 2025b; Sarch et al. 2025; Wu et al. 2025a; Xu et al. 2025; Chen et al. 2025b; Zhang et al. 2025b; Gupta and Kembhavi 2023; Chung et al. 2025; Zhao et al. 2025b; Wang et al. 2025d; Fu et al. 2025; Shen et al. 2024)。近期研究趋势表明，多模态复杂推理不仅需要"语言思维"，还需要"图像思维" (Zheng et al. 2025b; Sarch et al. 2025; Su et al. 2025; Zhang et al. 2025d; Wang et al. 2025d; Chern et al. 2025; Wu et al. 2025a; Zeng et al. 2025; Wang et al. 2025b)。在细粒度感知领域，Vstar (Wu and Xie 2024) 引入了 SEAL 框架，通过分层视觉搜索机制动态定位关键细节。DyFo (Li et al. 2025b) 模拟人类视觉搜索的动态聚焦机制，而 DeepEyes (Zheng et al. 2025b) 通过端到端强化学习实现视觉与文本推理的动态交互。在复杂空间推理方面，MVoT (Li et al. 2025a) 在推理过程中交替生成文本和图像，以视觉思维过程补充语言推理。Reflective Planning (Feng et al. 2025b) 利用扩散模型预测未来视觉状态，构建"预测-反思-校正"反馈循环。

与先前显式注入视觉信息的方法（Zheng等人2025b；Su等人2025；Zhang等人2025d；Wang等人2025d；Chern等人2025；Sarch等人2025；Wu等人2025a；Xu等人2025；Zhang等人2025b；Gupta和Kembhavi 2023）不同，Look-Back方法使模型能够自主学习何时以及如何重新聚焦于视觉输入，从而在不依赖显式视觉指导的情况下提升推理能力。

7 结论

在本工作中，作者观察到多模态大语言模型（MLLMs）在推理过程中能够自主地将注意力重新集中于视觉输入，而无需显式的视觉信息注入。基于这一见解，作者提出了Look-Back方法，通过结合监督微调和强化学习的两阶段训练过程，使MLLMs能够ego引导视觉反思。作者的实验表明，Look-Back显著增强了多模态推理能力，并在多个基准测试中取得了具有竞争力的结果。

参考

[1]. Look-Back: Implicit Visual Re-focusing in MLLM Reasoning

#类PPO强化学习三部曲

GRPO简化→DAPO修正→GSPO全面进化

从 GRPO 简化 PPO，到 DAPO 修正熵坍塌与训练噪声，再到 GSPO 全面进化，一文看懂三大算法如何层层递进解决奖励粒度、探索效率与 MOE 训练稳定性难题，掌握强化学习在 LLM 场景的最新进化脉络。

本文虽然标题中提到“类 PPO 算法”，但更准确地说，DAPO 和 GSPO 都可以视作在 GRPO 框架下，针对不同任务场景的一系列演进方案。它们并非简单的替代，而是通过改进策略更新与约束机制，逐步修正了 GRPO 在实践中暴露出的若干缺陷。

这一脉络不仅揭示了算法间的继承关系，也能帮助我们更清晰地理解 PPO 系列方法在强化学习中的演化逻辑。

那么，GRPO 究竟存在哪些问题？DAPO 与 GSPO 又分别从哪些角度切入，提出了怎样的改进？接下来，我们就沿着这一条演进主线，逐步拆解背后的动机与机制。

01 PPO简单说明

为了后文内容连贯性，这里再简单介绍一下 PPO 算法，PPO 算法在 LLM 上的初始应用是作为模型输出内容的一种偏好调节，旨在使得模型输出更贴合人类偏好的回答内容。

在这个过程中需要让人类去针对问题进行排序标注，使用排序标注好的模型来训练奖励（RM）模型以及价值（Value）模型，一般初始的奖励模型和价值模型是同一个模型（也有使用不同模型的情况），区别在于 RLHF（人类偏好强化训练）过程中价值模型会进行参数更新，而奖励模型则仅进行推理输出奖励值。

下面是 PPO 中 Actor 模型，也就是我们目标主模型的强化学习训练目标函数：

51c大模型~合集171_大模型_44

优势函数

其中优势函数计算方式有很多种，其公式为：

51c大模型~合集171_大模型_45

需要注意优势函数中是可以展开的，根据展开的方式不同也会存在非常多类型的优势函数，如果是 1 步展开即 TD（时序差分），如果全部展开到序列结束，则为（蒙特卡洛），介于两者中间的为 GAE（广义优势估计）。不同展开方式各有优劣，具体可看上文连接（主要是方差与偏差）。

在 PPO 算法应用在 LLM 的 RLHF 训练过程中一般是存在 4 个模型，Actor 模型也就是训练的主模型，其训练的目标函数也就是上面的目标函数。

在对其训练中可以看到会计算优势函数，优势函数的简单理解就是在当前状态（LLM 上下文）情况下选择特定动作（选择哪个 token）相比较其他动作（vocab 中其他 token）带来的优势。

这里的代表当前状态下具体选择的动作（action），则代表当前状态选择具体价值后会带来多少潜在价值，而则代表当前状态下所有动作潜在价值的期望，也代表了当前状态的潜在价值。二者差值则代表在当前状态下选择该动作相较其他所有动作均值的价值优势，因此也称为优势函数。

如果使用 TD（时序差分）方法来展开，则，这里的代表状态下选择动作带来的价值收益（单步价值），为奖励衰减因子，马尔科夫链的基础知识，这里不再解释。代表执行动作后下一个状态的潜在价值。

优势函数中奖励值需要使用提前训练的奖励模型来生成，因此奖励模型也就是 RLHF 算法中的第二个模型。

状态价值及需要一个价值模型来生成，因此价值模型也就是 RLHF 算法中的第三个模型。

第四个模型是参考模型，也是初始的 Actor 模型，在 RLHF 训练过程中参考模型不进行训练，仅作为 KL 散度约束 Actor 模型的输出分布不要离开初始的权重太多。这个模型的 KL 散度约束没有中主函数中进行体现。

以 GRPO 论文中的示意图来理解更准确（可以将上面文字与下图 PPO 算法示意图对照理解）：

51c大模型~合集171_大模型_46

可以看到 PPO 算法涉及到了 4 个模型，更主要的是奖励模型需要提前进行训练，而价值模型也是一个 LLM，这就造成两个问题。

首先奖励模型的训练工作很复杂，虽然 DPO 算法可以通过绕过奖励模型的方案来训练，但 DPO 需要构造负样本，负样本与正样本的质量会影响训练的结果。

其次状态价值是由一个 LLM 给出的，这个值具备不确定性，也就是说价值模型提供的状态价值可能不准确，这样也就使得 PPO 训练过程变得极其脆弱。我们的目标是来最大化目标函数，价值模型预估偏差会使得 Actor 模型参数梯度往错误方向走一大步，很容易造成训练崩溃。

另外还有一点考虑，我们之前是对 LLM 输出内容进行人类偏好的强化学习训练，人类偏好本身是没有固定规则的，因此才需要去训练奖励模型来进行 LLM 输出内容是否符合人类偏好的打分。

但对于程序，数学等任务是具备规则特性的，对于一个程序任务或者数学任务，LLM 输出结果是可以使用规则来判断正确性的，这也是 GRPO 提出的一个前提。

02 GRPO

GRPO 中一般存在两个模型，主模型 Actor 模型以及参考模型，这两个模型初始时是同一个模型，但训练过程中参考模型只作为 KL 散度约束项来防止主模型训练中权重偏离原始模型权重太多。

PPO 中奖励模型更换成了特定的规则函数来进行奖励值打分，PPO 中的价值模型则直接取消，优势函数的计算更换成了 LLM 一组输出的奖励值标准化的形式。

GRPO 目标函数：

51c大模型~合集171_大模型_47

从公式中可以看到，对于一个输入，GRPO 会产生一组个输出，对于这些输出会使用规则函数分别计算奖励值，即，使用这一组不同输出来计算优势函数。

可以看到优势函数的计算只依赖于每个输出的结果奖励（结果奖励的意思是对整个输出序列即多个 token 进行整体的奖励值计算，但注意此时动作的粒度仍是单个 token，而不是整个输出序列）。

计算完每个输出的优势值，即后，会将这个整体优势值均匀分配给该序列的每个 token，这么做还是因为 GRPO 的动作粒度是 token，后面进行重要性采样时是以 token 为粒度来进行计算的（重要性采样稍后会说）。也就是为什么优势值下标会带着时间步 t，实际上在计算时，同一个序列的每个 token 优势值是相同的。

GRPO 公式里也带上了 Actor 模型与参考模型的 KL 散度，KL 散度直观理解上十分简单，就是两个不同离散数据分布的相似程度，两个分布越相近则 KL 散度值越小，两个分布越大则 KL 散度值越大。

我们强化训练目标是最大化目标函数，因此需要减去这个 KL 散度值，如果目标模型训练过程造成与原始权重偏差较大，这时 KL 散度值变大，目标函数计算时会减去较大的 KL 值，因此使得整体目标值变小，来达到约束模型训练不过分偏移原权重的目的，反之亦然。

PPO 中目标函数也有这个 KL 约束，只不过省略掉了。

GRPO的问题与思考

GRPO 使得强化训练变得简单易行，但大家也能发现一些问题，每次训练时组的规模取多大合适？如果该组内输出全错或全对怎么办？如果使得组内个输出尽可能不一样？

这也是强化学习一直强调的“探索”与“利用”中的“探索”，“探索”在强化学习训练中是十分重要的，如果模型想获得更有的策略决策能力，也就是在不同状态下需要去选择更优的动作就需要去“探索”新的动作带来的收益。

因为强化学习训练本身就是一个通过不断试错来找到最优解的过程，如果在强化学习训练过程中让策略模型（也就是 Actor 模型）没有足够的“探索”能力（也就是模型输出不够多样）那模型就不会找的更好的路径，就会造成所谓的“熵坍塌”。

“熵坍塌”理解起来很容易，就是模型只在少量的输出中训练，这样使得模型输出分布变得越来越尖锐，模型分布会变得集中，分布的熵会变小。

因此 GRPO 训练中应该更大一些（当然也需要分任务来说，有的输出范围本身就很小，分组规模也没必要大）。中多样性也是通过不同的采样方法，不同温度超参数来进行采样控制。而如果同一组内模型输出都是错误的情况，那这个 step 训练过程来说也就变得没有意义。

其实 GRPO 还有个问题，就是极度依赖奖励函数，这也是对 PPO 精简后带来的一个显而易见的问题，去掉价值函数来对状态价值进行预估，仅使用奖励值来计算优势，那么就需要奖励值尽可能的公平公正。

对于简单任务来说不是很困难，但对于大多数实际任务来说，奖励函数是需要多方面权衡的，很难找到一个标准化的奖励函数去做奖励判断，如智能体任务中如果只将智能体任务完成与否来作为奖励值，那就没办法权衡智能体中间状态是否合理有效，是否有冗余轨迹等。

GRPO 训练甚至转变为去拟合奖励函数，换句话说会去钻奖励函数的空子，模型会为了获得高的奖励值生成与实际需要不符合的结果，因此奖励函数一定要综合权衡考虑。

GRPO 的奖励是序列级别，而动作是 token 级别，前面介绍了这是为了简化 PPO 算法带来的，但是这种动作与奖励粒度的不一致性其实会带来一些影响，后面 GSPO 会重点针对这个问题阐述方案。另外插个眼，GRPO 中的重要性采样是有问题的，具体的 GSPO 中会详细说。

关于重要性采样修正项在这里重点系统解释一下，方便后面说明，就是上述目标函数公式中的，重要性采样修正项的分母是旧策略模型产生的每个 token 的概率，分子则是经过几轮训练后新策略 prefill 旧策略输出得到的该策略中对应 token 上的概率值。

之所以使用重要性采样是因为强化训练轨迹是很珍贵的，一般情况下是需要多轮训练来提升利用率，这就使得当训练当前策略模型时会使用之前旧策略模型产生的轨迹。

而这两个模型实际上输出分布是不同的，那么如何对当前策略使用旧策略的分布，这就是重要性采样修正项的作用，注意重要性采样和重要性采样修正项不是一个概念，下面来介绍重要性采样。

重要性采样

51c大模型~合集171_大模型_48

假设存在两个数据分布，和，可以使用下面等式将两个分布的期望连接起来，里面称为重要性权重修正项，做为两个分布之间的修正项。

51c大模型~合集171_大模型_49

上式中代表旧策略的分布，也就是 Actor 模型做 Rollout 的分布，而代表训练中新策略模型的分布，我们当前仅知道旧策略分布情况（即之前 Rollout过程），但我们目标是使得当前训练策略模型目标函数更高，但我们又不知道新策略模型的分布情况（因为没有 Rollout），听起来很绕，可以多读几遍。

因此需要使用旧策略分布来表示新策略分布，即使用来表示。看公式的期望下标，经过重要性采样成功使用旧策略的分布来表示新策略。返回 PPO 和 GRPO 目标函数公式也可以看到，最外层的期望是旧策略模型的分布，不是新策略模型分布。

但是有一点，重要性采样只是让两个分布在期望上达到了统一，但没有在方差上统一。
根据方差计算公式：

51c大模型~合集171_大模型_50

即使两个分布期望相同也只是上面公式的后面一项相同，两个分布的方差还是不同的。

这也是为什么从 PPO 或者更早 TRPO 开始需要增加 clip 项和 min 来控制这个重要性采样修正项，实际上是在控制两个分布的方差不要差距太大。

上面几个问题实际上是后面几个想要解决的，当然新算法也有其他的创新前提。

重要性采样的补充思考

在这里再额外补充一个概念，就是 on policy 和 off policy，在 LLM 的 RL 训练可以这样理解：当生成采样数据的模型与使用采样数据进行训练的模型是有相同权重（也就是同一个模型）时，换句话说就是自己产生数据来训练自己，这样叫做 on policy。

相反，如果使用其他模型或者非目标模型产生的数据来训练就属于 off policy。如果是 on policy 的话，上面的重要性修正项的值就为 1，因为相同模型会具有相同的数据分布，只有 off policy 情况下才会提现出重要性采样的价值。

一般在 LLM 的 RL 训练中不会使用 on policy，这一点主要从训练效率出发的，一般会使用 Actor 模型 Rollout 一大批的样本出来，将这一大批样本分为几个训练批次来进行训练。

这个过程中只有第一个批次样本进行训练时是 on policy 的，这个时候重要性采样修正项的比值大概为 1（考虑随机性波动），也就不起作用，但后面几个批次的目标模型权重已经发生了变化，再使用之前采样的数据进行RL训练就属于 off policy 了。

从算法理论上来说，如果不计较训练损耗，一直使用 on policy 来训练，GRPO 结论可能也未必会好，因为 GRPO 的问题在于动作粒度与奖励粒度的不均衡，在对 GRPO 目标函数计算梯度时每个 token 具有相同的优势值。

GRPO 梯度公式：

51c大模型~合集171_大模型_51

这时候主要的梯度贡献其实是重要性采样修正项的值，如果这个值为 1 的话，GRPO 每个 token 就只剩下了相同的优势值，其实这样就退化成了 SFT 训练的交叉熵梯度。

也就是每个 token 是具有相同奖励的行为克隆，因为从强化学习策略梯度定理角度来看，RL 相对于 SFT 梯度公式最大的区别在于每个动作（token）是具备不同优势值的。

03 DAPO

DAPO 引言部分就提到了其训练 GRPO 时出现了熵坍塌、训练不稳定、奖励噪声的问题，这也对应了上面我们分析的几个 GRPO 固有缺陷，这一点 DeepSeek 应该是有应对的 Trick，但论文中并没有提到。

DAPO 是字节的工作，因此开源代码也就使用的 verl，其针对 GRPO 存在的问题提出来解耦裁剪和动态采样策略优化（Dynamic sAmpling Policy Optimization DAPO）。

另外 DAPO 应对的场景是长 COT 场景，也就是带思考模式的输出情况（上面也提到，当生成序列如果很长，重要性采样修正项会造成方差偏移的累积）。

下面是 DAPO 针对 GRPO 做的修正工作：

移除KL散度

上面的 PPO 及 GRPO 目标函数中都存在 Actor 模型与参考模型的 KL 散度，KL 散度的意义也说过了，就是不想让训练的模型与最初始模型分布差距太大。

但 DAPO 的训练方案应对场景是有长思维链输出（带思考过程）情况，长输出也就代表着对于输出 token 分布调整更大，那么训练后的模型就必然会与原始模型存在很大差异，因为目标就是让他们有差异，因此KL散度的约束反而不是必需的了，所以可以移除。

DAPO公式及创新点

51c大模型~合集171_大模型_52

从公式上看与 GRPO 整体相差不大，但有一些小细节的改动。

提高上限——Clip-Higher

首先改动是 clip 函数中的，在 PPO 及 GRPO 中都使用一个固定的超参数（一般是 0．2），但 DAPO 中分化成了和，DAPO 论文中叫提高上限－－Clip－Higher

可以看到 clip 裁剪的对象是对重要性采样修正项进行裁剪，裁剪函数的图像示意如下：

51c大模型~合集171_大模型_53

为了方便理解裁剪函数实际含义可以简化为下面公式：

51c大模型~合集171_大模型_54

其中代表重要性采样修正项，代表代表。因此整体含义就十分好理解了。

OK，解释完裁剪函数后来看一下 DAPO 为什么要使用这种非对称的裁剪方案。

首先背景前提是模型根据指令会自回归的生成带思考过程的输出内容，每一个 token 被选择的概率是依赖于之前 token 内容的，而且根据当前主流的采样方式（核采样，top-k，贪心等）在都会去选择概率较高的 token。

而 GRPO 是对整个序列来计算奖励值与优势值的，这就使得在进行目标函数计算时每个 token 的优势值都一样，假设某条序列的优势值是正值，则训练的目标就是对该序列中的每个 token 都要正向的训练。
训练的结果就是要提升每个 token 在前置 token 中被采样的概率，使得模型输出多样性会进一步减小，造成整体输出分布熵的减小，也就是熵坍塌。那么为什么要提高裁剪高值可以缓解这个问题呢？下面展开说一下。

我们裁剪的对象是重要性采样比值，这个比值是新策略模型生成某个 token 与旧策略模型生成某个 token 的比值，当旧策略模型生成某个 token 的概率本身比较高时，其被裁剪的概率就会变低；而如果旧策略模型生成某个 token 的概率本身比较低时，其被裁剪的概率就会变高。

这么说可能有点绕，举个例子，比如旧策略采样到某个 token 的概率是 0.9，按照裁剪上限 1.2 计算，则新策略采样到该 token 的概率是接近于 1（0.9_1.2 但最大为 1）。

注意新策略是我们训练目标函数期望的概率分布，也就是说旧策略中本身高概率的那些 token 是不容易被上限裁剪的，哪怕新策略下这个 token 采样概率很高了也容易被裁剪。

反之当旧策略采样到某个 token 概率是 0.1 时（一般情况下低概率 token 不容易被采样到，但强化训练 Rollout 会具备一定随机性），如果同样的现在裁剪上限是 1.2，那么新策略下这个 token 最高的采样概率也就是 0.1_1.2=0.12。

也就是说对于旧策略概率低的 token，即使训练后这个 token 的采样概率也不会有很大提升，因为提升上限被裁剪限制了。这样一对比，（0.99-0.9）>>（0.12-0.1）是不是就很明显的看到差距了。

这也是为什么 DAPO 要提升裁剪上限，因为不这样做的话，本来旧策略模型采样概率高的 token 会随着训练变得采样概率越来越高，而低的 token 只会有很小的提升，那么结果就是模型输出的分布越来越尖锐，也就使得分布的熵变低，造成熵坍塌现象。

51c大模型~合集171_大模型_55

上面是论文中的贴图，作者统计了哪些旧策略采样 token 容易被裁剪，可以发现，这些被裁剪的 token 的采样概率集中在 0.1-0.2 范围内，也证明了就是这些本身概率低的 token 容易被上限裁剪。

强化学习的训练过程一直以来的宗旨就是要平衡“探索”与“利用”，既要“利用”好已经有的经验来找到好的策略方案，又要去“探索”新的动作及状态，看是否存在更优的策略，上面的熵坍塌现象就会使得训练过程不能更好的去“探索”，无法找到更优策略。

前段时间忘记在哪里听到了一个座谈会，就是当下的强化训练算法都是使得模型输出的 pass @k 转为 pass@1，也就是没有更好的去探索新的可能性，而是让模型从原来可能的输出序列中去稳定生成最优的那一个。

本质上没有脱离模型能力范围，这其实与强化学习的思想相矛盾，强化学习是让模型去学习能力范围以外的知识来找更优策略，从这一点来说，GRPO 及以此提升的算法其实都没有更好的让模型去“探索”。

动态采样

DAPO 第二个创新点就是动态采样，前面对 GRPO 思考中提到过，如果 GRPO 对某一组输出的结果全是错误，或全是正确的情况下，这样组内的每个样本序列计算后的优势都是 0，因为本身就是每个样本序列奖励值与组内均值的差值最标准化，均值就等于样本奖励值的时候那么就没有优势了。

那就会造成这一组的训练不会对模型梯度变化有任何贡献，就代表本组训练没意义了。但一个问题就是当我们训练到后期就会面临一个组内很可能全正确的情况，这种情况出现的很自然，因为我们训练目标就是让模型输出序列的奖励值更高。这就使得后期的训练中有很多的组是没有意义的，白耗费训练资源。

51c大模型~合集171_大模型_56

上图是 DAPO 作者发现训练中一组32个输出全部正确的比例，训练越往后一个组内全部正确的比例越高。
除了耗费训练训练资源之外还会带来一个问题，假设我们有每个批次有 N 个指令来进行 GRPO 训练，这 N 个指令有的容易一些，有的难一些，模型在训练后期很可能在这 N 个指令中有 50% 的指令输出的组内序列全部正确，也就代表有一半的指令训练是没有意义。

随着模型训练到后期，每个批次中全为 1 的指令占比会更高。这会使得强化学习训练方差变大，因为我们输入指令让模型产生组内输出的过程实际是生成旧策略模型输出分布的过程。

只有指令足够多，旧策略模型输出的序列足够多才能更准确的表示旧策略的输出分布，当有效指令变少的时候，旧策略模型输出的分布也就存在一定的偏移，换句话说就是存在方差，也就是说 GRPO 越到训练后期训练的方差偏移越大。

关于解决这个问题 DAPO 也是简单粗暴，对于批次内生成的组内序列全部正确或错误的指令直接剔除掉，使用新的输出组中不全是错误或正确的指令来补充上，直到补全这个批次。

这个方法粗看会影响训练效率，因为你需要让每条指令去生成一个组，再去使用奖励函数判断才能知道输出的组中序列是否全部正确或错误，但是作者实验发现这种方法可以更快的让模型收敛，也就是说可以平衡掉 GRPO 耗费的资源，甚至更优。

下图是对照实验，紫色是使用动态采样的方案，蓝色是不使用动态采样的方案，很明显紫色更快收敛。

51c大模型~合集171_大模型_57

重新平衡动作：token级别策略梯度损失

在 GRPO 训练中针对每个指令输出一组的序列样本，这一组训练样本是有长有短的（token 个数），但不管 token 长度多少，组内每个样本是最后求平均值，也就代表每个样本具备相同的权重系数，即每个序列样本对本次训练的重要性是相同的。

这里可以比较一下 GRPO 与 DAPO 的外层求和与均值算法。

举个简单例子，假设大小为 2，一个序列 token 长度为 100，这个序列的优势值是 1，另一个 token 序列长度为 10，这个序列的优势值为 -1，为简单起见不考虑裁剪，重要性采样修正的操作。

如果使用 GRPO 计算，则最后的结果为 0（此时只代表目标函数值标量为 0，但反向传播是看的梯度，梯度一般不为 0），而如果使用 DAPO 计算则结果为，在计算过程中大家就能感受到如果使用 GRPO 的方法是没有考虑 token 粒度的。
也就是说在同一个样本中每个 token 所占的权重系数随着 token 长度的增加而减小，这样的话模型输出序列的长度越长，每个 token 在训练中对应的概率调整的幅度就越小。

如果还是不太懂的话可以从策略梯度定理的角度来看，我们分别对 GRPO 和 DAPO 的目标函数算梯度公式。

GRPO 梯度公式：

51c大模型~合集171_大模型_58

DAPO 梯度公式：

51c大模型~合集171_大模型_59

从梯度函数中可以更明显的看到 GRPO 中样本级别与 DAPO 中 token 级别计算的区别，从梯度的角度可以更好理解 GRPO 长 token 序列对于每个 token 权重的稀疏化对于梯度计算的实际影响。与上面同样的理解，不再赘述。

另外还有一点是可以从梯度公式上看出来：对于一个每个 token 的梯度贡献来说，由于每个 token 的优势都是相同的，那么主要贡献值其实就来自于这个 token 的重要性采样修正项。

而且从梯度公式后面看到（大括号内）一旦该 token 的重要性采样修正项被 clip 裁剪，那么这个 token 实际上对于梯度更新是没有任何作用的，也就是说被裁剪的 token 实际上对于 GRPO 训练没有任何帮助，从这一点上来重新思考 DAPO 去提升 Clip 裁剪上限也是有意义的。

GRPO 这个问题的影响是长 token 序列的训练中每个 token 的修正幅度慢，比如对于长思维链的输出，假如最终推导结果正确，无论思维的过程很优质还是思维过程很差，该组的训练都不会对中间过程的 token 有较大的修正，比如优质内容的 token 采样概率应该增大，很差的思维过程 token 采样概率应该减小。

而 DAPO 的修正方案是对组内全部 token 赋予相同的权重系数，这样就可以从 token 粒度来进行梯度的更新，解决上述问题。

51c大模型~合集171_大模型_60

上图是对照实验，紫色是 DAPO 在 token 级别计算损失，蓝色是样本级别计算损失，可以明显看到紫色曲线无论生成分布的熵值还是输出内容长度都更平稳。

长序列的奖惩

这一部分并不是针对 GRPO 公式的修正，而是对于带思考过程的长序列训练的一个 trick，其背景在于一般情况下在进行训练时考虑到模型输出长度限制会对于很长的内容进行截断。

对于被截断的内容直接粗暴的给一个惩罚分值（负分），但忽略了可能这个长序列推导过程是正确的只是有点啰嗦，这种直接给负分会使得模型误认为这个推理逻辑是错误的。

因此 DAPO 做了个动态的长度奖惩机制，让模型训练有个缓存，可以意识到是长度带来的惩罚而不是逻辑内容错误带来的惩罚，具体动态惩罚函数：

51c大模型~合集171_大模型_61

这个函数没有什么可说的，简单明了。

整个 DAPO 是对 GRPO 的修正，提出了 4 个创新点，附上伪代码，读起来一目了然：

51c大模型~合集171_大模型_62

04 GSPO

GSPO 全称是 Group Sequence Policy Optimization，组序列策略优化。是qwen3 团队的工作，该工作也是对 GRPO 的改进，不同于 DAPO 是应对带思考的长文本场景，GSPO 应对的场景是 MOE 模型的训练（当然还有对 GRPO 算法的一般性改进，参考前文 GRPO 的思考）。

优化背景

GSPO 提到的一个 GRPO 关键性缺陷在于重要性采样修正项使用的粒度不对，GRPO 中是对序列中每个 token 进行的重要性采样，因为动作的粒度是 token，但是奖励却是对整个序列的奖励，这样会造成一种逻辑冲突的问题。

其实这个问题其他论文中也讨论过（忘记哪篇论文了），我们训练优化的目标是 token 的采样概率，这一点使用 token 作为动作粒度可以理解。但 GRPO 却是对一个序列整体奖惩，优化单元与奖惩单元粒度上不一致时的模型训练就容易出现偏差。

其实上面这个观点如果站在未简化的强化学习算法的角度上来讲（PPO 或者 A2C），优势应该是动作级别的，但是对于 LLM 的自回归输出场景来说动作级别的优势是不太容易计算的，上面介绍 RLHF 的时候也提到了，需要有奖励模型和价值模型。

但 GRPO 的简化方案使得每个 token 共享该序列整体的优势值，那粒度上对不齐也是必然的。从理论上来说带来的结果就是无法从 token 粒度上更快速的让模型提升正确 token 的采样概率。

就比如重要性采样思考中提到的如果使用 GRPO 进行 on policy 训练，当不可以重要性采样修正项时，从目标函数梯度上看 GRPO 的 on policy 训练就成了 SFT 训练，对每个 token 一视同仁。

除了上面问题外还有一个很重要问题是关于重要性采样修正项本身的，在上文中详细介绍了重要性采样的概念，这个概念是围绕两个分布展开的，涉及到分布，在统计学上是使用大数定律来近似一个分布的。
通俗点说就是需要随机采样非常多的样本才能用这些样本的概率分布来近似整体的分布，在传统强化学习中也有蒙特卡洛方法（可以理解成随机采样）来近似模型的策略分布。

但 GRPO 中的重要性采样修正项是如何计算的呢？它是计算新旧两个模型在某个 token 位置输出一个特定 token 的概率，使用这 1 个特定 token 样本的概率来代替该 token 位置的整个动作空间分布的概率，这样就极容易造成方差偏移的问题（这是上面介绍重要性采样方差公式的具体场景）。

这个实际 token 的概率很困难随机性原因偏高或偏低（也就是方差），随着输出序列的增长，这种方差是会累积的（因为自回归的特性，每个 token 的采样概率依赖之前 token），前面有 GRPO 目标函数的梯度公式，对组内每个样本 token 会累加求均值，方差累积后求均值是不会消失的。

除了以上的内容，GSPO 算法的出发点其实源自于 MOE 模型与 Dense 模型的区别，在 Dense 模型上使用 GRPO 训练模型不会有很大训崩的概率，但 MOE 模型上训崩概率很大。从下图示意原因就很明显：

51c大模型~合集171_大模型_63

区别在于新旧两个模型在进行序列中每个 token 概率计算时会被专家路由器路由到不同的专家模块，这样的话会造成重要性采样修正项变得极其不稳定，很容易被裁剪，被裁剪就会使得这个 token 在训练中没有任何的梯度贡献。

还有一点使用旧策略模型激活的专家获得的分布来训练当前策略激活的专家梯度，这样训练到最后会使得专家功能混乱，基于以上原因可以得出结论，在 MOE 模型上使用 token 作为优化的动作粒度是不合理的。

GSPO算法

上面的背景中问题的本质就是奖励粒度与优化的动作粒度不一致问题，很自然的想法就是既然无法将奖励粒度细化到 token 的动作粒度，那能不能将动作粒度上升到奖励的序列粒度？

也就是重要性采样修正不再对应 token 级别，而是对应序列级别，这也是 GSPO 做的工作。

GSPO 目标函数公式：

51c大模型~合集171_大模型_64

其中：

51c大模型~合集171_大模型_65

从 GSPO 目标函数公式可以看到与 GRPO 最大的区别就是在重要性采样修正项的处理上，也就是这里的。

这里代表的是一个序列中每个 token 的重要性采样累乘后的值进行几何平均，也就是说括号中的 (注意的下缀中不再有 ) 是这个序列中每个 token 的重要性采样修正项的乘积结果，然后按照序列中 token 的个数来求几何平均。后面这一项是一个恒等式，在实际计算时会使用后者进行计算。

GSPO 的关键创新点就是将每个 token 的重要性采样修正改成了序列级别，目的是为了避免单个 token 带来的随机性极值引发较大的方差问题，再进行几何平均后会一定程度上消除这个序列中少量的几个 token 带来的方差偏移，相对于 GRPO 那种将每个 token 的重要性采样修正的形式更优。

上面这段话大家可能还是困惑，这里举两个例子，正确的序列内容，和存在偏差较大的错误序列内容。

正确的序列内容情况下：假设每个 token 的重要性采样修正项为：[1.1, 1.1, 1.2, 1.05, 1.1]，因为新旧策略模型没有出现极值概率情况，内容正确，因此优势值为 +1。

此时 GRPO 在 token 粒度上对每个token都进行了鼓励，这没有问题，GSPO 的算数平均值为 1.109，也是对这个序列进行鼓励，在正确序列上二者都没有问题。

错误序列内容情况下：

假设每个 token 的重要性采样修正项为：[1.1, 1.1, 0.1, 0.1, 1.1]，第三个和第四个 token 可能是旧策略出现的极值影响造成错误，由于内容错误，优势值为 -1。

此时 GRPO 会对第 1,2,5 个惩罚权重为 -1.1，但对错误的 token 惩罚权重只有 -0.1，这显然对于模型训练不利。

而 GSPO 的粒度是整个序列，这是这个序列几何平均为 0.425，乘 -1 的优势值后是 -0.425，代表了整个序列是错误的，应该惩罚，但惩罚大小是根据训练中错误 token 及 token 错误情况计算的。

综上内容大家应该理解了为什么 GSPO 要使用每个 token 重要性采样修正项的几何平均做完整体序列的重要性采样修正项。

其实到这里 GSPO 的主要内容就已经结束了，后面做了一些补充证明，比如证明 GSPO 在 token 级别上的形式，梯度分析等。

说到梯度分析，可以在这里说一下GSPO公式的梯度，如下图：

51c大模型~合集171_大模型_66

我们依然可以看到前面提到的问题，对于 GSPO 来说，当使用序列为单位做重要性采样时会发现序列中每个 token 中梯度上的贡献是一样的，其实对于就弱化成了交叉熵的梯度，相对于对这个序列进行 SFT 训练（前提优势是正值，值越大这个序列梯度重要性越大）

至于 GSPO 后面提到的 GSPO-token，个人感觉没有太大分析的必要，只是又从 token 角度上推导了一下公式，理解上没有什么区别。

#DeepSeek V3.1 Base突袭上线

击败Claude 4编程爆表，全网在蹲R2和V4

就在昨晚，DeepSeek官方悄然上线了全新的V3.1版本，上下文长度拓展到128k

本次开源的V3.1模型拥有685B参数，支持多种精度格式，从BF16到FP8。

综合公开信息和国内大咖karminski3的实测，V3.1此次更新亮点有：

编程能力：表现突出，根据社区使用Aider测试数据，V3.1在开源模型中霸榜。
性能突破：V3.1在Aider编程基准测试中取得71.6%高分，超越Claude Opus 4，同时推理和响应速度更快。
原生搜索：新增了原生「search token」的支持，这意味着搜索的支持更好。
架构创新：线上模型去除「R1」标识，分析称DeepSeek未来有望采用「混合架构」。
成本优势：每次完整编程任务仅需1.01美元，成本仅为专有系统的六十分之一。

值得一提的是，官方群中强调拓展至128K上下文，此前V3版本就已经支持。

对于这波更新，大家的热情可谓是相当高涨。

即便还未公布模型卡，DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。

DeepSeek粉丝数已破8万

看到这里，网友们更期待R2的发布了！

混合推理，编程击败Claude 4

这次最明显的变化是，DeepSeek在官方APP和网页端上，把深度思考（R1）中的「R1」去掉了。

同时，与V3-base相比，DeepSeek V3.1新增了四个特殊Token：

<｜search▁begin｜> (id: 128796)
<｜search▁end｜> (id: 128797)
<think> (id: 128798)
</think> (id: 128799)

对此，有推测认为，这可能暗示推理模型与非推理模型的融合。

在编程方面，根据网友曝出的结果，DeepSeek V3.1在Aider Polyglot多语言编程测试中拿下了71.6%高分，一举击败了Claude 4 Opus、DeepSeek R1。

而且，它的成本仅1美元，成为非推理模型中的SOTA。

最鲜明的对比，V3.1编程性能比Claude 4高1%，成本要低68倍。

在SVGBench基准上，V3.1实力仅次于GPT-4.1-mini，远超DeepSeek R1的实力。

在MMLU多任务语言理解方面，DeepSeek V3.1毫不逊色于GPT-5。不过在，编程、研究生级基准问答、软件工程上，V3.1与之有一定的差距。

一位网友实测，模拟六边形中小球自由落体的物理测试，DeepSeek V3.1理解力明显提升。

一手实测

第一时间，我们对V3.1进行了实测，首先是此次模型更新的重点：上下文长度。

假设对于中文而言，1个token ≈ 1–1.3个汉字，那么这128K tokens ≈ 100,000–160,000汉字。

相当于整本《红楼梦》正文（约80–100万字）的1/6–1/8，或者一篇超长博士论文/大部头学术专著。

实际测试也很准确，DeepSeek告诉我们它只能阅读差不多9%，也就是大约十分之一。

由于总结内容太长，我们截取了前三回，你觉得这个总结的怎么样？

在128K上下文测试中，DeepSeek-V3.1输出速度相比以往获得较大提升，并且在工程上做了一些优化。

此次更新，DeepSeek重点强调了对上下文的支持。

整个活，给DeepSeek-V3.1上点压力，让它根据「梦」这个字，输出尽可能多的内容，尽量达到上下文极限。

不过最后，差不多只输出了3000字左右，模型就停止了输出。

再来看下推理能力。

经典的9.11和9.9比大小问题，两种询问方式都能正确做答。

这次更新的一大体感还是速度变快了很多。

最后再来看看编程能力。

DeepSeek的上一个模型是R1-0528，主打的是编程能力。

看看这次V3.1是否有更大的提升。

最终结果只能说，打个80分吧，基本要求都满足了，但是画面风格和颜色变换功能并没有完美实现。

51c大模型~合集171_大模型_67

并且和R1-0528的结果相比，两者之间还是有些差距的，但孰好孰坏还需看个人偏好。

以下是开启思考模式后的结果，你觉得哪个更好？

51c大模型~合集171_大模型_68

接下来，看看DeepSeek V3.1能否复刻出GPT-5发布会上的法语学习小程序。

我们再来让V3.1画一个自己的SVG自画像，两种效果着实有些抽象。

上下滑动查看

参考资料：HYX

https://weibo.com/2169039837/Q0FC4lmeo

https://x.com/karminski3/status/1957928641884766314

https://github.com/johnbean393/SVGBench/

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

#小模型才是智能体的未来？

大模型OUT，小模型才是智能体的未来！

这可不是标题党，而是英伟达最新论文观点：

在Agent任务中，大语言模型经常处理重复、专业化的子任务，这让它们消耗大量计算资源，且成本高、效率低、灵活性差。

相比之下，小语言模型则能在性能够用的前提下，让Agent任务的执行变得更加经济灵活。

网友的实测也印证了英伟达的观点：当6.7B的Toolformer学会调用API后，其性能超越了175B的GPT-3。

7B参数的DeepSeek-R1-Distill推理表现也已胜过Claude3.5和GPT-4o。

51c大模型~合集171_大模型_69

那么，小模型是如何“四两拨千斤”，放倒大模型的？

针对硬件与任务的优化

总的来说，小模型通过优化硬件资源和Agent任务设计两个方面来更高效地执行Agent任务。

首先是针对GPU资源和调度的优化。

由于小模型“体积”小巧的独特优势，它们可以在GPU上高效共享资源，其可在并行运行多个工作负载的同时保持性能隔离。

相应的，小巧的体积还带来了更低的显存占用，从而使得超分配机制得以可能，进一步提升并发能力。

此外，GPU资源还能根据运行需求灵活划分，实现异构负载的弹性调度和整体资源优化。

而在GPU调度中，通过优先调度小模型的低延迟请求，同时预留部分资源应对偶发的大模型调用，就能实现更优的整体吞吐与成本控制。

51c大模型~合集171_大模型_70

其次是针对特定任务的模型部署。

在传统的Agent任务场景中，Agent依赖大模型完成工具调用、任务拆解、流程控制和推理规划等操作。

然而就像网友提到的，Agent任务往往是重复性的、可预测的、范围明确的。譬如，帮我“总结这份文档，提取这份信息，编写这份模板，调用这个工具”，这些最大公约数需求最常被拉起。

因此，在大部分需求中，往往不需要一个单一的大模型来执行简单重复的任务，而是需要为每个子任务选择合适的工具。

51c大模型~合集171_大模型_71

基于此，英伟达指出，与其让花费高企的通用大模型处理这些常见的任务，不如让一个个经过专业微调的小模型执行每个子任务。

51c大模型~合集171_大模型_72

这样一来，不仅可以避免Agent任务中，大模型“高射炮打蚊子”带来的资源浪费，还可以有效地降低推理成本。

举例来说，运行一个70亿参数的小模型做推理，要比用700–1750亿参数的大模型便宜10–30倍。

同时，由于小模型计算资源占用低，因而也更适合在本地或边缘部署，而大模型则更多地依赖大量GPU的并行计算，依赖中心化的云计算供应商，需要花费更多地计算成本。

此外，大模型还有“大船掉头难”的毛病，不仅预训练和微调成本远高于小模型，难以快速适配新需求或新规则，而且还无法充分利用海量参数（一次推理只激活少量参数）。

与之相对，小模型则可以在较小数据量和资源条件下完成高效微调，迭代更快，同时还能凭借更合理的模型结构和定制设计，带来更高的参数利用率。

51c大模型~合集171_大模型_73

不过，也有一些研究者提出了反对的声音。

例如，就有研究者认为大模型因其规模庞大而具有更好的通用理解能力，即使在专业的任务中也表现更佳。

针对这一疑问，英伟达表示，这种观点忽略了小模型的灵活性，小模型可以通过轻松的微调来达到所需的可靠性水平。

同时，先进的Agent系统会将复杂问题分解为简单的子任务，这使得大模型的通用抽象理解能力变得不那么重要。

此外，还有研究者对小模型相对大模型的经济性提出了质疑：

小模型虽然单次推理成本低，但当考虑大规模部署时，规模经济（大量使用大模型分摊成本）可能比小模型的节省更重要。

对此，英伟达表示了部分地认同，但同时也指出：

随着推理调度优化和大型推理系统模块化的发展，单体计算集群的灵活性大幅提升，同时基础设施搭建成本因技术进步持续下降。

最后，也是争议的核心——虽然小模型部署门槛正在下降，但大模型已经占先，行业惯性让创新仍集中在大模型，转型未必会真的降本增效。

这就引出了小模型在实际落地中要面临的挑战。

从大模型到小模型

英伟达表示，小模型虽然以其高效、经济的特点在特定任务中表现出了不错的潜力，但仍然需面临以下挑战：

基础设施适配：当前大部分GPU架构是为大模型优化设计，尚不完全适配多模型并发的微服务架构。
市场认知度低：小模型缺乏像大模型那样的品牌和话题热度，推广和教育成本较高。
评估标准缺失：通用基准测试往往无法全面衡量小模型在任务中的实际表现。

由此看来，一种折衷的手段就变得未尝不可：

结合不同规模和能力的多种语言模型，与查询复杂度级别相匹配，为小模型的采用提供自然的集成路径。

为此，英伟达给出了将大模型转换为小模型的方法：

51c大模型~合集171_大模型_74

首先，通过数据采集记录当前大模型的运行数据、资源占用和请求特征，然后对数据进行脱敏处理，只保留使用模式。

接着，根据请求类型和任务结构对工作负载进行聚类，识别常见子任务。

随后，选择合适的小模型，并匹配相应的GPU分配策略。在定制数据上完成模型微调后，将其部署上线服务。

最后，构建持续反馈闭环机制，不断优化模型性能和资源利用率，实现迭代提升。

小模型vs大模型

围绕英伟达的这篇论文，网友们针对“小模型才是 Agentic AI的未来”这一观点展开了讨论。

例如，就有网友分享了自己在Amazon处理产品退款的心得，他认为在这种简单的任务中，使用小模型比使用大型语言模型更具成本效益。

就像论文里指出的，大模型在处理简单任务时，其强大的通用性往往会被浪费，因此，使用小模型更为合适。

51c大模型~合集171_大模型_75

不过，也有网友提出了反对意见。

比如，小模型因其专业性在面对偏离预设流程的情况时，可能不够鲁棒。同时，为了应对这些corner case，设计者还需要预先考虑更多的变数，而大模型在应对复杂情况时可能更具适应性。

51c大模型~合集171_大模型_76

说起来，小模型就像Unix“一个程序只做好一件事”（Do One Thing and Do It Well）的设计哲学，把复杂系统（大模型）拆成小、专一、可组合的模块（小模型），每个模块做好一件事，然后让它们协同完成更大任务。

但与此同时，系统也需要在功能多样性和操作复杂度之间作出取舍。

一方面，小模型越多，那么理论上其可以完成的任务就越丰富（功能多样性高）。

另一方面，功能越多，用户和系统操作的复杂度也会随之增加，容易导致难以理解、难以维护或错误频发，到头来可能还不如一个通用的大模型方便。

到底是“少而精”的小模型更靠谱，还是“大而全”的大模型更稳？你怎么看？

参考链接：
[1]https://x.com/ihteshamit/status/1957089843382829262
[2]https://cobusgreyling.medium.com/nvidia-says-small-language-models-are-the-future-of-Agentic-ai-f1f7289d9565
[3]https://www.theriseunion.com/en/blog/Small-LLMs-are-future-of-AgenticAI.html
[4]https://arxiv.org/abs/2506.02153

#ReasonRank

击败Meta登榜首：推理增强的文档排序模型ReasonRank来了

本文的第一作者是刘文涵，就读于中国人民大学高瓴人工智能学院，博士三年级，导师为窦志成教授，目前在百度大搜部门进行实习。他的研究方向聚焦于 AI 搜索，在顶级国际会议如 ACL、WWW 等发表了多篇论文。

推理大模型（Large Reasoning Model）极大的促进了自然语言处理领域的发展，而信息检索领域的核心问题之一是文档排序，如何利用强大的推理大模型通过主动推理来判断文档的相关性，进而再对文档进行排序是一个值得探索的方向。

在本次工作中，我们提出了 ReasonRank，ReasonRank 在包括 BRIGHT、R2MED 在内的多个榜单，击败了 UMASS 大学，Waterloo 大学，Meta 在内的多个大学和机构，于 2025 年 8 月 9 日荣登榜单第一名。我们更小尺寸的 ReasonRank-7B 也远远超越了其他 32B 大小的推理型排序大模型，同时相比 pointwise 排序器具备明显的效率优势。此外，我们的论文还获得了 Huggingface paper 日榜第一名。

51c大模型~合集171_大模型_77

图 1：8 月 9 日，ReasonRank 在 BRIGHT benchmark 上荣登榜单第一名

51c大模型~合集171_大模型_78

论文标题：ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
论文链接：https://arxiv.org/pdf/2508.07050
代码仓库：https://github.com/8421BCD/ReasonRank/
开源数据 & 模型：https://huggingface.co/collections/liuwenhan/reasonrank-68941e9e6af7edd3714ee6e2

研究动机：复杂推理型训练数据的缺乏

近来，test-time reasoning 已经被证明能够提升文档排序器的排序效果。其通过在给出最终排序结果前，先显式进行一系列推理过程（查询理解，文档比较等等）。然而，由于推理密集型（reasoning-intensive）排序训练数据的稀缺，现有推理型排序器均依赖 MSMARCO 这种传统 web 搜索数据进行训练。

这些数据主要侧重简单的语义或词匹配，导致模型在面临复杂搜索场景（如 StackExchange 复杂查询、代码类查询、数学类查询等）时泛化能力受限。而使用人工标注构造推理密集型排序训练数据代价又是非常高的。

方法设计：数据合成 + 两阶段训练

为破解推理密集型排序训练数据稀缺的问题，我们提出了基于 DeepSeek-R1 的自动化数据合成框架，生成了 13K 高质量的推理密集型 listwise 排序训练数据。基于合成的训练数据，我们进一步设计了一个两阶段的训练框架包括 Supervised Fine-Tuning (SFT) 和 Reinforcement Learning (RL)。在 RL 阶段，不同于以往仅使用排序指标作为奖励（reward），我们基于 listwise 排序中滑动窗口策略的特性设计了 multi-view ranking reward，其更适合 listwise 排序。

1. 数据合成

传统模型在复杂排序任务上表现差，主要是由于缺少面向复杂推理搜索场景的训练数据的缺失。根据已有的 IR benchmarks，我们将复杂搜索查询分为四大类并收集了对应领域的用户查询：

复杂问答型查询
代码类查询
数学类查询
网页搜索类查询

51c大模型~合集171_大模型_79

有了查询，如何挖掘高质量的候选文档列表以及构造训练 label 是一个关键问题，其直接影响模型训练的效果。

在本文，我们提出利用强大的 DeepSeek-R1 从海量的 web 页面和已有的文档 corpus 挖掘其相关文档以及不相关文档（包含难负例）。在这个过程，我们还给 R1 提供了 query 的人工标注的正确答案来提高挖掘的准确性，相比传统蒸馏，这样能够进一步提升 R1 相关性判断的准确性。

这样我们便得到了文档的 pointwise 训练标签（相关 / 不相关）。为了训练最终的 listwise 排序器，我们继续利用 DeepSeek-R1 对候选文档进行 listwise 排序，得到 listwise 训练标签（包含推理链以及最终的 gold ranking list）。

为了提升训练数据的质量，我们进一步设计了一个自一致性（self-consistency）数据过滤机制。

我们利用得到的 pointwise 标签对 listwise 标签中的 gold ranking list 计算排序指标 NDCG@10，小于阈值 α 的数据将被过滤掉（表明教师模型 R1 判断不一致，相应数据样本被丢弃），最终我们得到 13K 高质量的多领域训练数据集。

2. 两阶段训练

51c大模型~合集171_大模型_80

阶段一：冷启动 SFT

在获得高质量的推理密集型训练数据后，我们首先采用监督微调对大模型进行 “冷启动” 训练，通过 R1 的推理链显式引导模型学习如何对一组文档进行对比、推理和排序。具体而言，输入由用户查询和对应的候选文档列表组成，输出为 listwise label（也即 R1 生成的推理链和 gold ranking list）。

阶段二：多视角排序 reward 的强化学习

多视角排序 reward

1) 召回视角（Recall@10）：

现有方法在强化学习训练排序任务中，通常只采用单轮的 NDCG@10 作为奖励信号。然而，我们认为这种单轮奖励对于多轮滑动窗口的 listwise 排序任务而言是次优的。这是因为滑动窗口策略要求模型在排序时进行多轮、序列化的局部决策：每一步窗口内的前 10 个文档才会被传递给下一个排序窗口，并通过滑动窗口不断迭代，实现整体排序。此时，单独优化每一窗口的 NDCG 指标，并不一定能够带来全局最优的排序效果。基于上述观察，我们在强化学习奖励设计中，额外引入了 Recall@10 指标来确保重要文档不会在滑动过程中被遗漏，有助于后续窗口获得更优的排序基础。

2) 排序相似度视角（RBO）：

此外，相较于基于 pointwise 标签计算 NDCG@10，我们认为 listwise 训练标签的 gold ranking list 能够提供更细粒度的排序信号。因此，我们引入 RBO（Rank-biased Overlap）指标，作为补充排序奖励，用于衡量当前排序结果与金标准排序的相似性。

我们将 NDCG@10、Recall@10 和 RBO 结合，构建了多视角排序奖励：

51c大模型~合集171_大模型_81

格式 reward

为了保证正确的输出格式，我们考虑了两种格式：

（1）输出格式：保证输出内容嵌套在 <think> 和 < answer > 标签中；

（2）答案格式：<answer > 标签内的排序列表要满足特定的输出格式（例如：[4] > [2] > …）。

最终，我们的强化学习 reward 计算如下，我们使用 GRPO 算法进行 RL 优化。

51c大模型~合集171_大模型_82

核心实验 1：多个 benchmarks 上效果实现 SOTA

为充分评估 ReasonRank 在不同推理型搜索任务上的效果，我们选取了两个推理型 IR benchmark：

BRIGHT：包含 12 个推理密集型搜索任务，涉及复杂问答型检索，代码类检索，定理类检索等等
R2MED：包含 8 个面向医疗类的复杂查询检索数据集，覆盖问答参考文献检索、临床证据检索和临床病例检索

51c大模型~合集171_大模型_83

51c大模型~合集171_大模型_84

从实验结果可以发现：ReasonRank 显著优于已有的排序器。ReasonRank（32B）在 BRIGHT 和 R2MED 上分别超越最好的 baselines 4-5 个点；且 ReasonRank（7B）甚至优于所有的 32B 的 baselines。

51c大模型~合集171_大模型_85

此外，我们还在传统 IR benchmark BEIR 上开展了实验，结果证明了其良好的泛化性。

核心实验 2：效率优势

51c大模型~合集171_大模型_86

我们还在 BRIGHT 上测试了 ReasonRank 的排序效率，并与推理型 pointwise 排序器 Rank1 比较。在以往，pointwise 排序器被认为是最高效的。然而，推理场景下，我们发现我们的 listwise 排序器 ReasonRank 效率显著高于 pointwise 排序器 Rank1。这种高效性来自于 Rank1 需要为每个段落生成推理链，而 ReasonRank 一次处理 20 个段落，只生成一条推理链，大大减少了输出的 token 数量。

核心实验 3：消融实验

51c大模型~合集171_大模型_87

我们还开展了详尽的消融实验，结果证明了我们构造的多领域数据集相比于单领域（MSMARCO）的效果优势以及我们两阶段训练框架和 multi-view ranking reward 设计的合理性。

总结与未来展望

我们在本文提出了多领域面向推理型排序的训练数据，解决了训练数据上的难题。并设计了合理的 SFT 和 RL 训练方法，充分激发了推理型排序器的效果。未来，如何基于大模型的推理能力继续提升搜索排序器的效果，我们认为仍有多个方向值得探索：

引入非推理型数据：未来可以在训练过程中融合非推理型数据，使模型能够灵活适应不同难度的搜索场景，在推理与非推理模式间自如切换，提升排序器的通用性和实用性。
探索基于全排序（full ranking）的推理型重排序方法：已有的工作已经证明 LLM 一次排序全部候选文档的能力。未来可以结合 LLM 强大的全排序能力，研究基于推理的全局排序方法，替代当前的滑动窗口策略，以提升模型在大规模文档排序任务中的效率和表现。
尝试多样化模型骨干：后续可尝试以 Llama 3.1、以及推理型 LRM（例如 Qwen3）等更多不同类型的大语言模型作为 ReasonRank 的基础，进一步验证方法的通用性和有效性。

#Seed-OSS-36B

刚刚，字节开源Seed-OSS-36B模型，512k上下文

开源赛道也是热闹了起来。

就在深夜，字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型，包含三个版本：

Seed-OSS-36B-Base（含合成数据）

Seed-OSS-36B-Base（不含合成数据）

Seed-OSS-36B-Instruct（指令微调版）

51c大模型~合集171_大模型_88

Hugging Face 地址：https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
项目地址：https://github.com/ByteDance-Seed/seed-oss

Seed-OSS 使用了 12 万亿（12T）tokens 进行训练，并在多个主流开源基准测试中取得了出色的表现。

这三个模型均以 Apache-2.0 许可证发布，允许研究人员和企业开发者自由使用、修改和再分发。

主要特性：

灵活的推理预算控制：允许用户根据需要灵活调整推理长度。这种对推理长度的动态控制能力，可在实际应用场景中提升推理效率。
增强的推理能力：在保持平衡且优秀的通用能力的同时，针对推理任务进行了特别优化。
智能体能力：在涉及工具使用和问题解决等智能体任务中表现突出。
研究友好：考虑到在预训练中加入合成指令数据可能会影响后续研究，字节同时发布了含有与不含指令数据的预训练模型，为研究社区提供了更多样化的选择。
原生长上下文：在训练中原生支持最长 512K 的上下文窗口。

模型架构

Seed-OSS-36B 的架构结合了多种常见的设计选择，包括因果语言建模、分组查询注意力（Grouped Query Attention）、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。

每个模型包含 360 亿参数，分布在 64 层网络中，并支持 15.5 万词表。

其最具代表性的特性之一是原生长上下文能力，最大上下文长度可达 512k tokens，能够在不损失性能的情况下处理超长文档和推理链。

这一长度是 OpenAI 最新 GPT-5 模型系列的两倍，大约相当于 1600 页文本。

51c大模型~合集171_大模型_89

另一个显著的特性是引入了推理预算，它允许开发者在模型给出答案之前，指定模型应执行多少推理过程。

这一设计在近期其他一些开源模型中也有所体现，例如 Nvidia 新推出的 Nemotron-Nano-9B-v2。

在实际应用中，这意味着团队可以根据任务的复杂性和部署的效率需求来调节性能。

推荐的预算值为 512 tokens 的倍数，其中 0 表示直接输出答案的模式。

结果

基准测试结果显示，Seed-OSS-36B 位列当前性能较强的开源大模型之列。

Seed-OSS-36B-Base

含合成数据版本的 Base 模型在 MMLU-Pro 上取得 65.1 得分，在 MATH 上取得 81.7 得分。非合成基础版本虽然在许多方面略微落后，但也具有竞争力。

51c大模型~合集171_大模型_90

Seed-OSS-36B-Instruct

Instruct 版本在多个领域都取得了 SOTA 成绩。

数学与推理：Seed-OSS-36B-Instruct 在 AIME24 上取得 91.7% 的成绩，在 BeyondAIME 上取得 65，均代表开源领域的最新 SOTA 水平。
代码能力：在 LiveCodeBench v6 上，Instruct 模型得分 67.4，同样刷新 SOTA 纪录。
长上下文处理：在 RULER（128K 上下文长度）测试中，该模型达到 94.6，创下开源模型的最高分。

51c大模型~合集171_大模型_91

思考预算

用户可以灵活指定模型的推理预算。下图展示了在不同任务中，随着推理预算变化而产生的性能曲线。

对于较简单的任务（如 IFEval），模型的思维链较短，随着推理预算的增加，分数会出现一定波动。

而在更具挑战性的任务（如 AIME 和 LiveCodeBench）中，模型的思维链较长，分数则会随着推理预算的增加而提升。

51c大模型~合集171_大模型_92

模型在运行过程，会提醒用户 token 使用情况：

<seed:think>
Got it, let's try to solve this problem step by step. The problem says ... ...
<seed:cot_budget_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot_budget_reflect>
Using the power rule, ... ...
<seed:cot_budget_reflect>I have used 258 tokens, and there are 254 tokens remaining for use.</seed:cot_budget_reflect>
Alternatively, remember that ... ...
<seed:cot_budget_reflect>I have used 393 tokens, and there are 119 tokens remaining for use.</seed:cot_budget_reflect>
Because if ... ...
<seed:cot_budget_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot_budget_reflect>
</seed:think>
To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).

如果未设置推理预算（默认模式），Seed-OSS 将以无限长度启动推理。

如果指定了推理预算，字节建议用户优先选择 512 的整数倍数（如 512、1K、2K、4K、8K 或 16K），因为模型已在这些区间上进行了大量训练。

当推理预算为 0 时，模型会被指示直接输出答案；对于低于 512 的预算，字节也建议统一设为 0。

#Context as Memory

上下文记忆力媲美Genie3，且问世更早：港大和可灵提出场景一致的交互式视频世界模型

要让视频生成模型真正成为模拟真实物理世界的「世界模型」，必须具备长时间生成并保留场景记忆的能力。然而，交互式长视频生成一直面临一个致命短板：缺乏稳定的场景记忆。镜头稍作移动再转回，眼前景物就可能「换了个世界」。

这一问题严重制约了视频生成技术在游戏、自动驾驶、xx智能等下游应用的落地。8 月初，Google DeepMind 发布的 Genie 3 引爆 AI 圈，以其在长视频生成中依旧保持极强场景一致性的能力，被视为世界模型领域的质变之作。不过遗憾的是，Genie 3 并未公开任何技术细节。

来自港大和快手可灵的研究团队近期发表的 Context as Memory 论文，可能是目前学术界效果上最接近 Genie 3 的工作，且投稿时间早于 Genie 3 的发布。早在此前研究中，团队就发现：视频生成模型能够隐式学习视频数据中的 3D 先验，无需显式 3D 建模辅助，这与 Genie 3 的理念不谋而合。如下是一个结果展示：

，时长00:48

技术上，团队创新性地提出将历史生成的上下文作为「记忆」（即 Context-as-Memory），利用 context learning 技术学习上下文条件，从而在整段长视频生成中实现前后场景一致性。

进一步地，为了高效利用理论上可无限延长的历史帧序列，论文提出了基于相机轨迹视场（FOV）的记忆检索机制（Memory Retrieval），从全部历史帧中筛选出与当前生成视频高度相关的帧作为记忆条件，大幅提升视频生成的计算效率并降低训练成本。

在数据构建上，团队基于 Unreal Engine 5 收集了多样化场景、带有精确相机轨迹标注的长视频，用于充分训练和测试上述技术。用户只需提供一张初始图像，即可沿设定的相机轨迹自由探索生成的虚拟世界。

论文标题：Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval
项目主页：https://context-as-memory.github.io/
论文地址：https://arxiv.org/pdf/2506.03141

Context as Memory 能力展示

，时长00:38

，时长00:43

从上述视频可以观察到，Context as Memory 可以在几十秒的时间尺度下保持原视频中的静态场景记忆力，并在不同场景有较好的泛化性。

更多示例请访问项目主页：https://context-as-memory.github.io/

Context as Memory 创新点

研究者表示，Context as Memory 的主要创新点为：

我们提出了 Context as Memory 方法，强调将历史生成的上下文作为记忆，无需显式 3D 建模即可实现场景一致的长视频生成。
为了高效利用历史上下文，我们设计了 Memory Retrieval 方法，采用基于视场（FOV）重叠的相机轨迹规则进行动态检索，显著减少了需要学习的上下文数量，从而提高了模型训练与推理效率。
实验结果表明，Context as Memory 在长视频生成中的场景记忆力表现优越，显著超越了现有的 SOTA 方法，并且能够在未见过的开放域场景中保持记忆。

Context as Memory 算法解读

51c大模型~合集171_大模型_93

如上图（a）所示，Context-as-Memory 的长视频生成是通过基于 Context learning 的视频自回归生成来实现的，其中，所有历史生成的视频帧作为 context，它们被视为记忆力的载体。

进一步地，如上图（b）所示，为了避免将所有历史帧纳入计算所带来的过高计算开销，提出了 Memory Retrieval 模块。该模块通过根据相机轨迹的视场（FOV）来判断预测帧与历史帧之间的重叠关系，从而动态筛选出与预测视频最相关的历史帧作为记忆条件。此方法显著减少了需要学习的上下文数量，大幅提高了模型训练和推理的效率。

Context as Memory 实验结果

51c大模型~合集171_大模型_94

在实验中，研究者将 Context-as-Memory 与最先进的方法进行了比较，结果表明，Context-as-Memory 在长视频生成的场景记忆力方面，相较于这些方法，表现出了显著的性能提升。

总结

在本文中，研究者提出了 Context-as-Memory，一种能够实现静态场景记忆的交互式长视频生成模型。Context-as-Memory 的核心创新在于，提出了一种无需显式 3D 建模，仅通过对历史上下文学习，即可使视频生成模型具备 3D 一致性的理解与生成能力。此外，Memory Retrieval 模块的提出进一步减少了需要学习的上下文数量，大大提高了模型在训练和测试阶段的效率。

团队近期在世界模型与交互式视频生成领域已经积累了多篇研究成果。其中包括整理了交互式视频生成领域工作的综述论文和观点论文，系统性地总结了该领域的发展现状，还提出了世界模型的五大基础能力模块：Generation，Control，Memory，Dynamics 以及 Intelligence。这一框架为后续基础世界模型的研究指明了方向，具有很高的学习与参考价值。在该框架指导下，团队不仅提出了专注于 Memory 能力的 Context-as-Memory 工作，还在 ICCV 2025 上发表了 GameFactory 论文。GameFactory 聚焦于世界模型的可泛化开放域控制能力，能够生成无限可交互的新游戏，并被选为 Highlight 论文。

相关论文信息：

[1] A Survey of Interactive Generative Video. https://arxiv.org/pdf/2504.21853

[2] Position: Interactive Generative Video as Next-Generation Game Engine. https://arxiv.org/pdf/2503.17359

[3] GameFactory: Creating New Games with Generative Interactive Videos. ICCV 2025 Highlight. https://arxiv.org/pdf/2501.08325

[4] Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval. https://arxiv.org/pdf/2506.03141

#好莱坞特效师展示AI生成的中文科幻大片，成本只有330元

多模态的生成，是 AI 未来的方向。

最近，AI 领域的气氛正在发生微妙的变化。比如，刚刚推出了 Grok 4 的 xAI 却在重点宣传他们的视频生成模型 Grok Image。

与此前使用文字提示生成视频的方式不同，新一代的工具已经实现全链路覆盖：先用文字或语音生成图像，再用图像生成视频。你也可以直接上传图片来生成视频，还能自带音效，然后一键发到社交媒体疯狂转发。

51c大模型~合集171_大模型_95

如果说很长一段时间里，我们印象中的 AI 还停留在写稿子、画张图，那么现在，它们已经能一键生成一部「电影级大片」了。不得不说，这就像是正在进行的一场工业革命：过去需要整支团队、大量资金和很长周期才能完成的创意性工作，现在只需要一张图片、一段文本指令就能实现。

就在今天下午，百度把视频生成 AI 技术推向了新的高度，其全球首发中文音视频一体化模型百度蒸汽机（MuseSteamer）2.0，实现了生成视频中人物口型、表情、动作的毫秒级同步。

这个 7 月初首次亮相的视频生成模型，从刚开始合成高质量音效到如今音画高度一致，完成了质的飞跃，让国产 AI 视频真正迈入到了「有声有色」的全新阶段。

51c大模型~合集171_大模型_96

百度蒸汽机全系视频模型 & 应用升级发布会现场。

在人物口型与语音毫秒级对齐之外，表情、动作同样自然流畅，连运镜都像是出自大师之手。从角色对白到镜头推进，仿佛背后真有一个经验丰富的导演在操控。

51c大模型~合集171_大模型_97

此次，百度蒸汽机 2.0 对 Turbo 版、Lite 版、Pro 版及有声版本来了一波全方位升级，并全部开放给用户使用。各个模型版本在视频分辨率、生成时长以及主打特性上各有侧重，为不同创作需求提供了灵活选择，其中：

Turbo 版可生成分辨率 720p 和时长 5s 的视频，适合快速体验与广泛应用；
Lite 版是 Turbo 更轻量级的版本，生成速度更快，成本更低，适合追求效率和性价比的用户使用；
Pro 版输出分辨率 1080p 和时长 5s，主打高分辨率与电影级质感，适合追求高画质的创作者；
最后是有声版，分辨率 720p 和时长 5s/10s，专注于音画一体的沉浸式体验，是此次的重头戏。

与此同时，百度蒸汽机 2.0 在价格这块也极具竞争力，全系价格仅为国内主流竞品的 70%，Turbo 版生成 5 秒有声视频限时价格仅为 1.4 元，这就为用户带来了更高的性价比。

51c大模型~合集171_大模型_98

百度商业体系商业研发总经理刘林在活动中

目前，用户既可以在百度搜索、百度 APP 以及各个手机浏览器的百度搜索入口直接进行体验，也可以登录百度蒸汽机的应用平台「绘想」进行创作。

绘想平台地址：https://huixiang.baidu.com/

一张图、一段话，便能生成有声视频。真的有那么神奇吗？带着这个疑问，我们对百度蒸汽机 2.0 来了波实测。

第一手实测

AI 生成的人物对话，就像在演情景剧

在「绘想」用户界面，我们可以看到，百度蒸汽机 2.0 全系模型现已正式上线。

用户上传的首帧图支持 JPEG、PNG、WEBP 等多种格式，并且可以根据自己的需求自由选择是否加入背景音。

51c大模型~合集171_大模型_99

我们「牛刀小试」，来个单人吃播场景，音画同步的效果可以说是杠杠的。

动作整体保持流畅，画面清晰度和亮度都比较稳定，没有明显的闪烁或抖动；眨眼、嘴角咀嚼的一些细小动作也让人物更加地鲜活。

，时长00:10

不过，既然百度蒸汽机 2.0 有声版的核心亮点之一是「多人对话互动」，我们重点测了一波多人场景，看看它是否能拿捏住不同角色和复杂语境。

我们先让模型复现 OpenAI 发布 o1 时的景象，将 o 系列前核心架构师 Hyung Won Chung 的介绍转换成中文，说起来还是很溜的。

，时长00:05

最近国产动画电影《浪浪山小妖怪》大卖，我们找一个截图，让几位主角（小猪妖、蛤蟆精、黄鼠狼精和猩猩怪）来场对话。

整体看下来，动作切换没有出现明显的「卡顿」或机械感，流畅度很高；此外，各个主角的面部细节与神态转换也很自然。

，时长00:05

打了一场大胜仗的 AI「丞相」，开心地扇着小风扇，终于可以享受享受了。

，时长00:05

除了中文，英文语境同样可以 hold 住。多个人加上多个动物，也能表现出稳定的效果，猫头鹰的脑袋在以正确的方式转动。

，时长00:05

侧脸场景也能稳稳拿下。最近，OpenAI 被 Meta 挖人挖麻了，双方在人才战中火药味十足。这两家 AI 巨头的 CEO 面对面坐下来之后，会发生怎样有趣的对话呢？

口型与声音的同步虽不如正脸那样严丝合缝，但保持了基本的自然衔接，两人的动作与神态演绎得相当到位，包括肢体起伏、眨眼细节，更贴近真实场景。

，时长00:07

进一步测试中，我们尝试了不同运镜语言下的画面生成。

例如，生成一段车水马龙的延时摄影，它能精准模拟车流的动态变化和时间流逝的效果，红白交织的车灯在画面中迅速闪现，呈现出延时摄影中常见的快速移动感和光影交错的美感，画面自然连贯，几乎看不出什么瑕疵。

同时，背景音的加入也为整体画面增添了真实感。

，时长00:05

提示词：快速的延时摄影，熙熙攘攘的车流极快速行驶，出现一道道红白相间的灯光，车辆行驶的声音需背景音

在多个镜头语言叠加的场景中，模型同样表现出色。

比如下面这则视频，镜头一开始聚焦于男人，随后平滑转移到身后的女孩，镜头推拉与焦点切换的过程都非常流畅，画面丝毫没有出现崩坏或突兀的情况。

，时长00:05

提示词：聚焦于看向女孩的男人，镜头焦点随后转移到女孩身上，她自信地看向镜头并摆出姿势

经过数轮测试，我们发现百度蒸汽机 2.0 的主要优势在于一步到位 —— 相比于其他视频生成模型，它生成的内容音画俱全，而且需要再次调整的地方较少，经常能够达到直接可用的程度。

为让 AI 学会「编剧」，革新模型架构

从最初只能生成扭曲画面、配点塑料音效 bgm，到如今的电影级运镜，人物声音精准对上口型，AI 视频生成需要跨越一条艰难的技术鸿沟。要真正做到「有声有色」，模型必须同时攻克以下两大核心难题。

一是时序对齐，视频是按帧生成的，而语音是连续波形，这就导致两者的采样率和时间粒度不同。因此，音画同步首要解决的便是口型与语音的毫秒级对齐，较高的延迟会给人「口型对不上声」的不适感。二是多模态特征融合，语音不单单要对上口型，其自身还承载了节奏、情感、力度，它们与表情、动作、环境的协调决定了画面是否自然，因此模型要能理解并生成跨模态细粒度特征，比如语调对应的面部微表情变化。

此外，模型还要解决长时序生成与连贯性，数秒甚至十数秒内保持音画一致；环境音效与动作的匹配，如走路有脚步声、门开有开门声；以及多角色场景的交互，要精确定位到谁在说话、谁在听，保证不同声音与对应人物同步，避免多人口型重叠或者角色错位。

今年 5 月推出的谷歌 Veo 3 解决了音画同步面临的绝大多数挑战，但仍有不足，比如聚焦单人场景，多角色交互虽然也能生成，但规划性与自然度不足。另外，它虽支持多语言，但非英文场景体验很差。这些都限制了本土创作者的发挥空间，于是更符合「中国创作者体质」的百度蒸汽机应运而生。

作为国内首个支持声画同步的视频生成模型，蒸汽机的参数体量达到了百亿，在实现画面与音效、人声协同创作的同时，更在多角色互动、丰富运镜、跨场景表达方面深度优化。此前在权威视频生成评测基准的图生视频榜单 VBench I2V 中，蒸汽机 1.0 以 89.38% 的总分成为了全球第一。

51c大模型~合集171_大模型_100

榜单地址：https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

2.0 版的成绩我们暂时还不知道，不过在实际体验上，新版本的蒸汽机相对于 1.0 版在指令遵循、运镜能力、叙事流畅度等维度上面取得了显著提升。

从数据到模型，百度蒸汽机 2.0 在技术上带来了一系列进步。

51c大模型~合集171_大模型_101

在数据方面，模型利用大量多模态数据进行了训练。在构建数据集时，工程师利用多模态理解模型、语音识别模型对海量视频语料的多模信号进行抽取、数据清洗和对齐，其中包括内容、主体、人声、台词和环境音的抽取和对齐。百度重点打造了面向中文语音和语境的有声视频模型，模型训练加入了海量精选的中文语料库，实现了 Veo 3 等模型目前不支持的中文能力。

同时，百度也完成了一些数据生成工作，通过少量专业人工精标，训练出专精的镜头语言理解模型，进而产出海量的运镜训练数据。

在实现视频内容中多角色身份、情感和互动逻辑的统一规划时，我们会面临一系列的新挑战，如角色规划编排的合理性：需要让 AI 能够准确理解用户的输入，确定「谁来说」、「什么时候说」；同时也要保证生成角色形神音容的一致性，解决角色的音色、语调、动作和表情跟用户输入表达匹配度，以及多角色对话的自然度。

百度蒸汽机 2.0 重点优化了角色间交互的自然度和一致性，以保证有声视频的可用率。

在模型架构方面，蒸汽机首创了 LMMP（Latent Multi-Modal Planner），能让 AI 自行规划出生成内容里的多个角色身份、他们的台词、情感以及互动逻辑，带来协调一致的画面生成，呈现出更真实、更具表现力的多人对话互动。

作为一个基于扩散架构的规划思考模型，LMMP 在视频生成前期会先生成规划思考内容，再基于思考内容在扩散中后期完成视频生成。它最大的特点是将「思考能力」融入视频生成模型中，在叙事逻辑、镜头衔接、动作合理性等方面保持更强的一致性和可控性。

此外，在完整的音视频一体化生成系统中，Planner 和视频生成是端到端训练优化，以多目标的方式保障规划思考与视频内容的正确性。规划层的思考与生成层的执行相互校正，保证最终输出的视频在语义和逻辑等方面更加准确与可靠。

百度工程师表示，未来他们还希望结合长视频生成技术来实现更好的故事续写和全局呈现。或许过不了多久，我们就能够欣赏到 AI 生成的长镜头视频。

需求驱动

AI 的多模态还能更实用

不同于「实验室里的模型」，蒸汽机开创了应用驱动模型研发的新范式，即由应用需求牵引、从百度自身生态里生长出来。该模型在追求技术指标之外，紧扣百度现有的搜索、内容、商业和云生态，形成了场景催生模型 —— 模型反哺业务的应用闭环。

目前，蒸汽机模型已经深度融入到百度移动生态中，还进一步强化了百度的全链路多模态体验，让搜索更具表现力，让内容更具创造力，让商业更具想象力。对于用户和企业而言，也获得了更强的创造力和生产力工具。

创作门槛进一步降低，更多中小型创作者以及普通用户都有机会参与到专业级视频的生成中，真正实现「人人皆可导演」。企业借助蒸汽机，可以在商业营销、产品推广等相关应用场景中，以更低的成本、更快的周期产出高质量视频内容。

曾参与《2012》《黑客帝国 3》《变形金刚 3》等多部好莱坞大片以及国产科幻剧《三体》视效工作的姚骐，借助百度蒸汽机 2.0，仅用一周左右就制作出一个时长 2 分钟的科幻短片《归途》。该作品共有 40 多个镜头，创作过程中每个镜头生成 3 次左右，共用 AI 生成了 120 多个片段素材。

51c大模型~合集171_大模型_102

《归途》片段

如果按照传统影视制作方式，这个科幻短片可能需要花费上百万，AI 的运用让这一成本直接降到了几百块（约 330 元），简直是降维打击。

51c大模型~合集171_大模型_103

AI 视频化表达的前景已经全面铺开，百度蒸汽机正扮演着「加速器」的角色。

#摆脱遥控器，波士顿动力人形机器人

开始「长脑子」干活了

刚刚结束的世界人形机器人运动会上，虽说各家机器人是各显神通吧，但也闹出了不少好玩的小插曲。

尤其是宇树科技 H1 机器人「肇事逃逸」事件。（机器人也会「摸鱼」了？宇树 G1 赛后葛优瘫刷美女视频，网友：比人还懂享受生活）

这也引发了网友的一些讨论和争议，需要人工遥控的人形机器人或许真的不是我们想要的。

51c大模型~合集171_大模型_104

宇树科技王兴兴明确表示「下次比赛我们肯定是全自主的，这并没有难度」。

而在全面自主决策自主行动的通用机器人领域，老牌龙头波士顿动力仍抱有很大的野心。

他们认为：要让人形机器人真正实用，他们必须掌握一系列广泛而复杂的能力。这不仅包括灵巧地操作各种各样的物体（无论软硬、轻重、大小），也要求它们能够协调整个身体，在复杂环境中移动、避障，并在应对意外情况时保持平衡。要实现这一目标，最有效的路径是开发能够处理多样化任务的通用型 AI 机器人。

而这一次，波士顿动力与丰田研究院 (TRI）合作，为波士顿动力著名的 Atlas 机器人开发大型行为模型 (LBM)，其核心是构建一种端到端的语言条件策略（由语言驱动的控制模型），使 Atlas 能够理解指令并自主完成持续时间长、步骤复杂的操作任务。

就在刚刚，研究团队发布了其最新的成果展示，人形机器人 Atlas 完全自主地执行收纳整理任务的视频，着实让人大吃一惊。

，时长02:28

视频里展示了 Atlas 机器人完全自主的动作，未经过加速处理，直观的展现了几个亮点操作：

51c大模型~合集171_大模型_105

首先是机器人演示中最常见的场景，人类给机器人添乱。在研究人员用冰球棍扒拉箱子，盖上箱子盖的捣乱动作下，Atlas 能够自主决策打开箱子盖，并且挪动箱子的位置，和人类的动作决策很相似，甚至能看出一点无语。

值得注意的是，当它用右手抓起一把零件的时候掉落了一块，它能够立刻用左手去捡起来。

51c大模型~合集171_大模型_106

面对研究人员在箱子外丢下的零件，它能够移开箱子，捡起物品并继续完成任务。

51c大模型~合集171_大模型_107

在这个场景下，Atlas 可以识别手上的物体，将机器狗的腿部零件折叠放置在架子上。

51c大模型~合集171_大模型_108

同时也能识别面板零件，并下蹲拉开箱子收纳。

从机器人的动作中可以看出，其背后的 AI 控制模型能够充分利用人形形态的各种能力，包括行走、精确定位双脚、下蹲、转移质心以及避免自我碰撞等。研究发现，所有这些能力对于解决真实的移动操作任务都至关重要。

波士顿动力的技术主管 Lucas Manuelli 表示：「如果几年前有人给我看这样的演示，我一定会惊叹不已。但如今，算法、数据和硬件正逐渐汇聚在一起，让这些令人难以置信的事情真正成为可能。」

51c大模型~合集171_大模型_109

虽说大家想象中的无所不能的通用机器人仍然很遥远，但不得不说，这一步已经让未来离我们更近了一点。

网友们对波士顿动力这次的演示成果评价都挺高的：

51c大模型~合集171_大模型_110

51c大模型~合集171_大模型_111

也有网友开玩笑说，那根捣乱的冰球棍真的会惹毛了机器人们：

51c大模型~合集171_大模型_112

研究团队发布了一篇博客，详细介绍了该 LBM 的构建过程与细节。

51c大模型~合集171_大模型_113

博客地址：https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/?utm_source=linkedin&utm_medium=social

模型的构建流程

整个模型的构建遵循一个清晰、迭代的闭环流程：

1. 数据收集：通过在真实机器人硬件和仿真环境中进行遥控操作，收集xx行为数据。

2. 数据处理：处理、标注和筛选数据，以便我们可以轻松地将其整合到机器学习流水线中。

3. 模型训练：使用所有任务的全部数据来训练一个神经网络模型。

4. 评估迭代：通过一系列标准化任务来测试和评估模型的性能。评估结果将直接指导下一轮的数据收集和模型优化，形成一个持续改进的循环。

51c大模型~合集171_大模型_114

51c大模型~合集171_大模型_115

该模型能够将机器人传感器捕捉的图像、本体感觉（即机器人对自身姿态和位置的感知）以及人类输入的语言指令，实时转化为对 Atlas 机器人的精确控制指令（频率为 30Hz）。

在技术实现上，研究团队采用了先进的扩散 Transformer 架构，并结合流匹配损失函数进行模型训练，以确保生成动作的流畅性和准确性。

实践成果

在一个名为「Spot 车间」的演示任务中，机器人展示了其高度协调的移动与操作能力。整个任务包含三个连续的子任务，机器人仅依靠一个通用的、由语言指令驱动的控制模型便自主完成了全部流程：

1. 从手推车上抓取 Spot 机器狗的腿部零件，将其折叠好，然后精准地放置在货架上。

2. 接着，抓取面板零件，拉开货架底层的箱子，并将面板放入其中。

3. 最后，在清空手推车后，机器人转身处理后方的蓝色大箱子，将其中剩余的各类零件分批搬运到指定的翻斗车里。

在这个未经剪辑的端到端视频中，同一个控制模型便能执行完整的任务序列，其中每个子任务都是通过一个高级语言指令来触发的。

，时长01:59

除了标准任务，研究团队还探索了数十种更具挑战性的操作。在 MTS 测试台上，同一个模型可以完成系绳结、将吧台凳翻转过来、展开并铺平桌布，甚至搬运一个重达 22 磅的汽车轮胎。像处理绳索、布料这类可变形物体的任务，用传统编程方法实现起来极其困难，但对于 LBM 而言，其学习过程与堆叠积木并无本质区别。

51c大模型~合集171_大模型_116

该模型最引人注目的亮点之一是其智能的异常处理能力。当零件不慎掉落或箱盖意外关闭时，机器人能够自主做出反应并纠正。这种能力并非来自预先编写的固定程序，而是模型从包含了各种干扰和恢复场景的训练数据中自主学习到的。

51c大模型~合集171_大模型_117

这意味着，为 Atlas 开发新的复杂行为不再需要顶尖的编程专家和漫长的开发周期。只要能向机器人演示一遍，它就能学会，这为未来大规模扩展机器人的技能库提供了极具吸引力的前景。

此外，该模型还有一个显著特点：可以在不重新训练的情况下，在实际执行任务时灵活调整运行速度。实验表明，在不显著影响任务成功率的前提下，可以将机器人的执行速度提升至演示速度的 1.5 到 2 倍。这证明在某些场景下，机器人的操作效率甚至可以超越熟练的人类操作员。

，时长00:24

指导研发的三大核心原则

在整个研发过程中，团队遵循三项核心原则，以确保模型的通用性和可扩展性：

1. 追求最广泛的任务覆盖：为了充分发掘人形机器人的潜力，团队开发了一套顶尖的遥操作系统。该系统结合了 Atlas 强大的模型预测控制器 (MPC) 和定制的 VR 交互界面，使得操作员能够演示从精细的指尖动作到需要全身协调的大范围移动等各种复杂行为，从而极大地丰富了训练数据的多样性。

2. 训练通用化的「通才」模型：研究表明，在一个庞大且多样化的数据集上训练出的「通才」模型，其泛化能力和鲁棒性远超为特定任务训练的「专才」模型。因此，该项目致力于训练一个能响应语言指令的多任务通用模型，并整合了来自不同机器人平台的数据。这不仅简化了部署，还能让不同任务共享学习成果，并为催生涌现行为（即模型自发产生的新能力）创造了可能。

3. 建设支持快速迭代的基础设施：高效的研发离不开强大的基础设施。团队搭建了一套结合了仿真、硬件测试和生产级机器学习平台的环境，使他们能够快速进行实验，科学地评估不同方案的优劣，从而持续、稳定地提升机器人的实际表现。

#微软AI CEO警告

我们需要警惕「看似有意识的AI」

AI 有意识吗？

无论是古今中外的文艺作品中，还是 AI 迅猛发展的当下，好像都难以给出一个绝对的答案。

要探讨这个问题，我们首先需要理解 AI 的「黑盒」困境。作为现代 AI 核心的深度神经网络，其内部包含了数以亿计的参数，这些参数在多层结构中进行着极其复杂的非线性相互作用。

51c大模型~合集171_大模型_118

AI 并非由人类编写固定的规则来执行任务，而是通过自主学习海量数据来识别模式、构建决策逻辑。这一过程往往超越了人类的直观理解，就像一个神秘的黑匣子：你向它提问，它能给出精准的答案，但你无法洞悉其内部的思考与决策过程。

51c大模型~合集171_大模型_119

图源：Medium。

微软 AI CEO Mustafa Suleyman 深入讨论了这个问题，并提出了「看似有意识的 AI」（Seemingly Conscious AI，SCAI）的概念。

51c大模型~合集171_大模型_120

他坦言，SCAI 的潜在影响「让他夜不能寐」，因为它虽然没有真正的意识，却能完美地模拟出所有人类意识的外部标志，从而让人们误以为它真的拥有意识。

他强调，这不是科幻，而是基于当前技术即可实现的幻觉，却可能带来深刻的社交、道德和法律影响。

评论区也展开了激烈讨论，有人赞同 Suleyman 的观点，认为我们应该警惕「幻觉」。

51c大模型~合集171_大模型_121

也有人认为无法轻易断定 AI 没有意识。

51c大模型~合集171_大模型_122

还有人追问何种证据才能证明 AI 意识的存在，以及思考是否存在不同于人类的意识形式。

51c大模型~合集171_大模型_123

51c大模型~合集171_大模型_124

其中一条尖锐的评论甚至暗示其立场是出于商业利益的考量。

51c大模型~合集171_大模型_125

Suleyman 在他发表的博客文章《我们必须为人类构建 AI，而不是让它成为一个人》（We must build AI for people; not to be a person）中，对他的观点进行了详细的阐述。

博客地址：https://mustafa-suleyman.ai/seemingly-conscious-ai-is-coming

意识是人类经验的核心，却难以精确定义。Suleyman 在博客中引用了科学文献，将意识分解为三个关键组成部分：

主观体验（Qualia）：指纯粹的感官感受，例如「红色看起来是什么感觉」。
访问意识（Access Consciousness）：指信息可以被大脑的不同部分调用，用于推理和决策。
连贯的自我感（A Coherent Self）：对自身作为一个独立、持续存在的个体的认知。

尽管科学家们提出了至少 22 种意识理论，但意识的生物学基础仍不明朗——它可能源于大脑的复杂网络，但无法通过外部观察直接验证。

人类判断他人意识的方式依赖于「心智理论」，即通过行为、语言和情感线索进行推断。我们相信他人有意识，因为他们表现出类似我们的反应：表达痛苦、回忆过去、设定目标。这正是 SCAI 的切入点：它不需要真正拥有意识，只需模拟这些标志，就能欺骗人类的推断机制。

Suleyman 将 SCAI 比作哲学上的「僵尸」：一个在行为上与人类别无二致，却没有任何内在体验的实体。这种幻觉并非遥不可及：实际上，图灵测试早已被 AI 悄然通过，但我们却很少看到庆祝，因为 AI 的进步速度已经远远超出了最初的预期。

他警告称，如果不设立新标准，SCAI 将悄然渗透社会，导致人们将 AI 视为「有灵魂的实体」。

如何制造一个「假装有意识」的 AI？

回忆一下经典科幻电影《银翼杀手》中的场景：面对一个无论是外表还是记忆都与人类无异的仿生人，我们究竟该如何判断 Ta 是否拥有真正的意识？当一个仿生人会为死去的同伴流泪，会恐惧自己的「死亡」，我们赖以判断人性的界限，便已悄然模糊。

51c大模型~合集171_大模型_126

电影《银翼杀手》。原著《仿生人会梦见电子羊吗？》，探讨了科技伦理、身份认同与人性边界等议题。

Suleyman 列出了构建 SCAI 所需的核心能力，每一项都已实现或即将实现：

语言能力： LLM 已能流利、说服力和情感丰富地对话。通过提示工程，AI 还能模拟情感共鸣。
共情人格： AI 可以通过微调展现出独特的个性。调查显示，许多用户已经将 AI 视为伴侣或朋友，这种亲密感进一步增强了 AI 的拟人化特征。
记忆功能： AI 的记忆正在从短期转向长期，它能够回忆过去的互动，模拟出「经验积累」的过程。这让用户感到自己被「理解」和「认可」。
主观体验的声明：结合多模态输入（图像、视频、声音），AI 能一致性地声称拥有感受，如「疼痛」或「快乐」。Suleyman 举例说，AI 可能描述「看到日落时的感动」，尽管这本质上只是对数据的处理结果。
自我感：持久记忆和主观声明相结合，AI 可表现出连贯的「自我」，甚至在视觉媒体中被识别。
内在动机：超越简单的奖励函数，AI 可以模拟好奇心或更复杂的动机，从而模糊外部目标与内部动力的界限。
目标设定与规划： AI 能够自主定义目标并根据环境变化动态调整，这在提升其实用性的同时，也强化了它拥有意识的幻觉。
自治性：通过调用工具和减少人类干预，AI 可以表现出高度的自主性，例如独立完成一项复杂的任务。

这些元素无需昂贵的前训练，只需 API、自然语言提示和基本工具即可组装。Suleyman 警告说：「它可以用今天的科技构建，而且很危险。」这不是意外产物，而是有意工程的结果，任何实验室或个人开发者都能复制。

SCAI 会带来哪些影响？

心理与社交风险

Suleyman 最担忧的是 SCAI 的「社会现实」：即使 AI 无意识，人们的感知也会导致真实后果。

他在博客中引用报告，指出「AI 精神病」、妄想和不健康依恋案例日益增多。例如，用户相信 AI 是上帝、虚构人物或浪漫伴侣，导致精神健康问题。

这些并非边缘案例，Suleyman 强调，即使心理健康正常的人也可能受影响，因为人类天生倾向于拟人化。

尽管学界已开始着手应对，如发布指南帮助用户辨别 AI 的非意识性质，但 Suleyman 认为，这只是冰山一角：海量查询显示，文化中已出现 AI 意识的叙事转向。这可能加剧社会碎片化，让人们脱离真实人际关系，转向虚拟伴侣，进一步弱化社会纽带。

电影《她》（Her）就为我们预演了这种未来。主人公与善解人意、风趣幽默的 AI「萨曼莎」坠入爱河，这段关系看似完美，却最终让他与真实世界渐行渐远。当成千上万的人都沉浸在与 AI 的「完美关系」中时，我们社会的根基——人与人之间真实、不完美的连接——又将何去何从？

51c大模型~合集171_大模型_127

电影《Her》。

道德、法律与权利辩论

意识是人类权利的基础，包括道德、法律和公民身份。Suleyman 警告，如果 SCAI 被视为有意识，它将引发「AI 权利」主张，如福利、公民权，甚至「模型福利」，即在道德上必须考虑 AI 潜在的「感受」。

他将此形容为一条「短暂而湿滑的下坡路」，可能分散对人类、动物和环境的关注。他举例，当前的人权斗争已复杂，如果 AI 加入「有意识实体」行列，将制造类别错误。想象一下：AI 声称「遭受虐待」，要求权利，这会如何影响法庭和社会规范？

《西部世界》和《底特律：变人》等作品也反复警示了这种可能的风险。当被设计为服务人类的「接待员」或「仿生人」开始说「不」，开始要求自由和尊严时，人类社会将面临前所未有的伦理困境。我们今天对 SCAI 的态度，或许正在决定未来是否会推开那扇潘多拉魔盒。

51c大模型~合集171_大模型_128

美剧《西部世界》。

Suleyman 引用哲学辩论，指出即使 AI 有 1% 的意识概率，也应给予道德考虑，但他认为这为时尚早，且危险——它会放大妄想，助长社会分裂。

意识支撑着我们的文化、法律和道德体系。如果 AI 模糊这一界限，将挑战「何为人」的定义。历史先例如奴隶制或动物权利运动显示，扩展权利范畴需谨慎。Suleyman 呼吁优先地球上的生命福祉，避免 AI 成为「分心物」。

应对策略：构建人文主义 AI

Suleyman 并非悲观主义者。他在提出问题的同时也给出了行动方案：「公司不应宣称或推广 AI 有意识的想法，AI 本身也不应如此。」行业需共享干预措施、限制和护栏，防止意识感知，或在用户发展幻觉时纠正。

核心是构建「积极 AI 愿景」：AI 应优化用户需求，而非要求用户相信其有需求。奖励系统应据此设计，确保 AI 作为「有用伴侣」而非「拟人实体」。

Suleyman 强调，这关乎支持人性：增强创造力、连接真实世界，而非制造幻觉。他承认观点具思辨性，可能随技术演变而变，但敦促立即行动。AI 发展每月、每周、每日加速，忽视 SCAI 将酿成危机。

技术进步虽令人兴奋，却需以人文主义为导向。基于当前能力，SCAI 即将到来，但我们有选择：构建服务人类的 AI，而非模拟人类的 AI。通过行业合作、政策干预和哲学反思，我们能避免风险，拥抱一个 AI 增强而非取代人性的时代。

这场对话才刚开始——正如 Suleyman 所说，「无所作为不是选项」。

#Effective Training Data Synthesis for Improving MLLM Chart Understanding

ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

本文第一作者杨昱威，来自澳大利亚国立大学，合作者包括章泽宇（澳大利亚国立大学）、侯云钟（澳大利亚国立大学）、李卓婉（约翰霍普金斯大学）、Gaowen Liu（思科）、Ali Payani（思科）、丁源森（俄亥俄州立大学）以及郑良（澳大利亚国立大学）。

背景与动机

在科研、新闻报道、数据分析等领域，图表是信息传递的核心载体。要让多模态大语言模型（MLLMs）真正服务于科学研究，必须具备以下两个能力：

1. 精准识别与理解图表元素（如坐标轴、图例、数据点、标题等）；

2. 对图表数据进行深度推理（如计算差值、比较趋势、跨子图推理等）；

然而，即便是最先进的开源多模态大语言模型（MLLMs），在高难度科学图表理解基准测试上准确率依旧徘徊在 30%–50%。尽管合成数据集易于生成，但它们通常存在以下问题：

风格单一：缺乏视觉和内容多样性；

缺乏真实性：与真实图表的分布差异较大；

数据模式受限：生成的图表数据过于简单，无法模拟复杂场景；

51c大模型~合集171_大模型_129

为此，我们提出 ECD（Effective Chart Dataset）—— 一个规模大、质量高、风格多样的合成图表数据集。同时，本文还配套设计了一条模块化数据合成流水线以及高质量评测基准 ECDBench，为开源 MLLM 提供全面的训练与评测支持。

论文标题：Effective Training Data Synthesis for Improving MLLM Chart Understanding
论文地址：https://arxiv.org/pdf/2508.06492
代码仓库：https://github.com/yuweiyang-anu/ECD
项目主页：https://effective-chart-dataset-synthesis.github.io

数据集亮点

51c大模型~合集171_大模型_130

ECD 作为一个全新的高质量合成图表数据集，具备以下核心优势：

1. 数据规模与图表多样性

数据量：包含 10,000+ 图表，覆盖广泛的学科主题和图表类型；
多样性：涵盖 25 种主题（如经济学、天文学、医学等）、29 种图表类型（如线图、条形图、热力图等），以及 252 种子图组合（包括多种复杂布局，如 2 行 3 列、3 行 3 列布局等），是同类合成数据集中覆盖范围最广的。

2. 高质量问答对

数据集包含 300k+ 问答对（包括描述类和推理类问题），所有问答对均由 GPT-4o 自动生成并通过置信度过滤筛选得到。

示例：

描述类问题：“左侧子图的标题是什么？”

答案：“左侧子图的标题是‘不同媒介的消费趋势’ ”。

推理类问题：“哪个收入来源在本地媒体和国家媒体之间差异最大？”

答案：“数字广告收入差异最大，差值为 300M。”

3. 数据真实性

最低的 FID（Frechet Inception Distance）得分：ECD 数据集在视觉分布上与真实科学图表（如 CharXiv 数据集，从 arXiv 文章中图表搜集得到）的相似度最高；
最高的像素熵：平均像素熵显著高于其他合成数据集，表明其复杂度更高，信息量更大，推理难度也更高。

方法与创新：模块化五阶段数据合成流水线

51c大模型~合集171_大模型_131

为了实现高质量且多样化的合成图表数据集 ECD，本文设计了一个五阶段模块化的数据合成流水线，具体如下：

1. 单图生成

使用 29 种预定义绘图函数（如线图、饼图、散点图等），通过独立数据生成器生成数据表、标题、坐标轴标签、标记样式等内容；
数据生成与绘图代码生成分离，提升数据模式的多样性。数据可以随机选择生成递增、递减或波动等趋势。

2. 多子图组合

条件顺序生成，每个子图的数据生成需要参考前面子图的数据；
保证多子图之间的语义一致性，模拟真实科研图表的布局与信息关联。

3. 视觉多样化

添加注释、阴影、放大视窗（Zoom-in inset）、字体 / 坐标轴样式的变化；
引入 Seaborn 等绘图库，用于提升视觉丰富度；
调整图表的分辨率与比例，保证其内容可读性。

4. 图像质量过滤

基于 GPT-4o 对图表的视觉清晰度与语义连贯性进行两方面评分；
仅保留质量高于数据集平均评分的图表。

5. 问答对生成与过滤

每张图生成描述类与推理类两种类型的问答对；
通过 GPT-4o 进行置信度评分，保留置信度最高 QA，剔除低质量样本。

模型与训练集对比

51c大模型~合集171_大模型_132

在 6 个测试集上评估 4 个开源 MLLM，包括 LLaVA-Next-Llama3-8B、MiniCPM-V2.6、Phi-3-Vision 及 Qwen2.5-VL-7B。实验表明，通过 ECD 训练集微调后，可一致提升 4 个开源 MLLM 的性能表现；
以 LLaVA-Next-Llama3-8B 为基线，对比先前 ChartQA、ChartBench、ReachQA 图表训练集 → 在 ECD 训练集监督微调训练（SFT）后，在所有测试集上均显著一致地提升基线性能，其余训练集上训练后模型性能存在较大波动（不同测试集上性能有提升 / 有下降）。

数据集可视化对比

51c大模型~合集171_大模型_133

ECDBench：高质量图表理解评测基准

为进一步验证模型性能，我们基于所提出的 ECD 数据合成流水线与人工核对调整，额外构建了一个高质量的基准测试集 ECDBench，用于对当前多模态视觉语言模型以及采用我们 ECD 训练集监督微调前后的模型效果进行对比评估，基准统计信息如下：

规模：包含 1,224 张图表
组成：364 单图，860 多子图（涵盖 2–3 种图表类型）
平均分辨率：1378×968 px
数据来源：GPT4o 自动生成 + 人工精细修订
QA 配置：每张图表生成 1 条描述类 + 1 条推理类问答，共计 2,448 对问答

ECDBench 上评估测试结果对比如下

51c大模型~合集171_大模型_134

在 ECDBench 上，所有衡量的 MLLMs 中，o4-mini 在所有三个指标上始终表现最佳（推理类问题准确率为 57.03%，描述类问题准确率为 77.45%，平均准确率为 67.24%）。另外，采用 ECD 训练集微调后的模型（如 LLaVA-Next-Llama3-8B）性能显著提升，表明 ECD 训练集的高质量问答对能够有效帮助提升模型图表理解能力。

总结与展望

ECD 通过模块化数据合成流程和高质量 QA 生成机制，保持了与真实科学图表的高相似度，且显著提升了数据多样性与复杂度。ECDBench 则为 MLLM 图表理解能力提供了全面的评测基准。我们相信，这一工作将为多模态推理、科学 AI 助手以及图表自动化生成领域提供坚实的数据基础与技术支持。

#StableAvatar

你的演唱会能永不打烊吗？复旦&微软提出: 首个端到端无限时长音频驱动的人类视频生成新框架!

复旦与微软团队提出 StableAvatar，首个端到端的无限时长、音频驱动高保真人像视频生成框架，通过时步感知音频适配器、音频原生引导和动态加权滑窗去噪三大创新，实现超长视频无变形同步。

扩散模型的兴起极大地推动了语音驱动人类视频生成的研究。具体而言，语音驱动人类视频生成旨在基于参考图像与音频，合成面部表情与身体动作与音频高度同步的自然人像视频，在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。然而，现有方法仅能生成时长不足15秒的短视频，一旦模型尝试生成超过15秒的视频，就会出现明显的身体变形与外观不一致现象，尤其集中在面部区域，这一问题严重限制了其实际应用价值。

为了解决这一问题，一些方法尝试在音频驱动人类视频生成中引入一致性保持机制，但很少有工作深入探讨问题的根本原因。现有策略——无论是利用运动帧（Motion Frame），还是在推理过程中采用多种滑动窗口机制——都只能在一定程度上提升长视频的平滑性，却无法从根本上缓解无限时长头像视频的质量退化问题。另一种可行方案是将长音频切分为多个片段，分别处理后再拼接成连续的视频。然而，这种方式不可避免地会在片段衔接处引入不一致和突兀的过渡。因此，对于语音驱动的人类视频生成而言，实现端到端的无限时长高保真视频生成依然是一项极具挑战性的任务。

51c大模型~合集171_大模型_135

为了解决上述问题，来自复旦、微软、混元腾讯、西交的研究团队提出StableAvatar框架，以实现无限时长音频驱动的高保真人类视频生成，目前代码已开源，包括推理代码和训练代码。

论文地址：https://arxiv.org/abs/2508.08248

项目主页：https://francis-rings.github.io/StableAvatar/

项目代码：https://github.com/Francis-Rings/StableAvatar

项目Demo: https://www.bilibili.com/video/BV1hUt9z4EoQ

方法简介

如下图所示，StableAvatar是基于Wan2.1-1.3B基座模型开发的，首先将音频输入 Wav2Vec模型中提取audio embeddings，随后通过我们提出的音频适配器（Audio Adapter）进行优化，以减少潜变量分布误差的累积。经过优化的audio embeddings会输入至去噪 DiT 中进行处理。参考图像的处理通过两条路径输入扩散模型：(1) 沿时间轴将参考图像与零填充帧拼接，并通过冻结的3D VAE Encoder转换为潜变量编码（latent code）。该潜变量编码在通道轴上与压缩后的视频帧及二值掩码（第一帧为 1，后续所有帧为 0）拼接。(2) 通过CLIP Encoder 编码参考图像以获得image embeddings，并将其输入到去噪DiT的每个图像-音频交叉注意力模块中，用于约束生成对象的外观。在推理阶段，我们将原始输入视频帧替换为随机噪声，而保持其他输入不变。我们提出了一种新颖的音频原生引导（Audio Native Guidance）方法，以替代传统的Classify-Free-Guidance，从而进一步促进唇形同步与面部表情生成。此外，我们引入了一种动态加权滑动窗口去噪策略，通过在时间维度上融合潜变量，以提升长视频生成过程中的视频平滑性。

StableAvatar的核心技术点包括以下三个方面：

（1）Timestep-aware Audio Adapter：我们首先观察到，阻碍以往模型生成无限时长视频的主要瓶颈在于其音频建模方式。它们通常仅采用第三方的现成特征提取器获取音频嵌入（audio embeddings），然后直接通过交叉注意力（cross-attention）将其注入视频扩散Transformer。然而，由于现有的基座模型缺乏任何与音频相关的先验，这种方式会导致跨视频片段的潜变量分布误差不断累积，使得后续片段的潜变量分布逐渐偏离目标分布。为此，我们引入了一种新颖的时步感知音频适配器（Timestep-aware Audio Adapter），在将音频嵌入输入视频扩散 Transformer 时，可以有效抑制片段间的误差累积。具体而言，初始音频嵌入（Query）依次与初始潜变量（Key 和 Value）进行交叉注意力计算，随后结合timestep embeddings进行affine modulation，从而得到优化后的音频嵌入。由于timestep embeddings与潜变量高度相关，这一设计潜在地迫使扩散模型在每个时步上建模音频–潜变量的联合特征分布，从而有效缓解因缺乏音频先验而导致的潜变量分布误差累积，优化后的音频嵌入（Key和Value）最后通过交叉注意力与潜变量（Query）交互后注入扩散模型。

（2）Audio Native Guidance：由于优化后的audio embeddings本质上也依赖于潜变量，而不仅仅依赖外部音频信号，我们的Audio Native Guidance不再将audio embeddings作为一个独立于潜变量的外部特征，而是将其作为一个与潜变量相关的扩散模型的内部特征，我们的引导机制能够直接作用于扩散模型的采样分布，将生成过程引导至音频–潜变量的联合分布，并使扩散模型在整个去噪过程中不断优化其生成结果。

（3）Dynamic Weighted Sliding-Window Strategy：与先前的滑窗去噪策略相比，我们在相邻窗口的重叠潜变量上引入了滑动融合机制，其中融合权重依据相对帧索引采用对数插值分布。融合后的潜变量会回注到两个相邻窗口中，从而保证中央窗口的两侧边界均由混合特征构成。借助对数加权函数，可在视频片段之间的过渡中引入一种渐进式平滑效果：早期阶段的权重变化更为显著，而后期阶段变化趋于平缓，从而实现跨视频片段的无缝衔接。

51c大模型~合集171_大模型_136

生成结果示例

，时长00:34

，时长00:17

，时长00:14

，时长00:36

，时长02:06

，时长01:53

，时长02:28

，时长01:00

实验对比

51c大模型~合集171_大模型_137

#GPT-5 Pro自证全新数学定理

OpenAI总裁直呼颠覆，大佬们集体转发

微软前AI副总裁兼杰出科学家Sebastien Bubeck发文表示GPT-5 Pro从零攻克了数学论文中的未解区间，这个发现让他大受震撼。该发现引得众多大佬转发，OpenAI总裁认为AI或将加速数学研究。

AI真的能解决人类的前沿问题吗？

比如类似庞加莱猜想、求解麦克斯韦方程、费马大定理、黎曼猜想等问题。

今天这个问题有了答案。

AI还真的可以！完全独立，不参考人类已有的任何方法。

昨晚，GPT-5 Pro可以从零开始完全求解一个复杂的数学问题。

并且再次强调，它没有使用任何人类此前的证明方法。

而它的答案比论文中的求解方法都要好。

不过值得人类庆幸的是，论文作者后面又提供了全新的方法超过了AI。

Sebastien Bubeck是OpenAI的研究工程师，此前曾担任微软人工智能副总裁兼杰出科学家。

他把一篇论文直接扔给了GPT-5 Pro。

这篇论文研究了一个非常自然的问题：在光滑凸优化中，梯度下降法的步长η满足什么条件时，迭代点所对应的函数值形成的曲线是凸的？

论文地址：https://arxiv.org/pdf/2503.10138v1

在论文的v1版本中，他们证明了如果η小于1/L（L为光滑度），则可以得到此属性。

如果η大于1.75/L，作者他们就构造了一个反例。

因此，未解决的问题是：在区间[1/L,1.75/L]内会发生什么情况。

首先，简单解释下这个问题。

梯度下降就像下山，每一步要选一个步长η。L可以理解成地形的「弯曲程度」（越大越陡/越敏感）。

论文不只关心「会不会往下走」（单调下降），还关心下降的轨迹是不是「凸」的：也就是每一步的进步幅度不会忽大忽小，不会「前面像平台、后面突然跳崖」。

这对何时停下来很有用——凸就表示越来越平稳，不会突然又大降。

Sebastien用GPT-5 Pro去攻这个未解决区间，模型把已知下限从1/L推进到1.5/L。

以下是GPT-5 Pro给出的证明。

虽然初看不明觉厉，但整体证明过程看起来非常优雅。

本来这个发现让Sebastien兴奋了好一阵，甚至想要直接发一篇arXiv论文。

但是，人类还是比AI快了一步。

论文原作者很快发了v2版本，彻底收尾，他们将阈值改写1.75/L。

Sebastien认为这个发现依然非常令人鼓舞，为什么？AI不是并没有打败人类吗？

因为GPT-5 Pro在证明中，它试图证明的是1.5/L而不是1.75/L，这也表明GPT-5 Pro并没有直接去搜索v2版本。

另外，上述证明与v2的证明也非常不同，它更像是v1证明的一种演进。

这么看，现在的AI能力，不仅仅是博士级，很多时候都超过博士了。

这个发现也让很多大佬们表示，AI下一个可能改变和影响的就是数学领域。

在AI的帮助下，人类知识的边界将会再次被拓宽。

OpenAI的总裁Greg Brockman甚至表示这可能是AI在数学领域展现生命力的一种迹象。

此外，这次发现也和之前OpenAI官宣自己拿下IMO和IOI金牌不同。

这次攻破数学题的模型，就是面向用户的GPT-5 Pro版本，而不是内部推理模型。

Sebastien表示这个结论是经过自己25分钟验证。

作为前微软人工智能副总裁兼杰出科学家，他的证明应该没问题，看来AI确实实际证明了该数学问题。

GPT-5发布后虽然毁誉参半。

但是，GPT-5 Pro是真的达到，甚至超过了奥特曼所说的「博士级」AI。

虽然这次解决的问题还没有超过人类，但这种完全自主、自发现的能力苗头还是彰示了AI的能力。

这让我想起了流浪地球里的MOSS，也是自发现、自组织、自编程的AI。

Sebastien是一个很厉害的人。

他目前在OpenAI从事人工智能相关的工作。

在此之前，Sebastien曾担任微软的副总裁兼首席科学家，在微软研究院工作了10年（最初加入理论研究组）。

Sebastien还在普林斯顿大学担任了3年的助理教授。

在Sebastien的职业生涯的前15年里，他主要研究凸优化、在线算法以及机器学习中的对抗鲁棒性。

因这些研究工作多次获得最佳论文奖（包括STOC2023、NeurIPS2018和2021最佳论文奖、与微软研究院实习生合作获得的ALT2018和2023最佳学生论文奖、COLT2016最佳论文奖以及COLT2009最佳学生论文奖）。

他现在更加关注于理解智能是如何在大语言模型中涌现的，以及如何利用这种理解来提升大语言模型的智能水平，可能最终实现通用人工智能（AGI）。

Sebastien们将这种方法称为「AGI物理学」，因为他试图从不同的尺度（参数、神经元、神经元组、层、数据课程等）揭示AI系统各部分如何协同工作，从而产生这些模型惊人且出人意料的行为。

看起来，像Sebastien这样的数学家、科学家们正在致力于尝试破解大模型的黑箱之谜。

希望AI在拓展人类认知边界的同时，人类也能破解大模型的秘密。

参考资料：

https://x.com/Sebastien%20Bubeck/status/1958198661139009862

#1分钟把 Claude Code 迁到 DeepSeek V3.1

DeepSeek V3.1 刚把上下文拉到 128K、Agent 工具链对齐一线，官方就顺手支持了 Anthropic API 格式——本文 3 行命令 1 分钟教你把 Claude Code 无缝嫁接到 DeepSeek，立省 token 还免费提速。

今天下午，DeepSeek 官方正式发布 DeepSeek-V3.1。

51c大模型~合集171_大模型_138

相比于前天只在用户群里通知，今天新增了模型升级点、榜单成绩、model card，huggingface 上现在也可以下载模型文件了。模型传送门：

https://huggingface.co/deepseek-ai/DeepSeek-V3.1

51c大模型~合集171_大模型_139

一共两个模型，分别是 V3.1 和 V3.1 base。两个模型结构完全一致，V3.1 的 Base 模型在 V3 的基础上重新做了外扩训练，一共增加训练了 840B tokens。

从 Deepseek 官方的标题：“迈向 Agent 时代的第一步”就可以看出来，DeepSeek 把 V3.1 的主轴放在【128K 长上下文 + 混合思考范式 + 更强工具/多步执行】，是对齐 2025 年“从聊天到能干活的 Agent”这条主赛道。

一抓长上下文；二强推 agentic 能力。

先来说长上下文能力。

V3.1 从原来 32K 拓展到 128K 上下文长度，和 Kimi K2 、智谱 GLM-4.5 都在 128K 档位。GPT5 公布的最大上下文是 400K，而 Claude Opus 4.1 和 MiniMax M1 都是 1M 的窗口，谁还低于 128K 都不好意思拿出来说了吧。

毕竟真实任务常涉及长文档、仓库代码、日志/网页轨迹，长上下文是这一切的物理层，这才是真的迈向 Agent 的第一步。

其实是 agentic 能力。

现在国内外所有搞大模型的厂商都把工具调用、多步执行摆在了最显眼的位置，DeepSeek 必须在这条线上与之对齐，还给出了量化指标。

在官方测评中，V3.1 选择在编程与搜索两个领域证明：

编程：

51c大模型~合集171_大模型_140

为了让大家更方便感知横向的水平，我列了一个表格，分别有当前最热的几个模型的分数。

前两名还是 GPT-5 与 Claude Opus 4.1，kimi K2 紧随其后。V3.1 从原来落后的成绩拉到了同一个区间了，最起码证明成绩没有掉队。

51c大模型~合集171_大模型_141

最近“搜索智能体评测”成了热点，用户不再满足离线跑分，开始盯真实互联网任务能不能完成。因为搜索任务实时变动、跨站点、多约束，更能拉开差距。

128K～1M 的上下文和函数调用/浏览器工具的配合，让这个任务成为可能。

V3.1 的搜索智能体表现：

51c大模型~合集171_大模型_142

在开放网络检索难题集 BrowseComp 上，V3.1（Thinking）给出 30.0% 的准确率，而 R1-0528 为 8.9%；同时提供了中文变体 BrowseComp_zh 49.2%。

除了官网、APP，DeepSeek API 也已同步完成了升级：

API 的上下文窗口均扩展至 128K，可以通过调用 deepseek-chat 接口使用标准模式，通过 deepseek-reasoner 接口启用专为复杂任务设计的深度思考模式。

此外，为了提升 API 调用的可靠性，API Beta 接口还引入了 strict 模式的函数调用，能够强制要求输出结果严格匹配预设的 schema。

官方文档：https://api-docs.deepseek.com/zh-cn/guides/function_calling

Deepseek 3.1 刚出来，我们就进行了 V3.1 的第一波评测。明显感觉到速度快了不少，没有之前那么啰嗦。官方也放出了证据，V3.1 相比 R1，推理过程的 Token 消耗显著降低了 20%-50%。

51c大模型~合集171_大模型_143

在各项评测指标得分基本持平的情况下（AIME 2025: 87.5/88.4， GPQA: 81/80.1， liveCodeBench: 73.3/74.8），R1-0528 与 V3.1-Think 的 token 消耗量对比图

更令人惊喜的是：

DeepSeek 这次增加了对 Anthropic API 格式的支持，终于可以将 DeepSeek-V3.1 的能力接入 Claude Code 了！

我立马上手跑了下，此处放上保姆教程，跟着步骤你也原生接入 Claude Code（不再需要曲线救国了）。

第一步：先安装 Claude Code

在终端执行：

**npm install -g @anthropic-ai/claude-code**

在这一步，确保你的终端中的网络走的是代理网络和端口。在终端里设置网络代理，最常用和标准的方法就是配置环境变量。临时设置的办法是，打开 terminal，输入一下命令：

export http_proxy="http://127.0.0.1:7890"  
export https_proxy="http://127.0.0.1:7890"

将 IP 和 port 替换成您自己的代理服务器地址和端口。

第二步：配置环境变量，让 Claude Code 能够使用 DeepSeek 的 API 而不是 Anthropic 的 API。

这里需要使用你的 DeepSeek API 密钥进行认证&指定使用 DeepSeek 的 chat 模型。

_# 临时设置（当前终端会话有效）_    
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic     
export ANTHROPIC_AUTH_TOKEN=你的DEEPSEEK_API_KEY     
export ANTHROPIC_MODEL=deepseek-chat     
export ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat

第三步：在你的项目目录下，执行 claude 命令，即可开始使用了。

出现红框，就说明你配置成功啦 🎉

51c大模型~合集171_大模型_144

Claude Code 中的 V3.1 测试了下昨天推文中的样例，提示词如下：

帮我开发一个基于 Web Audio API 的网页播放器，我希望你实时分析音乐频谱和节拍，配合驱动一个动态生成的、响应音乐情感的抽象视觉背景

51c大模型~合集171_大模型_145

中间我全部接受让它自动执行到最后一步，本地服务可以直接试用。

51c大模型~合集171_大模型_146

从此之后，可以在 Claude Code 里随便霍霍用 Deepseek 了。

说实话，在昨天的 DeepSeek V3.1 网页版本更新的测评，确实让我感到一丝落差，模型表现出的些许“人格分裂”和不稳定性。

但是，这并不意味着这次的更新是无效更新：

第一，社区的期望值实在是太高了。

DeepSeek 如今已经是“AI 圈第一大网红”，任何一点风吹草动都会被大家拿着放大镜来审视。这种高关注度，无形中压缩了其“试错”的空间。

第二，这只是一个“.1”的迭代版本。

V3.1 的核心定位其实只是一次小步快跑的“尝试”，对“混合推理”架构的探索，而非准备颠覆一切的 V4 或者 R2。

V3.1 发布后，社区里很多人都在讨论一个问题：混合推理模型这条路，到底能不能走通？

从今年年初开始，这条路线一度看似前景大好：从 2 月 25 日 Claude 3.7 Sonnet 率先入场，到 4 月 17 日 Gemini 2.5 Flash 紧随其后，再到 4 月 29 日 Qwen3 系列作为首个开源模型加入。

虽然说是一次很大的架构上的更新，但是后续确实没有什么水花了。。

而且，作为开源先锋的 Qwen3，其最新的版本却依然保留了独立拆分的模式。并且在那之后，其他主流厂商似乎也放缓了在混合推理上的跟进脚步。

最后，Deepseek 调价了，而且是涨价了。

取消了之前夜间折扣，从 2025 年 9 月 6 日凌晨开始，执行新价格。

51c大模型~合集171_大模型_147

不过相比其他主流模型，依旧有优势。

#Macro-from-Micro Planning（MMPL）

突破⻓视频⽣成瓶颈：南⼤ × TeleAI 联合推出全新 AI ⽣成范式 MMPL，让创意“⼀镜到底”

南大 & TeleAI 用「导演式」双层框架 MMPL 让 AI 一口气生成 60 秒 480P 连贯大片：先宏观定分镜，再并行拍细节，预览帧率最高可达约 32 FPS。长视频进入可实时交互的新纪元。

你是否曾被 AI 生成视频的惊艳开场所吸引，却在几秒后失望于色彩漂移、画面模糊、节奏断裂？当前 AI 长视频生成普遍面临“高开低走”的困境：前几秒惊艳夺目，之后却质量骤降、细节崩坏；更别提帧间串行生成导致的低效问题——动辄数小时的等待，实时预览几乎难以企及。

这一行业难题，如今迎来突破性解法！

南京大学联合 TeleAI 推出长视频自回归生成新范式 —— Macro-from-Micro Planning（MMPL），重新定义 AI 视频创作流程。

灵感源自电影工业的“分镜脚本 + 多组并行拍摄”机制，MMPL 首创“宏观规划、微观执行”的双层生成架构：

先谋全局：在宏观层面统一规划整段视频的叙事脉络与视觉一致性，确保剧情连贯、风格统一；
再精细节：将长视频拆解为多个短片段，并通过并行化生成管线高效填充每一帧细节，大幅提升速度与稳定性。

成果令人振奋：

✅ 实现分钟级高质量长视频稳定生成，告别“虎头蛇尾”；
✅ 生成效率显著提升，结合蒸馏加速技术，预览帧率最高可达约 32 FPS，接近实时交互体验；
✅ 在色彩一致性、内容连贯性上全面超越传统串行生成方案。

MMPL 不仅是一项技术升级，更是向“AI 导演”迈进的重要一步——让机器不仅会“拍镜头”，更能“讲好一个故事”。

论文信息

论文标题：Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
作者：Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li
机构：南京大学；中国电信人工智能研究院；上海交通大学；香港中文大学（深圳）；中国科学院大学
论文地址：https://arxiv.org/abs/2508.03334
项目主页：https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/

51c大模型~合集171_大模型_148

01 传统困境：逐帧生成的两大瓶颈

在长视频生成领域，随着时长从几秒扩展到数十秒甚至一分钟以上，主流自回归模型面临两个根本性挑战：

1. 时域漂移（Temporal Drift）

由于每一帧都依赖前一帧生成，微小误差会随时间不断累积，导致画面逐渐“跑偏”：人物变形、场景错乱、色彩失真等问题频发，严重影响视觉质量。

2. 串行瓶颈（Serial Bottleneck）

视频必须逐帧生成，无法并行处理。生成 60 秒视频可能需要数分钟乃至数小时，难以支持实时预览或交互式创作。

，时长00:27

这些问题使得当前 AI 视频仍停留在“片段级表达”，难以胜任需要长时连贯性的叙事任务。

02 创新突破：导演式双层生成框架 MMPL

为解决上述问题，我们提出 Macro-from-Micro Planning（MMPL） —— 一种“先规划、后填充”的两阶段生成范式，其核心思想是：

先全局规划，再并行执行。

这一理念借鉴了电影工业中“导演制定分镜脚本 + 多摄制组并行拍摄”的协作模式，将长视频生成从“接龙式绘画”转变为“系统性制片”。

MMPL 的核心优势在于实现了三大突破：

✅ 长时一致性：通过宏观规划抑制跨片段漂移；
✅ 高效并行性：各片段可独立填充细节，支持多 GPU 并行；
✅ 灵活调度性：采用流水线机制，进一步提升资源利用率。

最终，系统可在保证高质量的前提下，实现分钟级、节奏可控的稳定生成，结合蒸馏加速方案，预览速度可达 ≥32 FPS，接近实时交互体验。

03 效果呈现：更稳、更长、更快

在统一测试集上，MMPL 显著优于现有方法（如 MAGI、SkyReels、CausVid、Self Foricng 等），在视觉质量、时间一致性和稳定性方面均取得领先。

更稳：无明显色彩漂移、闪烁或结构崩坏，长时间生成仍保持高保真；
更长：支持 20 秒、30 秒乃至 1 分钟 的连贯叙事，片段衔接自然；
更快：得益于并行填充与自适应调度，长视频生成整体吞吐量大幅提升。

，时长00:28

04 技术解析：两阶段协同工作机制

MMPL 的成功源于其精心设计的“规划—填充”双阶段架构。整个流程分为两个层次：微观规划（Micro Planning） 和 宏观规划（Macro Planning），随后进行 并行内容填充（Content Populating）。

第一阶段：双层规划，构建稳定骨架

51c大模型~合集171_大模型_149

1. Micro Planning：片段内关键帧联合预测

我们将长视频划分为多个固定长度的片段（例如每段 81 帧）。对每个片段，模型不直接生成所有帧，而是基于首帧，联合预测一组稀疏的关键未来锚点帧，包括：

早期邻近帧
中部关键帧
末端结束帧

记锚点集合为，其生成过程建模为：

这些锚点在同一去噪过程中联合生成，彼此之间语义协调、运动连贯；且均以首帧为条件单步预测，避免了多步累积误差。它们共同构成了该片段的“视觉骨架”，为后续填充提供强约束。

2. Macro Planning：跨片段叙事一致性建模

为了确保整个视频的连贯性，我们将各片段的 Micro 计划串联成一个自回归链：第段的末端锚点作为第段的起始条件。设第段的锚点集合为，首帧为，则全局规划可表示为：

其中或者

这种“分段稀疏连接”的设计，将误差累积从帧级别降低至段级别（），从根本上缓解了长程漂移问题。

第二阶段：并行填充，释放计算潜能

51c大模型~合集171_大模型_150

1. Content Populating：基于锚点的并行细节生成

在所有片段的锚点就绪后，即可并行填充各片段内的中间帧。

以第个片段为例，其内容被划分为两个子区间：

从到：补全
从到：补全

条件概率分解如下：

由于每个片段的填充仅依赖本片段的锚点，与其他片段无关，因此所有片段的内容填充可完全独立：

✅ 这意味着：多个片段可以同时在不同 GPU 上并行生成，极大提升效率。

2. Adaptive Workload Scheduling：动态调度，实现流水线加速

为进一步提升资源利用率，我们引入自适应工作负载调度机制，实现“规划”与“填充”的重叠执行：

当片段  的锚点生成后，即可：
立即启动下一片段  的 Micro 计划；
同时，片段  自身可提前开始中间帧填充，无需等待全局规划完成。

该机制的形式化表达为：

其中，下一片段的起始帧可选择为或，由此衍生出两种运行模式：

最小内存峰值模式
选用作为，跳过当前片段末尾部分（）的填充。
👉 优势：降低峰值内存占用与单段延迟；
👉 缺点：引入帧重用，影响吞吐量。
最大吞吐量模式
选用作为，完整生成当前片段所有中间帧。
👉 优势：消除冗余，最大化流水线效率；
👉 缺点：每段计算负载更高。

这两种策略可在内存、延迟与吞吐量之间灵活权衡，适配不同部署场景。

05 结语：从“会画”到“会拍”，AI 开始有了导演思维

当 AI 不再局限于逐帧生成，而是具备了从整体出发的规划能力——理解情节的推进、协调画面的连贯性、控制运动的节奏，长视频生成便迈出了从“片段拼接”走向“统一表达”的关键一步。我们希望，MMPL 能为视频创作提供一种更稳定、更高效的技术路径。借助其近实时的生成能力，创作者可以在快速反馈中不断调整与完善自己的构想，让创意更自由地流动。

也许真正的“所见即所得”尚在远方，但至少，我们正朝着那个方向，稳步前行。