#SpatialVID
7000+小时、270万剪辑!南京大学等发布最大规模空间视频数据集
从Sora到Genie 3,世界模型(World Models)的快速发展正在将AI视频生成推向新的高度。然而,要让模型真正理解并模拟人们所处的三维世界,仅仅生成像素是不够的,模型需要理解“空间”——物体的几何形状、相机如何移动以及场景的3D结构。当前,阻碍这一发展的核心瓶颈之一,正是缺乏兼具“大规模”与“丰富空间标注”的视频数据集。
为了填补这一关键空白,来自南京大学和中国科学院自动化研究所的研究者们推出了 SpatialVID,一个前所未有的大规模视频数据集,其名称直观地揭示了核心特点:带有空间信息(Spatial)的视频(Video) 。该数据集包含 7,089小时 的真实世界动态场景视频,并为每一帧都提供了丰富的空间与语义标注,旨在成为训练下一代空间智能模型和3D世界模型的基石。
- 标题:SpatialVID: A Large-Scale Video Dataset with Spatial Annotations
- 作者:Jiahao Wang, Yufeng Yuan, Rujie Zheng, Youtian Lin, Jian Gao, 等
- 机构:南京大学、中国科学院
- 论文地址:https://arxiv.org/abs/2509.09676
- 项目主页:https://nju-3dv.github.io/projects/SpatialVID/
研究背景与意义
当前AI领域存在一个明显的数据鸿沟:
- 一方面,有像Panda70M、WebVid这样的大规模视频数据集,它们提供了丰富的语义内容,但普遍缺乏3D几何信息,如相机位姿和深度图。模型在这些数据上训练,只能从2D像素中“猜测”3D关系,往往导致生成内容在物理上不一致。
- 另一方面,也有像ScanNet、CO3D或Waymo这样的数据集,它们提供了精确的3D标注,但规模较小、场景单一(如室内或自动驾驶),且大多是静态场景,无法捕捉真实世界的动态与多样性。

这种“语义丰富但几何贫乏”与“几何丰富但规模/动态性不足”的割裂,严重制约了能够进行连贯3D场景重建和可控视频生成的世界模型的发展。SpatialVID 的推出,正是为了用一个规模空前、标注丰富的动态视频数据集来架起这座桥梁。
SpatialVID的构建流程:从海量视频到结构化数据
构建如此庞大的标注数据集是一项艰巨的工程。研究团队设计了一套包含“筛选-标注-采样”三个核心阶段的自动化数据处理流水线。

第一阶段:分层筛选
数据源于研究团队从YouTube上手动收集的超过 21,000小时 的原始视频。这些视频初步筛选自与相机运动相关的查询词(如“walk”, “tour”, “drone”),以保证内容具有丰富的动态变化。

随后,一个分层筛选流程被用于从海量视频中淘金:
- 预处理: 将视频统一转码并分割成3-15秒的短片(clips)。
- 质量过滤: 通过一系列指标(美学评分、亮度、OCR文字干扰、运动强度)剔除低质量、过曝/过暗、有大量文字遮挡或运动不足的视频片段。

经过这一流程,最终得到了约270万个高质量视频片段,总时长超过7000小时。

第二阶段:空间与语义标注(核心)
这是SpatialVID最具价值的部分。对于筛选出的每个视频片段,流水线会进行两种类型的标注:
1. 几何信息标注
- 相机位姿与深度图估计: 为了在野外视频(in-the-wild videos)中实现鲁棒且高效的3D重建,研究团队选择并改进了 MegaSaM 算法。该算法在精度和速度之间取得了很好的平衡,能够为每个视频帧生成精确的相机内外参(位姿)和深度图。

2. 语义信息标注
几何信息是骨架,语义信息则是血肉。研究团队开创性地设计了两种新的语义标注:
- 序列化运动指令(Serialized Motion Instructions): 这是一个非常新颖的创造。研究者将连续的相机位姿轨迹分解成了一系列离散的、类似键盘操作的指令(如前进-W, 左移-A, 左转-←, 俯仰-∧)。这使得相机运动变得可解释、可控制,为训练可导航的智能体或进行可控视频生成提供了直接的监督信号。

- 空间感知的结构化描述(Spatially-Aware Structured Captions): 传统的视频描述往往忽略空间信息。为此,团队设计了一个“视觉描述+空间增强”的两阶段流程。首先,VLM(如Gemini)生成初步的场景和相机运动描述;然后,LLM(如Qwen)将精确的相机位姿作为“几何先验知识”输入,对初步描述进行修正和丰富,生成包含场景类别、运动趋势、场景描述、相机运动描述和镜头总结的结构化文本。

这种“空间增强”能够有效纠正VLM在运动感知上的错误(例如,将左移误判为右移),并生成更长、更具空间细节的描述。

第三阶段:平衡采样
为了方便下游任务的训练和评估,研究团队从完整的SpatialVID(270万片段)中,通过平衡场景类别和运动特征,采样出了一个 1,146小时 的高质量子集 SpatialVID-HQ。对比分析显示,SpatialVID-HQ在美学、光照、运动丰富度等各项指标上均显著优于原始数据集甚至其他大规模视频数据集(如Panda-70M)。

数据集分析与展示
最终的SpatialVID数据集不仅规模庞大,其内容也极其丰富多样。
- 丰富的场景标签: 覆盖了从城市街道到自然风光,从室内到室外的多种场景,并标注了天气、光照、人群密度等多种属性。
- 聚焦运动的描述: 从生成的词云可以看出,“motion”, “forward”, “left”, “right”等与运动相关的词汇频率非常高,凸显了数据集在动态和空间变化上的核心特点。


以下是数据集中部分样本的可视化,直观展示了其多样性和标注的丰富性:

总结与贡献
SpatialVID 的发布是3D视觉和视频生成领域的一个里程碑事件。其主要贡献可以总结为三点:
- 前所未有的规模和丰富度: 它是目前 规模最大、标注最丰富的带有显式几何信息的动态视频数据集,直接解决了现有数据的核心痛点。
- 创新的标注方法: 提出了一个可扩展的数据处理流水线,并首创了 “序列化运动指令” 和 “空间感知的结构化描述”,为模型学习可控的3D运动和场景理解提供了全新的监督方式。
- 赋能未来研究: 通过将显式的3D运动控制与文本语义在如此大的规模上统一起来,SpatialVID为未来能够模拟复杂真实世界交互的物理世界模型、可控视频生成、动态场景合成以及xx智能体的研究奠定了坚实的基础。
CV君认为,数据的质量和规模在很大程度上决定了AI模型能力的上限。SpatialVID的出现,就像是为“世界模型”这个新兴领域提供了一座蕴藏丰富的金矿。它不仅能推动现有视频生成、3D重建等任务的发展,更有可能催生出目前尚未想象到的、能够与三维世界进行更深度交互的全新AI应用。
.
#PeftCD
当视觉基础模型遇上参数高效微调,遥感变化检测迎来新范式
近日,来自武汉大学、南京信息工程大学等机构的研究者们共同提出了一种名为 PeftCD 的新型遥感变化检测框架。该框架巧妙地将强大的视觉基础模型(Vision Foundation Models, VFMs)与参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)策略相结合,旨在解决遥感图像变化检测中长期存在的伪变化干扰、标注样本稀缺和跨领域泛化难等核心挑战。
PeftCD 的核心思想是“借力打力”,即利用大型视觉模型强大的预训练知识,但只通过训练极少数新增参数(如使用 LoRA 和 Adapter)来高效适配下游的变化检测任务。研究团队基于两大前沿视觉模型——以分割见长的 SAM2 和自监督学习的佼佼者 DINOv3,构建了 PeftCD 框架,并在多达七个公开遥感数据集上取得了当前最佳(SOTA)性能,尤其在变化边界的精细勾画和伪变化抑制方面表现突出。例如,在 SYSU-CD 数据集上,其 IoU 达到了 73.81%,在 WHUCD 数据集上更是高达 92.05%。
这项工作为如何将大规模视觉基础模型高效、可扩展地应用于现实世界的遥感变化检测任务,提供了一个强有力的范例。
- 论文标题: PeftCD: Leveraging Vision Foundation Models with Parameter-Efficient Fine-Tuning for Remote Sensing Change Detection
- 作者团队: Sijun Dong, Yuxuan Hu, LiBo Wang, Geng Chen, Xiaoliang Meng
- 所属机构: 武汉大学、南京信息工程大学、广西水利水电勘测设计研究院有限公司
- 论文地址: https://arxiv.org/abs/2509.09572
- 项目主页: https://github.com/dyzy41/PeftCD
研究背景与意义
遥感变化检测(Remote Sensing Change Detection, RSCD)旨在通过比对不同时间的遥感影像来识别地表的变化,在自然资源监测、城市规划、灾害评估等领域至关重要。然而,实际应用中 RSCD 面临三大挑战:
- 伪变化干扰:由光照、季节、传感器差异等引起的非真实变化,常常被误判为真实变化。
- 标注样本稀缺:高质量的像素级标注成本高昂,限制了监督学习模型的训练规模和性能。
- 跨领域泛化难:在一个地区或用一种传感器训练的模型,很难直接适用于其他地区或传感器获取的数据。
近年来,视觉基础模型(VFMs)如 SAM、DINO 等,通过在海量数据上进行预训练,学习到了强大的通用视觉表征能力。直接将这些模型应用于遥感领域存在“水土不服”的问题,因为它们的预训练数据多为自然图像,与遥感图像的俯瞰视角、复杂地物构成存在显著的分布差异。而对整个大型模型进行全量微调,又会带来巨大的计算和存储开销。
因此,如何经济高效地利用 VFM 的强大能力,成为遥感领域的一个关键问题。PeftCD 正是在这一背景下,探索了参数高效微调(PEFT)这一极具前景的技术路径。
PeftCD 的核心方法
PeftCD 的整体架构基于一个权重共享的孪生网络(Siamese Network),它使用同一个 VFM 主干网络来分别提取两个时相影像的特征。其核心创新在于,在冻结 VFM 主干网络绝大部分参数的同时,仅对其中集成的轻量化 PEFT 模块(LoRA 和 Adapter)进行训练。

研究者基于 SAM2 和 DINOv3 两个顶级 VFM,分别构建了 PeftCD 的两种具体实现:SAM2CD 和 DINO3CD。
SAM2CD:利用强大的分割先验
当主干网络为 SAM2 时,PeftCD(即 SAM2CD)旨在充分利用 SAM2 强大的分割先验知识来精确捕捉变化物体的边界。其结构如下图所示,双时相图像经过带有 PEFT 模块的 SAM2 编码器后,特征在不同层级进行交换,然后通过特征金字塔网络(FPN)进行融合,最后送入一个共享权重的轻量级解码器生成变化图。

DINO3CD:释放自监督表征的潜力
当主干网络为 DINOv3 时,PeftCD(即 DINO3CD)面临一个挑战:ViT 架构(如 DINOv3)在编码后通常只输出单一尺度的特征图,缺乏传统 CNN 的多尺度特征金字塔,这不利于恢复精细的边界信息。为此,研究者专门设计了一个多层融合与上下文增强解码器(Multi-layer Fusion and Context Enhancement, MFCE)。

MFCE 解码器通过深度注意力机制融合来自 DINOv3 不同 Transformer 层的同尺度特征,并利用类似 ASPP 的模块来增强上下文感知能力,从而在不引入沉重解码头的前提下,有效弥补了 ViT 架构在多尺度空间信息上的不足。
实验设计与结果分析
研究团队在 SYSU-CD、WHUCD、MSRSCD、MLCD、CDD、S2Looking 和 LEVIR-CD 等七个主流公开数据集上对 PeftCD 进行了广泛的实验验证。
定量分析:全面超越 SOTA
实验结果表明,PeftCD 在所有数据集上均达到或超过了当前的 SOTA 水平。下表展示了 PeftCD 与其他经典模型在 SYSU-CD 和 WHUCD 数据集上的性能对比,优势明显。


更引人注目的是 PeftCD 的参数效率。如下表所示,PeftCD (DINOv3 LORA) 仅用 2.86M 的可训练参数,就取得了超越许多拥有数百兆甚至更多参数的庞大模型的性能,实现了准确性、效率和泛化能力的最佳平衡。

定性分析:边界清晰,伪变化抑制强
从可视化的结果来看,PeftCD 的优势更加直观。如下图所示(白色为正确检测,绿色为误报,红色为漏报),相比其他方法,PeftCD 能够更完整地识别变化区域(红色漏报少),勾画出更平滑、更精确的物体边界,并且能有效抑制背景噪声和伪变化(绿色误报少)。

SYSU-CD 数据集定性对比

WHUCD 数据集定性对比
论文贡献与价值
CV君认为,PeftCD 的工作为遥感智能解译领域带来了重要的启示和贡献:
- 提出了一个新范式:成功地将视觉基础模型(VFMs)与参数高效微调(PEFT)相结合,为解决遥感变化检测的固有难题提供了一条高效、可扩展的技术路径。
- 验证了 VFM 的巨大潜力:通过实验证明,即使只微调极少量参数,SAM2 和 DINOv3 等基础模型强大的先验知识也能被成功迁移到下游任务,显著提升模型性能。
- 实现了性能与效率的平衡:PeftCD 以极低的计算成本取得了 SOTA 性能,使其在资源受限的实际应用场景中具有很高的部署价值。
- 开源社区贡献:研究者开源了代码和预训练模型,将极大地推动相关领域的研究和应用发展。
总而言之,PeftCD 不仅是一个高性能的变化检测模型,更是一种将大模型能力“平民化”、赋能具体应用领域的成功探索,为后续研究提供了宝贵的经验和方向。
.
#Dark-ISP
告别黑暗中的“盲视”:Dark-ISP让RAW图像在微光检测中大放异彩
在伸手不见五指的夜晚,自动驾驶汽车和安防摄像头如何才能像白天一样“看”清世界?低光环境下的目标检测一直是计算机视觉领域的棘手难题。来自复旦大学的研究者们带来了一项突破性工作 Dark-ISP,提出了一种全新的、为低光检测量身定制的图像处理范式。这项研究已被计算机视觉顶级会议 ICCV 2025 接收。
论文标题为《Dark-ISP: Enhancing RAW Image Processing for Low-Light Object Detection》。
传统方法通常先将昏暗的图像“提亮”(增强),再送入检测器,但这种“为人眼服务”的增强方式往往不是对机器最友好的,甚至可能丢失关键信息或引入噪声。而直接利用包含更多原始光照信息的RAW图像,又面临着处理流程复杂、难以与检测任务端到端联合优化的困境。

本文提出的 Dark-ISP 是一个轻量级、可微分的图像信号处理(Image Signal Processing, ISP)插件。它能够直接处理最原始的Bayer RAW数据,并以最终的 检测效果 为优化目标,将RAW到RGB的转换过程变得智能且自适应。通过这种方式,Dark-ISP以极少的参数量,在多个低光检测数据集上实现了对现有方法(包括基于RGB和RAW的方法)的全面超越。
- 论文标题:Dark-ISP: Enhancing RAW Image Processing for Low-Light Object Detection
- 作者:Jiasheng Guo, Xin Gao, Yuxiang Yan, Guanghao Li, Jian Pu
- 机构:复旦大学
- 论文地址:https://arxiv.org/abs/2509.09183
- 录用会议:ICCV 2025
研究背景
在低光照条件下,图像传感器捕捉到的信号非常微弱,导致图像信噪比低、色彩失真、细节丢失,这对目标检测算法构成了巨大挑战。目前主流的解决思路分为两类:
- 基于RGB图像的方法:这是最常见的流水线,即“先增强,后检测”。首先使用一个低光图像增强算法(如Retinex-based方法)将黑暗的RGB图像变亮,然后将增强后的图像送入一个标准的目标检测器。这种两阶段方法的弊端在于,两个阶段的目标是不一致的。图像增强的目标是提升 人眼 的主观视觉质量,而这个过程可能会抹去对检测器有用的微弱纹理,或引入不必要的伪影,反而干扰了检测性能。
- 基于RAW图像的方法:相机传感器直接输出的RAW数据,相比于经过相机内部ISP处理并压缩成8-bit的RGB图像,拥有更高的位深(如12-bit或14-bit)和动态范围,保留了更丰富、更原始的场景信息。理论上,从RAW数据出发进行检测具有巨大潜力。然而,现有方法要么使用固定的、不可学习的ISP流程,在转换过程中同样会丢失信息;要么构建了极为复杂的框架,将RAW数据作为辅助信息,难以实现轻量化和端到端的训练。
因此,如何设计一个轻量级的、可学习的、并且其优化目标与检测任务完全对齐的RAW图像处理流程,是解决低光检测问题的关键。这正是Dark-ISP所要解决的核心问题。
本文方法:Dark-ISP框架
针对上述痛点,本文提出了一个即插即用的可微分ISP插件—— Dark-ISP。它可以无缝地嵌入到任何检测器的前端,将整个系统从RAW输入到检测框输出的过程完全打通,实现端到端的联合优化。

核心创新:解构并重塑ISP流水线
Dark-ISP的最大创新在于,它没有将ISP视为一个固定的黑盒,而是将其解构为两个可学习的关键组件:一个线性的传感器标定模块和一个非线性的色调映射模块。
线性模块:自适应传感器标定
ISP中的白平衡、色彩空间校正等都属于线性变换。传统ISP使用固定的相机参数矩阵来完成这些操作。而Dark-ISP则让这个过程变得“智能”和“内容感知”。
如上图(b)所示,该模块会从输入图像中提取局部和全局特征,并通过注意力机制生成一个 自适应的线性变换矩阵 P' 。这意味着对于不同的图像内容和光照条件,Dark-ISP可以动态地调整白平衡和色彩校正参数,而不仅仅是套用一个固定的模板。这一过程保留了物理先验(变换是线性的),又赋予了模型极大的灵活性。
非线性模块:自适应色调映射
ISP中的伽马校正、色调映射等属于非线性变换,它决定了图像最终的明暗对比和色彩风格。为了使这个复杂过程可学习,研究者们提出了一个巧妙的方案。
他们首先定义了一组从1阶到8阶的非凸多项式基函数,如下图所示。这些基函数可以组合成各种形状的复杂曲线。

然后,非线性模块(上图(c))会学习为每个像素预测一组系数,用这些系数来线性组合上述的基函数,从而为每个像素动态地生成一条 专属的色调映射曲线。这种方式使得色调映射能够做到像素级自适应,对图像的不同区域(如高光区和阴影区)施加最合适的增强,最大程度地保留细节。
点睛之笔:Self-Boost机制
由于线性和非线性模块是级联的,研究者们提出了一个简单而高效的 自增强(Self-Boost) 正则化机制。其思想是:线性模块的输出(I')本身就应该是一个比原始输入(I)质量更好的中间结果。因此,他们增加了一个损失项 Lsb,鼓励 I' 在特征上接近最终由非线性模块输出的图像 I''。这个机制像一个“内部导师”,促使线性模块提前做好大部分增强工作,让两个模块之间形成良性协作,进一步提升了整体性能。
实验结果
研究者们在三个不同来源的低光RAW图像数据集(真实的LOD、NOD和合成的SynCOCO)上进行了全面的实验,验证了Dark-ISP的强大性能。
全面超越SOTA
如下面的性能对比表所示,无论是在真实世界还是合成数据上,无论对比的是基于RGB的方法还是其他基于RAW的方法,Dark-ISP均取得了当前最先进的(SOTA)结果。例如,在真实的LOD数据集上,Dark-ISP的mAP达到了 70.4,远超其他方法。



优越的可视化效果
性能的提升也直观地体现在了可视化结果上。如下图所示,第一行是各个方法处理后的图像,第二行是检测结果。可以看到,相比于其他方法,Dark-ISP处理后的图像不仅视觉上更清晰、对比度更自然,更重要的是,它有效减少了漏检(missed detections)和误检(false detections),检测框定位也更准确。

在不同相机拍摄的数据集上,Dark-ISP同样展现出了一致的优越性。

消融实验验证
详尽的消融实验证明了框架中每个设计的重要性。实验结果表明,将ISP分解为线性和非线性模块、模块的自适应性以及Self-Boost机制,都是最终取得SOTA性能不可或缺的组成部分。

总结与贡献
本文为极具挑战的低光目标检测任务提供了一个优雅、高效且有效的解决方案—— Dark-ISP。
其核心贡献在于:
- 提出了一个轻量级、端到端可训练的ISP框架,它将图像处理与高级视觉任务(检测)的目标对齐,而不是仅仅为了提升主观视觉质量。
- 创新地将传统ISP流程解构为可微分的、自适应的线性和非线性模块,并引入Self-Boost机制促进模块间协作,在保留物理先验的同时赋予了模型巨大的灵活性。
- 以极少的参数量实现了SOTA性能,在多个基准上证明了该方法的有效性和泛化性。
CV君认为,这项工作最大的亮点在于它“让专业的人做专业的事”——ISP模块专注于将RAW图像转化为对检测器最友好的特征,而检测器则专注于识别和定位。通过端到端的训练,两者找到了最佳的协作模式。这种“任务驱动”的图像处理思想,为解决各种恶劣光照条件下的视觉感知问题提供了宝贵的借鉴,在自动驾驶、安防监控、机器人等领域拥有巨大的应用潜力。
.
#HyperTTA
让高光谱图像分类模型在测试时自适应,无惧真实世界干扰
高光谱图像(Hyperspectral Image, HSI)因其包含数百个光谱波段,能提供极其丰富的地物信息,在农业、矿产勘探、环境监测等领域拥有巨大潜力。然而,基于深度学习的HSI分类模型通常在一个“干净”的数据集上训练,但在真实世界应用时,采集到的图像往往会受到噪声、模糊、压缩伪影、大气效应等多种因素的干扰。这种训练与测试之间的“分布偏移”会导致模型性能急剧下降。
为了解决这一关键挑战,来自中南大学、北京大学、湖南大学等高校及鹏城实验室的研究者们提出了一个名为 HyperTTA 的统一框架。该框架旨在让HSI分类模型在面对未知退化时,能够在“测试时”动态自适应,从而显著提升其鲁棒性。这项工作不仅提出了一个强大的自适应分类器,还首次构建并发布了一个包含九种典型退化的多退化高光谱基准数据集,为社区提供了标准化的评估平台。
- 标题:Beyond Distribution Shifts: Adaptive Hyperspectral Image Classification at Test Time
- 作者:Xia Yue, Anfeng Liu, Ning Chen, Chenjia Huang, Hui Liu, Zhou Huang, Leyuan Fang
- 机构:中南大学、北京大学、南京信息工程大学、湖南大学、鹏城实验室
- 论文地址:https://arxiv.org/abs/2509.08436
- 项目地址:https://github.com/halfcoder1/HyperTTA
研究背景:高光谱图像分类的“分布偏移”难题
传统的深度学习模型通常假设训练数据和测试数据是独立同分布的。然而在遥感应用中,这一假设往往不成立。传感器噪声、天气变化(如雾)、数据压缩和传输等因素都会导致测试图像的统计特性与训练时使用的原始图像产生显著差异,即分布偏移。

为了应对这一问题,“测试时自适应”(Test-Time Adaptation, TTA)技术应运而生。如上图所示,与传统方法(a)在测试时冻结模型参数不同,TTA方法(b)允许模型在接收到测试数据后,利用这些无标签的测试样本来“在线”更新自身的部分参数,从而适应新的数据分布。这种策略的优势在于它无需访问原始的训练数据,也无需任何人工标注,非常适合部署在动态变化的真实环境中。
HyperTTA:一个统一的自适应分类框架
HyperTTA 框架由三个核心部分组成:一个用于模拟真实世界退化的多退化模拟器 (MDS),一个强大的光谱-空间Transformer分类器 (SSTC) 作为骨干网络,以及一个轻量级的测试时自适应模块 (CELA) 。

贡献一:构建多退化高光谱基准
当前研究缺乏一个能系统性评估模型在多种退化条件下鲁棒性的标准基准。为此,作者首先构建了一个全面的多退化HSI数据集。该数据集系统地模拟了九种现实世界中常见的退化类型,包括JPEG压缩、高斯噪声、条带噪声、椒盐噪声、雾、泊松噪声、坏线、卷积模糊等。

上图展示了多种模拟退化的视觉效果。这个基准的建立,为开发和比较各种鲁棒学习和自适应算法提供了坚实的基础。
贡献二:SSTC,一个强大的光谱-空间分类器
作者设计了一个名为SSTC(Spectral-Spatial Transformer Classifier)的分类器作为基础模型。该模型具有两大特点:
- 多级感受野机制 (MRF) :通过并行的、具有不同大小卷积核的分支,SSTC能够同时捕捉高光谱图像在多个尺度下的空间上下文信息,这对于处理不同类型的退化至关重要。
- 标签平滑正则化 (LSL) :在训练时采用标签平滑,可以防止模型对训练样本产生过高置信度,从而提高其在面对噪声输入时的泛化能力。
贡献三:CELA,轻量级测试时自适应策略
CELA (Confidence-aware Entropy-minimized LayerNorm Adapter) 是HyperTTA框架的灵魂所在。它是一种 极其轻量级 的TTA策略,其核心思想是:
- 仅更新部分参数:在测试时,只更新Transformer模型中LayerNorm层的仿射参数(γ和β),而冻结其他所有参数。这使得自适应过程非常高效,计算开销极小。
- 基于熵最小化:自适应的目标是最小化模型在测试样本上的预测熵。熵越低,代表模型对预测结果的“确定性”越高。
- 置信度感知:为了防止模型被噪声样本误导(即对一个错误的预测变得过于自信),CELA只在模型认为“高置信度”的无标签样本上进行熵最小化更新。这种 “有选择地学习” 的策略确保了自适应的稳定性和可靠性。
最重要的是,整个过程 无需访问任何源数据或目标标签,实现了真正的源数据无关(source-free)的自适应。
实验与结果分析
数据集与设置
实验在两个公开的基准数据集上进行:帕维亚大学(Pavia University, PU)和WHU-Hi-Longkou(WHLK)。


作者将上述九种退化应用于这两个数据集,并与多种基线模型及先进的TTA方法进行了全面比较。


主要结果
实验结果表明,HyperTTA在各种退化场景下均显著优于现有方法。


如上表所示,无论是在PU数据集还是WHLK数据集上,HyperTTA(Ours)在平均总体精度(OA)上都取得了最佳性能。下面的条形图更直观地展示了在不同退化类型下,HyperTTA相比其他TTA方法的优势,其性能在绝大多数情况下都处于领先地位。


消融实验
消融研究证实了框架中每个组件的有效性。如下表所示,移除多级感受野(w/o MRF)、标签平滑(w/o LSL)或CELA自适应模块(w/o CELA)都会导致模型性能下降,其中MRF和CELA模块的贡献尤为显著。

可视化结果
分类结果图的视觉对比也展示了HyperTTA的优越性。在多种严重噪声干扰下,其他方法的分类图出现了大量噪点和错误斑块,而HyperTTA生成的分类图则保持了良好的空间平滑性和准确性。


总结与贡献
这篇论文为解决高光谱图像分类在真实世界应用中的鲁棒性问题,提供了一个完整且高效的解决方案——HyperTTA框架。其主要贡献可总结为三点:
- 构建了首个多退化高光谱TTA基准,系统性地模拟了九种真实退化,填补了该领域的空白,为后续研究提供了统一的评估标准。
- 设计了强大的SSTC分类器,通过多尺度特征融合与正则化,为TTA提供了一个鲁棒的基础模型。
- 提出了轻量且高效的CELA自适应策略,通过置信度感知的熵最小化,仅更新极少数参数即可实现快速、稳定、无需源数据的测试时自适应。
CV君认为,这项工作不仅在技术上具有创新性,更重要的是它直面了从实验室走向实际应用的关键障碍。通过即将提供开源的基准和代码,该研究极大地推动了高光谱图像智能解译技术在真实、复杂环境下的落地应用。
...
#FLUX-Reason-6M & PRISM-Bench
耗资15000个A100 GPU日!港中文、阿里等发布600万规模T2I推理数据集与基准
近年来,文生图(Text-to-Image, T2I)技术取得了飞速发展,但开源模型在处理需要复杂推理能力的提示词时,其性能仍与顶尖的闭源系统存在差距。这背后的核心挑战在于,社区缺乏大规模、以推理为中心的训练数据集和全面、对齐人类判断的评测基准。
为了应对这一挑战,来自香港中文大学、香港大学、北京航空航天大学和阿里巴巴的研究者们联合推出了 FLUX-Reason-6M 数据集和 PRISM-Bench 评测基准。这项工作旨在为T2I领域提供前所未有的高质量资源,推动模型在复杂场景理解和生成能力上的发展。其中,FLUX-Reason-6M是一个包含600万张高质量图像和2000万条双语描述的庞大数据集;PRISM-Bench则是一个全新的、包含七个不同赛道的评测标准,其名称意为“精确鲁棒的图像合成评测基准”(Precise and Robust Image Synthesis Measurement Benchmark)。
- 标题:FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark
- 作者:Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, 等
- 机构:香港中文大学、香港大学、北京航空航天大学、阿里巴巴
- 论文地址:https://arxiv.org/abs/2509.09680
- 项目地址:
- https://flux-reason-6m.github.io
- https://github.com/rongyaofang/prism-bench
- https://huggingface.co/datasets/LucasFang/FLUX-Reason-6M
研究背景与意义
当前的开源文生图模型,尽管在生成普通图像上表现出色,但在面对包含复杂空间关系、多对象属性绑定、文本渲染、乃至抽象逻辑和背景知识的提示词时,往往会“力不从心”。例如,我们很难让模型准确生成“三只蓝色的鸟在两只红色的小狗左边”这样的场景。
造成这一瓶颈的主要原因有二:
- 缺乏高质量的训练数据: 现有的大规模图文数据集多是从网络爬取,质量参差不齐,且缺乏专门用于训练“推理”能力的结构化信息。它们通常只描述了“图像里有什么”,而没有解释“为什么这样布局”或“如何构成这个场景”。
- 缺乏全面的评测标准: 已有的评测基准(Benchmark)大多维度有限,或依赖于简单的CLIP分数和目标检测,难以区分顶尖模型之间的细微差异,也无法全面评估模型的想象力、情感表达等高级能力。
因此,构建一个大规模、高质量、专注于推理能力的数据集,并设计一个能准确反映人类偏好的评测基准,对于推动整个T2I领域的发展至关重要。这正是本项研究的核心动机。
FLUX-Reason-6M:一个为推理而生的里程碑式数据集
为了解决数据难题,研究团队构建了 FLUX-Reason-6M。这不仅仅是一个简单的图文对集合,而是一个精心设计的、旨在教授模型如何“思考”和“推理”的系统性框架。整个数据构建流程耗时4个月,使用了128块A100 GPU,总计 15,000个A100 GPU日,堪称目前最昂贵的开源数据集之一。

数据集的六大核心特征
数据集围绕六个核心特征进行组织,这些特征经过特意设计,存在相互重叠,以模拟真实世界中复杂场景的多面性。
- 想象力(Imagination): 描述超现实、奇幻或抽象的概念,挑战模型的创造力。
- 实体(Entity): 关注真实世界中特定物体、生物或知名实体的准确描绘。
- 文本渲染(Text rendering): 专门解决在图像中准确生成指定文字的难题。
- 风格(Style): 包含大量艺术风格、摄影技巧和著名艺术家美学特征的样本。
- 情感(Affection): 旨在将抽象的情感、氛围或情绪转化为具体的视觉表达。
- 构图(Composition): 侧重于场景内物体间的精确空间布局和相互关系。

首创“生成思想链”(GCoT)
该数据集最大的创新之一是引入了 生成思想链(Generation Chain-of-Thought, GCoT)。传统的图像描述(caption)只是简单描述内容,而GCoT则提供了一个详细的、分步的推理链条,阐述了图像是如何被构思和组合出来的。它不仅解释了场景中的元素,还揭示了这些元素间的相互作用、布局逻辑以及整体的构图和语义原则。这种“思想链”为模型提供了强大的中间监督信号,使其能学习到图像背后更深层次的结构和艺术选择。
数据构建流程
研究者们设计了一套复杂且严谨的数据管理流程,以确保数据集的规模、质量和多样性。

该流程主要包括:
- 构建高质量视觉基础: 使用强大的FLUX.1-dev模型作为图像合成引擎,并结合多种策略(如重写Laion标题、渐进式想象力培育、文本渲染数据挖掘)来生成一个包含800万张图像的初始池。
- VLM驱动的质量过滤和多维评分: 利用先进的视觉语言模型(VLM,如Qwen-VL)作为自动质检员,对图像进行清晰度、结构一致性等基础质量过滤,并根据前述的六大特征为每张图片进行多标签分类和打分。
- VLM驱动的密集描述和GCoT构建: 对通过筛选的600万张高质量图像,再次利用VLM生成针对不同特征类别的密集描述,并最终综合所有信息,构建核心的GCoT。
- 双语化发布: 为了扩大数据集的可用性,所有2000万条描述(包括原始描述、分类描述和GCoT)都被完整翻译成了中文。
PRISM-Bench:一个更懂推理能力的评测基准
有了高质量的数据集,还需要一个同样高质量的评测工具。为此,研究团队设计了 PRISM-Bench。它克服了现有基准的局限,提供了一个多维度、细粒度的评估框架。

评测设计
PRISM-Bench包含七个评测赛道,与FLUX-Reason-6M的六大特征一一对应,并额外增加了一个极具挑战性的 长文本(Long Text) 赛道,该赛道使用GCoT作为提示词,专门测试模型遵循复杂、多层次指令的能力。
每个赛道包含100个精心设计和挑选的提示词,一半通过语义聚类从数据集中采样以保证代表性,另一半则由人工精心构建以探测模型的能力边界。该基准同时提供中文版本 PRISM-Bench-ZH。
评估协议
PRISM-Bench的核心创新在于其评估方式。它不再依赖简单的分数,而是利用 顶尖VLM(GPT-4.1和Qwen2.5-VL-72B)作为“代理裁判”,从两个关键维度对生成的图像进行打分:
- 图文对齐度(Alignment): 评估图像在多大程度上遵循了提示词的指令。评估标准是针对每个赛道的特点定制的,例如,在“构图”赛道中,VLM会重点检查空间关系是否正确。
- 美学质量(Aesthetic): 评估图像的整体视觉吸引力,包括光照、色彩、细节和构图等。
这种方法能够提供更接近人类判断的、细致入微的评估结果。
实验与结果分析
研究团队在PRISM-Bench上对19个当前领先的文生图模型(包括闭源的GPT-Image-1, Gemini2.5-Flash-Image和开源的Qwen-Image, SDXL, FLUX.1等)进行了大规模的横向评测。

英文评测(PRISM-Bench)
以下是由GPT-4.1和Qwen2.5-VL-72B评估的部分结果:


主要发现:
- 闭源模型优势明显: GPT-Image-1和Gemini2.5-Flash-Image在几乎所有赛道上都处于领先地位,展现了强大的综合能力。
- 开源模型正在追赶: 以Qwen-Image为首的开源模型表现出色,在某些方面(如构图)已能与顶级闭源模型媲美,显示出开源社区的巨大潜力。
- 共同的短板:文本渲染 和 长文本理解 是几乎所有模型的“阿喀琉斯之踵”,得分普遍偏低,这凸显了当前T2I技术在精确控制和深度指令遵循方面的核心挑战。
- 模型演进显著: 从SD1.5到SDXL再到SD3.5-Large,Stable Diffusion系列模型的性能提升清晰可见,证明了模型架构和训练方法的持续进步。

中文评测(PRISM-Bench-ZH)
在中文评测中,同样观察到了有趣的现象。


主要发现:
- 中文文本渲染是亮点: 与英文文本渲染的普遍困境形成鲜明对比,像SEEDream 3.0和Qwen-Image等模型在处理中文排版上表现出令人惊讶的强大能力,生成的汉字质量很高。这可能得益于它们在原生中文语料上的深度训练。
- GPT-Image-1依旧强大: 即使在中文环境中,GPT-Image-1依然在多个维度上保持领先,显示了其强大的跨语言泛化能力。

总结与贡献
这项工作通过推出FLUX-Reason-6M和PRISM-Bench,为文生图领域带来了两大核心贡献:
- 创建了首个为推理而设计的百万级T2I数据集(FLUX-Reason-6M): 它包含600万张高质量图像、2000万条双语描述,并首创了“生成思想链”(GCoT),为训练更“聪明”的T2I模型提供了宝贵的燃料。
- 建立了一个全新的、更接近人类判断的评测标准(PRISM-Bench): 通过七个赛道和基于VLM的细粒度评估,它能够更准确地衡量和区分当前最先进模型在复杂推理任务上的能力,并揭示了行业当前的核心技术瓶颈。
最重要的是,研究团队 公开发布了完整的数据集、评测基准和评估代码,极大地降低了研究门槛,使全球的研究者都能在此基础上构建和测试更强大的生成模型。这项工作无疑将催化文生图技术的下一波浪潮,推动模型从简单的“看图说话”迈向真正的“理解与创造”。
CV君认为,这项研究的价值不仅在于其产出的高质量资源,更在于它清晰地指出了当前T2I技术发展的核心痛点——推理能力,并提供了一套行之有效的解决方案和评估体系。对于所有致力于提升生成模型智能水平的研究者和开发者来说,这都是一份不容错过的宝贵财富。_
#FS-Diff
一步到位,用扩散模型同时实现多模态图像融合与超分辨率
在许多现实场景中,例如无人机侦察、自动驾驶和医学诊断,常常需要将来自不同传感器的图像(如可见光和红外图像)进行融合,以获得比单一图像更丰富、更全面的信息。然而,这些原始图像往往分辨率较低,甚至可能因为拍摄条件不佳而变得模糊。传统方法通常将“图像融合”和“超分辨率”作为两个独立任务处理,这种分步走的方式不仅计算量大,还容易在过程中引入或放大伪影,导致最终结果不尽人意。

FS-Diff在可见光-红外(VI-IR)和医学图像融合任务上展现了出色的8倍超分融合效果,能够应对单图模糊、双图模糊等多种复杂场景。
为了解决这一难题,来自华南理工大学、佛山大学、北京航空航天大学等机构的研究者们提出了一种名为 FS-Diff 的全新框架。该方法巧妙地利用了扩散模型(Diffusion Model)的强大生成能力, 首次实现了在输入图像清晰度不一致的情况下,一步到位地同时完成多模态图像的融合与超分辨率重建 。FS-Diff意为“Fusion and Super-resolution with Diffusion”,它通过语义引导和清晰度感知机制,能够智能地处理模糊输入,生成细节丰富、语义信息准确的高分辨率融合图像。
- 标题: FS-Diff: Semantic Guidance and Clarity-Aware Simultaneous Multimodal Image Fusion and Super-Resolution
- 作者: Yuchan Jie ,Yushen Xu ,Xiaosong Li ,Fuqiang Zhou ,Jianming Lv ,Huafeng Li (昆明理工大学)
- 机构: 华南理工大学;佛山大学;北京航空航天大学;昆明理工大学
- 论文地址: https://arxiv.org/abs/2509.09427
- 代码地址: https://github.com/XylonXu01/FS-Diff
研究背景
多模态图像融合(Multimodal Image Fusion, MMIF)旨在将来自不同传感器的多源图像的互补信息结合起来,生成一幅信息更丰富的图像。例如,可见光(VI)图像提供丰富的纹理细节,而红外(IR)图像则能穿透烟雾、突出热源目标。将二者融合,可以在全天候条件下获得更优的场景感知能力。
在实际应用中,获取的图像往往是低分辨率(Low-Resolution, LR)的。因此,将图像融合(Fusion)与超分辨率(Super-Resolution, SR)结合起来(即IFSR任务)具有重要的实用价值。然而,现有的方法大多存在以下问题:
- 两步法处理: 先做超分再做融合,或反之。这种方式容易在第一步就引入噪声和伪影,并在第二步被放大,影响最终质量。
- 对输入质量敏感: 现有方法通常假设输入图像都是清晰的,但在现实中,由于运动、天气或设备限制,输入图像可能一个是清晰的,另一个是模糊的,甚至两个都是模糊的。现有模型难以自适应地处理这种清晰度不一致的情况。
- 缺乏全局和语义信息: 传统方法多关注像素级别的对齐和融合,容易丢失图像的全局结构和高层语义信息,导致融合结果不自然。
基于以上挑战,研究者们提出了FS-Diff,一个基于扩散模型的端到端统一框架,旨在优雅地解决上述所有问题。
FS-Diff:融合与超分的统一框架
FS-Diff将图像融合与超分辨率任务统一为一个条件生成问题,其核心是利用一个经过修改的U-Net网络,在扩散模型的反向去噪过程中,逐步从纯高斯噪声生成目标高分辨率融合图像。

上图展示了FS-Diff的整体框架。其成功的关键在于两大创新机制:清晰度感知的动态语义提取(CLSE)和双边特征Mamba(BFM)。
核心机制1:清晰度感知的动态语义提取 (CLSE)
这是FS-Diff最核心的创新。为了让模型智能地处理不同清晰度的输入图像,研究者提出了CLSE机制。该机制基于一个特殊设计的 清晰度感知CLIP(CA-CLIP) 模型,能够判断输入图像是“清晰”还是“模糊”,并据此采取不同的语义提取策略:
- Case 1 (单图模糊): 当输入的一幅图像清晰,另一幅模糊时,CLSE机制会 仅从清晰图像中提取内容嵌入(content embedding) ,并将其作为语义引导注入到扩散模型的去噪过程中。这样做可以最大程度地利用高质量信息,避免模糊图像带来的负面影响。
- Case 2 (双图模糊): 当两幅输入图像都模糊时,两者的语义信息都已严重退化。此时,CLSE机制会从两幅模糊图像中分别提取内容嵌入,然后 选择两者中最大(最显著)的跨图像内容嵌入 作为引导。这种策略旨在从有限的信息中抢救出最关键的语义部分。
这种动态、自适应的策略使得FS-Diff能够灵活应对各种复杂的真实输入情况,显著提升了模型的鲁棒性和生成质量。
核心机制2:双边特征Mamba (BFM)
为了更好地提取和融合来自多模态图像的全局特征,FS-Diff引入了最近在序列建模中表现出色的Mamba架构,并设计了双边特征Mamba(Bidirectional feature Mamba, BFM)模块。

BFM能够有效地对图像特征进行长距离依赖建模,从而在融合过程中构建一个统一的、全局感知的联合图像表示。这有助于模型更好地理解不同模态特征之间的内在联系,保留图像的整体结构,减少伪影。
AVMS:一个新的多模态航拍数据集
为了更好地验证模型在真实航拍场景下的性能,研究者还构建并开源了一个全新的 AVMS(Aerial View Multi-scene)数据集 。

该数据集包含859对配准好的可见光-红外图像对,覆盖了白天、黄昏、夜晚和复杂天气等多种光照条件,以及住宅、校园、街道、农田等超过7种不同场景。更重要的是,数据集中还包含了 3821个标注好的目标 ,这使得它不仅能用于评估融合和超分任务,还能直接用于评估下游的目标检测和语义分割任务。

AVMS数据集中的场景分布示例,上排为可见光图像,下排为对应的红外图像。
实验与结果分析
研究者在可见光-红外融合(VIRF)、医学图像融合(MIF)和多焦点图像融合等多个任务上进行了广泛的实验。
融合与超分辨率效果
无论是在公开数据集(LLVIP, M3FD, MSRS)还是自建的AVMS数据集上,FS-Diff都展现了SOTA的性能。如下图所示,在8倍超分辨率的极端挑战下,对比方法生成的图像要么模糊不清,要么丢失了关键目标(如“人”、“电线杆”),而FS-Diff能够生成清晰且细节完整的图像。

在医学图像融合任务上,FS-Diff同样表现出色,能够清晰地融合来自MRI和PET/SPECT的结构与功能信息。

量化指标也证实了这一点,FS-Diff在VIF, QAB/F, SSIM等多个关键指标上全面领先于其他方法。



消融研究
为了验证CLSE和BFM模块的有效性,研究者进行了消融实验。结果表明,移除任何一个模块都会导致性能显著下降,证明了这两个创新设计的协同作用是FS-Diff取得优异性能的关键。

实验还验证了CLSE机制中语义选择策略的合理性。如下图所示,在单图模糊时使用清晰图像的语义,以及在双图模糊时使用最大语义,都能带来最佳的融合效果。

对下游任务的提升
高质量的融合图像对下游高级视觉任务至关重要。实验表明,使用FS-Diff生成的融合图像,在目标检测和语义分割任务上的性能远超使用其他方法融合的图像,甚至优于单一模态的原始图像。这充分证明了FS-Diff的实用价值。


目标检测结果对比,FS-Diff的结果(最右)显著减少了漏检。


语义分割结果对比,FS-Diff的结果(最右)分割出了更完整、更准确的区域。
总结
FS-Diff通过将多模态图像融合与超分辨率任务统一到单个扩散模型框架中,并引入创新的清晰度感知动态语义提取(CLSE)机制和双边特征Mamba(BFM),成功解决了现有方法在处理清晰度不一致的低分辨率图像时的痛点。大量的实验证明,该方法不仅在生成图像的质量上达到了新的SOTA水平,而且能显著提升下游视觉任务的性能。此外,一同发布的AVMS数据集也为该领域的研究提供了宝贵的资源。
尽管模型在复杂度和推理时间上仍有优化空间,但FS-Diff无疑为低层视觉任务的统一处理提供了一个极具启发性的新范式,在自动驾驶、精准农业、国防安全等领域展现了巨大的应用潜力。
..
#LLaDA-VLA
首个视觉-语言-扩散-行动模型,显著超越现有VLA
今天,我们将为大家介绍一篇来自中国科学技术大学、南京大学等机构的最新研究。该研究提出了 LLaDA-VLA ,这是 首个 基于预训练的扩散型视觉语言模型(d-VLMs)构建的视觉-语言-扩散-行动(Vision-Language-Diffusion-Action)模型。LLaDA-VLA 旨在解决机器人操控中的策略学习问题,并在仿真和真实机器人上均取得了超越现有主流方法(VLAs)的卓越性能。
,时长02:20
值得一提的是,LLaDA-VLA 中的 “LLaDA” 代表 “Large Language Diffusion models”,揭示了其技术核心源于大规模语言扩散模型,而 “VLA” 则是 “Vision-Language-Action” 的缩写,表明其应用于需要融合视觉、语言和行动的机器人领域。
论文基本信息
论文标题: LLaDA-VLA: Vision Language Diffusion Action Models
作者: Yuqing Wen, Hebei Li, Kefan Gu, Yucheng Zhao, Tiancai Wang, Xiaoyan Sun
机构: 中国科学技术大学,南京大学,Dexmal
论文地址: https://arxiv.org/abs/2509.06932
项目主页: https://wenyuqing.github.io/llada-vla/
研究背景与意义
近年来,自回归视觉语言模型(Autoregressive Vision-Language Models, VLMs)的巨大成功激发了学界对视觉-语言-行动模型(Vision-Language-Action, VLA)的浓厚兴趣,这类模型旨在让机器人能够理解语言指令并结合视觉信息来执行物理操作。
然而,现有的VLA模型大多建立在自回归范式之上,它们通过顺序生成token的方式来产生行动指令。这种方式存在固有的局限性,如生成效率较低,且难以灵活处理复杂的机器人任务。
与此同时,另一种名为掩码扩散模型(Masked Diffusion Models, MDMs)的范式在文本和多模态生成任务中展现了强大的竞争力。与自回归模型不同,扩散模型通过并行、迭代优化的方式生成内容。基于扩散模型的视觉语言模型(d-VLMs)也随之发展起来,但在机器人策略学习领域的应用却鲜有探索。

本文正是为了填补这一空白,首次将预训练的d-VLMs引入机器人操控领域,提出了LLaDA-VLA,为机器人策略学习开辟了一个全新的技术范式。
主要研究内容与方法
为了将d-VLMs有效适配于机器人任务,作者面临两大挑战:首先,d-VLMs预训练于通用数据集,与需要精确、低层视觉感知的机器人任务存在领域鸿沟;其次,扩散模型的解码策略本身不适合生成具有强结构依赖的机器人动作序列。
为应对这些挑战,LLaDA-VLA提出了两项关键设计:

1. 局部化特殊令牌分类策略 (Localized Special-Token Classification, LSC)
为了降低适配难度,研究者提出了一种巧妙的分类策略。传统的d-VLM需要在整个庞大的词汇表中进行分类预测,而机器人动作本质上仅由一小部分“特殊动作令牌”表示。因此,LSC策略将模型的分类空间 从全词汇表缩小到仅包含这些特殊动作令牌 ,极大地简化了学习过程,使模型能更专注于与动作相关的特征,从而更高效、更准确地生成动作指令。
2. 分层式行动结构解码策略 (Hierarchical Action-Structured Decoding, HAD)
标准的扩散解码过程平等对待所有待预测的令牌,忽略了机器人动作序列中固有的层级依赖关系(例如,一个完整的“抓取”动作由多个细分步骤组成,这些步骤之间以及不同动作之间都存在关联)。
HAD策略明确地对这种结构进行建模。在解码时,它首先在“动作”层面评估每个动作块的置信度,并优先解码置信度最高的动作。接着,在已选定的动作块内部,它会进一步评估每个“令牌”的置信度,并按序进行解码和优化。这种 “先动作、后令牌” 的分层解码方式,使得模型能够生成逻辑连贯、结构合理的动作序列。
实验设计与结果分析
作者在多个仿真环境(SimplerEnv, CALVIN)和真实世界的WidowX机器人上进行了大量实验,以验证LLaDA-VLA的性能。
仿真环境实验
在SimplerEnv基准测试中,LLaDA-VLA的平均成功率达到了 55.5% ,显著优于典型的自回归VLA模型OpenVLA,性能提升超过50%,并且也优于CogAct等先进方法。

在更复杂的长时程任务基准CALVIN上,LLaDA-VLA同样表现出色。与OpenVLA相比,其平均任务完成长度(Avg. Len.)提升了 0.74 ,达到了 4.01 ,证明了其在处理复杂连续任务上的强大能力。

以下是LLaDA-VLA在CALVIN和SimplerEnv任务中的一些定性结果展示。


真实机器人实验
在真实机器人操控任务中,LLaDA-VLA的平均成功率达到了 58% ,同样稳定地超越了π0和CogACT等SOTA方法。

在针对泛化能力的“未见过任务”(Out-of-Domain, OOD)评估中,LLaDA-VLA的平均成功率比π0高出 25% ,展示了其强大的泛化能力,能够处理未见过的物体和容器。

下图展示了LLaDA-VLA在真实机器人上执行领域内及领域外任务的定性结果。


消融研究
作者还通过消融实验验证了LSC和HAD两个核心设计的有效性。实验表明,移除任何一个模块都会导致性能显著下降,证明了这两项设计对于模型成功适配机器人任务至关重要。

此外,实验也探讨了动作块(action chunk)大小对性能的影响,发现在性能和平滑度之间取得平衡是实现最优表现的关键。

总结与贡献
LLaDA-VLA的提出具有重要意义:
- 新范式探索: 它 首次 将基于扩散的视觉语言模型(d-VLMs)成功应用于机器人操控,为VLA领域开辟了一条新的、有别于自回归模型的技术路径。
- 关键技术创新: 提出的 局部化特殊令牌分类(LSC) 和 分层式行动结构解码(HAD) 策略,有效解决了将d-VLMs适配到机器人领域的两大核心挑战,使得模型能够生成精确、连贯的动作序列。
- 卓越的性能: 在仿真和真实世界的大量实验证明,LLaDA-VLA的性能 显著优于 现有的SOTA VLA模型,展现了扩散模型在机器人策略学习中的巨大潜力。
这项工作为未来探索d-VLMs在机器人领域的应用奠定了坚实的基础,并指明了进一步研究的方向。
.
#PSI
斯坦福大学提出:一种通过概率结构集成,从数据中学习可控、可灵活提示的世界模型的新系统
本文将为大家介绍一篇来自斯坦福大学的最新研究,该研究提出了一种名为 概率结构集成(Probabilistic Structure Integration, PSI) 的新系统。简单来说,PSI是一个可以从海量数据中学习并构建“世界模型”的框架。这个模型不仅能深刻理解世界的运作方式,还非常“听话”,可以被灵活地控制和提示,就像与大语言模型(LLM)对话一样。其核心思想是通过一个“预测-提取-整合”的自增强循环,让模型在持续学习中变得越来越强大。
- 论文标题:World Modeling with Probabilistic Structure Integration
- 作者:Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
- 机构:斯坦福大学 NeuroAI 实验室
- 论文地址:https://arxiv.org/abs/2509.09737
研究背景与意义
当前,构建能够理解并预测物理世界如何变化的“世界模型”是人工智能领域的一大热点。然而,现有的世界模型大多缺乏足够的“可控性”和“可查询性”。与可以被任意提示的语言模型不同,很难对视觉世界模型进行精细的操作,比如“轻轻推一下这个物体”或“从另一个角度看看这个场景”。
为了解决这一挑战,研究者们希望创建一个既能生成高质量预测,又能像LLM一样提供丰富交互接口的统一模型。PSI框架应运而生,它旨在通过一个自循环、自增强的机制,让模型不仅能从原始像素数据中学习,还能逐步构建起对场景中“结构”(如运动、深度、物体)的理解,并利用这些结构来反哺和提升模型自身,最终形成一个功能强大且高度可控的“通用”世界模型。
PSI:三步走的自增强循环方法
PSI的核心是一个由三步构成的循环过程,研究者将其命名为 Ψ(Psi) 模型。

第一步:概率预测 (Probabilistic Prediction)
首先,研究团队构建了一个概率图模型Ψ,它本质上是一个可以随机访问的自回归序列模型。与传统的按固定顺序(如从左到右)生成内容不同,Ψ模型可以基于任意给定的、无序的图像补丁(patch)集合,来预测任何未知补丁的内容分布。
为了实现这种“随机访问”能力,研究者设计了 局部随机访问序列(Local Random-Access Sequence, LRAS) 架构。该架构通过引入“指针 token”来显式指定要生成或关注的图像区域,从而摆脱了固定的生成顺序。同时,它采用分层局部量化器(HLQ)对图像块进行编码,确保了编码的局部性,使得对单个补丁的修改不会影响到远处不相关的区域。

这种设计使得Ψ模型具备了强大的灵活性,可以支持多种多样的推理方式:
- 无条件预测:仅给定第一帧,模型可以生成多种符合物理规律的、合理的未来画面。

无条件预测生成的多种未来画面
- 补丁条件预测:给定未来帧的少数几个关键补丁,模型就能“脑补”出完整的、高度确定的场景。甚至可以人为修改这些补丁,实现对物体的“反事实”编辑。

- 通过稀疏补丁进行条件预测和反事实编辑
- 相机条件预测:给定相机的位姿变换参数,模型能够合成新视角的图像,即“新视角合成”。

- 相机条件预测实现新视角合成
此外,模型还能通过分析预测中的熵(不确定性)来管理和逐步降低场景的不确定性。

第二步:结构提取 (Structure Extraction)
拥有了强大的Ψ模型后,第二步是通过“因果推断”的方式,从模型中零样本(zero-shot)地提取出有意义的“中间结构”。这里的核心思想是:通过设计巧妙的“反事实”提示来“拷问”模型,观察其反应,从而揭示出场景中潜在的物理结构。
- 光流提取:通过在一个像素点上施加一个微小的“扰动”,然后观察这个扰动在下一帧“传播”到了哪里,就可以计算出像素的运动轨迹,即光流。

- 光流提取流程:扰动并计算KL散度
- 对象分割:通过假设场景中的一小块区域发生了移动,并让模型预测整个场景会如何“连贯地”变化。那些“跟随”这一小块区域一起运动的像素,很可能属于同一个物体。

- 对象分割流程:通过假设运动来分割物体
- 深度提取:通过假设相机发生了平移,模型会生成一个具有运动视差的新视角图像。通过计算新旧图像之间的位移,就可以反推出场景的深度信息。

- 深度提取流程:通过假设相机运动来估计深度
第三步:整合 (Integration)
提取出的光流、分割、深度等结构信息本身就是一种更高级、更凝练的场景描述。第三步是将这些结构信息“token化”,然后将它们与原始的RGB图像token混合在一起,作为新的训练数据,送回给Ψ模型进行持续训练。

这个整合步骤至关重要,它相当于为模型引入了一种新的“语言”。模型不仅要学会从RGB预测未来,还要学会理解和预测光流、深度等结构。这使得模型:
- 拥有了更强的控制能力:可以直接给定光流信息来控制视频的生成,实现对物体运动的精确操控。
- 提取出更准的结构:模型可以直接预测光流等结构,避免了从RGB间接推断带来的误差。
- 实现更好的基础预测:通过将复杂的视频预测任务分解为“先预测运动(光流),再根据运动渲染画面”,模型有效避免了在模糊运动场景下直接预测RGB时容易出现的“运动坍塌”(motion collapse)问题,即生成静止的画面。

通过光流token实现更强的生成控制

集成光流后,模型能成功预测动态场景,而仅用RGB的模型则预测失败(运动坍塌)
CV君认为,这个“预测-提取-整合”的循环是一个非常优雅的自举(bootstrapping)过程。它让模型从一个只能理解像素的基础模型,逐步成长为一个能够理解和操作运动、几何、对象等高级概念的强大世界模型,并且这个过程是持续不断的,模型的潜力可以随着循环的迭代而无限增长。
实验与结果
研究团队在一个包含 1.4万亿 视频token的大规模数据集上训练了一个7B参数的Ψ模型。实验结果表明,PSI框架在多项任务上都取得了非常出色的表现。
结构提取性能
在没有经过任何监督训练的情况下,Ψ模型提取出的结构在多个基准测试中达到了SOTA(State-of-the-Art)水平。
- 光流:在TAP-Vid基准上,Ψ的性能超越了包括有监督方法在内的基线模型。

- TAP-Vid光流跟踪任务结果
- 对象分割与深度估计:在整合了光流token后,Ψ在SpelkeBench(对象分割)和NYUD、BONN(深度估计)等多个自监督基准上均取得了SOTA性能。

- 整合光流后在分割和深度估计任务上的结果
可控生成与视频预测
- 新视角合成与物体操纵:在WildRGB-D(新视角合成)和3DEditBench(物体操纵)任务上,整合了光流的Ψ模型性能远超专门的扩散模型和编辑方法,展现了其对场景3D结构和物理规律的深刻理解。

- 新视角合成与物体操纵任务结果
- 视频预测质量:在DAVIS和YouTube视频数据集上,集成了光流的Ψ模型在单帧视频预测任务上的表现显著优于其仅使用RGB的“前身”以及COSMOS基线模型,有效缓解了运动模糊和坍塌问题。

- 视频预测质量对比
更多应用
论文还展示了PSI在物理视频编辑(如改变保龄球轨迹)、视觉Jenga游戏(判断移除哪个木块不会导致坍塌)以及机器人运动规划(从静态图像预测物体可动性)等方面的应用潜力。

物理视频编辑:干预保龄球轨迹

机器人应用:从单张静态图像预测物体的可操纵性
总结与贡献
这篇论文提出了 概率结构集成(PSI),一个用于学习可控、可提示世界模型的通用框架。其主要贡献可以总结为:
- 提出一个自增强的循环框架:通过“概率预测 → 结构提取 → 整合”的循环,模型能够持续地自我提升,从简单的像素预测器进化为能够理解和操作高级结构(如运动、深度、对象)的强大世界模型。
- 实现零样本结构提取:展示了如何通过对一个统一的生成模型进行因果推断式提示,在没有任何标签的情况下提取出高质量的视觉结构。
- 构建了统一且可扩展的模型:通过巧妙的token化和序列混合机制,PSI可以在不改变模型架构的情况下,持续集成新的知识和控制能力,向着类似LLM的“通用提示语言”迈出了坚实的一步。
- 验证了卓越的性能:在 1.4万亿 token的视频数据上训练的模型,在多项视频理解、生成和控制任务上取得了SOTA结果,证明了该框架的可扩展性和有效性。
总而言之,PSI为构建下一代通用人工智能,特别是能够与物理世界进行丰富交互的xx智能,提供了一个极具前景和启发性的研究方向。
..
#Grad-CL
无需源数据,如何利用梯度引导实现精准的眼底图像分割?
在眼科疾病诊断,尤其是青光眼的早期筛查中,对眼底图像中的视盘(Optic Disc, OD)和视杯(Optic Cup, OC)进行准确分割至关重要。然而,深度学习分割模型面临一个严峻的挑战:在一个数据集(源域)上训练好的模型,当应用到另一个采用不同设备、不同协议采集的数据集(目标域)时,性能往往会急剧下降。这就是所谓的“域漂移”(Domain Shift)问题。
为了解决这一难题,同时考虑到在医疗领域,原始训练数据往往因隐私或版权问题而无法访问,来自印度科学教育与研究学院(IISER Bhopal)的研究者们提出了一种新颖的无源域自适应(Source-Free Domain Adaptation, SFDA)框架,名为 Grad-CL。该方法仅利用一个在源域上预训练好的模型和无标签的目标域数据,就能显著提升模型在目标域上的分割性能。其命名源于其核心技术:梯度引导(Gradient-guided)的伪标签优化和对比学习(Contrastive Learning)。
- 论文标题: Grad-CL: Source Free Domain Adaptation with Gradient Guided Feature Disalignment
- 作者: Rini Smita Thakur, Rajeev Ranjan Dwivedi, Vinod K Kurmi
- 机构: Indian Institute of Science Education and Research Bhopal (IISER Bhopal), India
- 论文地址: https://arxiv.org/abs/2509.10134
- 项目地址: https://visdomlab.github.io/GCL/
- 代码地址: https://github.com/visdomlab/GCL
- 录用会议: BMVC 2025
研究背景
在无源域自适应(SFDA)的设定下,我们无法接触到原始的源域训练数据,只有一个预训练好的源模型。常规做法是利用这个源模型为目标域的无标签图像生成“伪标签”,然后用这些伪标签来微调模型,使其适应目标域。
然而,这种方法最大的痛点在于,由于域漂移的存在,源模型在目标域上产生的伪标签往往包含大量噪声和错误,用这些“脏”标签来训练模型,效果自然不佳。因此,如何有效地提纯伪标签并学习目标域中具有辨别力的特征,成为SFDA成功的关键。
Grad-CL正是为了解决这两个核心问题而设计的。
Grad-CL:一个两阶段的自适应框架
Grad-CL框架包含两个紧密相连的阶段:梯度引导的伪标签细化和对比特征解耦。

上图展示了Grad-CL的整体流程。首先,通过预训练的源模型为目标图像生成初始的、带有噪声的伪标签。随后,进入两个核心模块进行优化。
阶段一:梯度引导的伪标签细化
为了修正嘈杂的伪标签,Grad-CL引入了一种基于梯度的机制来挖掘更可靠的特征。
- 提取梯度引导特征:类似于Grad-CAM的思想,该方法计算模型最终输出(视盘和视杯的 logits)相对于最后一个卷积层特征图的梯度。这些梯度揭示了模型在做决策时“最关注”哪些特征区域。通过这种方式,可以为视盘和视杯分别提取出类别专属的、更具辨别力的特征图。
- 估计原型和不确定性:利用这些梯度引导的特征,可以更鲁棒地估计出目标域中视盘和视杯的“类别原型”(即该类的平均特征向量)。同时,通过蒙特卡洛dropout等方法估计每个像素预测的不确定性。
- 细化伪标签:结合不确定性信息和像素特征与类别原型的距离,对初始伪标签进行过滤和修正。例如,对于一个不确定性高或其特征离两个类别原型都很远的像素,它的伪标签就会被认为是不可靠的,在后续训练中会被忽略。
阶段二:对比特征解耦 (Contrastive Feature Disalignment)
在获得了相对干净的伪标签后,第二阶段的目标是让模型学习到的视盘和视杯特征在特征空间中分得更开,减少混淆。
为此,Grad-CL采用了一种基于余弦相似度的对比学习损失。具体来说,它将一个像素的“视杯梯度引导特征”和“视盘梯度引导特征”视为一对,并通过对比损失函数来最小化它们之间的余弦相似度。这个过程可以形象地理解为在特征空间中用力将视盘和视杯的特征向量推开,从而实现“特征解耦”(Feature Disalignment)。
最终的总损失函数由伪标签的分割损失和对比学习损失两部分加权组成,共同驱动模型在目标域上的优化。
实验结果
研究者在多个公开的眼底图像数据集(源域:REFUGE,目标域:RIM-ONE-r3, Drishti-GS)上进行了广泛实验,并将Grad-CL与多种先进的UDA和SFDA方法进行了比较。
如下表所示,无论是在视盘还是视杯的分割任务上,Grad-CL在Dice系数(越高越好)和ASD(平均表面距离,越低越好)两项关键指标上均取得了SOTA或具有竞争力的表现,全面超越了DPL、PLPB等主流SFDA方法。

从分割结果的可视化对比中可以更直观地看到Grad-CL的优势。如下图所示,其他方法生成的分割边界或多或少存在变形、收缩或扩张的问题,而Grad-CL生成的视盘(绿色)和视杯(蓝色)轮廓则与真实边界(Ground-truth)更为贴合,边缘更平滑、准确。

在RIM-ONE-r3数据集上的分割结果对比

在Drishti-GS数据集上的分割结果对比
此外,论文还通过消融实验证明了其所提出的对比损失中,使用余弦相似度(或KL/JS散度)来拉远特征分布,比使用欧氏距离等直接最小化距离的度量方式更有效。

总结与价值
本文提出的 Grad-CL 框架为解决医学图像分割中的无源域自适应问题提供了一个非常有效且思路清晰的解决方案。
其主要贡献在于:
- 创新的伪标签细化机制:巧妙地利用梯度信息来提取类别相关的显著特征,从而更准确地估计原型和不确定性,有效解决了SFDA中伪标签噪声的核心痛点。
- 有效的特征解耦策略:通过专门设计的对比学习损失,强制模型学习视盘和视杯之间更有辨别力的特征,减少了类别混淆,提升了分割边界的准确性。
- SOTA性能:在多个具有挑战性的跨域眼底图像分割基准上取得了当前最优的性能,为青光眼等疾病的自动化、规模化辅助诊断提供了更可靠的技术支持。
- 代码:代码待开源,为社区复现和跟进研究提供了便利。
CV君认为,Grad-CL将梯度这种富含模型决策逻辑的信息用于指导自监督学习,是一个非常值得借鉴的思路,它不仅在医学图像SFDA任务上取得了成功,其思想也有望被迁移到其他需要精细化特征学习的计算机视觉任务中。
..
#ClusCa (Cluster-Driven Feature Caching)
一次只算16个Token:ClusCa如何为扩散模型提速近5倍?
近年来,扩散模型(Diffusion Model)在图像和视频生成领域取得了令人瞩目的成就,尤其是与Transformer架构结合的扩散变换器(Diffusion Transformer, DiT),不断刷新着各种任务的SOTA记录。然而,其强大的性能背后是巨大的计算开销,这主要源于其迭代式的去噪过程,极大地限制了其在实际应用中的部署。
为了解决这一问题,来自上海交通大学、电子科技大学和山东大学的研究者们提出了一种名为 ClusCa (Cluster-Driven Feature Caching) 的创新性加速方法。该方法巧妙地利用了扩散模型在空间维度上的特征相似性,通过对特征进行聚类,在每个聚类中只计算一个代表性Token,从而将需要计算的Token数量减少了超过 90%。ClusCa作为一个即插即用、无需训练的模块,可以轻松集成到任何DiT架构中。实验表明,在FLUX模型上,ClusCa实现了高达 4.96倍 的加速,同时ImageReward指标甚至比原始模型还提升了0.51%。
- 论文标题:Compute Only 16 Tokens in One Timestep: Accelerating Diffusion Transformers with Cluster-Driven Feature Caching
- 作者:Zhixin Zheng, Xinyu Wang, Chang Zou, Shaobo Wang, Linfeng Zhang
- 机构:上海交通大学、电子科技大学、山东大学
- 论文地址:https://arxiv.org/abs/2509.10312
- 项目地址:https://github.com/Shenyi-Z/Cache4Diffusion
- 录用会议:ACM MM 2025
研究背景与意义
扩散模型通过一个迭代去噪的过程从随机噪声中生成高质量的视觉内容。这个过程通常需要数百甚至上千个步骤,每一步都需要模型进行一次完整的前向传播,计算成本非常高昂。
为了加速这一过程,研究界主要探索了两个方向:一是减少采样步数(如DDIM、DPM-Solver),二是在每一步中减少网络的计算量。
特征缓存(Feature Caching)是后一种方向中的一个流行技术。它基于一个观察:在相邻的时间步中,模型中间层的特征(feature)具有高度的相似性。因此,可以缓存前一时刻的特征,在下一时刻直接“复用”,从而跳过一部分计算。然而,现有的特征缓存方法,如DeepCache、ToCa等,主要关注并利用了时间维度的相似性,却忽略了在空间维度上也存在的巨大冗余。如下图所示,在同一个时间步内,图像不同位置的Token(例如,属于背景天空的Token)也具有高度的相似性。

本文提出的ClusCa正是从这一被忽略的“空间维度”入手,与现有的时间缓存方法形成了一个正交且互补的加速视角。
ClusCa:基于聚类的特征缓存方法
ClusCa的核心思想非常直观:既然在同一时间步内,许多Token的特征是相似的,那么我们没有必要对每一个Token都进行完整的计算。我们可以将这些相似的Token分组(聚类),在每个组里只选一个“代表”进行计算,然后将计算结果“传播”给组内的其他成员。

上图展示了ClusCa的整体框架。它结合了时间缓存和新提出的空间缓存,其具体流程如下:
- 缓存周期(Cache Cycle):将整个去噪过程划分为多个缓存周期(例如,每N步一个周期)。
- 全量计算与聚类:在每个周期的第一步,模型对所有Token进行完整的计算。然后,ClusCa使用K-Means算法对这些计算出的Token特征进行空间聚类,将它们分成K个簇。
- 部分计算与传播:在周期的后续步骤中,模型不再计算所有的Token。取而代之的是,在每个簇中只选择一个代表性Token(例如随机选择一个)进行计算。
- 特征复用(Spatial & Temporal Reuse):对于那些没有被计算的Token,它们的新特征将由两部分加权融合而成:一部分是来自前一时刻自身的旧特征(时间复用),另一部分则是来自它所在簇的代表性Token刚刚计算出的新特征(空间复用)。
通过这种方式,ClusCa将大量的计算集中在少数代表性Token上,从而实现了显著的加速。论文通过实验证明,这种聚类结果在相邻时间步之间具有高度的稳定性(Adjusted Rand Index > 0.8),这意味着我们不需要在每一步都进行聚类,只需在每个缓存周期的开始做一次即可,这使得聚类带来的额外开销非常小(≤5%)。

实验结果与分析
研究者们在文本到图像(Text-to-Image)和文本到视频(Text-to-Video)等多个任务上,对DiT、FLUX、HunyuanVideo等主流扩散变换器模型验证了ClusCa的有效性。
文本到图像生成
在当时最先进的文生图模型之一FLUX上,ClusCa展现了卓越的性能。如下表所示,在22%的计算步骤下(即加速约4.5倍),ClusCa不仅在效率上远超其他方法,在生成质量(ImageReward)上也取得了最佳表现。当配置为 4.96倍 加速时,其ImageReward分数高达 99.49%,甚至超过了未经加速的原始模型,这充分证明了ClusCa在速度和质量上的卓越平衡能力。

从下图的定性比较中也可以看出,在处理复杂场景时,其他加速方法或多或少会出现细节丢失、内容扭曲等问题,而ClusCa生成的图像内容更丰富,质量也更高。

文本到视频生成
在视频生成任务上,ClusCa同样表现出色。在HunyuanVideo模型上,ClusCa实现了高达 6.21倍 的加速,同时在视频质量基准VBench上的得分依然保持领先。

下图的可视化结果进一步证明,相比其他方法产生的物体变形、细节丢失和图像伪影等问题,ClusCa能够生成高质量且内容准确的视频。

类别到图像生成
在经典的ImageNet类别条件生成任务上,使用DiT-XL/2模型的实验结果也验证了同样的结论。ClusCa在不同加速比下,其FID(一种衡量生成图像真实性和多样性的指标,越低越好)都显著优于其他缓存方法。

论文贡献价值
本文的主要贡献可以总结为以下几点:
- 提出了ClusCa:一个新颖、即插即用且无需训练的扩散变换器加速框架。它首次系统地利用了扩散模型特征在空间维度的冗余,为模型加速提供了一个与现有时间缓存方法正交的新视角。
- 卓越的性能:在多个模型和任务上实现了SOTA级别的加速性能和生成质量的平衡,例如在FLUX上实现近5倍加速的同时,图像质量甚至有所提升。
- 开源贡献:作者公开了项目代码,方便社区研究和使用,有助于推动相关领域的发展。
总而言之,ClusCa通过一个简单而有效的方式,极大地降低了扩散变换器的推理成本,同时保持了高质量的输出,为这些强大的生成模型在资源受限环境下的实际应用铺平了道路。CV君认为,这种挖掘和利用模型内在冗余的思想,对于未来设计更高效的AI模型具有重要的启发意义。
...
#FVQ与VQBridge
中科院、美团等提出FVQ与VQBridge,解决码本崩溃,实现100%利用率的可扩展VQ训练
在离散图像生成领域,向量量化(Vector Quantization, VQ)是构建图像“标记器”(tokenizer)的核心技术,它负责将连续的图像特征压缩成离散的“码字”(token)。然而,VQ网络的训练过程长期以来饱受“不稳定”和“码本崩溃”(codebook collapse)的困扰——即码本中的大量码字从未被使用,导致模型容量被严重浪费,最终影响图像重建和生成质量。这已成为制约离散自回归等生成模型发展的关键瓶颈。

为了从根本上解决这一难题,来自 中国科学院、美团、GigaAI 等多家机构的研究者们,深入分析了VQ训练不稳定的三大根源,并提出了一套简单而高效的解决方案—— FVQ (FullVQ)。该方案的核心是一个名为 VQBridge 的新型投影器,它通过创新的训练机制,成功实现了 100%的码本利用率,即使在码本大小扩展到惊人的262k时依然如此。这一突破不仅带来了SOTA级别的图像重建性能,更在与LlamaGen等自回归模型结合时,显著提升了图像生成质量,性能超越了强大的VAR和DiT等模型。
- 论文标题: Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization
- 作者: Yifan Chang, Jie Qin, Limeng Qiao, Xiaofeng Wang, Zheng Zhu, Lin Ma, Xingang Wang
- 机构: 中国科学院, 美团, GigaAI, 中国科学院大学, 洛阳机器人与智能装备研究院
- 论文地址: https://arxiv.org/abs/2509.10140
- 项目地址: https://github.com/yfChang-cv/FVQ
VQ训练的三大“拦路虎”
要理解FVQ的贡献,首先需要了解传统VQ训练为何如此困难。问题主要源于量化操作的不可微性,虽然通过直通估计器(Straight-Through Estimator, STE)解决了梯度回传问题,但引入了三大新挑战:
- STE估计偏差:STE“复制”梯度的做法本身存在偏差,导致解码器和编码器的优化不精确。
- 一步滞后更新 (One-step-behind Update) :码本的更新依赖于上一步的编码器输出,这种时间上的错位导致训练过程不稳定,就像一个总是看着后视镜开车的新手。
- 稀疏码本梯度 (Sparse Codebook Gradients) :这是导致“码本崩溃”的直接原因。在每次更新中,只有被选中的那个“获胜”码字才能获得梯度,码本中的绝大多数码字都处于“旁观”状态,得不到有效训练,最终被模型“遗忘”。

上图的t-SNE可视化清晰地展示了码本崩溃问题:标准方法仅使用了3%的码本,而本文提出的VQBridge则实现了100%的码本利用率。
VQBridge:稳定、可扩展的码本优化新桥梁
为了同时解决上述三大挑战,研究者们提出了VQBridge。它不再依赖于通过STE向码本传递稀疏且有偏的梯度,而是另辟蹊径,设计了一个专门用于优化整个码本的强大“投影器”。

VQBridge的核心是一个“压缩-处理-恢复”的流水线,如上图所示:
- 压缩 (Compress) :将整个码本(例如,16384个码字)视为一个序列,通过1D“Patchify”操作将其分组压缩,形成一个更紧凑的中间表示。
- 处理 (Process) :使用一个轻量级的ViT(Vision Transformer)模块对这个中间表示进行全局信息交互。这使得每个码字的更新都能考虑到码本中所有其他码字的信息。
- 恢复 (Recover) :将处理后的特征恢复到原始码本的尺寸,生成一个“优化后”的新码本。
在训练的每一步,VQBridge都以整个码本为输入,输出一个更新后的码本。其优化目标是让这个新码本中的码字尽可能地接近编码器的输出特征。CV君认为,这种设计的最大亮点在于,它为码本中的 每一个码字 都提供了 密集且稳定 的梯度信号,从根本上解决了梯度稀疏问题,从而彻底告别了“码本崩溃”。
最终,将VQBridge与学习率退火(learning annealing)等技巧结合,便构成了完整的 FVQ (FullVQ) 框架。
实验结果:100%利用率,SOTA级性能
FVQ框架在有效性、可扩展性和通用性上都表现出色。
1. 100%码本利用率与SOTA重建质量
实验中最惊人的结果是,无论码本大小如何,FVQ都能迅速达到并维持 100% 的码本利用率,即使在262k的超大码本配置下也是如此。这在以往的VQ训练中是难以想象的。

高利用率直接转化为了卓越的图像重建质量。在ImageNet数据集上,FVQ作为图像标记器,其重建保真度(rFID)达到了 0.88,显著优于VQGAN等所有现有的离散标记器。

2. 赋能下游生成任务
高质量的标记器是强大自回归生成模型的基础。当将FVQ与自回归模型LlamaGen集成时,其图像生成能力得到了巨大飞跃。在ImageNet 256x256的类条件生成任务上,配备了FVQ的LlamaGen-XL模型取得了 2.07 的FID分数,不仅远超其原始版本(3.39),还超越了同级别的自回归模型VAR(2.57)和强大的扩散模型DiT-XL/2(2.27)。

定性评估

左图为重建效果对比,右图为生成效果。
总结
FVQ 及其核心组件 VQBridge,为向量量化网络的训练提供了一个极其优雅且强大的解决方案。它从根本上解决了长期困扰VQ训练的“码本崩溃”和不稳定性问题,实现了100%的码本利用率,并展现出卓越的可扩展性。
这项工作最重要的意义在于,它证明了通过优化标记器(tokenizer)的设计,看似简单的自回归模型也能爆发出超越主流扩散模型的生成能力。这不仅为离散视觉生成开辟了新的道路,也提醒我们,在追逐更庞大、更复杂的生成模型架构时,回头打磨好底层的“基石”组件,或许能带来意想不到的惊喜。该项目的代码将开源,强烈推荐相关领域的研究者学习和借鉴。
..
#InfGen
10秒生成4K图像,告别分辨率焦虑
你是否曾为AI生成一张高清大图而苦等数分钟?随着扩散模型的普及,图像生成质量飞速提升,但一个核心痛点始终存在:分辨率越高,生成速度越慢,计算成本呈二次方增长。生成一张4K图像动辄超过100秒,这对于追求效率和实时交互的应用场景来说是难以接受的。
现在,来自 香港科技大学、上海人工智能实验室 和 悉尼大学 的研究者们提出了一种名为 InfGen 的全新范式,彻底改变了这一现状。InfGen,意为“无限分辨率生成器”(Infinite-Resolution Generator),它巧妙地将现有扩散模型(如Stable Diffusion)的解码器替换为一个强大的、分辨率无关的生成器。这一“即插即用”的升级,使得在生成任意分辨率的图像时,尤其是4K超高清图像,速度提升了 10倍以上,将生成时间从分钟级压缩至 10秒以内!这项工作已被 ICCV 2025 接收。
- 论文标题: InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis
- 作者: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai
- 机构: 香港科技大学,上海人工智能实验室,悉尼大学
- 论文地址: https://arxiv.org/abs/2509.10441
- 录用信息: ICCV 2025
- 代码仓库: https://github.com/taohan10200/InfGen
研究背景:高分辨率生成的“解码器瓶颈”
当前主流的文生图模型,如Stable Diffusion(SD)、DiT等,大多采用“潜在扩散模型”(Latent Diffusion Model, LDM)架构。其工作流程可以分为两步:
- 内容生成:在一个低维的、紧凑的“潜在空间”(latent space)中,使用核心的扩散模型(如U-Net)根据文本提示生成一个代表图像内容的“潜在向量”(latent vector)。
- 图像解码:使用一个预训练好的变分自编码器(VAE)的解码器,将这个潜在向量“翻译”回像素空间,生成最终看到的图像。
这个架构的优势在于,核心的生成过程在低维空间进行,大大降低了计算成本。然而,问题出在了第二步——VAE解码器。这个解码器通常是为生成固定分辨率(如512x512)的图像而训练的,它缺乏泛化到任意分辨率的能力。当需要生成一张4K大图时,要么需要一个巨大的、难以训练的4K VAE,要么需要一个同样巨大的潜在向量,这使得第一步的扩散过程也变得极其缓慢和昂贵。现有的一些高分辨率生成方法,如多轮超分、修改注意力机制等,要么流程复杂,要么与特定模型绑定,缺乏通用性。

上图清晰地展示了现有方法在生成高分辨率图像时,推理时间急剧增加的困境。
InfGen:解耦内容与渲染,实现分辨率自由
InfGen的作者们提出了一个颠覆性的观点:应该将 内容生成 和 图像渲染 这两个过程彻底解耦。扩散模型的核心任务是根据语义理解生成“内容”,这个内容可以由一个固定大小的潜在向量来表示。而将这个“内容向量”渲染成何种分辨率的图像,则应该交给一个专门的、更强大的“渲染器”来完成。
基于此,InfGen范式诞生了。它不再试图改造庞大而复杂的扩散模型本身,而是选择 替换掉那个成为瓶颈的VAE解码器。

InfGen的工作流程如上图所示,分为训练和推理两个阶段:
1. 训练一个分辨率无关的生成器 (InfGen)
研究者们单独训练了一个新的生成器模型。这个模型的任务是:输入一个由标准VAE编码器产生的固定大小的潜在向量,输出任意分辨率和长宽比的图像。训练数据包含了大量不同尺寸的高分辨率图像。通过这种方式,InfGen学会了如何将一个紧凑的“内容表示”渲染成细节丰富、纹理清晰的高质量图像,并且这个过程与具体的分辨率无关。
为了实现这一点,InfGen的架构中引入了 隐式神经位置编码(Implicit Neural Positional Embedding, INPE),使其能够动态处理不同尺寸的输入和输出,这是实现分辨率无关能力的关键技术。
2. 推理:即插即用,一步生成
在推理阶段,InfGen展示了其“即插即用”的强大威力:
- 用户提供文本提示,使用任何一个现有的、预训练好的LDM(如SD 1.5, SDXL, DiT等)生成一个标准的、固定大小的潜在向量。
- 将这个潜在向量直接送入已经训练好的InfGen生成器。
- InfGen一步到位,直接将这个潜在向量解码成用户指定分辨率的最终图像,无论是1024x1024,还是4096x4096,甚至是各种奇特的长宽比。
CV君认为,这种范式非常优雅。它保留了现有庞大的扩散模型生态,无需重新训练这些耗资巨大的模型。InfGen就像一个可插拔的“高清显示驱动”,任何使用标准VAE潜在空间的模型,都可以通过加载InfGen来瞬间获得“任意分辨率”生成能力。
实验结果:速度与质量的双重胜利
InfGen的效果堪称惊艳,在生成速度和图像质量上都取得了突破。
1. 速度的革命:4K生成<10秒
速度是InfGen最引人注目的优势。如下表所示,当与其他高分辨率生成方法对比时,InfGen+SDXL的组合在生成2K和4K图像时展现了压倒性的速度优势。生成一张4K图像(4096x2048),之前最快的方法(UltraPixel)需要20秒,而InfGen仅需 7.3秒(5.4s用于SDXL生成latent,1.9s用于InfGen解码),实现了数量级的提速。

2. 质量的飞跃:高清细节,任意可变
速度的提升并未以牺牲质量为代价。InfGen生成的图像在各种分辨率下都保持了极高的照片真实感和丰富的细节。

定量分析也证实了这一点。如下表所示,将InfGen应用于DiT、SD 1.5等多种模型后,在不同分辨率下的生成质量指标(如FID)都获得了显著提升,尤其是在高分辨率下,FID的提升幅度高达 41% 以上。

此外,InfGen本身作为一个强大的图像解码器(tokenizer),其重建质量也优于或持平于现有的VAE模型。

可视化结果

总结与展望
InfGen 为可扩展的图像合成领域提供了一个全新的、高效的、分辨率无关的生成范式。其核心贡献在于:
- 提出了解耦内容与渲染的新思想:将LDM的核心任务聚焦于生成固定大小的“内容”潜在向量,而将“渲染”任务交给一个专门训练的、分辨率无关的生成器。
- 实现了“即插即用”的升级:InfGen可以作为一个独立的解码器模块,无缝替换现有LDM中的VAE解码器,使海量的存量模型能够立刻进入“任意高分辨率”时代,而无需重新训练。
- 带来了数量级的效率提升:将4K图像的生成时间缩短至10秒以内,极大地降低了高分辨率内容创作的门槛,使其在消费级硬件上的实时应用成为可能。
总而言之,InfGen的出现,标志着潜在扩散模型的发展进入了“第二代”。它不仅解决了高分辨率生成的核心瓶颈,其模块化的设计思想也为未来生成模型的演进开辟了新的道路。可以期待,一个由InfGen驱动的、真正实现“分辨率自由”的AIGC新时代即将到来。
...
#IC-Custom
统一框架的多样化图像定制(万物迁移)新探索
腾讯 ARC Lab 团队推出IC-Custom,为创意设计带来了新突破。IC-Custom不仅能替换图片中的物品或场景,还能让虚拟角色出现在全新的环境中,而且效果非常自然,无论是身份一致性、整体和谐度还是文本对齐度,都达到了很好的效果。
图像定制(Image Customization)是工业级媒体生产中的核心需求——无论是虚拟试衣、商品植入,还是创意IP衍生,都需要让生成的图像与参考保持身份一致。
传统方法通常分为两类:
- 位置相关(Position-aware):需要在指定位置 (例如遮罩指定) 进行定制,比如“替换图中的商品”。

- 位置无关(Position-free):不依赖具体位置,从零生成符合参考身份的新图像,比如“让某个角色出现在全新的场景里”。

然而,这两类方法往往相互独立,缺乏一个统一框架来灵活应对多种需求。
腾讯ARC Lab团队开源了全新研究成果 IC-Custom —— 一个通过 In-Context Learning 实现的 统一、多场景图像定制框架。
项目主页:https://liyaowei-stu.github.io/project/IC_Custom/
代码链接:https://github.com/TencentARC/IC-Custom
01 社区适配与支持
值得一提的是,社区开发者已经将 IC-Custom 适配到了 ComfyUI 工作流,方便大家快速体验:
ComfyUI 节点:
RunningHub 工作流:
ComfyUI演示视频:
- https://www.bilibili.com/video/BV17gaCz7EWM/?spm_id_from=333.337.search-card.all.click&vd_source=b08a459ef4b115fe7614b270fe47627a
- https://www.bilibili.com/video/BV1bHYPz8EUi/?vd_source=b08a459ef4b115fe7614b270fe47627a
02 IC-Custom 的核心亮点
- 统一框架
- 同时支持 位置相关(精确或用户绘制mask)、位置无关(从零生成)定制场景。
- 一个模型搞定多种任务,避免了以往需要单独训练多个模型的局限。
- 创新的 In-Context Multi-Modal Attention (ICMA) 机制
- 引入可学习的任务标记(task-oriented register tokens)与边界感知位置嵌入 (boundary-aware positional embeddings),有效解决任务混淆与边界歧义问题。
- 高质量生成
- 精心收集了 1.6万+ 高质量样本,包含真实与合成数据,覆盖服装、家具、饰品等场景。
- 数据分辨率普遍超过 1024×1024,保证了生成的细节与真实性。
- 轻量高效
- 仅需训练 原模型0.4%参数(4926万),就能取得表现优于社区工作流(FLUX.1 Fill 万物迁移)和闭源模型的表现。

03 实验与评估
- 在 ProductBench 与 DreamBench 上,IC-Custom 在身份一致性、整体和谐度、文本对齐度三大指标上均取得显著提升现有方法。
- 人类偏好测试中,IC-Custom 获得了约 73% 的偏好提升。
- 无论是带mask的定制场景,还是完全自由的生成场景,IC-Custom 都能生成高质量、和谐且身份一致的图像。


04 应用场景
- 虚拟试衣:快速生成多角度、多场景的试穿效果
- 配饰摆放:轻松模拟饰品、家居、商品的多种展示方案
- 创意IP衍生:动漫角色、虚拟人物在不同环境下的个性化生成


IC-Custom 让 AI 生成更懂“定制”,为 工业生产与创意设计带来更多可能性。
,时长01:08
05 了解更多
论文地址:https://arxiv.org/abs/2507.01926v2
项目主页:https://liyaowei-stu.github.io/project/IC_Custom/
开源代码(欢迎Star ):https://github.com/TencentARC/IC-Custom
..
#SwiftVideo
腾讯、复旦、上海创智学院提出:首个Continuous-time视频蒸馏加速框架,实现业界最快最高清视频生成
本篇分享论文SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment,腾讯、复旦、上海创智学院联合提出SwiftVideo:通过轨迹与分布对齐,实现少步数高质量视频生成。
- 论文标题: SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment
- 作者: Yanxiao Sun, Jiafu Wu, Yun Cao, Chengming Xu, Yabiao Wang, Weijian Cao, Donghao Luo, Chengjie Wang, Yanwei Fu
- 机构: 腾讯,复旦大学,上海创智学院
- 论文地址: https://arxiv.org/abs/2508.06082
研究背景和意义
近年来,基于扩散模型或流模型的视频生成在生成高质量视频方面取得了显著进展。然而,这些模型通常需要多次迭代采样,导致高计算成本和较长的生成时间,这限制了其在实际应用中的推广。为了解决这个问题,学术界提出蒸馏方法来降低模型采样步数,主要分为:
- 基于轨迹保持(Trajectory-preserving)的蒸馏:如LCM、PCM等,利用一致性损失来最小化推理步数,但在少步设置下容易产生模糊输出,并且数值ODE求解器会引入额外的离散化误差。
- 基于分布匹配(Distribution-matching)的蒸馏:如DMD2等,训练学生模型来近似教师模型的分布,但这种方法本质上将学生模型的性能上限限制在了教师模型水平,且可能因过度依赖分布约束而导致域不一致性。
研究团队通过深入分析识别出现有方法的三个关键局限:在之前离散一致性模型(consistency model)中由于数值ODE求解器会引入额外的离散化误差;教师模型分布带来的性能上限;极少步数推理下生成质量的退化。
为系统性地解决这些局限,研究团队提出了SwiftVideo:一个结合了轨迹保持和分布匹配策略的优势的统一蒸馏框架。该框架包括三个核心组件:连续一致性蒸馏(CCD),分布对齐(DA)和轨迹对齐(TA)。
方法

连续一致性蒸馏(Continuous-time Consistency Distillation)
与传统离散时间一致性模型不同,SwiftVideo引入了连续时间一致性蒸馏,确保精确的ODE轨迹保持。同时连续一致性蒸馏不依赖数值ODE求解器,避免了传统方法中的离散化误差。受sCM启发,研究团队使用Tangent Warmup和Tangent Normalization来稳定训练过程。同时研究团队设计了block-wise的迭代JVP计算来控制训练中现存开销。完整的连续一致性蒸馏算法如下图所示。

分布对齐 (Distribution Alignment)
虽然连续一致性蒸馏能够实现精确的轨迹保持,但生成结果仍会表现出一致性模型固有的模糊特性。为此研究团队引入分布对齐来提升生成视频的视觉细节和真实感。不同于之前让模型近似教师分布的方法,研究团队通过在视频spatial和temporal维度上的对抗训练直接对真实数据分布进行近似。
为了训练的稳定性,我们在连续一致性蒸馏经过之后引入分布对齐。整体的分布对齐的目标式子如下所示,其中是个超参数,表示spatial或者temporal的判别头。

轨迹对齐(Trajectory Alignment)

研究团队观察到,经过分布对齐的蒸馏模型在低步数区间内随着步数增加会显现显著的质量改善。基于这一观察,提出了轨迹对齐作为后训练策略。上图展示了低步数推理轨迹与高步推理轨迹隐式对齐的过程。
轨迹对齐的具体做法:首先利用不同步数生成的视频构建合成偏好数据集,然后采用直接偏好优化算法(DPO)隐式地将低步数推理轨迹与高步数推理轨迹对齐,同时引入reflow loss作为正则化项,防止训练过程中的轨迹偏离。综上轨迹对齐整体训练目标为, 其中定义如下。

实验结果和分析
研究团队将Wan2.1-FUN-inp-480p-1.3B作为基础模型在公开数据集OpenVID上进行实验,同时随机选取数据集中的1000个视频进行评测。在连续时间一致性蒸馏和分布对齐中,研究团队将训练视频的分辨率固定为832 × 480,帧数为61。在该阶段以的学习率对模型进行全参训练,训练3000步。默认的指数移动平均(EMA)衰减率为0.95,为1000,为0.01。在轨迹对齐阶段,研究团队先让蒸馏后的模型分别用4步和8步生成大小为5000的合成偏好数据集。之后以的学习率在该偏好数据集上对模型进行LoRA微调,训练2000步。为了进一步提升模型2-step生成质量,研究团队使用2步和4步生成偏好数据集用同样的方法进行轨迹对齐。上面所有的训练都使用AdamW优化器,实验中默认使用Euler采样器进行采样。

上表展示量化实验结果。SwiftVideo在FVD和VBench-I2V(Video Benchmark for Image-to-Video)指标上和其他蒸馏方法(DMD2、LCM、OSV等)进行全面对比。在相同步数推理下,SwiftVideo在FVD和VBench指标上均超过其他蒸馏方法。值得注意的是SwiftVideo 4步生成的结果在Frame Quality上接近教师模型,并且在image-conditioning分数上超过教师模型25步推理结果。

上图为SwiftVideo和其他方法的定性比较,可以看到SwiftVideo生成的视频在视觉清晰度、细节丰富度和真实感方面更为优秀,同时展现了更少的伪影。
消融实验

消融实验验证了SwiftVideo各个组件(连续一致性蒸馏CCD,分布对齐DA和轨迹对齐TA)的有效性。

上图验证了在轨迹对齐中利用合成数据的有效性,另外也验证了使用reflow loss作为DPO训练正则项能够提升训练稳定性,防止轨迹偏移。
论文的贡献和价值
- 研究团队手动实现了雅可比矩阵实现代码,使得连续时间蒸馏在视频上可行。
- spatial和temporal维度上的对抗训练直接对真实数据分布进行对齐。
- 首个通过RL(DPO)实现蒸馏过程中轨迹对齐。
#MovingDroneCrowd
MovingDroneCrowd:动态无人机视角下密集行人视频计数、跟踪新基准!
本篇分享 ICCV 2025 highlight 论文Video Individual Counting for Moving Drones,介绍动态无人机视角下密集行人视频计数、跟踪新基准!
- 录用信息:ICCV 2025 highlight
- 论文题目:Video Individual Counting for Moving Drones
- 论文作者:Yaowu Fan, Jia Wan, Tao Han, Antoni B. Chan, Andy J. Ma
- 研究机构:中山大学,哈尔滨工业大学(深圳),香港科技大学,香港城市大学
- 项目主页 / 数据集下载:https://github.com/fyw1999/MovingDroneCrowd
- 论文链接:https://www.arxiv.org/abs/2503.10701
🌍 研究背景
随着无人机的普及,无人机在计算机视觉中的应用越来越广泛,例如交通管理、公共安全、旅游景点的人群分析等。相比固定摄像头,无人机具有机动灵活、视野广阔的优势,能够捕捉到更加多样和复杂的人群场景。
然而,当前研究仍存在两大痛点:
- 缺少数据集:现有数据大多基于固定摄像头或者低动态无人机,缺乏动态无人机视角下的密集人群视频数据集。
- 缺少算法:传统的定位 + 跨帧匹配算法在高动态、密集人群场景中误差累积严重,难以胜任视频级别的人群计数。
基于此,我们提出了MovingDroneCrowd 数据集和SDNet 算法,共同填补这一研究空白。
📂 MovingDroneCrowd 数据集

数据集示例
我们构建的MovingDroneCrowd是首个可用于视频人群计数、跟踪的由动态无人机在密集人群场景下拍摄的视频数据集,具有以下特点:
- 多样场景:涵盖商圈、景点等真实复杂的人群聚集地。
- 条件变化:包含不同飞行高度、拍摄角度、光照条件,全面模拟无人机实际应用场景。
- 高质量标注:
- 精确的行人头部框标注
- 完整的行人身份ID标注,可支持视频行人计数与行人跟踪任务
👉 这意味着,MovingDroneCrowd 同时也是动态无人机视角下密集行人跟踪算法的挑战性基准。
🧠 SDNet:Shared Density-map guided Network

算法框架
为了突破传统定位+匹配方法在复杂场景下的局限,我们提出了SDNet(Shared Density-Map guided Network),其核心思想是利用密度图差分来完成视频行人计数:
- 共享密度图(Shared Density Map)
- 给定相邻两帧,计算每一帧的共享密度图,包含了当前帧与相邻帧中共同出现的行人的密度图。
- Inflow & Outflow Density Map 计算
- 用全局密度图减去共享密度图,得到 新进入 (Inflow) 和 离开 (Outflow) 的行人密度图。
- 视频级别计数
- 将序列中每一帧的inflow density map累积,即可得到视频片段中身份不同行人的总数。
通过绕开对“定位 + 跨帧匹配”的依赖,SDNet在复杂动态无人机场景中展现出了更高的稳健性与准确性。
📊 实验结果

实验结果
📈 定量分析
我们在 MovingDroneCrowd 上对比了现有的主流方法:
- 基于多目标跟踪的算法:在复杂无人机场景中表现不佳,误差大,鲁棒性差。
- 基于定位+跨帧匹配的算法:比基于跟踪的方法略好,但是效果仍然不够理想。
- SDNet:取得了 显著优势,能够更加准确地完成视频人群计数。
🎯 定性分析

可视化结果
本方法计算的Inflow 和 Outflow 密度图反映了视野范围内行人的进入与离开情况。虽然仍存在一些错误响应,但它们的数值被有效地抑制了。

对比可视化结果
基于定位和跨帧匹配的方法在定位和匹配上都出现了明显错误,尤其是匹配几乎完全不正确。这表明,以往基于定位和匹配的方法难以有效应对动态且密集的场景。
📌 总结
我们的工作主要贡献包括:
- 数据集贡献:提出了首个动态无人机密集人群视频数据集MovingDroneCrowd,可用于视频人群计数与行人跟踪两大任务。
- 算法贡献:设计了SDNet,通过先求共享密度图,再与全局密度图相减得到inflow密度图,有效解决了复杂动态场景下的视频计数难题。
- 实验结论:在 MovingDroneCrowd 上,SDNet 显著优于其他相关方法。
..
#I-Segmenter
首个全整数ViT分割框架,模型压缩3.8倍,推理加速1.2倍
Vision Transformers (ViTs) 在语义分割任务中取得了巨大成功,但其高昂的计算和内存成本限制了在手机、嵌入式设备等资源受限平台上的应用。模型量化是提升效率的关键技术,但ViT分割模型在低精度下表现脆弱,量化误差会在深层网络中不断累积,导致精度严重下降。
针对这一挑战,来自法国巴黎萨克雷大学的研究者们提出了 I-Segmenter,这是 首个完全实现全整数(integer-only)运算的ViT语义分割框架。I-Segmenter直译为“整数分割器”,其核心思想是将模型中的浮点运算全部替换为整数运算,从而在边缘设备上实现高效推理。实验证明,该框架能在精度仅有轻微损失的情况下,实现高达 3.8倍 的模型压缩和 1.2倍 的推理加速,展现了其在实际部署中的巨大潜力。
- 论文标题: I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation
- 作者: Jordan Sassoon, Michal Szczepanski, Martyna Poreba
- 机构: 巴黎萨克雷大学
- 论文地址: https://arxiv.org/abs/2509.10334
研究背景
语义分割是计算机视觉的基础任务之一,要求模型对图像中的每个像素分配一个类别标签。近年来,Vision Transformer凭借其强大的全局上下文建模能力,在该领域取得了SOTA(State-of-the-Art)效果。然而,ViT的自注意力机制计算复杂度与输入图像尺寸的平方成正比,这导致了巨大的计算和内存开销,使其难以部署在计算资源和功耗受限的边缘设备上。
量化(Quantization)是一种有效的模型压缩和加速技术,它将高精度的浮点数(如FP32)转换为低精度的整数(如INT8)。这样做的好处是:
- 减小模型体积: 整数占用的存储空间远小于浮点数。
- 加快推理速度: 整数运算在许多硬件上(特别是专为AI设计的NPU)比浮点运算更快。
- 降低功耗: 整数运算能耗更低。
然而,将量化直接应用于基于ViT的分割模型并非易事。ViT模型对量化噪声非常敏感,尤其是在深层的编码器-解码器结构中,微小的量化误差会逐层传递并放大,最终导致严重的精度下降。此外,ViT中的一些非线性操作,如GELU和Softmax激活函数,其数值分布呈现“长尾”特性,使用常规的均匀量化方法难以精确表示,如下图所示,大部分信息集中在0附近,而少数离群值范围很广,这给量化带来了巨大挑战。

I-Segmenter:全整数化的分割框架
为解决上述问题,论文提出了I-Segmenter框架。它基于经典的Segmenter架构,通过一系列系统性的设计,实现了从编码器到解码器的端到端全整数运算。

整体架构与量化方案
I-Segmenter的核心思想是将Segmenter模型中的每一个浮点运算操作符(Operator)替换为其对应的整数版本。这包括线性层(Linear)、卷积层(Conv2d)、矩阵乘法(MatMul)、归一化层(LayerNorm)和激活函数等。论文采用了对称均匀量化方案,将FP32张量映射到INT8范围,并通过一个缩放因子(scaling factor)来保持数值的动态范围。

激活函数难题与λ-ShiftGELU
GELU激活函数是ViT中的关键组件,但其平滑的非线性和长尾分布使其成为量化的一大难点。先前的工作如I-ViT提出了ShiftGELU,使用移位和加法等整数运算来近似GELU。然而,作者发现ShiftGELU在处理较大的模型时,其近似误差会急剧增加,导致模型不稳定。
为解决此问题,论文提出了一种新颖的激活函数 λ-ShiftGELU。它在ShiftGELU的基础上引入了一个可学习的标量参数λ,用于放宽数值裁剪(clamping)的下界。这个简单的修改极大地提升了对原始FP32 GELU函数的近似保真度,尤其是在较大的模型中,有效缓解了量化带来的信息损失。

如下方的分布图和误差表所示,与基线ShiftGELU相比,λ-ShiftGELU的输出分布(右)更接近原始的FP32 GELU(左),其近似误差(RMSE)也显著降低。


实现全整数计算图
为了构建一个完全的整数计算流程,论文还进行了两项关键的架构修改:
- 移除L2归一化层: 在解码器中,原始的Segmenter模型使用L2 Normalization来平滑特征。然而,L2 Norm包含开方运算,难以用整数高效实现。作者发现,移除该层并依赖后续的对称量化也能起到控制数值范围的作用,虽然会带来轻微的精度下降,但保证了全整数流程的完整性。
- 替换双线性插值为最近邻插值: 上采样操作在分割模型中至关重要。双线性插值(Bilinear Interpolation)涉及浮点加权平均,与整数运算不兼容。因此,作者将其替换为更简单且硬件友好的最近邻插值(Nearest Neighbor Interpolation),确保了整个解码过程的整数化。
实验与结果
论文在ADE20K和Cityscapes两个主流语义分割数据集上,对I-Segmenter进行了全面的评估。实验涵盖了两种量化策略:训练后量化(Post-Training Quantization, PTQ)和量化感知训练(Quantization-Aware Training, QAT)。
推理后端与部署
为了真实评估性能,作者在PyTorch、ONNX Runtime、TensorRT和TVM等多种推理后端上进行了测试。值得注意的是,只有TVM通过精细的算子融合和内核级控制,真正实现了端到端的全整数推理。其他后端在遇到不支持的整数算子时,会回退到FP32执行,无法发挥量化的全部优势。

精度与效率分析
精度方面:在ADE20K数据集上,QAT版本的I-Segmenter与FP32基线相比,mIoU(平均交并比)仅下降了约3.5个点。即使是要求极为苛刻的“一次性PTQ”(One-shot PTQ,仅用一张校准图像),在λ-ShiftGELU的帮助下,模型依然保持了有竞争力的精度,而标准的ShiftGELU则几乎完全失效。这充分证明了λ-ShiftGELU的稳定性和有效性。

在Cityscapes数据集上,也观察到了类似的趋势。QAT将精度损失控制在5个点以内。

效率方面:PTQ的校准时间极短,即使使用500张图片,最大模型的校准也仅需约82秒,而QAT则需要数小时到数十小时的训练时间。

在模型大小和延迟方面,I-Segmenter取得了显著成果。如下表所示,与FP32模型相比,INT8模型的体积 最多可压缩3.8倍(例如ViT-S从100MB降至26MB)。在TVM后端上,大模型的 端到端推理延迟最多可降低1.2倍。

此外,在内存流量(读写比特数)方面,I-Segmenter也展现出巨大优势,总比特数减少了2.3到3.3倍,这意味着更低的功耗和更高的能效。

总结
论文提出了I-Segmenter,首个用于语义分割的全整数Vision Transformer框架。通过系统性地将浮点运算替换为整数运算,并引入创新的 λ-ShiftGELU 激活函数来稳定量化过程,成功地在保持较高精度的同时,显著降低了模型的体积、内存占用和推理延迟。
这项工作不仅为在资源受限设备上部署高性能ViT分割模型提供了一个切实可行的解决方案,也为未来研究更低比特(如4位甚至2位)的ViT量化指明了方向。论文验证了在TVM等可定制化编译器的支持下,实现真正端到端整数推理的可行性,对推动AI在边缘计算领域的落地具有重要的实践意义。
...
#LightVLA
理想汽车、清华等提出:计算量-59%,成功率+2.9%,实现VLA模型效率与性能双赢
在xx智能领域,视觉-语言-动作(Vision-Language-Action, VLA)大模型正引领着一场技术革命,让机器人能够理解复杂的指令并与真实世界交互。然而,强大的能力背后是巨大的计算开销。VLA模型在处理海量视觉信息时,其基于注意力机制的计算成为一个难以逾越的瓶颈,极大地限制了它们在自动驾驶汽车、家用机器人等资源受限平台上的实时部署。
来自理想汽车、清华大学和中科院的研究者们提出了一种名为 LightVLA 的解决方案,巧妙地回答了这个问题。这篇题为 《The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning》 的论文,提出了一种简单而高效的可微分视觉令牌(Token)裁剪框架。
LightVLA的核心思想颇具颠覆性:智能地“剪掉”多余的视觉信息,不仅能让模型跑得更快,还能让它变得更“聪明”。通过一种性能驱动的自适应裁剪机制,LightVLA在将计算量(FLOPs)和延迟分别惊人地降低 59.1% 和 38.2% 的同时,竟然还实现了 2.9% 的任务成功率提升,完美打破了“性能”与“效率”不可兼得的魔咒。
- 论文标题:The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning
- 作者:Titong Jiang, Xuefeng Jiang, Yuan Ma, Xin Wen, Bailin Li, Kun Zhan, Peng Jia, Yahui Liu, Sheng Sun, Xianpeng Lang
- 机构:理想汽车, 清华大学, 中国科学院
- 论文地址:https://arxiv.org/abs/2509.12594
- 项目主页:https://liauto-research.github.io/LightVLA
- GitHub仓库:https://github.com/liautoad/lightvla
研究动机:VLA模型的“甜蜜负担”
VLA模型通常建立在大型语言模型(LLM)之上,通过引入视觉模块来感知世界。当机器人执行任务时,它需要处理来自多个摄像头、连续不断的视频流。这些图像被转换成成百上千的视觉令牌(Visual Tokens),与语言指令令牌一起输入到模型的注意力层中。
问题在于,自注意力机制的计算复杂度与输入令牌数量的平方成正比(O(n²))。当视觉令牌数量庞大时,计算成本急剧上升,导致高延迟,这对于需要实时反应的机器人系统是致命的。

上图直观地展示了LightVLA的优越性:在大幅减少视觉令牌数量的同时,其任务成功率超越了众多现有的VLA模型和加速方法。
现有的模型压缩方法,如剪枝、量化等,往往追求效率而牺牲性能。特别是对于令牌裁剪,很多方法依赖于固定的裁剪比例或启发式规则,这不仅需要大量调参,还可能“误伤”对任务至关重要的信息。LightVLA的提出,正是为了解决这一困境,探索一条效率和性能协同优化的新路径。
核心方法:LightVLA如何智能“剪枝”?
LightVLA的框架简洁而优雅,其核心是一个可微分的、端到端学习的令牌选择过程。它不引入任何额外的可训练参数,使其极易与现有模型集成。整个过程分为三步:

1. 动态查询生成 (Dynamic Query Generation)
如何判断哪些视觉令牌更重要?直觉上,与当前任务指令最相关的视觉区域更重要。例如,当指令是“把牛奶放进篮子”时,模型应该更关注图像中的“牛奶”和“篮子”。
LightVLA通过视觉令牌和语言指令令牌之间的交叉注意力(Cross Attention)来生成一组动态查询(Token Queries)。这些查询向量融合了任务意图,可以被看作是派出去寻找“有用”视觉信息的“侦察兵”。
2. 令牌打分 (Token Scoring)
每个“侦察兵”(查询向量)都会与所有的视觉令牌进行匹配度计算(点积),得出一个分数。这个分数代表了每个视觉令牌对于该查询的重要性。所有查询向量与所有视觉令牌计算后,就形成了一个重要性得分矩阵。
3. 可微分令牌选择 (Differentiable Token Selection)
这是LightVLA最关键的一步。最直接的选择方法是,让每个查询都选择得分最高的那个视觉令牌(Argmax操作)。但问题是,Argmax是不可微分的,梯度无法回传,导致模型无法学习“如何选择”。
为了解决这个问题,LightVLA巧妙地引入了 Gumbel-Softmax 技巧。Gumbel-Softmax可以看作是Argmax的一个“平滑”版本,它在提供与Argmax相似的“one-hot”选择结果的同时,保持了操作的可微性。这样,在模型训练时,梯度就可以顺利地通过这个选择过程,让模型根据最终的任务损失(比如机器人动作的误差)来端到端地学习如何生成最佳的查询,从而选出对完成任务最有利的视觉令牌组合。
整个过程是 性能驱动 的:裁剪策略的好坏完全由最终任务的成功与否来评判和优化。模型为了获得更好的任务表现,会自发地学会保留关键信息、剔除无关或噪声信息,这正是论文标题“越学越会剪”的精髓所在。
实验结果与分析
研究团队在xx智能领域权威的 LIBERO 基准上对LightVLA进行了全面评估。LIBERO包含多种复杂的、长序列的机器人操作任务。
性能与效率双丰收

上表清晰地展示了LightVLA的加速效果。与基线模型OpenVLA-OFT相比,LightVLA在只使用平均 78 个视觉令牌(基线为512个)的情况下:
- 计算量(TFLOPs) 从8.8降至3.6,减少了 59.1%。
- 端到端延迟 从34ms降至21ms,减少了 38.2%。
- 平均任务成功率 从94.5%提升至 97.4%,净增 2.9% 。
这一结果在所有VLA加速方法中是独一无二的,其他方法或多或少都牺牲了性能来换取效率。

在与更多VLA模型的横向对比中,LightVLA同样展现了SOTA(State-of-the-Art)的性能,在所有四个任务套件上均取得了极高的成功率。
可视化分析:模型在“看”哪里?

上图展示了在“把两个摩卡壶都放到炉子上”这个长序列任务中,LightVLA在不同阶段的注意力焦点。被遮蔽(Masked)的区域代表被裁剪掉的令牌。可以清晰地看到,模型学会了动态地将注意力集中在任务相关的物体上,如摩卡壶、炉子以及机械臂本身,而忽略了大量的背景信息。这直观地证明了LightVLA自适应裁剪的有效性。
LightVLA*:引入可学习查询的探索
研究者还探索了LightVLA的一个变体—— LightVLA*,它引入了额外的可学习参数作为查询。实验发现,这种方法同样能取得优异的性能,进一步验证了基于查询的自适应裁剪框架的潜力。


总结与展望
LightVLA 的提出,为解决VLA大模型在xx智能设备上的部署难题提供了一个全新的、高效的视角。它最重要的贡献在于:
- 首次 将自适应、可微分的视觉令牌裁剪成功应用于VLA任务,并实现了效率和性能的协同提升。
- 证明了“智能剪枝”的价值:通过剔除冗余视觉信息,不仅能降低计算负载,还能减少噪声干扰,从而让模型更专注于核心任务,最终提升决策质量。
- 提供了一个即插即用的通用框架:其无额外参数、无需启发式规则的设计,使其可以方便地应用于各种VLA模型,加速其在真实世界场景中的落地。
CV君认为,LightVLA背后的“性能驱动剪枝”思想极具启发性。对于大模型而言,“少即是多”不仅可能,而且可以通过端到端学习优雅地实现。这项工作无疑为开发更高效、更强大、更实用的实时机器人系统迈出了坚实而重要的一步。
..
#OnlineHOI
首次定义在线HOI任务,让AI实时理解人与物交互
当前的AI在理解人与物交互(Human-Object Interaction, HOI)时,像不像一个开了“上帝视角”的玩家?它总能看到整个交互过程的“完整录像”,包括未来发生什么,然后再回头去“预测”某一时刻的动作。这种“事后诸葛亮”式的离线(Offline)设定,在机器人、AR/VR等需要实时反应的真实世界里显然行不通。
为了打破这一困境,来自深圳大学、清华大学、中山大学等机构的研究者们,在一篇被ACMMM 2025接收的论文《OnlineHOI: Towards Online Human-Object Interaction Generation and Perception》中,首次提出了两个更贴近现实的新任务:在线HOI生成与感知。更重要的是,他们提出了一个名为 OnlineHOI 的全新框架,创新地采用最近大火的Mamba架构,并结合记忆机制,成功地让AI学会了“活在当下”,仅根据当前和过去的信息进行决策。实验表明,OnlineHOI在多个在线HOI任务上取得了SOTA性能。
- 论文标题: OnlineHOI: Towards Online Human-Object Interaction Generation and Perception
- 作者: Yihong Ji, Yunze Liu, Yiyao Zhuo, Weijiang Yu, Fei Ma, Joshua Huang, Fei Yu
- 机构: 深圳大学,清华大学,人工智能与数字经济广东省实验室,中山大学
- 录用会议: ACM MM 2025
- 论文地址: https://arxiv.org/abs/2509.12250
离线 vs. 在线:HOI研究的“理想”与“现实”
HOI的感知(识别交互动作)和生成(预测交互动作)是xx智能的核心。然而,以往的研究大多在一种“理想化”的离线(Offline)设定下进行。

- 离线设定 (Offline Setting) :如上图(a)所示,在处理一个时间序列时,模型在任何一个时间点
t,都可以访问到整个序列的信息,包括t时刻之前和之后的所有帧。这在真实应用中是不可能的,因为我们无法“预知未来”。 - 在线设定 (Online Setting) :如上图(b)所示,这更符合真实世界。在时间点
t,模型只能利用当前时刻和过去(t及t之前)的信息来进行预测或生成。这要求模型具备处理流式数据(Streaming Data)和记忆历史信息的能力。
研究者们发现,将那些在离线设定下表现优异的模型直接放到在线场景中,其性能会急剧下降。这暴露了当前HOI研究与实际应用之间的巨大鸿沟。因此,本文的重大意义在于:
- 首次定义了新问题:正式提出了“在线HOI生成”和“在线HOI感知”这两个新任务,推动领域向更实际、更具挑战性的方向发展。
- 提出了首个有效解决方案:设计了OnlineHOI框架,为解决这一新问题提供了强有力的基线和SOTA方法。

OnlineHOI:Mamba与记忆机制的强强联合
为了应对在线设定的挑战,模型必须高效地处理时序数据流,并有效地利用历史信息。传统的Transformer架构由于其自注意力机制的全局计算特性,在处理长序列和流式数据时面临计算量和内存的巨大挑战,天然不适合在线场景。因此,作者将目光投向了近期的明星架构——Mamba。

OnlineHOI的整体架构如上图所示,它由Mamba块和记忆增强块组成,形成一个编码器-解码器结构。
Mamba主干:为流式数据而生
Mamba是一种状态空间模型(State Space Model, SSM),其核心优势在于它以一种循环和递归的方式处理序列数据。与Transformer需要一次性看到所有数据不同,Mamba可以逐个时间步地处理输入,同时通过一个“状态”变量来传递历史信息。这使得它在处理长序列时具有线性的计算复杂度和卓越的性能,非常适合在线的流式数据建模。
在OnlineHOI中,编码器和解码器都采用了单向的Mamba块,确保在处理当前帧时,绝对不会“偷看”到未来的信息。
记忆增强模块:记住关键的过去
虽然Mamba本身能传递历史信息,但为了更明确、更高效地整合长期的关键历史知识,作者在编码器和解码器之间插入了一个记忆增强模块(Memory Augment block)。这个模块的作用类似于一个“记忆缓存”,它从编码器输出的状态中,提炼并“记住”那些对当前决策最重要的历史信息,然后将这些增强后的“记忆”传递给解码器。这使得解码器在生成或感知当前交互时,不仅知道“刚刚发生了什么”,还能参考“很久以前的关键动作”。
实验效果:在线任务的新SOTA
作者在在线HOI生成(Core4D, OAKINK2数据集)和在线HOI感知(HOI4D数据集)两个新任务上,对OnlineHOI框架进行了验证。
在线HOI生成任务
生成任务的目标是,给定一个“驱动者”(actor)的动作序列,实时生成一个“响应者”(reactor)的合理交互动作。

上图展示了在CORE4D数据集上的定性对比。

上图展示了在OAKINK2数据集上的定性对比。黄色的手是需要AI生成的“响应者”。可以看到,在案例1中,传统方法MDM和OMOMO生成的手无法与物体接触,而OnlineHOI生成的手能够紧紧握住。在案例2中,传统方法出现了明显的穿模,而OnlineHOI则没有这个问题。在案例3中,OnlineHOI也唯一成功地生成了正确的握笔姿势。
这些结果直观地表明,OnlineHOI能够生成更真实、更符合物理和交互逻辑的动作,因为它能更好地理解和利用历史上下文。
记忆模块的有效性
为了验证记忆增强模块的有效性,作者进行了消融实验。



上表展示了在生成任务中,加入(w/)和不加入(w/o)记忆模块的性能对比。结果显示,记忆模块的加入显著提升了模型的性能,证明了显式地整合历史关键信息对于在线HOI任务至关重要。
总结与贡献
这篇论文为HOI领域的研究带来了重要的贡献,可以总结为以下几点:
- 指出了核心问题,定义了新赛道:敏锐地指出了当前HOI研究中“离线”设定与“在线”应用之间的脱节,并首次明确定义了“在线HOI生成与感知”这一更具现实意义的新任务。
- 引入了前沿架构:率先将Mamba架构的强大流数据处理能力引入到HOI领域,为解决在线实时交互问题提供了全新的、高效的工具。
- 提出了OnlineHOI框架:通过将Mamba与记忆增强机制相结合,设计了一个简洁而强大的网络框架,在多个在线HOI任务上取得了SOTA性能。
CV君认为,这项工作最大的价值在于其“求真务实”的精神。它没有在旧的、理想化的设定上继续“刷点”,而是勇敢地指出现有范式的局限性,并着手定义和解决一个更接近真实世界应用的核心问题。这种研究思路的转变,以及对Mamba这类前沿技术的快速跟进和成功应用,无疑将推动HOI乃至整个xx智能领域向着更实用、更可靠的方向迈进。
















