#LiSe

澳门大学提出使用2D场景扩展无监督3D目标检测

论文提出一种新颖的基于伪标签的自适应学习框架LiSe。LiSe使用2D场景中的丰富语义信息增强无监督3D目标检测,同时提出自适应采样策略与弱模型聚合提升对难样本的识别。多个数据集上的量化实验与定性分析验证了提出框架的有效性,尤其是远小物体的检测能力得到显著提升。

论文:https://arxiv.org/abs/2407.08569

代码:https://github.com/Ruiyang-061X/LiSe

知乎解读:https://www.zhihu.com/question/660698707/answer/3575967153

引用:

@inproceedings{zhang2024approaching,
  title={Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene},
  author={Zhang, Ruiyang and Zhang, Hu and Yu, Hang and Zheng, Zhedong},
  booktitle={Proceedings of the European conference on computer vision (ECCV)},
  year={2024}
}

摘要

无监督的3D目标检测旨在在无明确监督信号的情况下,准确检测非结构化环境中的物体。在这种任务中,由于激光雷达点云稀疏以及空间分辨率有限,往往会导致在检测远处或小型物体时表现不佳。

在本文中,我们首次尝试将激光雷达数据与2D图像结合用于无监督的3D检测,并提出了一种新方法,称为LiDAR-2D自适应学习(LiSe)。我们认为,RGB图像是激光雷达数据的重要补充,特别是在某些物体的激光雷达点稀少时,它们提供了精确的2D定位线索。鉴于这两种模态的独特特性,我们的框架设计了一种自适应学习流程,其中包括自适应采样和弱模型聚合策略。自适应采样策略在训练过程中动态调整伪标签的分布,以应对模型过拟合易检测样本(如近距离和大尺寸物体)的趋势,从而确保在不同物体尺度和距离上的平衡学习轨迹。弱模型聚合组件整合了在不同伪标签分布下训练的模型的优势,最终形成一个强大而稳健的最终模型。实验评估验证了我们提出的LiSe方法的有效性,在nuScenes数据集上,相比现有技术,AP_BEV提高了7.1%,AP_3D提高了3.4%;在Lyft数据集上,AP_BEV提高了8.3%,AP_3D提高了7.4%。

介绍

51c视觉~合集19_视觉

在本文中,我们提出了一种新颖的LiDAR-2D自适应学习(LiSe)方法,用于无监督的3D检测,它将激光雷达数据与2D图像结合在一起。其目标是利用2D场景中丰富的纹理和RGB颜色信息,克服激光雷达在检测远距离和小型物体时的局限性(见图1)。我们采用多次遍历方法进行基于激光雷达的3D伪标签生成,同时使用2D检测和分割方法进行基于图像的3D伪标签生成。我们观察到,这两种模态在不同距离和分辨率的物体上是互补的,并且可以作为良好的初始种子。然后,我们应用自适应训练策略传播目标标签并优化预测。在训练过程中,我们观察到模型容易过拟合于常见类别,例如汽车,并逐渐失去检测相对稀有物体(如自行车)的能力。为了缓解此类长尾样本检测能力的减弱问题,我们引入了一种自适应采样策略,根据模型的反馈动态调整训练数据的分布。因此,我们可以在训练过程中获得在不同数据分布下训练的快照,这些快照本质上具有互补的关注点。我们进一步提出弱模型聚合策略,在自适应学习过程中融合所有快照权重,作为最终模型。我们进行了广泛的定量实验和定性分析,以验证我们方法的有效性。总之,我们的贡献总结如下:

  • 鉴于激光雷达数据的固有稀疏性,我们提出了LiSe,联合利用2D图像和3D激光雷达来改善各个范围内的伪标签质量。2D图像中的丰富纹理能够直观地发现小型和远距离的物体。
  • 针对自训练中物体分布不平衡的问题,我们提出了自适应采样策略,明确强调长尾物体,随后通过弱模型聚合,将不同快照的优势迭代融合到最终稳定模型中。
  • 在nuScenes和Lyft数据集上进行的大量实验验证了所提出方法的有效性,无论是AP_3D还是AP_BEV指标都显著超越了现有技术。尤其在远距离检测(50-80米)中,AP_BEV指标甚至超过了完全监督模型。

方法

51c视觉~合集19_视觉_02

51c视觉~合集19_视觉_03

激光雷达数据与2D场景的融合

基于激光雷达的3D伪标签。 在我们的工作中,我们采用多次遍历方法从激光雷达数据中提取重要的物体。我们计算每个点τ(u)的点持续性得分(ppScore),以量化该点是否属于不变或变化的物体。通过计算得到的ppScore,我们采用一种同时考虑ppScore相似性和点之间实际几何距离的聚类过程,将整个点云分割为不同的簇。最后,对每个簇应用现成的边界框拟合算法,生成3D框。

基于图像的3D伪标签。 我们采用开源词汇范围的2D检测器,例如GroundingDINO,首先在图像中识别具有辨识度的物体。为了从图像中估计3D框,我们应用了从3D到2D的投影过程。对于投影在掩码中的2D点,我们保留其对应的3D点。随后,我们应用区域增长算法来获取包含最多点的聚类。随后,根据该聚类估计紧密的外部3D边界框。

激光雷达与2D场景的融合。 为了增强来自激光雷达和图像的伪框在训练模型中的融合,我们采用了一种距离感知策略(见图2)。该方法充分利用了两种数据源的互补特性。首先,我们确定一个预定义的范围,然后选择性地将该范围内图像生成的框与激光雷达生成的框结合在一起。考虑到近距离的物体通常表现出高密度的激光雷达点,仅依靠激光雷达数据通常就足以进行精确估计。我们的距离感知策略通过调整范围值,灵活排除这些近距离区域中的图像生成框,以避免与激光雷达生成框的潜在冲突。

自适应采样策略

尽管将2D场景集成到3D伪框中能够召回遗漏的远距离和小型物体,模型在训练过程中仍倾向于偏向更容易的样本,例如近距离或大型物体。因此,我们提出了一种自适应采样策略,在整个训练阶段动态平衡不同物体(见图3)。我们首先提出了基于距离-体积的度量方法,利用3D世界中的一般属性(即距离和体积)对物体进行分类。基于该距离-体积度量,我们在训练前计算初始物体分布,并在训练后计算推理分布。我们分析这两个分布之间的差异:对于在推理分布中概率显著增加的物体组,我们在下一轮训练中自适应地对这些物体进行下采样。相反,对于推理过程中概率降低的物体组,我们相应地自适应上采样这些物体组。

弱模型聚合

在不同轮次中获得的模型往往在不同的物体组上表现更为出色,自适应采样策略分配了不同的采样比例。不同轮次中获得的模型各自具有独特的偏差,缺乏全面的检测能力。因此,我们将这些模型称为“弱模型”,并引入了弱模型聚合,将这些弱模型结合起来,生成一个更稳健、强大的模型(见图3)。我们从第T_s轮开始选择一个模型作为初始化。类似于权重平均方法,我们将后续轮次中的每个弱模型与之前聚合的强模型进行平均,所得模型作为当前轮次的强模型。我们引入了一个聚合系数λ,以平衡前一强模型与当前弱模型的影响。

基于伪标签的自适应学习

我们将集成的伪标签、自适应采样策略和弱模型聚合统一到一个自适应学习过程中(见图3)。具体而言,该过程包括两个阶段:种子训练和自训练。在种子训练阶段,使用集成的伪标签B_final训练一个初始检测器Θ_0。自训练是一个迭代过程,重复进行T轮。在第t轮中,由上一轮训练得到的检测器Θ_t−1首先在训练集上进行推理,以获取当前轮次的伪训练标签。然后,使用我们提出的自适应采样策略重新分配这些伪训练标签,以应对模型偏向易检测物体组(如近距离和大物体)的倾向。接着,利用更新后的伪标签训练新的检测器θ_t。弱模型聚合将当前轮次的弱模型θ_t与上一轮的强模型Θ_t−1聚合,形成当前轮次的强模型Θ_t。与普通的自训练不同,在我们的过程中,伪训练标签的分布根据模型反馈进行调整,从而形成了一个自适应学习过程。

实验

51c视觉~合集19_视觉_04

我们展示了nuScenes的结果,观察到LiSe显著优于所有现有方法(见表1)。特别是,与最先进的OYSTER相比,LiSe在0-80米范围内的AP_BEV提升了7.1%,AP_3D提升了3.4%。在其他距离范围内,如0-30米、30-50米和50-80米,LiSe也始终超越OYSTER,表现出普遍增强的检测能力。这些改进验证了我们提出的2D场景融合、自适应采样策略和弱模型聚合在提升模型整体检测能力方面的有效性。值得注意的是,LiSe在远距离(50-80米)上的AP_BEV甚至超过了完全监督结果。这些结果进一步证实了2D场景理解的引入显著增强了远距离和小型物体的检测能力。

51c视觉~合集19_视觉_05

我们在Lyft数据集上进一步进行了实验,使用了与nuScenes相同的超参数(见表2)。我们观察到,所提出的LiSe在所有评估指标上均超越了竞争对手MODEST。更重要的是,LiSe在远距离(50-80米)范围内的AP_BEV提升了19.4%,AP_3D提升了18.9%,这对整体性能提升贡献最大。这些结果验证了我们提出方法的有效性和广泛适用性。

结论

在本文中,我们介绍了用于无监督3D检测的LiSe框架。我们提出了与2D场景的融合,以提升在远距离和小型物体上的检测能力。在自适应学习过程中,我们进一步提出了自适应采样策略,以持续提升在挑战性样本上的感知能力。此外,我们引入了弱模型聚合,将在不同分布下训练的模型结合成一个最终的稳健模型。大量实验验证了我们方法的优越检测能力。全面的消融研究和定性分析也证明了每个提出模块的有效性。我们希望我们的工作能够推动2D与3D数据在无监督3D目标检测中的融合,并激发未来在相关领域的研究。



#Mamba®

Mamba该如何解决「伪影」问题?Mamba®:只需几个寄存器即可成为MVP!

ICLR24 杰出论文|解决监督与自监督视觉Transformer「伪影」问题!只需要再多来几个token

本文发现 Vision Mamba 中存在着与 Vision Transformer 中相似的 "伪影 (artifacts)" 现象[1]。这些伪影指的是一张图片中信息量较低的背景区域中出现的高范数 tokens,而且作者发现该现象在视觉 Mamba 中更加严重。在 ViT 里面只有尺寸相对比较大的模型存在 "伪影" 现象,而对于视觉 Mamba 而言,即使是小模型中也同样存在这个现象。

为了缓解这个问题,作者遵循 Vision Transformers Need Registers 的做法将 register tokens 引入 Vision Mamba 。register tokens 指的是区别于原有模型 tokens 之外的,一些新的,与输入无关的 tokens。它们会与原来的 image tokens 一起喂入 ViT 或者视觉 Mamba 模型。

为了更好地应对 Mamba Block 的单向推理范式,本文引入了2个关键的改进:

  1. 把 register tokens 均匀地插入输入 token 序列中。之前在[1]中,是把几个 register tokens 并排插入 image tokens 一侧,再把它们一起喂给 ViT。
  2. 在视觉 Mamba 模型的末端,将所有的 register tokens 进行 concat 起来之后,形成最终预测的综合图像表征,来进行预测。

作者把新的架构命名为 Mamba®。与原始的视觉 Mamba 架构相比,Mamba® 的特征图看起来更加清晰,更专注在语义有意义的区域。Mamba® 也获得了更好的性能,比如 Mamba®-B 在 ImageNet 上达到了 82.9% 的精度,优于 Vim-B 的 81.8%。

51c视觉~合集19_视觉_06

图1:Mamba® 的架构:通过将与输入无关的 register tokens 均匀地插入到输入序列中来解决 Vision Mamba 的伪影问题。在最后一层,将 register tokens 的输出连接起来,形成最终预测的全局表征

1 Mamba®:视觉 Mamba 也需要寄存器

论文名称:Mamba®: Vision Mamba ALSO Needs Registers (Arxiv 2024.05)

论文地址:https://arxiv.org/pdf/2405.14858

项目主页:https://wangf3014.github.io/mambar-page/

1.1 背景:视觉 Mamba 的特征中也存在 "伪影"

最近的状态空间模型 (State Space Models, SSMs) 展示了它们在序列建模任务中的巨大潜力。与 Transformer 中与序列长度呈现二次计算复杂度不同,SSM 模型具有线性计算复杂度,在处理长序列方面占有显著的效率优势。SSM 的一个典型架构是 Mamba[2],它使用选择性扫描技术以及一套硬件优化的设计。这种创新促进了线性计算复杂度和内存开销的循环模型的高效训练和推理。一些研究,比如 Jamba[3],也证明了 Mamba 架构能够实现与 Transformer 相当的很有竞争力的性能水平,尤其是在处理自然语言和音频方面。

此外,Mamba 架构也已成功应用于各种视觉任务[4][5]。这种扩展的动机主要来自处理高分辨率图像和视频所带来的计算量的挑战。这些数据类型通常会导致传统模型难以高效地处理的很长的输入序列。原因是对于较长的输入序列,卷积神经网络 (ConvNets) 等传统模型的感受野相对较小,而 Vision Transformers (ViTs) 会带来较大的计算和显存的代价。Vision Mamba (Vim) 架构有减少这些限制的潜力。它们不仅更高效地管理计算和内存需求,而且还在各种通用视觉任务 (包括分类、分割和图像生成) 中提供了强大的性能。

尽管性能具有竞争力,但本文观察表明,视觉 Mamba 内部存在着与 Vision Transformer 中相似的 "伪影 (artifacts)" 现象。"伪影" 指的是一些不正常 (范数很高) 的 tokens,具体而言这些 tokens 语义背景较少,但是却出乎意料地包含有丰富的全局信息[1]。

作者发现,在视觉 Mamba 架构中这种伪影问题不仅存在,而且实际上相比 ViT 更为严重。图1为 Vim[4]和本文 Mamba® 的特征图。如图 2 的第 2 列和第 4 列所示,"伪影" 在 Vim 的特征图中清晰可见。大量的比较大的激活值不仅涵盖了语义内容,而且还扩展到了信息量很少的背景区域。

51c视觉~合集19_视觉_07

图2:原始 Vision Mamba (Vim) 和本文 Mamba® 的特征图。Vim 的特征图中出现了大量的伪影,使模型难以关注图像中视觉上有意义的内容。相比之下,本文模型表现出了更加清晰的特征激活

1.2 视觉 Mamba 架构

SSM 的原始定义是一个线性时不变 (Linear Time-Invariant, LTI) 系统, 它将输入刺激 通过隐藏状态  投影到输出响应  。对于连续输入, 系统可以用一组线性常微分方程来表示, 如下所示:

51c视觉~合集19_视觉_08

其中,  是权重参数。

通过对这个常微分方程组进行离散化,可以使用连续时间 SSM 来处理离散输入,如语言、语音和图像像素。为此,模型可以求得解析解:

51c视觉~合集19_视觉_09

然后用零阶保持器近似,得到离散模型如下:

51c视觉~合集19_视觉_10

其中, 为离散输入的变换参数, 为估计离散区间的可学习参数。与循环推理模式不同,这种结构化 SSM (S4) 允许通过卷积过程进行高效计算:

51c视觉~合集19_视觉_11

其中,  为卷积核, 卷积过程为: 。

然而,线性时间不变性的结构状态空间模型的性质极大地限制了其拟合上下文信息的能力,因此很难进行缩放,并实现与 Transformer 架构相当的性能。选择性状态空间模型,也称为 Mamba 或 S6[2],通过引入与输入有关的参数  来改进它,从而得到一个时变系统,可以对更复杂的输入进行建模。值得注意的是,通过扫描算法,Mamba 模块可以通过并行计算有效地训练和推理。

为了使 Mamba 用于视觉任务,首先通过 ViT 中的补丁嵌入将图像处理成顺序输入。然而,标准的 Mamba 是一个单向模型,其中序列中的每个 token 只能访问来自前一个 token 的信息。这一特性虽然可以很好地处理一维语言信号,但极大地限制了模型从二维视觉信号中收集上下文信息的能力。为了克服这个限制,一种常见的解决方案是重新配置 Mamba block 以进行双向扫描。具体来说,序列从开始到结束再次从结束到开始扫描一次,随后对两个扫描的输出进行平均以获得综合的表征。作者遵循这种扫描设计。

1.3 视觉 Transformer 中的特征 "伪影"

在 ViT 中,可以通过可视化 Self-attention block 中的激活分数来获得可解释的特征图。在经过恰当的预训练之后,理想的情况是注意力图会在前景物体处表现出较高的注意力得分,并且在北京出表现出较低的得分。但是在[1]中观察到的现象是:特征图中经常会出现大量的异常值,这些异常值的位置一般对应于低信息的背景区域,但却表现出异常高的注意力分数。这些异常值叫做 "伪影"。"伪影" 的特点是:

  • 位置一般对应于低信息的背景区域
  • 表现出异常高的注意力分数。
  • 一般具有很高的范数值。
  • 倾向于丢弃局部信息。
  • 携带的全局信息多。

更多细节可以参考原文[1]和:

ICLR24 杰出论文|解决监督与自监督视觉Transformer「伪影」问题!只需要再多来几个token

1.4 视觉 Mamba 中的特征 "伪影":高范数异常 tokens 仍旧存在

本文发现 Vision Mamba 模型也存在类似的问题。首先,通过计算原始 Vision Mamba 的全局输出和局部输出之间的  距离,作者观察到背景区域中的大量激活值,如图 2 所示。对其归一化后的进一步分析表明,这些背景激活也表现出较高的归一化值,类似于 ViT 中观察到的伪影。

例如,通过可视化图 3 中原始视觉 Mamba 的局部输出的归一化, 可以观察到背景中存在大量高范数 tokens,甚至模糊了前景和背景区域之间的区别。在数量上,作者在图 4(a) 中绘制了原始视觉 Mamba 的范数分布,它清楚地显示了许多具有高归一化异常值,证实了与[1]中中讨论的 ViT 中发现的一致性。

51c视觉~合集19_视觉_12

图3:视觉 Mamba 不同层的局部图像 tokens 的 L2 范数。结果表明,与高范数标记相关的大量伪影出现在低信息区域,因此很难将主要对象与背景区分开来

51c视觉~合集19_视觉_13

图4:不同层中局部输出的 L2 归一化值的分布,结果定量地表明 Mamba® 有效减少了高范数异常值的数量

同样值得注意的是,Vision Mamba 中的这些伪影也类似于 ViT 的 "伪影",倾向于携带全局信息。如图 5 所示,Vision Mamba 只需使用前 5% 的高范数 tokens 的均值作为全局特征就能获得 81.0% 的 ImageNet 精度,仅比对所有局部 tokens 进行池化低 0.1% 的精度。使用前 10% 或者 20% 的高范数 tokens 进一步使模型能够匹配使用全局池化的精度。相比之下,依赖剩余的 80% 低范数 tokens 会导致性能下降到 79.3%。

51c视觉~合集19_视觉_14

图5:Vim-B 使用不同特征的 ImageNet 精度。使用一小部分高范数 tokens 来进行预测的精度明显高于低范数 tokens 的精度

然而,不同的是,作者观察到视觉 Mamba 中的伪影问题比 ViT 更严重:这些伪影在背景区域看起来更为普遍,并且表现出比 ViT 中观察到的更高的归一化值。如图 4(a) 所示,异常值 tokens 的平均范数随着层深度的增加而迅速增加,在第 23 层达到 4000 以上。与较浅特征中低于 100 的范数相比,这些极高的范数伪影很容易影响特征提取,并对模型优化提出了重大挑战,这可能会解释 Vision Mamba 中遇到的不稳定性问题和缩放困难。此外,ViT 中的 "伪影" 主要出现在较大尺寸的模型中,但是视觉 Mamba 中作者观察到小模型中也存在 "伪影" 现象。

这些观察结果进一步表明,伪影问题对于视觉 Mamba 模型至关重要。

1.5 视觉 Mamba 需要寄存器

遵循在 ViT 中去除伪影的解决方案,作者通过在视觉 Mamba 中引入 register tokens 来解决这个问题。作者将新的架构命名为 Mamba®。与之前仅在输入序列一端附加 register tokens 不同,作者在整个序列中更密集地分布 register tokens。作者认为这样可以:

  1. 更好地解决普遍分布的 "伪影" 问题。
  2. 由于 Mamba 架构的单向性质,有助于捕捉视觉 Mamba 中经常遗漏的全局表征。

作者遵循原始的视觉 Mamba[4]的主干架构,其中输入图像首先被分解为一系列不重叠的 patches,然后馈入一堆双向 Mamba block。基于这种简单的架构,作者做了以下2个简单而有效的修改来构建 Mamba®。

稀疏分布的 register tokens

Mamba® 的输入序列由 patch embedding 产生的 51c视觉~合集19_视觉_15 个 image tokens 和在它们之间均匀插入的 51c视觉~合集19_视觉_16 个 register tokens 组成。不像是 token 与位置无关的 Self-attention 模块,在 Mamba 模型里面,register tokens 的位置很重要。放置得合适就有利于 register tokens 与 image tokens 的有效交互。对于循环 Mamba 模型,稀疏分布的 register tokens 有助于捕获和保留不同位置的重要语义信息。作者实证性地证明了这种范式有利于性能的提升。

用于最终预测的 register head

ViT 在最终预测期间简单地丢弃了 register tokens, 与之不同的是, 作者观察到将它们作为全局表示可以为视觉 Mamba 带来显著改进。具体来说, 给定 51c视觉~合集19_视觉_16 个 51c视觉~合集19_视觉_18 维的 register 向量, 作者首先应用线性层将其维数降低 51c视觉~合集19_视觉_19 倍, 然后将它们拼接成一个维度为 51c视觉~合集19_视觉_20 的单个向量, 将其称为 register head。使用拼接操作而不是求均值是由 self-attention 中的多头机制启发的, 其中拼接更有效地保留来自所有 head 的信息。下图6 是 Mamba®的详细配置。

51c视觉~合集19_视觉_21

图6:Mamba® 模型的配置

此外,如图 7 所示,作者观察到在某些情况下,register 可以有趣地显示不同的特征模式,突出显示场景中的不同对象或语义元素,这是没有明确优化的一个有趣的方面。

51c视觉~合集19_视觉_22

图7:不同 register tokens 的特征图。register 有时可以关注到图像的不同部分或者语义

1.6 实验结果

图像分类实验结果

如图 9 所示,Mamba® 在 ImageNet 上展示了强大的性能。与现有的纯 Mamba 架构 Vim 相比,Mamba® 展示出了显著的改进,Tiny 模型优于 Vim 1.3%,Small 模型高出 0.6%。而且与 Vim 相比,Mamba® 在可扩展性方面表现出显着的增强:作者训练了一个 99M 参数的 Base 模型,实现 82.9% 的精度,和一个 341M 的 Large 模型,实现了 83.2% 的精度。通过在 384×384 输入分辨率图片进行微调,可以将性能进一步提升为 84.5%,优于 ImageNet 分类中所有先前的 Mamba 模型。

51c视觉~合集19_视觉_23

图9:ImageNet 图像分类实验结果

语义分割实验结果

如图 10 所示,Mamba® 在 ADE20k 数据集上始终表现出卓越的语义分割性能。与 Vim-S 相比,Mamba®-S 实现了 0.4% mIoU 的改进。Mamba®-B 模型达到了 47.7% 的 mIoU,显着优于类似大小的 DeiT-B 模型 2.2% mIoU。此外,Mamba®-L (具有 377M 参数) 在分割任务中也显示出巨大的可扩展性,在 ADE20k 基准测试中实现了 49.1% mIoU。

51c视觉~合集19_视觉_24

图10:ADE20k 语义分割实验结果

消融实验:register tokens 的数量

作者探索了 register tokens 的数量对模型性能的影响。如图 11 所示,插入 register tokens 通常会导致一致的性能提升。此外,可以观察到简单地增加输出维度对性能几乎没有好处。例如,通过将 Vim-Base 的 hidden dim 从 768 维升至 2304,准确率仅提高 0.1%。此外,可以观察到使用 12 个 register token 是最佳点。如果继续增加 register tokens,最终的聚合特征维度很高,性能会饱和甚至可能下降 (比如最终维度升高到 4608)。

51c视觉~合集19_视觉_25

图11:使用 Mamba®-Base (d=768) 对 register 进行消融实验。当 n=r=1 时,等价于具有 [cls] token 的视觉 Mamba (Vim) 模型

消融实验:register tokens 的设计

然后作者探索了 register tokens 的设计方案,即均匀地插入 register tokens 并使用它们进行最终的预测。结果如图 12 所示。首先,注意到性能对 register tokens 很敏感。例如,在序列的开头放置所有 register tokens 会导致性能下降 0.8% (82.1% vs. 82.9%)。同样,把 register tokens 放置在序列中间也会有 0.3% 的性能下降,表明 register tokens 的稀疏分布有利于视觉 Mamba 的特征提取。这些明显的性能差距突出了在 image tokens 之间均匀插入 register tokens 的必要性,因为 Mamba 的递归性使其对其在输入序列中的 token 位置敏感。

51c视觉~合集19_视觉_26

图12:register 位置与预测范式的消融实验结果。Final Prediction 的含义是如何计算全局特征。R1 only 是指其中一个 register 并丢弃其他。Reduce and concat 是默认设置,利用线性层来减少 register 的维度并将它们连接为全局表征... 开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用 whaosoft aiot自动驾驶也可以哦

此外,本文研究表明,registers 在提高视觉 Mamba 架构的性能方面起着重要的作用。使用均匀分布的 register tokens 的默认方法并在预测时使用这些 register tokens,得到的精度为 82.9%,超过了仅使用1个 register 的方法 (仅 R1,其余 tokens 被丢弃) 1.2%。这些结果证实 registers 构成了 Vision Mamba 架构的重要组成部分。




#Medical-CXR-VQA

21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集

导读:多模态大语言模型(MLLM)在医学视觉问答(VQA)领域展现出巨大潜力,通过提供针对医学图像的具体临床问题的回答,有助于提高医疗专业人员的工作效率。然而,现有医学VQA数据集规模较小且问题过于简单,限制了模型训练和微调。为了解决这一问题,研究团队提出了Medical-CXR-VQA,这是一个大规模的X光胸片问答数据库,覆盖了更广泛的问题类型,包括异常、存在、位置等七种问题类型,为构建更准确的医学VQA模型提供了基础。

多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 以其强大的语言理解能力和生成能力,在各个领域取得了巨大成功。

在医学领域上,视觉问答 (VQA) 是医学多模态大语言模型的一项重要任务,它可以通过回答针对医学图像的具体临床问题,有效提高医疗专业人员的效率。这一类工作可以减轻公共卫生系统的负担,对于医疗资源贫乏的国家来说尤其重要。

然而,现有的医学 VQA 数据集规模较小,仅包含相当于分类任务的简单问题,缺乏语义推理和临床知识。

如图1所示,现有的ImageCLF VQA-MED数据集仅包含「这张图像里主要异常是什么?」和「这张图片里看到了什么?」这两种完全相当于分类任务的问题。

较小的数量以及过于简单的问题使得大语言模型很难在现有数据集上训练以及微调。

51c视觉~合集19_视觉_27

图1 新数据集与现有的数据集ImageCLF VQA-MED的问题对比

为此,得克萨斯大学阿灵顿分校、理化学研究所、国立卫生研究院、日本癌症研究中心以及东京大学的团队提出了一个大型X光胸片的问答数据库。

Medical-CXR-VQA,这个数据库覆盖了更大范围的问题类型,包含异常、存在、位置、级别、拍摄角度和类型,共7种类型的问题。

51c视觉~合集19_视觉_28

  • 论文地址:https://authors.elsevier.com/sd/article/S1361-8415(24)00204-4
  • 项目链接:https://github.com/Holipori/Medical-CXR-VQA

同时,作者还提出了一种新的基于LLM的方法来构建数据集。传统的数据集构建方法中主要包括两种类型:人工标注和基于规则的方法。

人工标注方法的典型示例如VQA-RAD,其依赖于大量人力资源,因而数据集的规模往往受限。

只有基于规则的方法,例如ImageCLEF和作者之前的工作Medical-Diff-VQA,才可能生成更大规模数据集。

然而,基于规则的方法对于大覆盖面的信息提取能力仍然有限,所需要提取的信息越多,意味着需要创建的规则越多。

在这里,作者使用LLM来帮助建立规则,使得相同信息覆盖面上比基于传统规则的方法准确率提高62%。

同时,作者还与2位临床专家合作对100个样本的标签进行了全面的评估,进一步帮助微调LLM。

基于该数据集,作者提出了一种新的基于图(Graph)的可解释的医学VQA方法利用图注意力来学习回答临床问题时的逻辑推理路径。

这些学习到的图推理路径可进一步用于 LLM 提示工程(Prompt engineering)和链式思维(Chain-of-thought),这对于进一步微调和训练多模态大语言模型有重要意义。

数据集介绍

全新的Medical-CXR-VQA 数据集包括在215,547张胸部X光片上的780,014个问题答案对,问题含盖异常,存在,位置,级别,拍摄角度和类型,共7种类型的问题。各种问题类型的比例和问题类别请分别见如下图2和表1。

51c视觉~合集19_视觉_29

图2 Medical-CXR-VQA 问题类型的统计数据

51c视觉~合集19_视觉_30

表1 Medical-CXR-VQA 问题类型示例

数据集构建的方法

MIMIC-CXR是一个包括377,110张胸部X光片和277,835个放射学报告的大型数据集。作者基于MIMIC-CXR构建了Medical-CXR-VQA数据集。

传统基于规则构建的方法的一种途径是将数据集构建过程分为两步,第一步是从原始文本信息中提取出结构化的关键信息,例如疾病的位置,类型,级别,存在可能性等等;第二步是基于所提取的关键信息构建问题答案对(QA pairs)。

作者先前的工作Medical-Diff-VQA所采用的就是这种该方法,而这种方法在第一步提取结构化关键信息时非常依赖于预设关键词和规则的覆盖程度。

在千变万化的自然语言表达中,构建出一套可以覆盖所有情形和表达的规则几乎是不可能完成的任务,而借助于LLM其强大的语言理解能力和生成能力,这个问题可以迎刃而解。

这种基于LLM的方法正是针对上述第一步过程的改进。

作者采用了Llama 2 70B 作为核心LLM,以提取放射学报告中的数据。整个数据生成过程可以分为以下几个步骤:

首先,为增强LLM对特定任务的理解,作者对其进行了微调(finetune)。使用GPT-4对100份放射学报告按照精心设计的提示词进行结构化关键信息提取,并将这些信息格式化为JSON。随后,两位专业放射科医生对提取的信息进行了校验和修正,并将这100个医生标注的样本便作为黄金标准用于对Llama 2 70B的微调。

在微调完成后,利用该模型对MIMIC-CXR数据集进行全量的关键信息提取。为了确保提取质量并抑制模型可能的幻觉问题(hallucination),作者实施了一系列后处理操作。这些操作包括:统一疾病名称,从疾病名称中剥离属性词(如位置、类型、级别),并进行属性词的重新分配等。

至此,结构化的关键信息提取已经完成。

为验证基于LLM的方法与传统基于规则的方法在结构化信息上的表现差异,作者对两种方法在100个随机抽取的样本上进行了比较。基于规则的方法使用了与LLM方法相同的信息覆盖面进行关键词提取。

结果如表2所示,基于LLM的方法在高信息覆盖面的信息提取上显示出显著提升,相比基于规则的方法具有断层式的优势。

51c视觉~合集19_视觉_31

表2 基于LLM的方法与基于规则的方法在100个结构化信息提取的结果比较

最后,作者基于提取的结构化信息生成了问答对(QA pairs),并由两位人工验证者对500个问答对进行了验证。

验证结果显示,如表3所示,问答对的平均正确率达到了94.8%。

51c视觉~合集19_视觉_32

表3 数据集人工验证结果

Baseline模型介绍

基于构建的Medical-CXR-VQA数据集,作者提出了一种多模态图推理模型,如图3所示。

针对拍摄胸部X光片时病人姿态变化带来的挑战,作者提出了一种方法,通过定位病人的解剖结构和病灶,并提取这些定位对象的特征作为图的节点,来避免因姿态问题导致的图像不匹配。

51c视觉~合集19_视觉_33

图3 模型结构

为了使图网络能够有效理解问题并从检测目标中提取相关节点信息,作者在每个节点中融入了问题的编码特征。

为深入挖掘解剖结构和病灶之间的关系,作者设计了一种包含三种关系的图网络结构:空间关系、语义关系和隐含关系。

  • 在空间关系部分,作者根据检测目标的相对位置将其划分为11种类型,并将这些空间关系赋值到节点之间的边上,利用ReGAT(Relation-aware Graph Attention Network)更新节点特征。
  • 在语义关系方面,作者与医学专家合作,构建了两种医疗知识图谱:共现知识图谱(Co-occurrence Knowledge Graph)和解剖学知识图谱(Anatomical Knowledge Graph)。

共现知识图谱是通过统计不同疾病的共同出现概率构建的,而解剖学知识图谱则详细分类了病灶与其可能出现的解剖结构之间的关联。

  • 对于隐含关系,作者采用全连接图,让模型在所有节点之间挖掘潜在信息。

经过ReGAT计算后,每种图均生成最终的节点特征,这些特征进一步经过平均池化层处理,得到各图的最终特征。然后,将三种图的特征加权相加,生成最终答案特征并用于答案预测。

通过以上方法,作者成功解决了病人姿态变化带来的挑战,同时提升了模型在Medical-CXR-VQA(医学胸片问答)任务中的性能。

如表4所示,该方法全面超越了MMQ和VQAMix这两个先进的医学VQA模型。

51c视觉~合集19_视觉_34

表4 与基准模型的结果对比

总结与讨论

为了促进多模态大型语言模型在医学研究中的发展,作者对之前使用传统基于规则方法工作进行了延伸。

利用基于LLM的方法,作者创建了一个名为Medical-CXR-VQA的以临床为驱动的大规模医学VQA数据集,在给定相同的关键词提取集时将数据集构建的准确性提高了62%。

此外,作者还提出了一种用于VQA的多关系图学习方法,该方法通过包含三种不同的图关系,并引入了医学知识图谱来回答问题。

未来,作者还将通过回答问题所显示出的推理路径来构建医学LLM的思维链,并构建医学知识驱动的提示(prompt)来训练医学LLM。

  • 参考资料:https://github.com/Holipori/Medical-CXR-VQA




#LaViT

这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重

Less-Attention Vision Transformer利用了在多头自注意力(MHSA)块中计算的依赖关系,通过重复使用先前MSA块的注意力来绕过注意力计算,还额外增加了一个简单的保持对角性的损失函数,旨在促进注意力矩阵在表示标记之间关系方面的预期行为。该架构你能有效地捕捉了跨标记的关联,超越了基线的性能,同时在参数数量和每秒浮点运算操作(FLOPs)方面保持了计算效率。 

论文地址https://arxiv.org/abs/2406.00427

Introduction

近年来,计算机视觉经历了快速的增长和发展,主要得益于深度学习的进步以及大规模数据集的可获得性。在杰出的深度学习技术中,卷积神经网络(Convolutional Neural NetworksCNNs)被证明特别有效,在包括图像分类、目标检测和语义分割等广泛应用中展现了卓越的性能。

受到Transformer在自然语言处理领域巨大成功的启发,ViTVision Transformers)将每幅图像划分为一组标记。这些标记随后被编码以生成一个注意力矩阵,作为自注意力机制的基础组成部分。自注意力机制的计算复杂度随着标记数量的增加而呈平方增长,且随着图像分辨率的提高,计算负担变得更加沉重。一些研究人员尝试通过动态选择或标记修剪来减少标记冗余,以减轻注意力计算的计算负担。这些方法在性能上已证明与标准ViT相当。然而,涉及标记减少和修剪的方法需要对标记选择模块进行细致设计,可能导致关键标记的意外丢失。在本研究中,作者探索了不同的方向,并重新思考自注意力的机制。发现在注意力饱和问题中,随着ViTs层数的逐渐加深,注意力矩阵往往保持大部分不变,重复前面层中观察到的权重分配。考虑到这些因素,作者提出以下问题:

在网络的每个阶段,从开始到结束,是否真的有必要始终一致地应用自注意力机制?

在本文中,作者提出通过引入少注意力ViTLess-Attention Vision Transformer)来修改标准ViT的基本架构。框架由原始注意力(Vanilla AttentionVA)层和少注意力(Less AttentionLA)层组成,以捕捉长范围的关系。在每个阶段,专门计算传统的自注意力,并将注意力分数存储在几个初始的原始注意力(VA)层中。在后续的层中,通过利用先前计算的注意力矩阵高效地生成注意力分数,从而减轻与自注意力机制相关的平方计算开销。此外,在跨阶段的降采样过程中,在注意力层内集成了残差连接,允许保留在早期阶段学习到的重要语义信息,同时通过替代路径传输全局上下文信息。最后,作者仔细设计了一种新颖的损失函数,从而在变换过程中保持注意力矩阵的对角性。这些关键组件使作者提出的ViT模型能够减少计算复杂性和注意力饱和,从而实现显著的性能提升,同时降低每秒浮点运算次数(FLOPs)和显著的吞吐量。

为验证作者提出的方法的有效性,在各种基准数据集上进行了全面的实验,将模型的性能与现有最先进的ViT变种(以及最近的高效ViT)进行了比较。实验结果表明,作者的方法在解决注意力饱和并在视觉识别任务中取得优越性能方面非常有效。

论文的主要贡献总结如下:

  1. 提出了一种新颖的ViT架构,通过重新参数化前面层计算的注意力矩阵生成注意力分数,这种方法同时解决了注意力饱和和相关的计算负担。
  2. 此外,提出了一种新颖的损失函数,旨在在注意力重新参数化的过程中保持注意力矩阵的对角性。作者认为这一点对维护注意力的语义完整性至关重要,确保注意力矩阵准确反映输入标记之间的相对重要性。
  3. 论文的架构在包括分类、检测和分割在内的多个视觉任务中,始终表现优异,同时在计算复杂度和内存消耗方面具有类似甚至更低的特点,胜过几种最先进的ViTs

MethodologyVision Transformer

令  表示一个输入图像, 其中  表示空间分辨率,  表示通道数。首先通过将图像划分为  个块来对图像进行分块, 其中每个块  的大小为  像素和  通道。块大小  是一个超参数, 用于确定标记的粒度。块嵌入可以通过使用步幅和卷积核大小均等于块大小的卷积操作提取。然后, 每个块通过不重叠的卷积投影到嵌入空间 , 其中  表示每个块的维度。

  • Multi-Head Self-Attention

首先提供一个关于处理块嵌入的经典自注意力机制的简要概述, 该机制在多头自注意力块 ( M HSAs ) 的框架内工作。在第  个 MHSA 块中, 输入  被投影为三个可学习的嵌入  。多头注意力旨在从不同的视角捕捉注意力; 为简单起见, 选择  个头, 每个头都是一个维度为  的矩阵。第  个头的注意力矩阵  可以通过以下方式计算:

51c视觉~合集19_视觉_35

 和  分别是第  个头的注意力矩阵、查询和键。还将值  分割成  个头。为了避免由于概率分布的锐性导致的梯度消失, 将  和  的内积除以  。注意力矩阵被拼接为:

51c视觉~合集19_视觉_36

在空间分割的标记之间计算的注意力,可能会引导模型关注视觉数据中最有价值的标记。随后,将加权线性聚合应用于相应的值V:

51c视觉~合集19_视觉_37

  • Downsampling Operation

受到 CNN 中层次架构成功的启发, 一些研究将层次结构引入到 ViTs 中。这些工作将 Transf ormer 块划分为  个阶段, 并在每个 Transformer 阶段之前应用下采样操作, 从而减少序列长度。在论文的研究中, 作者采用了一个卷积层进行下采样操作, 卷积核的大小和步幅都设置为 2 。该方法允许在每个阶段灵活调整特征图的尺度, 从而建立一个与人类视觉系统的组织相一致的 Transformer 层次结构。

51c视觉~合集19_视觉_38

The Less-Attention Framework

整体框架如图 1 所示。在每个阶段,分两步提取特征表示。在最初的几个 Vanilla Attenti on(VA)层中,进行标准的多头自注意力(MHSA)操作,以捕捉整体的长距离依赖关系。随后,通过对存储的注意力分数应用线性变换,模拟注意力矩阵,以减少平方计算并解决接下来的低注意力(LA)层中的注意力饱和问题。在这里,将第  个阶段的初始 -th VA 层的 Softmax 函数之前的注意力分数表示为 , 它是通过以下标准程序计算的:

51c视觉~合集19_视觉_39

这里,  和  分别表示来自第  个阶段第  层的查询和键, 遵循来自前一阶段的下采样。而  用于表示 VA 层的数量。在最初的原始注意力阶段之后, 丢弃传统的平方 MHSA,并对  应用变换, 以减少注意力计算的数量。这个过程包括进行两次线性变换, 中间夹一个矩阵转置操作。为了说明, 对于该阶段的第  层 , 即 LA 层  的注意力矩阵:

$$\begin{equation} \begin{aligned} &\mathbf{A}^{l}_m = \Psi(\Theta(\mathbf{A}{l-1}_m)\mathsf{T})^\mathsf{T},  ~~ L^{\text{VA}}_m<l \leq="" l_m,\\="" &\mathbf{z}{\text{la},l}="\textrm{Softmax}(\mathbf{A}l_m)\mathbf{V}^l." \end{aligned}="" \end{equation}="" $$="" 和  表示维度为  的线性变换层。这里,  和 分别表示第  个阶段的层数和VA层的数量。在这两个线性层之间插入转置操作的目的是保持矩阵的相似性行为。这个步骤是必需的, 因为单层中的线性变换是逐行进行的,这可能导致对角特性丧失。

Residual-based Attention Downsampling

当计算在分层ViTViTs)中跨阶段进行时,通常会对特征图进行下采样操作。虽然该技术减少了标记数量,但可能会导致重要上下文信息的丧失。因此,论文认为来自前一阶段学习的注意力亲和度对于当前阶段在捕捉更复杂的全局关系方面可能是有利的。受到ResNet的启发,后者引入了快捷连接以减轻特征饱和问题,作者在架构的下采样注意力计算中采用了类似的概念。通过引入一个短路连接,可以将固有的偏差引入当前的多头自注意力(MHSA)块。这使得前一阶段的注意力矩阵能够有效引导当前阶段的注意力计算,从而保留重要的上下文信息。

然而, 直接将短路连接应用于注意力矩阵可能在这种情况下面临挑战, 主要是由于当前阶段和前一阶段之间注意力维度的不同。为此, 作者设计了一个注意力残差(AR)模块, 该模块由深度卷积(DWConv)和一个  层构成,用以在保持语义信息的同时对前一阶段的注意力图进行下采样。将前一阶段(第  阶段)的最后一个注意力矩阵(在  层)表示为 , 将当前阶段(第  阶段)的下采样初始注意力矩阵表示为 。 的维度为  (  表示第  阶段的标记数量)。将多头维度  视为常规图像空间中的通道维度, 因此通过 DWConv 操作符(stride , kernel size  ),可以在注意力下采样过程中捕获标记之间的空间依赖关系。经过 DWConv 变换后的输出矩阵适合当前阶段的注意力矩阵的尺寸, 即  。在对注意力矩阵进行深度卷积后, 再执行 , 以便在不同头之间交换信息。

51c视觉~合集19_视觉_40

论文的注意力下采样过程如图 2 所示, 从  到  的变换可以表示为:

51c视觉~合集19_视觉_41

其中 LS 是在 CaiT 中引入的层缩放操作符, 用以缓解注意力饱和现象。  是第  阶段第一层的注意力得分, 它是通过将标准多头自注意力(MHSA)与公式 4 和由公式 6 计算的残差相加得出的。

论文的注意力下采样模块受两个基本设计原则的指导。首先, 利用 DWConv 在下采样过程中捕获空间局部关系, 从而实现对注意力关系的高效压缩。其次, 采用  操作在不同头之间交换注意力信息。这一设计至关重要, 因为它促进了注意力从前一阶段有效传播到后续阶段。引入残差注意力机制只需进行少量调整, 通常只需在现有的 ViT 主干中添加几行代码。值得强调的是, 这项技术可以无缝应用于各种版本的 Transformer 架构。唯一的前提是存储来自上一层的注意力得分, 并相应地建立到该层的跳跃连接。通过综合的消融研究, 该模块的重要性将得到进一步阐明。

Diagonality Preserving Loss

作者通过融入注意力变换算子,精心设计了Transformer模块,旨在减轻计算成本和注意力饱和的问题。然而,仍然存在一个紧迫的挑战——确保变换后的注意力保留跨Token之间的关系。众所周知,对注意力矩阵应用变换可能会妨碍其捕捉相似性的能力,这在很大程度上是因为线性变换以行的方式处理注意力矩阵。因此,作者设计了一种替代方法,以确保变换后的注意力矩阵保留传达Token之间关联所需的基本属性。一个常规的注意力矩阵应该具备以下两个属性,即对角性和对称性:

51c视觉~合集19_视觉_42

因此,设计了第层的对角性保持损失,以保持这两个基本属性如下所示:

51c视觉~合集19_视觉_43

在这里,是对角性保持损失,旨在维护公式8中注意力矩阵的属性。在所有变换层上将对角性保持损失与普通的交叉熵 (CE) 损失相结合,因此训练中的总损失可以表示为:

51c视觉~合集19_视觉_44

其中,是最后一层表示中的分类标记。

Complexity Analysis

51c视觉~合集19_视觉_45

论文的架构由四个阶段组成, 每个阶段包含  层。下采样层应用于每个连续阶段之间。因此, 传统自注意力的计算复杂度为 , 而相关的 K-Q-V 转换则带来了  的复杂度。相比之下, 论文的方法在变换层内利用了  的线性变换, 从而避免了计算内积的需要。因此, 变换层中注意力机制的计算复杂度降至 , 实现了  的减少因子。此外, 由于论文的方法在 Less-Attention 中只计算查询嵌入, 因此 K-Q-V 转换复杂度也减少了 3 倍。

在连续阶段之间的下采样层中, 以下采样率 2 为例, 注意力下采样层中 DWConv 的计算复杂度可以计算为 Complexity  。同样, 注意力残差模块中  操作的复杂度也是  。然而, 重要的是, 注意力下采样在每个阶段仅发生一次。因此, 对比 Less-Attention 方法所实现的复杂度减少, 这些操作引入的额外复杂度可以忽略不计。

Experiments

51c视觉~合集19_视觉_46

51c视觉~合集19_视觉_47

51c视觉~合集19_视觉_48

51c视觉~合集19_视觉_49

51c视觉~合集19_视觉_50

51c视觉~合集19_视觉_51



#TurboEdit

少步比多步好?TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)

首个在少步扩散模型背景下探索图像编辑的工作,也是首个在扩散模型中探索基于编码器反演的工作。 

论文链接:https://arxiv.org/pdf/2408.08332

亮点直击

  • 提出一个反演网络,该网络通过预测噪声来重建输入图像,并被训练为在前一步重建的条件下迭代地校正重建图像。
  • 对扩散蒸馏过程的一种新兴特性进行分析。
  • 方法在反演过程中只需要 8 次功能评估(一次性成本),每次编辑只需 4 次功能评估,而基于多步扩散模型的方法在反演中需要 50 次功能评估,每次编辑需要 30-50 次功能评估。本文方法速度显著提升(每次编辑小于 0.5 秒,而不是大于 3 秒),且在描述性和指令性文本提示设置中,在文本图像对齐和背景保留方面表现出比基于多步扩散模型的方法更好的效果。

本文解决了在少步扩散模型中精确图像反演和分解图像编辑的挑战。本文引入了一种基于编码器的迭代反演技术。反演网络以输入图像和前一步的重建图像为条件,允许对下一步的重建进行修正,使其更接近输入图像。本文展示了在少步扩散模型中,通过对(自动生成的)详细文本提示进行条件化,可以轻松实现分解控制。为了操控反演后的图像,本文冻结噪声图,并修改文本提示中的一个属性(可以手动修改,也可以通过大型语言模型驱动的指令编辑),从而生成一个与输入图像相似但仅改变了一个属性的新图像。该方法还可以进一步控制编辑强度并接受指导性文本提示。本文的方法能够实时实现逼真的文本引导图像编辑,反演只需进行8次功能评估(一次性成本),每次编辑仅需4次功能评估。本文的方法不仅快速,而且显著优于现有的多步扩散编辑技术。

方法

预备知识

正向扩散过程通过向干净图像  添加高斯噪声 , 逐渐将其转变为白色高斯噪声  。

51c视觉~合集19_视觉_52

其中,  控制噪声的时间表,  是高斯噪声。网络  被训练用于在给定  、文本提示  和时间步  的情况下预测 , 其目标是:

51c视觉~合集19_视觉_53

本文可以轻松地将公式从噪声预测重写为样本预测。

51c视觉~合集19_视觉_54

通常需要 20 到 50 步才能从采样的高斯噪声  生成干净的图像  。随着蒸馏方法的发展,少步扩散模型可以在1到4步内获得高质量的图像。

单步图像反演

基于扩散的方法在真实图像编辑中已显示出实现高质量分解编辑的有希望结果。然而,这些依赖于多步扩散模型的方法由于其计算需求而受到限制,每次编辑至少需要4-5秒,使其不适合交互式应用。此外,由于设计上的根本差异,这些方法无法直接应用于少步扩散模型。例如,许多基于扩散的编辑方法依赖于DDIM反演或DDPM反演将真实图像投射到扩散噪声空间。然而,DDIM反演对小步长和大量反演步骤的要求本质上与少步扩散模型的设计原则相悖。而DDPM反演则容易对输入图像进行过拟合,并在编辑后的图像中产生大量伪影。如下图8所示,当应用于少步反演步骤时,DDIM和DDPM反演都产生次优的编辑结果。

一些研究利用对抗性损失来蒸馏多步扩散模型,使少步扩散模型的优化目标类似于GANs。这启发本文借鉴GAN反演文献中的思想,在那里基于编码器的方法已被证明是高效且可靠的。

考虑一个生成器  (在本文的例子中是 SDXL-Turbo), 它接受时间步长  、文本提示  和噪声图像 , 并输出重构图像  。基于此, 本文从噪声版本中预测干净图像 , 公式为  。本文开始设计一个单步方法的反演网络, 其中  。本文训练一个反演网络 来预测 , 使得当将  输入到  中时,  将匹配  。这导致了损失函数:

51c视觉~合集19_视觉_55

反演网络  是从生成器  (SDXL-Turbo) 初始化的, 并且在训练过程中生成器  是冻结的。输入图像  的信息存储在文本提示  (全局信息) 和初始噪声  (空间信息) 中。当本文想要进行图像编辑时, 本文使用一个新的文本提示 , 然后生成编辑后的图像, 通过以下方式:

51c视觉~合集19_视觉_56

尽管单步编码器方法简单,但它能够在保持背景细节的同时进行令人印象深刻的语义编辑,其性能优于DDIM和DDPM反演方法,并成为上图8中唯一可行的单步反演选项。然而,其结果在诸如手部和面部区域会出现伪影。生成的图像缺乏清晰度,包含盐和胡椒噪声,未能达到照片级真实感。为了解决这个问题,本文将方法扩展到多步反演。

多步图像反演

为了提高图像重建的质量, 本文采用了一种多步反演方法, 在每一步中迭代地优化重建, 类似于 ReStyle中提出的GAN反演网络。反演网络  被设计为接收输入图像  以及前一步的重建 , 并预测当前步骤的注入噪声  。根据公式 1 , 这个注入的噪声  与之前的重建  结合, 形成新的噪声图像  , 作为  的输入。然后本文根据公式 3 获得新的重建图像  。这形成了初始的多步训练目标:

值得强调的是, 生成器  以之前的重建  作为输入, 因此损失函数推动  输出一个能够改善相对于输入图像  的之前重建  的  。在训练过程中, 本文使用单步SDEdit来模拟之前步骤的重建  。具体来说, 本文向输入图像添加随机高斯噪声以获得 , 然后将  输入生成器以获得  。在最大时间步  时, 本文使用一个全零矩阵作为  。

本文的分析显示,这个模型的简单实现会导致预测的噪声包含许多高值(> 10)以及来自输入图像的过多结构信息,进而在重建图像中产生伪影。此外,更改文本提示对输出图像的影响很小。为了解决这些问题,本文采用了重参数化技巧,将注入噪声限制在接近标准高斯分布的范围内。反演网络不再直接预测注入噪声的值,而是输出每个像素的均值和方差,从中采样出注入的噪声。这个修改所需的KL损失为:

51c视觉~合集19_视觉_57

这得出了最终的训练目标:

51c视觉~合集19_视觉_58

通过实验, 本文确定将  设置为在重建质量和可编辑性之间取得了良好的平衡。训练完成后,本文可以执行如下图2和下图算法所示的迭代反演过程。反演过程从  迭代到较小的 , 其目的是首先编码语义信息, 然后捕捉更精细的细节。噪声  包含了未在  中显式编码的空间信息。通过实验, 本文确定四步反演足以忠实重建复杂图像并在图11中保持面部身份。给定  和新的文本提示 , 本文可以生成一个新图像,使其类似于输入图像  ,同时包含  中的目标属性,如算法3.3所示。总之,反演过程需要 8 次网络功能评估( 8 NFE,  ),因为每个反演步骤需要反演网络和生成器的推理。一旦图像被反演, 所有后续编辑需要额外的4次网络功能评估。

详细文字提示条件

注意力驱动的图像编辑方法通过冻结自注意力和交叉注意力图来保持源图像和目标图像之间的结构相似性。尽管它们在常规多步扩散模型中表现良好,但本文发现它在单步或四步扩散模型中过度限制了目标图像的结构,并倾向于在下图9中产生伪影。

为了在少步扩散模型中实现文本引导的图像编辑,本文提出了一种极其简单的方法。本文的直觉是,如果文本提示非常详细并涵盖了各个方面的语义信息,那么在文本提示中修改单个属性只会导致文本embedding的微小变化。因此,源和目标采样轨迹保持足够接近,从而生成的图像几乎相同,除了下图3中修改的属性。同样的直觉也适用于本文在下图10中展示的真实图像编辑。此外,本文可以线性插值详细的源和目标文本embedding,并在图像空间中生成平滑的插值,如上图1和下图4所示。尽管用户很难编写长文本提示,但本文可以轻松利用ChatGPT来扩展简短的文本提示(例如,“请详细描述一张{用户提供的简短描述}的图像”),或者使用LLaVA生成给定图像的详细描述。

并行研究表明,仅基于文本embedding而不冻结注意力图也可以实现图像编辑能力。本文想强调这两种方法之间的区别。为了进行对象替换或风格控制,他们在文本embedding空间中替换关键词embedding,而本文使用长而详细的文本提示,并直接在文本空间中替换关键词。为了控制编辑强度,他们重新调整描述性词embedding的权重,或者使用奇异值分解来发现文本embedding空间中的编辑方向,而本文则直接对源文本和目标文本embedding进行线性插值。

局部 Mask

为了实现局部编辑, 本文的方法允许用户上传一个二进制mask来指示要编辑的区域。本文首先对mask 进行高斯模糊,然后将其调整为与潜在图像大小  匹配。随后,本文仅在mask区域内保留时间步  的编辑后的图像 , 对于图像的其余部分, 使用反演图像 , 如上算法所述。

为了提供mask的初始化,本文建议使用粗略的注意力mask来表示编辑区域。受prompt2prompt中局部混合模式的启发,本文自动提取分辨率为16 × 16的注意力mask,用于仅存在于源提示或目标提示中的单词,在通道维度上求和,并将其除以最大值。此过程生成一个单通道的注意力mask,其值范围为0到1,其中编辑区域以高注意力值为特征,未更改的区域以低注意力值为特征。默认情况下,本文将阈值设置为0.6,并将连续的注意力mask转换为二进制mask。用户可以交互式地调整阈值以控制mask的大小,因为每次编辑(4步)需要少于0.5秒。尽管注意力mask非常粗略,但本文展示了它可以显著改善背景和身份保留,如下图12所示。在本文的图中,本文仅使用粗略的注意力mask而不是精确的手动mask。

需要明确的是,本文的方法仅使用注意力mask来限制编辑区域,这与在prompt2prompt中通过冻结注意力图来实现结构对齐的方法不同。本文的方法与注意力冻结是正交的,可以与之结合。然而,默认情况下,本文在任何时间步都不冻结注意力图,因为这样做会强烈限制对象结构,并且在上图9中显示的少步扩散模型中容易引入伪影。

基于指令的编辑

在许多编辑场景中,用户需要更改源提示中的多个词才能获得所需的目标提示。例如,当用户希望将一张小狗的图片更改为小猫的图片时,他们需要将“dog”更改为“cat”,并将“puppy”更改为“kitten”,这可能会显得繁琐且不吸引人。

幸运的是,针对大型语言模型(LLM)的指令微调和文本空间中的语义编辑已经得到了充分的研究。本文从一个基础指令开始,例如“请对以下句子做出最小的改变,但...”,然后用户只需添加任务特定的指令,如“将狗改为猫。”本文将基础指令、用户指令和源提示串联在一起,并将它们输入到LLM中。LLM会找出最佳的编辑方式并生成目标提示。通过这种方式,复杂的文本编辑由LLM处理,用户只需输入简单的短指令。为了提高效率并节省内存,本文重新使用LLaVA作为本文的LLM,但任何经过指令微调的LLM都可以替换使用。LLaVA构建在Vicuna 之上,即使经过视觉和语言任务的微调后,仍然可以执行文本编辑任务。实验表明,这种简单的方法在上图1、下图6和下表3中表现良好。

实验

训练细节

为了应对计算和存储限制,本文从一个内部数据集中选择了25万张大于512×512像素的图像,进行中心裁剪以获得正方形图像,并将其调整为512×512像素。为了生成详细的描述,本文将这些图像输入到LLaVA模型中,并使用提示“请尽可能详细地描述图像,包括布局、对象和颜色”。随后,本文在训练之前为SDXL-Turbo模型预先计算图像和文本embedding。反演网络从SDXL-Turbo模型初始化,而生成器(也是SDXL-Turbo)在整个训练过程中保持不变。训练在四个不同的时间步(1000, 750, 500, 250)上进行,这与SDXL-Turbo中采用的方法一致。本文使用了的学习率和10的批量大小,在使用八个A100 GPU的一天内实现了模型的收敛。

定量比较

PIE-Bench 数据集包含 700 张图像,每张图像对应 10 种不同的编辑类型。每个示例包括一个源提示、目标提示、指令提示和源图像。在描述性设置中,仅使用源提示和目标提示进行文本指导,而在指令性设置中,仅使用指令提示。

然而,PIE-Bench 数据集仅提供简短的文本提示,而长且详细的文本提示对于确保解耦编辑和防止伪影是必要的。为了在描述性设置中确保公平比较,本文使用数据集中的简短源提示和目标提示,并在第一次采样步骤中冻结注意力图。在指令性设置中,本文使用 LLaVA  生成一个长的源标题,并遵循 PIE-Bench 的简短指令以获得一个长的目标提示,如前文中所讨论。本文的结果显示,与当前的最新方法相比,本文的方法在描述性和指令性设置中都能更好地遵循文本指导并保留背景(见上表 1 和下表 3)。

定性比较

本文的方法本质上支持多种反演步骤。在单步反演的情况下,DDIM反演会产生大量伪影,而 DDPM反演生成的图像虽然具有目标属性,但在上图8中未能与输入图像相似。相比之下,本文的方法成功生成了与输入图像非常相似的正确编辑,尽管在手部和面部区域有轻微的伪影,以及图像中的椒盐噪声。在考虑四步反演时,所有方法相较于单步反演都有更好的结果。然而,当执行大的结构变化(例如,将狗变成猫)时,DDIM反演和DDPM反演容易产生较大的伪影,而本文的方法在上图8中实现了更高的身份保留和逼真的编辑效果。

此外,本文在下图5中对比分析了本文的四步方法和基于多步扩散模型的图像编辑方法,该方法使用描述性提示作为指导。InfEdit和 Pix2PixZero扭曲了房屋、泰迪熊和吉他等物体的结构。此外,Ledits 和 Ledits++ 在进行大规模结构变化(例如添加帽子或将男人变成女人)时遇到了困难。相比之下,本文的方法在进行纹理和结构变化的逼真编辑时表现出色,同时保持了强大的身份保留。与同样依赖于 SDXL-Turbo 的同期工作 ReNoise 相比,本文每次反演只需要 8 次 NFE,而不是 36 次 NFE,更好地保留了面部身份,并在补充图14中产生更少的伪影。

同样,本文在上图6中将本文的方法与其他基于指令的方法进行了比较,这些方法使用指导性提示作为指导。虽然 InstructPix2Pix 及其变体需要大规模的监督训练集、计算密集型训练和多步采样,而本文的反演网络通过重建损失进行无监督训练,只需要四步采样,本文的方法在身份保留(从猫到狗)和文本提示对齐(从毛衣到T恤)方面表现更好。

消融实验

本文通过消融研究验证了框架中每个组件的必要性。首先,本文可视化了不同反演步数下的反演结果。本文的研究表明,多步反演对于保持面部身份和防止模糊伪影是必不可少的(见下图11)。随后,本文使用1万张验证图像计算重建指标,结果显示,随着反演步数的增加,重建质量持续改善(见下表2)。此外,本文证明了详细的文本提示条件对于结构保留和防止背景伪影至关重要(见上图10)。最后,本文展示了局部掩蔽对于防止背景结构变化和身份偏移的重要性(见上图12)。

Limitations and Societal Impact

首先,本文的方法依赖于LLaVA来生成详细的描述。然而,由于本文只进行少步反演,计算密集的LLaVA模型成为了瓶颈。因此,需要探索其他轻量级的描述生成模型,以实现实时图像反演。其次,虽然注意力mask可以有效地限定编辑区域,但它们通常不够精确,可能会包含附近的区域,增加注意力阈值也无法完全解决这个问题。这种不精确可能导致轻微的身份偏移,特别是当编辑区域靠近人脸时。本文在下图13中展示了如何通过使用用户提供的粗略mask来减轻这一问题。最后,本文的方法无法进行大幅度姿势改变(例如,将一个奔跑的人变为坐着的人),如下图15所示。

作为一种生成式图像编辑工具,本文的方法提供了创造性的机会和挑战。尽管它实现了创新的图像编辑能力,但也引发了关于操控数据、误导信息和垃圾信息传播的担忧。其中一个显著的问题是故意图像操控的增加,即所谓的“深度伪造”,这种现象对女性的影响尤为严重。

结论

根据本文所知,本文的方法是首个在少步扩散模型背景下探索图像编辑的工作,也是首个在扩散模型中探索基于编码器反演的工作。本文证明,通过对(自动生成的)详细文本提示进行条件控制,可以在少步扩散模型中轻松实现解耦控制。本文的方法使用户能够以交互速度进行逼真的文本引导图像编辑,反演和编辑过程都在毫秒内完成。



#KAN2.0

爆火神经网络架构KAN更新2.0!研究者可专属定制,轻松应对经典物理学研究,作者:和MLP不能互相取代

爆火神经网络架构KAN,上新了! >>加入极市CV技术交流群,走在计算机视觉的最前沿

KAN2.0

此次与科学问题更深入地融合,可以轻松解出经典物理学研究。

比如发现拉格朗日量(用来描述整个物理系统动力状态的函数)

除此之外,研究者还可以量身定制属于自己的KAN2.0,将专业知识作为辅助变量添加到输入当中去。

此前,KAN横空出世,一夜引爆科技圈。它以200万参数模型架构,直接复现DeepMind用30万参数的MLPs发现数学定理的研究。要知道,后者可是登上Nature封面的研究。

由于KAN性能太好,一度引来关于「能否替代掉Transformer的MLP层」的探讨,大家直呼:Yes We KAN!

MIT博士生刘子鸣再次为论文一作。

业内学者们,纷纷赶来祝贺。

KAN2.0将AI与科学统一起来

AI+科学的一大挑战在于他们之间固有的不兼容性:当前AI主要基于连接主义,科学则依赖于符号主义。

此次新框架KAN2.0就主打将KANs同科学无缝协同,这种协同作用是双向的:科学到 KAN(将科学知识融入 KAN)KAN到科学(从KAN中提取科学见解)

更具体来说,KAN2.0对科学发现主要有三个方面的作用,从简单粗略到逐渐精细复杂:

识别重要特征揭示模块结构发现符号公式

在原始KAN基础上主要引入了这三个新功能。

1、MultKAN:带有乘法节点的 KAN

2、kanpiler:将符号公式编译成 KAN的编译器

3、树转化器,将 KAN2.0架构(或任何神经网络)转换为树状图

跟上一版本相比,KAN2.0的解释性更通用,比如像化学、生物学等这种很难用符号方程表示的,模块化结构和关键特征能够来描述。

比如,用户可以将模块化结构构建到KAN2.0中。

再通过KAN2.0同MLP神经元交换,就可以直接看到模块化结构。

此外,团队探究了如何将先验知识融入KAN2.0。

基于这些更新,团队展示了KAN2.0发现各种经典物理定律的能力。

比如发现二维谐振子的守恒量。

利用MLP和KAN2.0重新发现史瓦西黑洞的隐藏对称性。

还有像通过与KAN2.0交互,发现构造定律。

接下来,团队有两个方向:一是将该框架应用于更大规模的问题;二是将其扩展到物理学以外的其他科学学科。

MIT华人一作

此次研究来自MIT、加州理工学院、MIT CSAIL等机构的五位研究者,共有三位华人。

相比于KAN初始版本,还有不少原班人马,其中MIT刘子鸣依然为一作。

刘子鸣目前是MIT四年级博士生,Max Tegmark是他的导师,其研究兴趣在于人工智能与物理学的交叉领域,具体像AI科学家、物理学启发的深度学习、深度学习科学、机械可解释性等。

由于KAN受到广泛的关注,作为核心作者,他在GitHub页面上特意注明,在设计KAN并编写代码的时候,考虑的是数学和物理示例(规模相当小!)因此没有考虑到效率而可重用性方面的优化。

对于专注机器学习的用户,他坦言,KAN可能还不是个可以开箱即用的简单插件(目前还不是)。

KAN和MLP不能互相取代,他们在某些情况下各有优势,在其他情况下也有局限性。

论文链接:
https://arxiv.org/abs/2408.10205参考链接:
[1]https://github.com/KindXiaoming/pykan?tab=readme-ov-file

[2]https://kindxiaoming.github.io/
[3]https://x.com/ZimingLiu11/status/1825731703723405757