51c视觉~合集12

原创

qq6669490e54384 2024-08-05 22:04:56 ©著作权

文章标签 视觉AI 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#FairDomain

哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

本文提出了FairDomain，这是首次系统性研究算法在域转移下的公平性，我们测试了最先进的域适应（DA）和域泛化（DG）算法，用于医学图像分割和分类任务，旨在了解bias如何在不同域之间转移。

在人工智能（AI），特别是医疗AI领域中，解决公平性问题对于确保公平的医疗结果至关重要。

最近，增强公平性的努力引入了新的方法和数据集。然而，在域转移的背景下，公平性问题几乎没有得到探索，尽管诊所常常依赖不同的成像技术（例如，不同的视网膜成像方式）进行患者诊断。

我们还提出了一种新的即插即用的公平身份注意力（FIA）模块，通过使用自注意力机制，根据人口统计属性调整特征重要性，以提高各种DA和DG算法的公平性。

此外，我们还整理并公开了第一个关注公平性的domain-shift数据集，该数据集包含同一患者群体的两种配对成像方式的医学分割和分类任务，以严格评估域转移场景下的公平性。排除源域和目标域之间人口分布差异的混淆影响，将使域转移模型性能的量化更加清晰。

我们的广泛评估表明，所提出的FIA在所有域转移任务（即DA和DG）中显著增强了模型在不同人口统计特征下的公平性和性能，在分割和分类任务中均优于现有方法。

论文链接：https://arxiv.org/abs/2407.08813

代码地址：https://github.com/Harvard-Ophthalmology-AI-Lab/FairDomain

数据集网站：https://ophai.hms.harvard.edu/datasets/harvard-fairdomain20k

数据集下载链接：https://drive.google.com/drive/folders/1huH93JVeXMj9rK6p1OZRub868vv0UK0O?usp=sharing

51c视觉~合集12_视觉AI

1、背景

近年来，深度学习在医学影像领域的进步极大地提升了分类和分割任务的效果。这些技术有助于提高诊断准确性、简化治疗规划，最终改善患者的健康状况。然而，在不同医疗环境中部署深度学习模型时，面临一个重要挑战，即算法固有的偏见和对特定人口群体的歧视，这可能会削弱医疗诊断和治疗的公平性。

近期的一些研究开始解决医学影像中算法偏见的问题，开发了一些增强深度学习模型公平性的方法。然而，这些方法通常假设训练和测试阶段的数据分布保持不变，这种假设在实际医疗场景中往往不成立。

例如，不同的初级保健诊所和专科医院可能依赖于不同的成像技术（例如，不同的视网膜成像方式）进行诊断，导致显著的域转移，进而影响模型性能和公平性。

因此，在实际部署中，必须考虑域转移，并学习能够在跨域场景中保持公平性的模型。

虽然已有文献广泛探讨了域适应和域泛化，但这些研究主要集中在提高模型准确性，而忽视了确保模型在不同人口群体中提供公平预测的关键性。尤其在医疗领域，决策模型直接影响人类健康和安全，因此研究跨域公平性具有重要意义。

然而，目前仅有少量研究开始探讨跨域公平性的问题，而且这些研究缺乏系统的全面调查，通常仅关注域适应或泛化，而很少同时关注两者。此外，现有的研究主要解决医学分类问题，而忽视了在域转移下同样重要的医学分割任务。

为了解决这些问题，我们介绍了FairDomain，这是医学影像领域第一个系统性探索域转移下算法公平性的研究。

51c视觉~合集12_视觉AI_02

我们通过多个最先进的域适应和泛化算法进行广泛实验，评估这些算法在不同人口统计属性下的准确性和公平性，并了解公平性如何在不同领域之间转移。

我们的观察揭示了在不同的医学分类和分割任务中，源域和目标域之间的群体表现差异显著加剧。这表明需要设计以公平性为导向的算法来有效解决这一紧迫问题。

51c视觉~合集12_视觉AI_03

为了弥补现有偏见缓解工作的不足，我们引入了一种新的多功能公平身份注意力（FIA）机制，该机制设计为可以无缝集成到各种域适应和泛化策略中，通过人口统计属性（例如，种族群体）派生的自注意力来协调特征重要性，以促进公平性。

FairDomain基准的开发面临的一个关键挑战是缺乏一个能够真实反映现实世界医疗领域中域转移的医学影像数据集，而这种域转移通常是由于不同的成像技术引起的。

现有的医学数据集中，源域和目标域之间的患者人口统计差异引入了混淆，难以区分观察到的算法偏见是由于人口统计分布变化还是固有的域转移所致。

为了解决这个问题，我们策划了一个独特的数据集，包括同一患者队列的配对视网膜眼底图像，分别采用两种不同的成像方式（En face 和 SLO 眼底图像），专门用于分析域转移场景下的算法偏见。

总结我们的贡献：

首次系统性探索了医学影像中域转移下的算法公平性。
引入了公平身份注意力技术，以提高域适应和泛化中的准确性和公平性。
创建了一个大规模的、用于公平性研究的配对医学分割和分类数据集，专门研究域转移下的公平性问题。

2、数据收集和质量控制

受试者是在2010年至2021年间从哈佛医学院的一个大型学术眼科医院中选取的。本研究中探讨了两个跨域任务，即医学分割和医学分类任务。对于医学分割任务，数据包括以下五种：

En-face 眼底图像扫描；
SLO 眼底图像扫描；
患者的人口统计信息；
青光眼诊断；
杯盘掩膜注释。

特别地，杯盘区域的像素注释首先通过 OCT 设备获取，OCT 制造商的软件将 3D OCT 中的盘边缘分割为 Bruch’s 膜开口，并将杯边缘检测为内界膜（ILM）与平面相交处的最小表面积的交点。

由于 Bruch’s 膜开口和内界膜与背景的高对比度，这些边界可以很容易地分割出来。由于 OCT 制造商软件利用了3D 信息，杯盘分割通常是可靠的。

考虑到初级护理中 OCT 设备的有限可用性和高成本，我们提出了一种将 3D OCT 注释转移到 2D SLO 眼底图像的方法，以提高早期青光眼筛查的效率。

我们使用NiftyReg 工具精确对齐 SLO 眼底图像与 OCT 衍生的像素注释，生成大量高质量的 SLO 眼底掩膜注释。

这一过程经过一组医学专家的验证，注册成功率达 80%，简化了初级护理设置中更广泛应用的注释过程。我们利用这些对齐和手动检查的注释，结合 SLO 和 En face 眼底图像，研究分割模型在域转移下的算法公平性。

对于医学分类任务，数据包括以下四种：

En-face 眼底图像扫描；
SLO 眼底图像扫描；
患者的人口统计信息；
青光眼诊断。

医学分类数据集中的受试者根据视野测试结果分为正常和青光眼两类。

3、数据特征

医学分割数据集包含 10000 名受试者的 10000 个样本。我们将数据分为训练集 8000 个样本，测试集 2000 个样本。患者的平均年龄为 60.3 ± 16.5 岁。

数据集包含六个人口统计属性，包括年龄、性别、种族、族裔、首选语言和婚姻状况。人口统计分布如下：

性别：女性占 58.5%，男性占 41.5%；
种族：亚洲人占 9.2%，黑人占 14.7%，白人占 76.1%；
族裔：非西班牙裔占 90.6%，西班牙裔占 3.7%，未知占 5.7%；
首选语言：英语占 92.4%，西班牙语占 1.5%，其他语言占 1%，未知占 5.1%；
婚姻状况：已婚或有伴侣占 57.7%，单身占 27.1%，离婚占 6.8%，法律分居占 0.8%，丧偶占 5.2%，未知占 2.4%。

类似地，医学分类数据集包含 10000 名受试者的 10000 个样本，平均年龄为 60.9 ± 16.1 岁。我们将数据分为训练集 8000 个样本，测试集 2000 个样本。人口统计分布如下：

性别：女性占 72.5%，男性占 27.5%；
种族：亚洲人占 8.7%，黑人占 14.5%，白人占 76.8%；
族裔：非西班牙裔占 96.0%，西班牙裔占 4.0%；
首选语言：英语占 92.6%，西班牙语占 1.7%，其他语言占 3.6%，未知占 2.1%；
婚姻状况：已婚或有伴侣占 58.5%，单身占 26.1%，离婚占 6.9%，法律分居占 0.8%，丧偶占 1.9%，未知占 5.8%。

这些详细的人口统计信息为深入研究跨域任务中的公平性提供了丰富的数据基础。

4、用来提升跨域AI模型公平性的方法Fair Identity Attention (FIA)

51c视觉~合集12_视觉AI_04

4.1 问题定义

域适应（Domain Adaptation, DA）和域泛化（Domain Generalization, DG）是机器学习模型开发中的关键技术，旨在应对模型从一个特定域应用到另一个域时可能出现的变异性。在医学影像领域，DA 和 DG 技术对于创建能够稳健处理不同医疗机构、成像设备和患者群体之间的变异性的模型至关重要。本文旨在探讨域转移背景下的公平性动态，并开发确保模型在适应或泛化到新域时保持公平和可靠性的方法。我们旨在开发一个方法函数 f，以减轻模型从源域转移到目标域时常见的公平性恶化。此类恶化主要由于域转移可能放大数据集中现有的偏见，特别是那些与性别、种族或族裔等人口统计属性相关的偏见。为了解决这个问题，我们提出了一种基于注意力机制的方法，旨在识别和利用与下游任务（如分割和分类）相关的图像特征，同时考虑人口统计属性。

图 3 显示了所提出的公平身份注意力模块的架构。该模块首先通过处理输入图像和输入统计属性标签, 以获得输入图像embedding 和属性embedding 。然后将这些嵌入加上位置embedding 。详细的计算公式如下:

51c视觉~合集12_视觉AI_05

通过计算query和key的点积，我们提取与当前特征属性相关的相似度矩阵。然后使用该矩阵与value的点积提取每个特征属性在下游任务中显著的特征。这个过程由以下公式表示：

51c视觉~合集12_视觉AI_06

其中 D 是一个缩放因子，以避免 softmax 函数中的值过大。

随后，一个残差连接将添加到注意力的输出中，以保持输入信息的完整性。最后，一个归一化层和一个多层感知器（MLP）层进一步提取特征。在对这两个层的输出进行另一次残差操作后，我们得到了公平注意力模块的最终输出。

公平身份注意力机制是一种强大且多功能的工具，旨在提高模型性能，同时解决公平性问题。通过明确考虑人口统计属性（如性别、种族或族裔），它确保学习到的表示不会无意中放大数据中存在的偏见。

其架构允许它作为一个插件组件无缝集成到任何现有网络中。这种模块化性质使得研究人员和实践者能够在不需要对底层架构进行大量修改的情况下，将公平身份注意力集成到他们的模型中。

因此，公平身份注意力模块不仅有助于提高分割和分类任务中的模型准确性和公平性，还通过促进数据集中不同群体的公平待遇来推动可信AI落地。

5、实验

5.1 域转移中的算法公平性

在我们的实验中，我们首先分析了在域转移背景下的公平性，具体关注于杯盘分割任务。杯盘分割是指在眼底图像中精确描绘视杯和视盘的过程，这对于计算杯盘比（CDR）至关重要，是评估青光眼进展和风险的关键参数。

这一任务在医学影像领域尤为重要，尤其是在诊断和管理青光眼等眼科疾病时。由于视杯是视盘的一个重要子区域，我们将分割任务重新定义为视杯和边缘（视杯和视盘边缘之间的组织区域）分割，以避免因视杯和视盘之间的大面积重叠而导致的表现失真。

我们研究了在三种不同的人口统计特征（性别、种族和族裔）下的公平性表现，涉及两个不同的领域：从光学相干断层扫描（OCT）中获取的 En face 眼底图像和扫描激光眼底图像（SLO）。

在随后的实验中，我们选择 En face 眼底图像作为源域，SLO 眼底图像作为目标域。其原因在于，与 SLO 眼底图像相比，En face 眼底图像在专科眼科护理环境中更为常见，因此数据的可用性显著更高。

因此，我们选择将 En face 眼底图像作为源域，将 SLO 眼底图像作为目标域。对于分类任务，我们使用这两个域的眼底图像作为源域和目标域，分类为正常和青光眼两类。

5.2 评估指标

我们使用 Dice 和IoU指标来评估分割性能，使用受AUC来评估分类任务的性能。这些传统的分割和分类指标虽然能反映模型的表现，但并未内在地考虑到各人口统计群体之间的公平性。为了解决医学影像中模型性能和公平性之间的潜在权衡，我们使用新颖的公平性缩放性能（ESP）指标来评估分割和分类任务的性能和公平性。

令 Dice, IoU, AUC,表示适用于分割或分类的通用性能指标。传统评估通常忽略人口统计身份属性，从而错过了关键的公平性评估。为了将公平性纳入其中，我们首先计算性能差异 ,定义为各人口统计群体的指标与总体性能的集体偏差，其公式如下：

51c视觉~合集12_视觉AI_07

当不同群体的性能公平性达到时，接近零，反映出最小的差异。然后，ESP 指标可以公式化如下：

51c视觉~合集12_视觉AI_08

该统一指标有助于全面评估深度学习模型，强调不仅要关注其准确性（如通过 Dice、IoU 和 AUC 等测量），还要关注其在不同人口群体间的公平性。

Cup-Rim Segmentation Results under Domain Shifts

51c视觉~合集12_视觉AI_09

51c视觉~合集12_视觉AI_10

51c视觉~合集12_视觉AI_11

Glaucoma Classification Results under Domain Shifts

51c视觉~合集12_视觉AI_12

6、总结

本文聚焦于人工智能（尤其是医疗AI）中的公平性问题，这是实现公平医疗的关键。

由于诊所可能使用不同的成像技术，域转移中的公平性问题仍然基本未被探索。我们的工作引入了FairDomain，这是一个关于域转移任务中算法公平性的全面研究，包括域适应和泛化，涉及医学分割和分类两个常见任务。

我们提出了一种新颖的即插即用的Fair Identity Attention（FIA）模块，通过注意力机制根据人口统计属性学习特征相关性，从而在域转移任务中增强公平性。

我们还创建了第一个以公平性为中心的跨域数据集，其中包含同一患者队列的两种配对的成像图片，以排除人口统计分布变化对模型公平性的混淆影响，从而精确评估域转移对模型公平性的影响。

我们的公平身份注意力模型可以改善现有的域适应和泛化方法，使模型性能在考虑公平性的情况下得到提升。开发板商城天皓智联 tb可以选设备哦也可以在gitee找到我

#UniMD

美团提出UniMD：语言描述视频定位与动作检测的大一统

本文提出了一个统一的架构UniMD，它将两项任务的输入，即TAD的动作或MR的事件，转换到一个共同的嵌入空间，并利用两个新颖的查询依赖解码器（生成统一的分类得分和时间段输出。

论文：https://arxiv.org/abs/2404.04933

代码：https://github.com/yingsen1/UniMD

摘要

时序动作检测（Temporal Action Detection，TAD）专注于检测预定义的动作，而时刻检索（Moment Retrieval，MR）则旨在识别未剪辑视频中由开放式自然语言描述的事件。尽管它们关注不同的事件，我们观察到它们之间有显著的联系。例如，MR中的大多数描述涉及TAD中的多个动作。在本文中，我们旨在探讨TAD和MR之间的潜在协同作用。首先，我们提出了一种统一的架构，称为统一时刻检测（Unified Moment Detection，UniMD），用于TAD和MR。它将两项任务的输入，即TAD的动作或MR的事件，转换到一个共同的嵌入空间，并利用两个新颖的查询依赖解码器（query-dependent decoders）生成统一的分类得分和时间段输出。其次，我们探索了两种任务融合学习方法——预训练和共同训练，以增强TAD和MR之间的互惠效益。大量实验表明，所提出的任务融合学习方案使两项任务能够互相帮助，并超过单独训练的对手。令人印象深刻的是，UniMD在三个配对数据集Ego4D、Charades-STA和ActivityNet上取得了最先进的结果。

问题引入

时序动作检测（Temporal Action Detection，TAD）和时刻检索（Moment Retrieval，MR）是两个相似的任务，旨在识别未剪辑视频中特定事件及其对应的时间段。TAD专注于识别与单一动作相关的时间段，而MR则旨在识别与自然语言描述相符合的时间段。尽管这两个任务之间有显著的联系，例如，MR中的大多数自然语言描述是TAD中多个动作的组合。然而，大多数现有工作 [7, 23, 25, 53, 59, 61] 将TAD和MR视为两个独立的任务，为每个任务使用单独的模型。在本文中，我们旨在回答一个问题：通过单一模型将两项任务融合，它们是否能够互相受益？

51c视觉~合集12_视觉AI_13

图2. TAD和MR任务的互惠效益示意图。MR任务以绿色显示，TAD任务以蓝色显示。MR中的事件帮助建立动作之间的依赖关系，例如(a)同时发生，和(b)顺序发生。TAD中的实例可以(c)作为负样本，并且(d)为MR提供更多的事件。

将TAD和MR融合在一起在两个方面具有重要意义：不仅可以降低部署成本，还具有提升整体性能的潜力。通过仔细探索覆盖这两项任务的视频（例如Charades [42]和Charades-STA [14]），我们识别出它们之间的三种潜在互惠效益：(i) MR中的事件可以表达多个动作的关系和顺序，从而建立动作之间的依赖关系。例如，在图2a中，事件“人物被毯子盖住后醒来”暗示“用毯子盖住”和“醒来”同时发生。在图2b中，事件“人物坐下来查看一本书”表明“在笔记本上工作”发生在“坐在桌子旁”之后。(ii) TAD中的动作可以作为完整事件的分解，为MR任务提供更细致的监督。如图2c所示，基于“放置”和“取走”相反的语义，动作“把东西放在桌子上”可以作为事件“人物从袋子里取出食物”的负样本。此外，如图2d所示，TAD中的所有动作都可以视为MR的特殊事件，赋予MR更多正样本。(iii) TAD和MR的融合增加了训练实例的数量。例如，Charades和Charades-STA每个视频平均分别有6.8个动作实例和2.4个事件实例。因此，TAD可以为MR增加超过200%的事件实例数量，而MR可以为TAD提供额外的16,000个动作描述。

51c视觉~合集12_视觉AI_14

图1. 我们提出的UniMD模型能够同时执行TAD和MR任务。在使用部分训练数据进行共同训练时，它甚至可以达到优于专用模型的性能，例如在MR任务中使用25%的训练数据和在TAD任务中使用50%的训练数据。

为了研究TAD和MR之间的潜在协同作用，我们提出了一种新的任务表述，称为时刻检测（Moment Detection，MD），旨在同时解决TAD和MR任务，如图1a所示。对于MD，我们设计了一个任务统一架构，称为统一时刻检测网络（Unified network for Moment Detection，UniMD），并采用任务融合学习方法，以增强两个任务的性能：

(1) 任务统一架构。 任务集成在处理输入不一致性（即TAD中仅有视频作为输入，而MR中同时有视频和事件作为输入）和动作范围差异（即TAD专注于预定义动作，而MR处理自然语言描述的事件）方面提出了挑战。为了解决这个问题，我们建立了一个统一的任务输入和输出的范式。对于输入，我们采用开放式查询格式，如“[动作/事件]的视频”来描述两个任务中的动作和事件。然后，这些查询通过预训练的图像-文本模型（如CLIP [39]）转换为文本嵌入，从而本质上建立了动作或事件之间的关系。对于输出，我们提出了一个查询依赖的分类头（query-dependent classification head）和一个查询依赖的回归头（query-dependent regression），以为每个查询生成统一的分类得分和时间边界。分类头使用文本嵌入作为分类器来生成分类得分。同时，回归头将文本嵌入转换为卷积核，以预测与查询相关的时间边界。

(2) 任务融合学习。 为了增强TAD和MR之间的协同作用，我们探索了任务融合学习以促进它们的相互影响。具体来说，我们考察并讨论了预训练和共同训练在任务融合学习中的影响。此外，我们引入了两种共同训练方法：同步任务采样和交替任务采样。同步任务采样优先选择包含两项任务的视频样本，确保每次训练迭代都包括这两项任务。相比之下，交替任务采样在每次迭代时基于交替任务更新网络。在这些方法中，采用同步任务采样的共同训练有效地增强了协同作用，并为每项任务带来了显著的改进。如图1b所示，提出的共同训练模型能够比专用模型取得更好的结果，即使仅使用部分训练数据，例如MR的25%训练视频和TAD的50%训练视频。这表明，相互受益不仅仅来源于注释数量的增加，而是来自共同训练的增强效果。

本文的核心贡献包括：

(i) 我们提出了一个统一框架，称为UniMD，旨在同时解决TAD和MR任务。这个框架通过继承CLIP的文本编码器来编码查询，并通过查询依赖的头部预测与动作或事件相关的时间边界，从而连接动作和事件。
(ii) 据我们所知，我们是首次利用任务融合学习来探索这两项任务是否能互相帮助，并提出了一种有效的共同训练方法以增强它们的协同作用，这为基于语言的大型视频模型（如LLaMA-vid [24]）在动作/事件检测任务上的训练提供了宝贵的见解和经验。
(iii) 大量实验表明，UniMD在各种基准测试中实现了最先进的性能：Ego4D-MQ上为23.25%的mAP，Ego4D-NLQ上为14.16%的R1@30，Charades-STA上为63.98%的R1@50，以及ActivityNet上为60.29%的mAP@50。

实现细节

51c视觉~合集12_视觉AI_15

图3 本文提出的UniMD结构

统一的任务表述：时刻检测（Moment Detection，MD）

TAD 侧重于在未剪辑视频中识别预定义动作类别的时间段。MR 旨在预测由开放式自然语言描述的事件的时间段。时刻检测MD能够识别近闭集动作和开放式事件的时间段。

任务统一架构

在本节中，我们通过在一个统一框架内整合TAD和MR任务，研究它们之间的潜在协同作用。为此，我们提出了一个统一的网络，称为统一时刻检测网络（Unified network for Moment Detection，UniMD）。它能够有效地协调这两个任务，并促进它们的互惠进步。

如图3所示，我们首先统一了TAD和MR的输入接口。具体来说，我们设计了一个统一的查询q来描述每个视频中需识别的动作类别和开放式事件。对于TAD，我们利用动作名称或其变体（例如“[动作名称]的视频”）作为输入查询。对于MR，我们直接使用其自然语言描述作为输入查询。如图3所示，所提出的统一模型受到目标检测 [29, 45] 的启发，包含两个编码器：一个视觉编码器Φv-enc和一个文本编码器Φt-enc，以及两个解码器：一个查询依赖的分类头Φcls和一个查询依赖的回归头Φreg，其中Φv-enc表示视觉编码器和特征金字塔网络（FPN）的组合。两个编码器分别编码文本嵌入和视觉嵌入，而解码器基于文本和视觉嵌入预测与动作或事件对应的置信度和时间段。该统一模型被设计为无锚点的单阶段时序检测器。其设计新颖性主要在于两个查询依赖的解码器（query-dependent decoders）。

总的来说，结合图3，UniMD的流程可以理解为：该网络旨在通过将每个TAD类别视为一个独立的自然语言查询来处理时刻检测。视频特征被输入到视觉编码器和BiFPN中，以提取多尺度特征。然后，文本嵌入被传输到解码器，计算每个时间步长的前景置信度以及动作的开始和结束时间。分类头利用文本嵌入作为分类器，而回归头则利用文本嵌入的转换作为卷积核。

编码器

文本编码器。为了在TAD的动作名称和MR的自然语言描述之间建立对应关系，我们使用预训练的图文对齐模型中的文本编码器（例如我们使用的CLIP [39]），来提取输入查询的文本嵌入。CLIP通常在大量的图像-标题对数据集上训练，并在开放词汇的图像分类和目标检测 [13, 65] 中表现出巨大的成功。在这里，我们将CLIP集成到视频时刻检测中，提供了两大内在优势。首先，它自然地建立了动作名称和自然语言描述之间的连接。其次，它使动作/事件检测具有开放性，即超越训练阶段中的动作/描述。

视觉编码器。视觉编码器接收一系列视频特征X作为输入，并通过多个包含下采样操作的块处理这些特征，从而生成一系列多尺度表示。不同于以往在视频理解中使用Transformer [17,30,48] 的工作，我们的方法采用ConvNext [32] 块作为视觉编码器的主要组件。我们采用纯卷积架构而不使用自注意力机制，因为我们认为，长时间的时序信息对于局部动作/事件检测并不是至关重要的。相反，卷积操作可以更有效地强调邻近帧的信息，从而更有效地捕捉运动模式和时间依赖性。结合FPN，视觉编码器生成多尺度特征。

解码器

为了使解码器能够适应各个独立的查询，我们提出了一种查询依赖的分类头和一种查询依赖的回归头，用于多模态融合。如图3所示，头部是一个简单且轻量级的卷积网络。不同金字塔级别的所有头部共享相同的结构和权重。

查询依赖的分类头。所提出的分类头由两个常规卷积层和一个查询依赖的卷积分类器组成，如图3所示。查询依赖的分类器计算时间视觉特征和文本嵌入之间的内积，从而得出反映给定查询语义的相似度分数。最后，将相似度进行缩放并通过Sigmoid函数得到介于0和1之间的语义分数。具体来说，通过接收视觉特征和语义查询作为输入，分类头将它们解码为每个时间步长对应查询的前景置信度序列。

查询依赖的回归头。回归头用于预测给定动作/事件在每个时间步的时间偏移量。在典型的目标检测中，回归头可以设计为与类别无关，因为每个实例的边界明显且相似 [13]。然而，在视频动作/事件检测中，时间边界与检测类别密切相关，例如，查询“打开袋子”和“从某处取食物”对应于两个截然不同且高度动作相关的边界，如图2c所示。为此，我们提出了一种查询依赖的回归头，以预测与查询紧密相关的边界。如图3所示，所提出的回归头具有与分类头相似的结构，即由两个常规卷积层和一个查询依赖的卷积层组成。然而，与分类不同的是，文本嵌入不能直接作为卷积核来回归时间戳，因为文本编码器（即CLIP）主要通过对比学习进行训练，目的是为了分类。为了解决这个问题，我们引入了一个查询转化分支，负责语义转化，使文本嵌入能有效用于回归任务。查询依赖的卷积层使用语义转化后的嵌入作为其卷积核，并执行查询级别的卷积，以预测每个类别的时间偏移量。

最后，通过结合分类头和回归头的输出，得到与每个查询在每个时间步对应的检测结果。这些结果将通过分类阈值和Soft-NMS [2] 进行筛选，以获取最终输出。

损失函数

我们采用了两种损失函数来训练任务统一网络，即 (i) 多路二值分类损失和 (ii) 距离回归损失。为了联合训练这两个任务，我们使用加权和来调整两个损失之间的平衡。

任务融合学习

在本节中，我们旨在探索本文的核心问题：TAD和MR是否能通过任务融合学习互惠互利？在第1节中，我们分析了TAD和MR的注释数据，并识别出任务融合学习的三种潜在效益：(i) MR辅助TAD。MR中的大多数描述描绘了涉及多个动作的行为，这有助于TAD通过在相邻单一动作之间建立联系识别共现/顺序动作。(ii) TAD辅助MR。TAD提供了对行为的更详细分解，从而可以为MR任务带来更精确的时间间隔估计。(iii) 互惠互利。两项任务都增强了注释的可用性，即TAD为MR丰富了动作实例，而MR提供了许多可视为特定动作类别的事件描述。在接下来的内容中，我们将描述两种任务融合学习方法以优化潜力并提高两项任务的性能。

预训练。 任务融合学习中的常见做法是采用迁移学习的理念，首先在一项任务上对模型进行预训练，然后利用这些知识来提高另一项任务的性能。然而，这种方法需要两组任务的模型参数。

共同训练。 任务融合学习的另一种思路是共同训练。在这种方法中，由于UniMD的创新设计，两项任务同时训练，从一个随机初始化的模型开始，通过单一的训练过程完成这两个任务。基于不同的目的，我们实验了三种不同的采样方法：(i) 同步任务采样专注于TAD中的动作类别和MR中的文本语义的交互，确保每次迭代都涉及两项任务。它优先抽取覆盖两个任务的视频，然后从剩余视频中随机抽取TAD和MR对。(ii) 交替任务采样将TAD和MR视为单一任务，并对两项任务进行等采样。它交替抽取属于一个任务的视频，并在每次训练迭代中仅基于单一任务更新网络。(iii) 随机任务采样没有偏好，随机采样视频，因此每次迭代可能包含单一任务或两项任务。

在第6.3节中，我们将展示预训练和共同训练的实验，以证明任务融合学习的影响，并随后讨论所提出采样方法的有效性。

实验部分

消融实验

51c视觉~合集12_视觉AI_16

表1. 关于回归头、任务统一学习、损失权重和数据量的消融研究。最佳结果用粗体表示，次佳结果用下划线表示。

实验(a) 查询依赖的回归头

如表1a所示，使用查询作为输入的回归头在两个任务中的表现更好（在TAD中mAP从21.86%提升到22.61%，在MR中R1@30从12.49%提升到13.99%）。这种提升归因于查询的语义信息，使得对特定动作的时间间隔更为精确。在该头的查询转换分支中，配备了3个全连接层的MLP表现最佳。

实验(b)任务融合学习

表1b展示了在Ego4D验证集上预训练和共同训练的比较。我们采用TAD任务进行预训练，并在MR任务上进行后续微调，表示为“TAD→MR”。相反的方向表示为“MR→TAD”。不同任务的预训练效果有所不同。对于“MR→TAD”，在TAD中有0.08%的mAP轻微提升。然而，使用TAD作为预训练任务会对MR产生负面影响，可能是由于过拟合到TAD领域。此外，我们分析了三种共同训练采样方法的功效：同步任务采样（“Sync.”）、交替任务采样（“Alt.”）和随机任务采样（“Random”）。值得注意的是，共同训练的模型在测试两个任务时使用相同的一组参数。首先，“Sync.”方法在TAD和MR任务的共同训练结果中显著提升。特别是在Ego4D中，TAD的mAP提高了1.51%，MR的R1@50提高了0.75%。接着，“Alt.”方法在MR中显著增强（R1@50提升1.22%），超过了“Sync.”方法的效果。其原因是将TAD和MR分成交替的迭代有效地将TAD视为MR任务，从而增加了MR的注释和负样本的数量。然而，就TAD指标而言，“Alt.”方法倾向于MR，这与“Sync.”方法不同，后者更好地利用了TAD和MR的注释以实现互惠互利的结果。关于“Random”方法，在TAD和MR方面均有提升，效果介于“Sync.”和“Alt.”之间。关于Charades和ANet任务融合学习的更多实验将会在补充材料中展示。

实验(c) 损失权重

不同损失权重对结果的影响显著，如表1c所示。例如，使用“1-1”损失权重时，共同训练的性能比专用模型在TAD中表现更差（22.55 mAP对比22.61 mAP）。因此，我们仔细选择了“3-1”的损失权重，以确保共同训练模型在任务之间达到适当的平衡。

实验(d) 数据量

表1d展示了不同数据量对ANet验证的影响。通过控制每个任务的训练数据数量（例如，“0.5-0.5”表示仅使用TAD和MR中的一半视频），我们观察到数据量增加对两个任务都有积极影响，如图1所示。值得注意的是，在TAD中，使用仅50%训练视频的共同训练模型略微超过了专用模型，而在MR中，即使用仅25%训练视频的共同训练模型也显著超越了专用模型。这表明，互惠效益不仅仅来自标注数量的增加，更源于共同训练增强了效果。

与SOTA比较

51c视觉~合集12_视觉AI_17

Ego4D上的结果

我们的方法与最先进的SOTA方法的比较如表2所示。我们的模型在验证集和测试集上都表现出了优越的性能，为TAD和MR任务建立了新的SOTA结果。具体来说，与使用相同视频特征的InternVideo (AF) [5] 相比，我们的方法（称为 “UniMD+Sync.”）在TAD测试集中达到了3.94%的mAP和9.22%的R1@50的提升。尽管我们使用的特征不如ActionFormer [59]，但我们的方法在TAD中仍然领先1.49%的mAP和2.26%的R1@50。此外，在MR测试集中，UniMD相比InternVideo (VSLNet) [5] 在R1@30提升了1.13%，在R5@30则显著提升了6.63%。最后但同样重要的是，UniMD能够在单一模型中同时执行TAD和MR任务，计算成本几乎没有增加，例如，与ActionFormer相比增加不到1%。这些结果展示了UniMD在处理复杂视频时刻检测任务中的卓越性能和效率。

51c视觉~合集12_视觉AI_18

Charades和Charades-STA上的结果

表3展示了我们的方法在TAD和MR基准测试上的性能。在TAD基准测试中，使用I3D特征时，我们的模型达到了24.06%的mAP，虽然略低于CTRN [7]。值得注意的是，CTRN专门为密集标注的动作数据集设计，使用基于图的分类器来解决共现动作的挑战。当我们将额外的CLIP特征作为视频特征加入后，我们的方法显示出显著的改进，并在性能上与CTRN相当。在MR基准测试中，我们结合I3D和CLIP特征的模型在R1@50上达到了63.98%的新SOTA结果，展示了显著的3.18%的提升。这些结果表明，虽然在一些特定情况下我们的方法可能稍逊于专门针对特定任务优化的方法，但通过整合更强大的特征和多模态信息，我们的方法在综合性能上依然具有强大的竞争力。

51c视觉~合集12_视觉AI_19

ANet和ANet-Caption上的结果

在TAD和MR任务中的比较如表4所示。使用相同特征时，我们的共同训练模型在TAD基准测试中表现优异，优于InternVideo (AF)，在TAD任务中达到了39.83%的mAP和60.29%的mAP@50，创下了新的SOTA结果。在MR任务中，我们的方法表现也非常出色，达到了80.54%的R5@50，展示了其在处理复杂视频时刻检测和事件描述任务中的卓越性能。这些结果进一步验证了我们提出的方法在处理不同视频场景和任务中的广泛适用性和强大的性能。通过有效的特征融合和任务训练策略，我们的方法在多种基准测试上均达到了或超过了最先进的水平。

本文总结

本文回答了“通过将TAD和MR任务融合到单一模型中，它们是否可以互相受益”的问题。为此，我们首先设计了一个任务统一网络，称为UniMD，具有统一的任务输入和输出接口。然后，我们进一步探索了各种任务融合学习方法，以增强TAD和MR之间的协作。通过在三个配对数据集上的实验，我们证实了任务融合学习方法有效地提高了两个任务的性能。

#不用向量离散化的自回归图像生成

本工作的作者重新用扩散模型建模了自回归中下一个图像词元的分布，从而提升了模型的生成能力。由于标准自回归模型生成能力有限，为了进一步提升模型，作者又引入了最新的掩码自回归模型。最终的模型在 ImageNet 图像生成指标上取得了几乎最顶尖的结果。

自回归是一种根据之前已生成内容，不断递归预测下一项要生成的内容的生成模型。这种生成方式十分易懂，符合我们对生活的观察。比如我们希望模型生成一句话，第一个是「今」字，那么第二个字很可能就是「天」字。如果前三个字是「今天早」，那么第四个字就很可能是「上」。

（空）  -> 今
今      -> 天
今天    -> 早
今天早  -> 上

为这种自回归模型的而设计的 Transformer 网络在自然语言处理（NLP）中取得了极大的成功。然而，尽管许多人也尝试用它生成图像，自回归模型却一直没有成为最强大、最受欢迎的图像生成模型。

为了解决此问题，何恺明团队公布了论文 _Autoregressive Image Generation without Vector Quantization_。作者分析了目前最常见的自回归图像生成模型后，发现模型中的向量离散化 (Vector Quantization, VQ) 是拖累模型能力的罪魁祸首。作者用一些巧妙的方法绕过了 VQ，最终设计出了一种新式自回归模型。该模型在图像生成任务上表现出色，在 ImageNet 图像生成指标上不逊于最先进的图像扩散模型。在这篇博文中，我们就来学习一下这种新颖的无 VQ 自回归图像生成模型。

51c视觉~合集12_视觉AI_20

建议读者在阅读本文前熟悉 VQ-VAE、Transformer、DDPM 等经典工作，了解 NLP 和图像生成中连续值和离散值的概念。

知识回顾

连续值与离散值

在计算机科学中，我们既会用到连续值，也会用到离散值。比如颜色就是一个常见的连续值，我们用 0~1 之间的实数表示灰度从全黑到全白。而词元 (token) 需要用离散值表示，比如我们用 "0" 表示字母 "A"，"1" 表示 "B", "2" 表示 "C"，并不代表 "B" 是「'A' 和 'C' 的平均值」。离散值的数值只是用来区分不同概念的。

51c视觉~合集12_视觉AI_21

神经网络默认输入是连续变化的。因此，一个连续值可以直接输入进网络。而代表离散值的整数不能直接输入网络，需要先过一个嵌入层，再正常输入进网络。

自回归与类别分布

在自回归文本生成模型中，为了不断预测下一个词元，通常的做法是用一个神经网络建模下一个词元的类别分布（categorical distribution）。如下面的例子所示，所谓类别分布，就是下一步选择每一个词元的概率。有了概率分布后，我们就能用采样算法采样出下一个词元。

51c视觉~合集12_视觉AI_22

要训练这个预测模型也很简单。每次预测下一个词元的类别分布，其实就是一个分类任务。我们直接照着分类任务的做法，以数据集里现有句子为真值，用交叉熵损失函数就能训练这个预测模型了。

自回归图像生成

由于 Transformer 在 NLP 中的成功，大家也想用 Transformer 做图像生成。在用自回归模型生成图像时，需要考虑图像和文本的两个区别：

文本是一维的，天然有先后顺序以供自回归生成。而图像是二维的，没有先后顺序。
图像的颜色值是连续而非离散的。而只有离散值才能用类别分布表示。

解决问题 1 的方法很简单：没有先后顺序，我们就人工定义一个先后顺序就好了，比如从左上到右下给图像编号。

51c视觉~合集12_视觉AI_23

而对于问题 2，一种最简单的方式是把连续的颜色值离散化。比如将原来 0 ~ 1 的灰度值转换为「0 号灰度」、「1 号灰度」、…… 「7号灰度」。神经网络像对待词元一样对待这些灰度值，不知道它们之间的大小关系，只知道生成图像的颜色只能由这 8 种「颜色词语」构成。

51c视觉~合集12_视觉AI_24

向量离散化

把颜色值离散化后，我们的确可以用自回归做图像生成了。但是，由于图像的像素数比文章的词元数要多很多，这种逐像素生成方式会非常慢。为了加速自回归生成，VQ-VAE, VQGAN 等工作借由向量离散化自编码器（VQ 自编码器）实现了一个两阶段的图像生成方法：

训练时，先训练一个包括编码器 (encoder) 和解码器 (decoder) 两个子模型的 VQ 自编码器，再训练一个生成压缩图像的自回归模型。
生成时，先用自回归模型生成出一个压缩图像，再用 VQ 自编码器将其复原成真实图像。

相比普通的自编码器，VQ 自编码器有一项特点：它生成的压缩图像仅由离散值组成。这样，它就同时完成了两项任务，使得自回归模型能够高效地实现图像生成：1）将连续图像变成离散图像；2）减少要生成的像素数。

51c视觉~合集12_视觉AI_25

如果你还是不太理解 VQ 的作用，请先回顾 VQ-VAE 工作，再来学习这篇工作。

抛弃 VQ，拥抱扩散模型

我们来总结一下为什么要使用基于 VQ 的自回归图像生成：大家想用基于 Transformer 的自回归模型做图像生成。自回归模型在预测下一个词元/像素时，通常会用一个类别分布来建模下一项数据。由于类别分布只能描述离散数据，而图像又是连续数据，我们需要把连续像素值变成离散值。一种常用的将连续图像变成离散图像的方法是 VQ 自编码器，它既能减少图像尺寸以提高生成效率，又能将连续图像变成离散图像。但相比普通的自编码器，如 VAE，VQ 自编码器有着一些缺点：

VQ 自编码器很难训练
VQ 自编码器的重建效果没有 VAE 好。比如在 Stable Diffusion 中，开发者选择了用 VAE 而不是 VQ-VAE 作为自编码器

出于抛弃 VQ 的想法，论文的作者发问道：「自回归图像生成真的需要和 VQ 绑定起来吗？」注意到，在我们刚刚阐述使用 VQ 自回归生成的动机时，用了几个「通常」、「常用」这样的非肯定词。这表明我们的这条推理链不是必然的。要取代 VQ，我们可以从两个方面入手：

换一种更强力的把连续图像变成离散图像的方法
从更根本处入手，不用类别分布来建模下一项数据

论文的作者选择了第二种做法：不就是建模一个像素值的分布吗？我们为什么要用死板的类别分布呢？既然扩散模型如此强大，能够拟合复杂的图像分布，那用它来拟合一个像素值的分布还不是轻轻松松？论文的核心思想也就呼之欲出了：用扩散模型而不是类别分布来建模自回归模型中下一个像素值的分布，从而抛弃自编码器里的 VQ 操作，提升模型能力。

可能读者第一次看到这个想法时会有些疑惑：扩散模型不是用来生成一整张图像的吗？它怎么建模一个像素值的分布？它和自回归模型又有什么关系？我们来多花点时间深入理解这个想法。

在文本自回归生成中，输入是已生成文本，输出是下一个词元的类别分布。

51c视觉~合集12_视觉AI_26

而在图像自回归生成中，输入是已生成像素，输出是下一个像素的类别分布。现在，我们希望不用类别分布，而用另一种方式，根据之前的像素生成出下一个像素。

51c视觉~合集12_视觉AI_27

论文作者从扩散模型中获取了灵感。扩散模型是一种强力的生成模型，它可以不根据任何信息，或根据类别、文本等信息，隐式建模训练集的图像分布，从而生成符合训练集分布的图像。既然扩散模型能够建模复杂的图像分布，那它也可以根据之前像素的信息，建模下一个像素的分布。

51c视觉~合集12_视觉AI_28

那么，在这种新式自回归模型里，我们可以用约束于 Transformer 输出的上下文信息的扩散模型来建模下一个像素的分布，尽管现在我们并不知道每种颜色出现的概率。

51c视觉~合集12_视觉AI_29

这样做的好处是，以前我们只能用离散的有限类型的颜色（准确来说是图像词元）来表示图像，现在我们能够用连续值来表示图像。模型能够更加轻松地生成内容丰富的图像。

51c视觉~合集12_视觉AI_30

当然，抛弃了 VQ 后，自回归模型确实不需要 VQ 自编码器来把连续图像变成离散图像了。但是，我们依然需要用自编码器来压缩图像，减少要生成的像素数。本工作依然采取了 VQ-VAE、VQGAN 那种两阶段的生成方式，只不过把 VQ 自编码器换成了用 KL loss 约束的 VAE。

训练这种扩散模型的方法很简单。在每一步训练时，我们知道上下文像素是什么，也知道当前像素的真值是什么。那么，只要以上下文像素为约束，用当前像素的真值去训练一个带约束扩散模型就行了。作者把训练这种隐式描述下一个像素值分布的误差函数称为 Diffusion Loss。

具体来说, 本工作使用了最基础的带约束 DDPM 扩散模型。它和标准 DDPM 的唯一区别在于误差函数多了一个约束信息 , 该信息是上下文像素过 Transformer 的输出。

时刻的噪声图像也是由 DDPM 加噪公式得来的。

Diffusion Loss 不仅可以用来训练表示分布的扩散模型，还可以训练前面提取上下文信息的 Transformer。由于约束信息来自 Transformer，可以把 Diffusion Loss 的梯度通过回传到 Transformer 的参数里。

扩散模型的采样公式也和 DDPM 的一样，这里不再赘述。特别地，以前的自回归模型在使用类别分布时，会用温度来控制采样的多样性。为了在扩散模型中也加入类似的温度参数，本工作参考了 Diffusion models beat GANs on image synthesis 论文的有关设计。

在具体模型超参数上，本工作的 DDPM 训练时有 1000 步，采样时有 100 步。乍看之下，DDPM 会为整个生成模型增加许多计算量，但由于只需要建模一个像素的分布，这套模型的 DDPM 可以用非常轻量级的结构。默认配置下，这套模型的 DDPM 的去噪模型是一个由 3 个残差块组成小型 MLP。每个残差块由 LayerNorm、线性层、SiLU、线性层组成。约束信息会和时刻的编码加在一起，用 DiT (Scalable diffusion models with Transformers) 里的 AdaLN 约束机制输入进 LayerNorm 层里。

套用更先进的自回归模型

仅是去掉 VQ，把 Diffusion Loss 加进标准自回归模型，并不能得到一个很好的图像生成模型。于是，作者用更加先进的一些自回归模型（掩码生成模型 Masked Gernerative Models，如 MaskGIT: Masked generative image Transformer、MAGE: Masked generative encoder to unify representation learning and image synthesis）代替标准自回归模型，极大提升了模型的生成能力。

双向注意力

在标准 Transformer 中（如下图 (a) causal 所示），每一个词元只能看到自己及之前词元的信息。这样做的好处是模型能够并行训练，串行推理。训练和推理的速度都会比较快。但是，由于每个词元看不到后面词元的信息，Transformer 提取整个句子（图像）特征的能力会下降。

而 MAE (Masked autoencoders are scalable vision learners) 论文提出了一种双向注意力机制，它可以让词元两两之间都传递信息。但是，这样模型就不能用同一个句子并行训练了，也失去了 KV cache 加速推理的手段。

51c视觉~合集12_视觉AI_31

如果你不太了解 Transformer 为什么是并行训练，请仔细回顾 Transformer 论文中有关自回归机制的描述。

广义自回归模型

除了双向注意力外，作者还将一些掩码生成模型的设计融合进标准自回归模型。这种广义上的自回归模型效果更好，且能缓解双向注意力导致的推理速度慢的问题。

一般来说，用图像自回归模型时，我们都是按从左到右，从上到下的顺序生成词元，如下图 (a) 所示。但是，这种顺序不一定是最合理的。

按理来说，模型应该可以通过任何顺序生成词元，这样模型学到的生成方式更加多样。更合理的生成方式应该如下图 (b) 所示，不是从左到右，从上到下给词元编号，而是随机选择一个排列给图像编号。这样就能按照随机的顺序生成图像的词元了。

而在掩码自回归生成中，模型可以一次性生成任意一个集合的词元。因此，为了加速 (b) 模型，我们可以如下图 (c) 所示，在随机给词元编号后一次生成多个词元。(b) 可以看成是 (c) 一次只预测下一个词元的特例。

51c视觉~合集12_视觉AI_32

Transformer 模型配置

本工作并没有给 Transformer 加入新设计，我们来确认一遍论文中介绍的 Transformer 配置。

本工作依然采取了两阶段的生成方法。第一个阶段的自编码器（又可以理解成 NLP 中的 tokenizer）来自 LDM 工作官方仓库的 VQ-16 和 KL-16 模型。前者是 VQ 自编码器（VQGAN），后者是一个加强版的 VAE。

本工作用的 Transformer 和 ViT 一样。得到图像词元后，词元会加上位置编码，且词元序列开头会附加一个 [cls] 词元，用以在类别约束生成任务里输入类别。

基于这个类别词元，本工作使用了一种特别的 Classifier-free guidance (CFG) 机制：模型用一个假类别词元来表示「类别不明」。训练时，10% 的正确类别词元被替换成了假类别词元。这样，在用扩散模型时，就可以根据标准 CFG 的做法，用正确类别和假类别实现 CFG。详情请参见论文附录 B。

在训练掩码自回归模型时，70%~100% 的词元是未知的。由于采样序列可能会很短，作者在输入序列前附加了 64 个 [cls] 词元。掩码自回归模型的其他主要设计都与 MAE 相同。

实验结果

本工作面向的是图像生成任务，主要评估 ImageNet 数据集上按类别生成的 FID 和 IS 指标。FID 越低越好，IS 越高越好。这篇工作的实验结果中有许多信息，让我们来仔细看一看这份结果。

Diffusion Loss 与广义自回归模型

论文首先展示了 Diffusion Loss、广义自回归模型这两项主要设计的优越性，如下表所示。由于图像是按类别生成的，可以用 CFG 提升模型的生成效果。为了公平比较，模型使用的 VQ 自编码器和 KL 自编码器都来自 LDM 仓库。

51c视觉~合集12_视觉AI_33

表格的 4 大行展示了改进自回归模型的影响，每一大行里不同 loss 的对比体现了 Diffusioin Loss 的影响。

从第一大行可以看出，Diffusion Loss 似乎对标准自回归的改进不是很明显，且这一套方法的生成能力并不出色。只有把自回归模型逐渐改进后，Diffusion Loss 的效果才能逐渐体现出来。在后几行掩码自回归模型中，Diffusion Loss 的作用还是很大的。

而对比前三大行，我们可以发现自回归模型的架构极大地提升了生成效果，且似乎将 Transformer 由 causal 改成 bidirect 的提升更加显著。

第四大行相比第三大行，提升了每次预测的词元数，主要是为了加速。这两行的对比结果表明，做了这个加速操作后，模型生成能力并没有下降多少。后续实验都是基于第四行的配置。

Diffusion Loss 适配不同的自编码器

相比原来类别分布，用 Diffusion Loss 解除了自编码器必须输出离散图像的限制。因此，目前的模型能够适配多种自编码器，如下表所示。图中 rFID 指的是图像重建任务的 FID，越低越好。这里的 VQ-16 指的是将 VQGAN 的 VQ 层当作解码器的一部分，这样 VQGAN 的编码器输出也可以看成是连续图像，和 LDM 里的做法一样。最后一行的 KL-16 是作者重新重新在 ImageNet 上训练的 VAE，而前两行的 VQ-16 和 KL-16 是在 OpenImages 上训练的。由于后文的实验都基于 ImageNet，所以后文都会用第五行那个 VAE。

51c视觉~合集12_视觉AI_34

首先对比一下这里 VQ-16 w/o CFG 的 FID 和上表里最后一大行 CrossEnt 的 FID。这两组实验的自编码器相同，仅有误差函数不同。将误差函数从交叉熵换成了 Diffusion Loss 后，FID 从 8.79 变成了 7.82。这一项直接对比的实验证明了不考虑自编码器的改进时，Diffusion Loss 本身的优越性。

再对比前两行，KL 的自编码器无论是图像恢复指标还是最后的生成指标都优于 VQ 的自编码器。这印证了论文开头想要抛弃 VQ 自编码器的动机：VQ 自编码器逊于 KL 自编码器。

第三、第四行展示了方法也可以兼容下采样 8 倍的自编码器。本来测试用的 ImageNet 是大小的, 按照一开始下采样 16 倍的配置, 能得到的压缩图像, 即输入 Transformer 的词元序列长度为。现在改成了下采样 8 倍后, 为了兼容之前的序列长度, 作者把个像素打包成一个词元。论文里没讲是怎么打包的, 我猜测是在通道上拼接。Consistency 是另一套自编码器, 作者展示这个估计是为了说明这套方法兼容性很强。

和 SOTA 图像生成模型对比

为了证明方法的优越性，论文还展示了本工作与其他 SOTA 工作在 ImageNet 图像生成任务上的定量对比结果。下表是 ImageNet的结果。为了方便对比，我还贴出了 DiT 论文里展示的表格（左表）。本文的模型在表里被称作 MAR。

51c视觉~合集12_视觉AI_35

下表是 ImageNet 的结果。左边那张表是 EDM2 展示的结果。

51c视觉~合集12_视觉AI_36

从表里可以看出，本工作在 ImageNet 图像生成任务上表现很不错，超越了绝大多数模型。

图像生成速度对比

下面是不同生成模型的速度对比结果。第一张图是本论文展示的和 DiT 的对比结果。DIT 采用的扩散模型采样步数是 (50 ,75, 150, 250)。由于本工作的性能瓶颈在自回归模型而不在扩散模型上，所以本工作展示的不同采样步数由自回归步数决定。图中的自回归步数是 (8, 16, 32, 64, 128)。中间的图是 LDM 的结果，同模型不同点表示的是采样步数为 (10, 20, 50, 100, 200) 的结果。右边的表是 EDM2 的采样速度等指标。左边两张图是 ImageNet 上的，最右边的表是 ImageNet上的。

51c视觉~合集12_视觉AI_37

由于不同图表的采样速度指标不太一样，我们将指标统一成每秒生成的图像。从第一张图的对比可以看出，DiT 最快也是一秒 2.5 张图像左右，而 MAR 又快又好，默认（自回归步数 64）一秒生成 3 张图左右。同时，通过 MAR 和有 kv cache 加速的标准 AR 的对比，我们能发现 MAR 在默认自回归步数下还是比标准 AR 慢了不少。

我们再看中间 LDM 的速度。我们观察一下最常使用的 LDM-8。如果是令 DDIM 步数为 20 （第二快的结果）的话，LDM-8 的生成速度在一秒 16 张图像左右，还是比 MAR 快很多。DDIM 步数取 50 时也会比 MAR 快一些。

最后看右边较新的图像扩散模型 EDM2 的速度。由于这个是在的图片上测试的，和前面的速度相比时大概要乘个 4。哪怕是最大的 XXL 模型，在有 guidance 时，生成速度也是 2 张图片每秒。换算到上约 8 张图片每秒，还是比 MAR 快。

总结

自回归图像生成中的向量离散化和类别分布必须同时使用。为了去除表现较差的向量离散化操作，本工作的作者重新用扩散模型建模了自回归中下一个图像词元的分布，从而提升了模型的生成能力。由于标准自回归模型生成能力有限，为了进一步提升模型，作者又引入了最新的掩码自回归模型。最终的模型在 ImageNet 图像生成指标上取得了几乎最顶尖的结果。

以上是论文的叙述逻辑。但掩码自回归那一块应该是之前工作的研究成果，这篇文章实际上就是把新提出的 diffusion loss 用到了掩码自回归上，把本来在 ImageNet 上生成能力尚可的掩码自回归推到了最前列。

这篇文章在科研上的最大创新是打破了大家在图像自回归上的固有思维，认为必须用离散词元，必须用类别分布。但仔细一想，建模一个分布的方法其实许许多多。随便把另一种生成完整图像的模型用到生成一个像素上，就能取代之前的类别分布，得到更好的图像生成结果。这篇文章用简单的 DDPM 只是为了验证这个想法的可行性，用更复杂的模型或许能有更好的结果，但用 DDPM 做验证就足够了。之后肯定会有各种后续工作，研究如何用更好的模型来建模本框架中一个像素值的分布。

反过来想，这篇文章也在提醒我们，扩散模型并不只是可以用来生成图像，它的本质是建模一个分布。如果某个模型中间需要建模一个简单的分布的话，都可以尝试用 DDPM。

相比其科研创新，这篇文章在 ImageNet 图像生成指标的成就反而没有那么耀眼了。本工作在 ImageNet 的 FID 等指标上取得了几乎最优的结果，战胜了多数最强的扩散模型，有望将大家的科研眼光从扩散模型移到自回归上。但由于自回归本身步数较多，且每一步要在 Transformer 里做完整的注意力操作，这种方法的速度还是比扩散模型要慢一点。

#APGCC

重新思考人群计数和定位，解决不稳定性问题！

本文提出APGCC模型，用以改善传统基于点的人群计数在学习过程中的不稳定问题。通过引入辅助点和精确的特征表示方法，APGCC大大提升了模型优化过程中区分正负样本的能力，同时增强了在各种复杂场景下计数准确性和定位的精度。

组织机构：台湾大学, UC Merced, Google

论文：https://arxiv.org/abs/2405.10589

主页：https://apgcc.github.io/

簡介：

人群计数与定位(Crowd Counting and Localization) 是一种计算机视觉技术，用于估算图像或视频中的人数，并确定他们的精确位置，可应用于监控、事件管理和城市规划等重要领域。其中，基于点的人群计数(Point-based Crowd Counting) 可直接透过点标签(Point Annotation) 进行回归和预测学习，而不是依赖密度图(Density Map)和边界框(Bounding Box)等伪标签资讯。该方法在处理不同密度的人群和遮挡方面表现出色，提供了更高的准确性和精确性。然而，传统基于点的人群计数方法在训练过程仅依赖匹配策略进行训练，不稳定的匹配结果将导致训练目标不一致，不仅容易选择偏远的点提案(Point Proposal)，更容易导致复杂区域产生高估或低估等现象(线条表示Proposal到预测点的可视化)：

51c视觉~合集12_视觉AI_38

因此，本论文的目的在于提升点预测方法训练时的鲁棒性。我们提出了APGCC的模型，通过引入辅助点指导(Auxiliary Point Guidance, APG)来解决不稳定性的问题，使优化过程能够更加有效地区分潜在的正负匹配点，从而提高模型的鲁棒性和准确性，同时不产生额外的推理运算资源。

51c视觉~合集12_视觉AI_39

方法：Overview of APGCC

51c视觉~合集12_视觉AI_40

上图显示了大致的训练流程，除了传统基于点的人群计数方法的Point Proposal预测、Proposal-Target匹配和损失函数计算外(红、灰色点表示)，我们还提出了辅助点指导策略(Auxiliary Point Guidance, APG)，以优化训练稳定度(蓝、绿色点表示)。此外，在解码的过程中引入了隐式特征插值(Implicit Feature Interpolation, IFI)模块，使模型能精确地获取任意点的特征表示，从而提升定位准确性和鲁棒性。整体训练过程包括以下步驟：

特征提取：使用预训练好的骨干网络（如VGG-16）提取影像特征。
多尺度特征融合：通过金字塔池化（ASPP）整合多尺度特征。
隐式特征插值：使用IFI模块解码过程计算所有位置的响应特征Fproposal。
置信度和偏移量预测：将每个独立的Fproposal输入置信（Confidence）和回归（Offset）模块，得到每个预测点的置信度和偏移量。
匹配与损失计算：使用匈牙利算法（Hungarian algorithm）进行Proposal-Target匹配，并针对每个点计算MSE点回归和Cross Entropy损失。然而，仅依赖匹配策略进行学习容易导致优化过程不稳定。因此，我们引入了APG模块，为模型提供明确的学习目标，从而提高稳定性和准确性。

Auxiliary Point Guidance (APG)

51c视觉~合集12_视觉AI_41

APG模块旨在通过引入辅助点来增强基于点的人群计数和定位方法的稳定性和准确性。这一策略可以分为两部分：

正辅助点（Auxiliary Positive Points）：

这些辅助点由真实标签点加上些微空间噪声产生于每个真实标签点附近。
用于提高正匹配点的置信度和预测偏差的精度。
通过确保正辅助点的置信度接近1和位置预测接近对应真实标签点，使模型倾向于选择最近点，提高定位精度和置信度。

负辅助点（Auxiliary Negative Points）：
这些辅助点由真实标签点加上较大噪声生成。
旨在防止负匹配点通过偏差接近真实标签点。
负辅助点的置信度和偏差应尽可能接近0，避免负匹配点邻近于匹配点，从而提高匹配过程的稳定性。

Implicit Feature Interpolation (IFI)

51c视觉~合集12_视觉AI_42

为了在任意位置有效插入辅助点并增强特征座标与真实座标之间的对齐，我们提出了隐式特征插值（Implicit Feature Interpolation）。IFI的具体步骤包括：

邻近特征提取：找寻目标座标的四个邻近特征向量，以及各自对应的空间距离和位置编码信息。
特征转换：将这些信息共同输入到多层感知机（MLP）进行连续特征转换。
特征合并：通过插值方法合并四项参考特征以得到最终特征表示。通过在特征空间进行连续性转换，模型能够更好地捕捉场景中的细微差异，从而提高整体预测能力。

实验结果：

此篇论文做了许多实验来证明其有效性。

人群计数量化比较(Crowd Counting Quantitative Comparison)

论文在多个数据集上进行了测试，包括SHHA、SHHB、UCF-QNRF和JHU-Crowd++数据集。

51c视觉~合集12_视觉AI_43

此外，论文还在UCF_CC_50和NWPU Testing Set数据集上进行了测试。

51c视觉~合集12_视觉AI_44

从以上结果得知，AGPCC方法能有在不同密度和复杂场景下表现得更加稳定和鲁棒，能有效区分正负预测点，提高整体性能。

人群定位量化比较(Crowd Localization Quantitative Comparison)

论文还进行了人群定位的量化比较实验，主要在NWPU Testing Set和SHHA数据集上进行测试。

51c视觉~合集12_视觉AI_45

51c视觉~合集12_视觉AI_46

由以上结果分析，与其他现有基于点的人群际数方法相比，APGCC框架通过正辅助点指导回归预测以及IFI增强特征表示，达到更精确地定位人群中独立个体的效果。

可视化结果分析(Qualitative Analysis)

51c视觉~合集12_视觉AI_47

上述结果清楚显示了使用APG策略可以更有效的引导模型选择邻近点作为预测对象，这一策略有效地减少了预测误差，提高了模型在复杂场景中的表现。

消融实验(Ablation Study)

APG策略有效性分析 & IFI模块有效性分析。

51c视觉~合集12_视觉AI_48

从消融实验结果中可以得到以下结论：

APG策略：直接匹配邻近点可能导致低估，Matcher用于训练模型学习置信度，而APG提供成对正负样本，弥补直接匹配策略的不足。因此，Matcher + APG组合策略在提供明确训练目标和有效判别正负预测点方面达到最佳表现。
IFI模块：结合了插值的优势，通过空间距离信息和MLP实现特征空间中的连续性转换，显著增强了任意位置的特征表示，提高了模型整体性能。

结语

本文提出APGCC模型，用以改善传统基于点的人群计数在学习过程中的不稳定问题。通过引入辅助点和精确的特征表示方法，APGCC大大提升了模型优化过程中区分正负样本的能力，同时增强了在各种复杂场景下计数准确性和定位的精度。这一创新方法为人群计数和定位技术的发展提供了新的方向和思路。

#Lumina-mGPT

视觉全能！自回归要反超扩散？任意分辨率丝滑逼真图像生成（上海AI Lab）

本文介绍了Lumina-mGPT，一个多模态自回归模型家族，能够执行各种视觉和语言任务，特别是在从文本描述生成灵活的逼真图像方面表现优异。通过使用大规模交织的文本-图像序列进行下一token预测目标的多模态生成预训练（mGPT），简单的decoder-only Transformer能够学习广泛且通用的多模态能力，从而实现逼真的文本到图像生成。

文章链接：https://arxiv.org/pdf/2408.02657

git链接：https://github.com/Alpha-VLLM/Lumina-mGPT

亮点直击
通过多模态生成预训练的自回归Transformer，而不是从头训练，可以作为逼真的文本到图像生成和视觉与语言任务统一的有效初始化。
基于mGPTs，引入了两种新的微调策略，FP-SFT和Omni-SFT，以在从弱到强的范式中充分释放它们的潜力，仅使用1000万高质量的文本-图像数据。
结果模型Lumina-mGPT不仅在任何分辨率下展示了令人印象深刻的逼真文本到图像生成，弥合了自回归和扩散基础方法之间的差距，还通过语言接口无缝支持各种下游任务。

本文介绍了Lumina-mGPT，一个多模态自回归模型家族，能够执行各种视觉和语言任务，特别是在从文本描述生成灵活的逼真图像方面表现优异。与现有的自回归图像生成方法不同，Lumina-mGPT采用了预训练的decoder-only Transformer作为建模多模态token序列的统一框架。注意见解是，通过使用大规模交织的文本-图像序列进行下一token预测目标的多模态生成预训练（mGPT），简单的decoder-only Transformer能够学习广泛且通用的多模态能力，从而实现逼真的文本到图像生成。基于这些预训练模型，提出了高质量图像-文本对的灵活渐进监督微调（FP-SFT），以充分释放它们在任何分辨率下进行高美学图像合成的潜力，同时保持其通用多模态能力。

此外，引入了全能监督微调（Omni-SFT），将Lumina-mGPT转化为一个基础模型，能够无缝实现全能任务统一。结果显示，该模型具备多种多模态能力，包括视觉生成任务（如灵活的文本到图像生成和可控生成）、视觉识别任务（如分割和深度估计）以及视觉语言任务（如多轮视觉问答）。此外，本文还分析了扩散基础方法和自回归方法之间的差异和相似之处。

51c视觉~合集12_视觉AI_49

51c视觉~合集12_视觉AI_50

51c视觉~合集12_视觉AI_51

方法

Lumina-mGPT 是一个仅包含解码器的Transformer ，采用多模态生成预训练（mGPT）进行初始化，并在来自各种任务的高质量多模态token 上进行微调。基于强大的 mGPT 表示和本文提出的带有明确图像表示的监督微调策略，Lumina-mGPT 在逼真图像生成和全能任务统一方面表现出色，具有高灵活性，能够处理不同的图像分辨率和长宽比。

重新审视带Chameleon的mGPT

mGPT 代表了一类利用仅包含解码器的Transformer 架构的模型，这些模型在广泛的多模态token 序列上进行了预训练。这些模型展现了出色的原生多模态理解、生成和推理能力，提供了在各种模态和任务中进行通用建模的潜力。本文使用最近的开源模型 Chameleon作为例子，来说明 mGPT 的设计选择和实现细节。

多模态分词（Tokenization）

为了将文本和图像统一成多模态token序列，首先需要将文本和图像分别token化为离散空间。特别是对于图像，选择合适的分词器至关重要，因为它决定了生成质量的上限。具体来说，Chameleon 为文本训练了一种新的字节对编码token。对于图像，采用了基于量化的token化方法，参考了之前的工作，将连续的图像补丁转换为来自固定词汇表的离散token ，同时减少空间维度。量化后的图像token被展平成一维序列，并以各种方式与文本token连接，以形成用于统一建模的多模态token序列。

仅解码器Transformer

与使用预训练编码器的 Unified-IO 和 Parti 的编码器-解码器架构不同，mGPT 从头开始训练一个仅包含解码器的自回归Transformer，在将文本和图像输入转换为离散token的统一序列后，这种方法提供了更简单、更统一的多模态生成建模方法。mGPT 采用了标准的密集Transformer 架构，以便于扩展和泛化，进行了如 RoPE（和 SwiGLU激活函数等小的调整，参考了 LLaMA 系列）。

然而，当模型规模和多模态token序列的上下文长度增加时，这种标准的Transformer 架构会表现出训练不稳定性，这在 Chameleon和 Lumina-Next中都有观察到。研究发现，这种不稳定性是由于Transformer块中的网络激活无法控制地增长所造成的。因此，为了保持中间激活的幅度并进一步稳定训练过程，添加了 Pre-Norm、Post-Norm 和 QK-Norm 到每个Transformer 块中。

训练目标

在训练过程中，mGPT 通过标准的下一个token 预测目标建模多模态序列的条件概率。此外，Chameleon 应用了 z-loss来稳定 7B 和 30B 模型的训练。最初，低估了 z-loss 的重要性，因为在与（多模态）LLM 训练相关的大多数工作中，它是缺失的。然而，发现没有这项时，logits 的幅度会激增，导致损失发散。另一方面，使用 z-loss 时，观察到对于 7B 和 30B 模型，推理时图像生成的最佳温度远低于 1B 模型，因为在更大的模型中 logits 的幅度显著降低。

Chameleon 的局限性

尽管像 Chameleon 这样的 mGPT 模型在单个仅解码器的Transformer 中展示了图像和文本的联合理解潜力，但其图像生成能力在质量和分辨率灵活性方面仍不及最先进的扩散基础框架。此外，值得注意的是，Chameleon 的开源版本中甚至缺乏图像生成能力。此外，Chameleon 的能力仅限于视觉-语言和仅文本任务，未涵盖更广泛的视觉中心任务。这些任务包括经典的视觉识别任务（如分割和深度预测）以及创意视觉生成任务（如可控生成和图像编辑）。Lumina-mGPT 基于 Chameleon 构建，旨在释放其在灵活逼真图像生成方面的全部潜力，成为一个多功能的视觉通用模型。

Lumina-mGPT

基于预训练的多模态生成预训练（mGPT）表示，Lumina-mGPT 实现了灵活的逼真图像生成以及视觉和语言任务的统一。为了充分释放 mGPT 的潜力，提出了明确图像表示（Uni-Rep）、灵活渐进监督微调（FP-SFT）和全能监督微调（Omni-SFT）。Uni-Rep 消除了原始 2D 形状的扁平化 1D 图像token 中的模糊性，为灵活分辨率和长宽比下的图像理解和生成奠定了基础。FP-SFT 以从简单到困难的方式逐步微调 mGPT 以生成更高分辨率的离散图像token ，同时融入多任务微调，以防止文本知识的灾难性遗忘。在 FP-SFT 过程之后，Lumina-mGPT 能够以灵活的分辨率生成逼真的图像。在 FP-SFT 阶段的图像生成能力的基础上，继续在全能任务数据集上微调 Lumina-mGPT，通过将图像和注释从密集标注、空间条件图像生成和多轮编辑数据集中token 化为离散token 。所有微调阶段均采用下一个token 预测目标来共同建模多模态token ，并集成 z-loss，与预训练阶段类似。

有效初始化

大规模预训练和可扩展模型架构已被广泛验证为通向先进智能的黄金路径。由于 mGPT（如 Chameleon）在大规模图像-文本交织数据集上进行预训练，并为图像和文本开发了有效且可泛化的表示，它们可以更好地作为灵活逼真图像生成及其他任务的起始点，而不是随机初始化或仅语言模型。此外，LLaMA架构，结合了查询-键归一化和旋转位置编码等特性，通过广泛的验证展示了其强大和可扩展性。通过从遵循 LLaMA 架构的 Chameleon mGPT 初始化，可以利用这些架构优势。因此，从 mGPTs 开始初始化能够高效地训练出性能优异的 Lumina-mGPT 模型，其参数范围从 7B 到 30B，仅使用 1000 万高质量图像-文本数据点。

预训练仅解码器的多模态生成预训练（mGPT）模型在各种应用中已被广泛探索和应用。与这些现有方法不同，Lumina-mGPT 的主要贡献在于展示了从合适的 mGPT 表示开始的好处，而不是使用大型语言模型（LLMs）或随机初始化，特别是在文本到图像生成方面。相信这一发现可以启发未来在图像生成和视觉通用模型方面的进展。

Lumina-mGPT 的监督微调

明确图像表示（Unambiguous Image Representation）

现有方法，如 Chameleon和 LlamaGen，将图像表示为 2D 离散图像编码的 1D 扁平序列。虽然这种方法适用于固定图像分辨率，但在图像分辨率可变的情况下（如 Lumina-mGPT 支持的情况），它变得模糊。例如，分辨率为 512×512、256×1024 和 1024×256 的图像都可以编码成相同数量的token ，这使得在不检查token 内容的情况下很难推断原始形状。这种模糊性对图像感知和生成提出了重大挑战。

为了解决这个问题，本文提出了明确图像表示（Uni-Rep），它通过在 <start-of-image> token 之后添加额外的高度/宽度指示token ，并在属于同一行的图像token 之后插入 <end-of-line> token ，来增强图像表示。如下图 2 所示，这种修改确保可以准确解析出图像的原始形状，而无需额外的上下文或深入研究图像token 的内容。这一改进为 Lumina-mGPT 在任何分辨率和长宽比下执行图像相关任务奠定了基础。

51c视觉~合集12_视觉AI_52

需要注意的是，虽然高度/宽度指示器或 <end-of-line> token 中的任意一个都可以单独实现消歧义，但仍然同时使用这两者，因为它们各有不同的优点。在生成图像时，高度/宽度指示器在任何图像token之前生成，可以预先确定图像的形状，帮助 Lumina-mGPT 组成图像内容。另一方面，<end-of-line> token 可以作为anchors，为 1D token 序列提供额外的显式空间信息。

灵活渐进监督微调（FP-SFT）

FP-SFT 过程使预训练的 mGPT 能够以渐进的方式生成具有灵活长宽比的高分辨率图像。该过程分为三个阶段，每个阶段的宽度和高度的乘积分别为 512²、768² 和 1024²。在每个阶段，准备了一组具有相似面积但不同高宽比的候选分辨率，每张图像都匹配到最合适的分辨率。在低分辨率阶段，较短的序列长度和较高的训练吞吐量使得模型能够快速遍历大量数据，学习图像的整体构图和广泛的视觉概念。相反，在高分辨率阶段，模型预计将专注于学习高分辨率图像特有的高频细节。受益于在高吞吐量预训练和低分辨率微调阶段建立的强大基础，低吞吐量高分辨率微调阶段的数据效率高，从而提高了 FP-SFT 过程的整体效率。

FP-SFT 使用精心策划的高分辨率逼真图像-文本对数据集。此外，还在训练过程中融合了来自 OpenHermess（Teknium，2023）的纯文本数据和来自 Mini-Gemini（Li 等，2024a）的图像到文本数据，以防止灾难性遗忘。为了提供用户自然指定生成图像所需分辨率的方式，开发了分辨率感知提示（如上面图 2 所示）。对于每张图像及其相应的描述，提示的结构如下：

根据以下提示生成一张 {width}x{height} 的图像：  
{description}

全能监督微调（Omni-SFT）

虽然灵活的逼真图像生成是 Lumina-mGPT 的主要目标，但发现经过 FP-SFT 后的模型可以有效地转移到广泛的图像理解和生成任务中。因此，提出了 Omni-SFT，这是一个初步探索，旨在提升 Lumina-mGPT 成为视觉通用模型。Omni-SFT 的训练数据包括以下内容：

单回合和多回合语言引导的图像编辑：来自 MagicBrush和 SEED的数据（仅涉及现实世界和多回合子集）。
密集预测任务：包括来自 NYUv2和 ScanNet的表面法线估计，来自 Kitti v2和 Sintel的深度估计，来自 MSCOCO的姿态估计，使用 OneFormer标注的语义分割数据），以及来自 RefCOCO的基础数据。
内部空间条件图像生成数据：条件包括表面法线、深度、姿态和分割。
从 FP-SFT 过程中使用的数据的小部分样本。

经过 Omni-SFT 后，Lumina-mGPT 展现了完成广泛任务的通用能力，除了文本到图像生成，表明在这一方向上构建多模态通用模型的潜力。

训练设置

尽管 SFT 过程涉及多个任务，但对所有任务使用统一的下一个token 预测损失。由于 Lumina-mGPT 被设计为聊天模型，所有数据都被组织为单回合或多回合对话，损失仅应用于响应部分。所有实验中，使用 AdamW优化器，权重衰减为 0.1，beta 参数为 (0.9, 0.95)，学习率设置为。为了稳定训练，对 7B 和 30B 模型都应用了权重为的 z-loss，并且对 7B 模型额外应用了 0.05 的 dropout。为了适应大型模型体积，使用了 PyTorch FSDP和梯度检查点。为了提高训练吞吐量，所有数据在训练前都经过了预token 化，并根据token 数量进行了聚类，确保每个全局批次由具有相似长度的数据组成。

Lumina-mGPT 的推理

无分类器引导

无分类器引导（Classifier-Free Guidance, CFG）最初是为了增强文本到图像扩散模型生成样本的质量和文本对齐度。在推理过程中将这一技术引入了自回归模型。当生成图像token 时, CFG 处理后的 logits 被公式化为，其中代表基于完整上下文的原始 logits; 代表仅基于当前生成图像的token 之后的token 的上下文独立 logits, 不依赖于任何先前的上下文; 表示无分类器引导的指导尺度。为了使 CFG 起作用，在训练期间，之前的上下文会以的概率被随机丢弃。在实践中, 可以使用 KV 缓存加速和的计算。CFG 对 Lumina-mGPT 的生成性能有显著影响。

图像和文本的不同解码超参数

在推理过程中，自回归模型的采样策略涉及众多超参数，这些参数会显著影响采样结果。发现，文本解码和离散图像码解码的最佳解码超参数差异很大。例如，top-k=5 设置在生成文本时表现良好。然而，在生成图像时，top-k 的值应更大（例如 2000），以避免重复和无意义的模式。因此，实施了一种状态感知控制机制用于推理。具体来说，文本解码使用一组默认超参数；一旦生成了 <start-of-image> token ，超参数会切换到那些针对图像生成优化的设置。生成<end-of-image> token 后，参数会恢复到初始设置。

实验

基础的逼真文本到图像生成

首先展示了 Lumina-mGPT 在 FP-SFT 处理下的基础文本到图像生成能力。如下图 1 所示，Lumina-mGPT 能够在各种分辨率下生成逼真的图像，首次实现了无需模型级联的原生 1K 自回归生成，这是文本到图像生成中的常见技术。这些生成的图像展现出强大的语义一致性和复杂的视觉细节，尽管只在有限的计算资源和文本-图像对上进行了微调。

51c视觉~合集12_视觉AI_53

与最先进的自回归方法的比较

将 Lumina-mGPT 的文本到图像合成能力与 LlamaGen和 Parti进行了比较。LlamaGen 在 ImageNet FID 分数上超越了最先进的扩散模型。与 LlamaGen 相比，Lumina-mGPT 在文本到图像生成中能够实现更好的视觉质量，如下图 3 所示。需要注意的是，Lumina-mGPT 仅需要 1000 万张图像-文本对，而 LlamaGen 训练了 5000 万张低质量的图像-文本对，并附带了 1000 万张内部美学图像-文本对。与拥有 200 亿参数的 AR 文本到图像模型 Parti 相比，Lumina-mGPT 也展示了更好的视觉质量和美学。然而，由于计算成本和训练数据集的显著差异，Lumina-mGPT 在文本指令跟随能力上逊色于 Parti。此外，LlamaGen 和 Parti 都不支持像 Lumina-mGPT 那样支持任意长宽比的 1K 分辨率图像的端到端生成。LlamaGen 仅支持固定分辨率的 512 × 512，而 Parti 则使用额外的超分辨率上采样器生成 1024 × 1024 的图像。

51c视觉~合集12_视觉AI_54

FP-SFT 的有效性

为了进一步验证 FP-SFT 的有效性，在下图 4 中可视化了不同微调阶段生成的图像。随着图像分辨率的增加，观察到 VQ-VAE 引入的视觉伪影逐渐减少，并且出现了多样的细粒度视觉细节。从这些插图中，可以得出结论，FP-SFT 能够逐步释放 mGPT 生成高质量图像的潜力。

51c视觉~合集12_视觉AI_55

全能任务统一与 Lumina-mGPT

通过在 FP-SFT 之后执行 Omni-SFT，Lumina-mGPT 能够执行多种任务，这些任务可以分为文本-only 的多轮对话、视觉多轮对话、多轮图像编辑、密集标注和空间条件图像合成。为了直观地展示这些能力，在下图 12 至 16 中可视化了如何将各种下游任务无缝地集成到 Lumina-mGPT 中。

51c视觉~合集12_视觉AI_56

51c视觉~合集12_视觉AI_57

51c视觉~合集12_视觉AI_58

51c视觉~合集12_视觉AI_59

51c视觉~合集12_视觉AI_60

首先，得益于 Chameleon 的广泛预训练和本文的多任务微调以减轻灾难性遗忘，Lumina-mGPT 支持 LLMs 中的常见text-only 任务，如解决数学问题、编程和常识推理。例如，如图 12 所示，Lumina-mGPT 能够正确回答“哪个更大？9.9 还是 9.11”，这是几乎所有现有 LLM，包括 GPT-4和 Gemini，都感到困惑的问题。

如上面图 13 所示，Lumina-mGPT 还能够处理各种视觉-语言任务，包括图像描述、视觉问答和一般的多轮多图像对话。作为一个视觉通才，纳入经典视觉识别任务也很重要。使用自然语言作为统一接口，Lumina-mGPT 可以执行多种计算机视觉任务，包括图像分割、姿势估计、深度估计、表面法线估计和引用对象检测。有关示例，请见上面图 14 和 15。

除了逼真的图像生成之外，增加对文本到图像生成模型的额外控制也是至关重要的。如上图 15 和 16 所示，Lumina-mGPT 支持多种空间控制，包括深度图、分割图、法线图和人体姿势，以指导目标图像的生成。尽管上述示例仍处于初步阶段，但它们展示了 Lumina-mGPT 可以有效地遵循各种指令，显示了其作为一个框架统一多个具有挑战性的任务的良好潜力。

与扩散方法的比较

长期以来，与自回归模型相比，扩散模型在文本到图像生成领域一直占据主导地位。尽管 LlamaGen 宣称超越了扩散模型，但其结果仅限于 ImageNet 基准测试，目前尚无这两种架构之间的直接比较。本节旨在提供一个关于自回归方法和扩散方法的详细比较，这些方法是在相同的文本-图像数据集上训练的，重点关注图像质量、多样性、文本呈现和多语言能力。具体而言，将 Lumina-mGPT 和 Lumina-Next-SFT作为自回归和扩散方法的代表。对 Lumina-Next-SFT 和 Lumina-mGPT 的直接视觉比较揭示了自回归和扩散生成建模方法之间的相似性和差异。

关于扩散模型与自回归模型生成的相似性

在相同的文本提示下，扩散模型和自回归（AR）模型都能生成具有相似审美风格和精细细节的逼真图像，如下图 5 所示。这表明，在相同的训练数据、训练预算和可比模型规模的情况下，这两种架构都可以实现令人满意的文本到图像生成性能。自回归模型在视觉美学方面表现出色，与其扩散模型对手相媲美，挑战了扩散模型在生成建模中更有效和更有前景的架构的观点。这一发现也与“理想表现假设”相一致，即神经网络虽然训练架构和目标不同，但逐渐学会了共享的表示空间。因此，这一假设强调了收集更多高质量数据和优化训练基础设施作为数据和模型扩展方向的重要性，以提升总体模型性能，而不依赖于特定的架构。

51c视觉~合集12_视觉AI_61

扩散模型与自回归模型生成的差异

尽管存在视觉上的相似性，但扩散模型和自回归模型之间也存在显著差异。如上面图 5 所示，Lumina-mGPT 使用不同的随机种子展现了更多的多样性，而 Lumina-Next-SFT 则生成了具有相似布局和纹理的图像。这在一定程度上可以归因于 Lumina-mGPT 使用了较高的温度和 top-k 值。然而，过度的多样性也使得本文的模型在稳定性方面较差，更容易产生视觉伪影。

还比较了 Lumina-mGPT 和 Lumina-Next-SFT 在文本渲染和多语言理解方面的能力。如下图 6 所示，Lumina-mGPT 在文本合成结果方面表现显著优于 Lumina-Next-SFT，而后者在生成完整字符时表现不佳。

51c视觉~合集12_视觉AI_62

这突显了 mGPT 的重要性，因为该模型在预训练阶段通过大量交织的数据学习了文本和图像之间的无缝多模态表示。然而，在多语言理解方面，Lumina-mGPT 在表情符号和中文提示方面的表现不如 Lumina-Next-SFT，如下图 7 所示。原因在于，尽管 Lumina-mGPT 学习了更好的文本-图像对齐，但由于预训练时缺乏多语言文本语料，这限制了其表现。相比之下，Lumina-Next-SFT 使用的文本编码器在多语言能力上显著强于 Chameleon。因此，希望通过全面提升基础 mGPT 模型的能力，例如增加更多的多语言数据，Lumina-mGPT 能在所有下游任务中受益。

51c视觉~合集12_视觉AI_63

除了文本到图像生成外，Lumina-mGPT 还支持统一框架内的各种视觉和语言任务。然而，扩散模型的设计限制了它们在多个模态和任务中的兼容性和性能。扩散模型通常需要特定的架构设计和额外的训练来处理每个未见过的任务。相比之下，Lumina-mGPT 将所有模态的输入视为多模态token序列，并利用自然语言作为接口，通过下一个token预测来统一各种任务。

解码配置的影响

在自回归模型中，Lumina-mGPT 解码阶段的各种配置参数显著影响样本质量。在视觉领域，这些超参数（如温度 T、top-k 和分类器自由指导（CFG））尚未得到广泛研究。本节探讨了这些超参数如何影响生成图像的质量、纹理和风格。

温度的影响

为了评估这些解码参数的效果，我先设置一个标准解码配置：T=1.0，Top-k=2000，CFG=4.0，这是一种良好的使用设置。从这一baseline开始，逐渐将温度 T 从 0.7 调整到 1.0，以生成不同温度下的图像。结果如下图 8 所示。当温度设置较低时，视觉细节减少，物体趋向过度平滑。相反，当温度设置较高时，生成的图像包含丰富的视觉内容，但更容易出现更多的伪影。

Top-k 的影响

基于标准解码设置，将 top-k 值从 50 变化到 8192，其中 8192 等于 Lumina-mGPT 使用的 VQ-VAE 代码本的大小。结果如下图 8 所示，随着温度的增加，趋势相似。当 top-k 较低时，图像内容和纹理相对简单，也表现出过度平滑的问题。当 top-k 设置较高时，图像的细节和纹理更加多样，使其更具审美吸引力，但同时也增加了伪影的可能性。

51c视觉~合集12_视觉AI_64

分类器自由指导（CFG）的影响在文本到图像的扩散模型中，CFG 具有极其重要的作用。为了验证其在自回归生成中的有效性，将 CFG 值从 1.0 更改为 8.0。如上图 8 所示，随着 CFG 值的增加，生成图像的质量得到改善，证明了分类器自由指导在此背景下的有效性。

Lumina-mGPT 作为 VQ 码的细化器

众所周知，VQ-VAE（和 VAE通过将图像压缩成潜在表示来实现图像压缩，但这会带来信息损失，特别是对于高频细节如边缘、头发和文字。这种不可避免的损失限制了所有潜在空间生成模型的图像生成质量。

然而，惊讶地发现，通过简单的“无编辑”指令，Lumina-mGPT 可以改进由 VQ-VAE 编码的离散图像token。Lumina-mGPT 可以生成一系列经过细化的图像token，这些token可以解码成更好的图像。

比较了 Chameleon 中使用的 VQ-VAE、使用 Lumina-mGPT 细化的 Chameleon 的 VQ-VAE 以及 SDXL VAE的重建质量，如下图 9 所示。SDXL VAE 在重建性能方面显著优于 Chameleon 的 VQ-VAE。这也解释了为什么基于扩散的方法在文本到图像生成中能够超越自回归模型。然而，在使用 Lumina-mGPT 细化 VQ 码之后，重建图像的质量在细节和文本渲染方面都有了显著提高，与 SDXL VAE 不相上下。

51c视觉~合集12_视觉AI_65

假设，Lumina-mGPT 在大规模训练和高质量的 FP-SFT 过程中学习了真实图像token的潜在分布。Omni-SFT 进一步触发了这种ze ro-shot 能力，在多种任务和指令的训练后出现。这种zero-shot能力可以弥补 VQ-VAE 中编码器和解码器之间的表示差距，提示了改进当前两阶段潜在生成建模范式的有前景方向。例如，可以利用 Lumina-mGPT 作为教师来细化 VQ 码，用于学生训练，或在推理时通过类似于分类器自由指导的方式操作token logits 来设计推理时间技术。

注意力可视化

为了更好地理解 Lumina-mGPT 的采样行为，可视化了文本到图像生成过程中最后一个图像token的平均注意力 logits，如下图 10 所示。结果显示，注意力分数对于远处的token下降，表明模型相对于远离的token，更加关注局部token。这种行为与 RoPE 中设计的长期衰减特性相一致。此外，观察到类似于 LLM中所称的“注意力下沉”模式，即大量的注意力分数分配给少数几个token。详细分析后，这些下沉token被识别为指示符，包括 <start-of-image> 和 <end-of-line> token。值得注意的是，文本token的注意力分数显著小于 <start-of-image> token的分数。这表明，文本token中的大部分语义信息可能已经被封装到 <start-of-image> token中。这些有趣的发现表明，Lumina-mGPT 从这些下沉token中聚合了更多信息，展示了 Uni-Rep 中这些指示符的有效性，并开辟了利用这些下沉token加速采样过程的潜力。

51c视觉~合集12_视觉AI_66

限制

失败案例

尽管 Lumina-mGPT 能生成逼真的图像，但有时它会产生明显的视觉伪影。例如，Lumina-mGPT 可能会生成四肢不合理的人物和动物，如下图 11 的第一行所示。此外，与包括 SD3、Kolors和 HunyuanDiT在内的现有最先进的文本到图像生成方法相比，Lumina-mGPT 的提示跟随能力较差，因为它的训练资源和数据规模远小于这些最先进的方法（这些方法的训练数据超过 10 亿对图像-文本对）。在密集token和可控生成方面，Lumina-mGPT 目前的结果较为初步，受限于有限的训练预算。因此，图 11 的第二行提供了 Lumina-mGPT 产生不准确预测或语义不一致图像的例子，无法理解给定的图像条件。因此，期望通过扩大数据规模和计算资源，Lumina-mGPT 能有效解决这些失败案例，如不足的指令跟随能力和视觉伪影问题。

51c视觉~合集12_视觉AI_67

生成速度

自回归模型在推理过程中需要大量的网络评估，这与扩散模型中的迭代去噪过程类似。当生成高分辨率图像时，这种情况更加严重，通常需要几分钟才能生成完整的图像token序列，显著慢于当前使用先进采样器的扩散模型。然而，已经有许多优化自回归模型推理速度的技术，如 vLLM（Kwon et al., 2023）和 FlashAttention。相信通过在未来整合这些方法，Lumina-mGPT 可以在推理过程中实现显著的加速。

VQ-VAE 重建质量

VQ-VAE 被用作图像tokenizer，将连续图像转换为离散的token表示。同时，它也通过压缩图像的空间维度引入了信息瓶颈。因此，VQ-VAE 的重建质量在很大程度上决定了生成质量的上限。发现Chameleon 中提出的 VQ-VAE 有时在重建高频细节时存在困难，尤其是在图像中包含文本和人脸时。引入 VQ-VAE 的进一步改进，如 FSQ，可能也会提升 Lumina-mGPT 的生成质量。

结论

Lumina-mGPT，这是一种仅有解码器的Transformer ，可以从文本提示中生成多样化、逼真的图像，支持任意分辨率的生成。不同于随机初始化，Lumina-mGPT 从一个多模态生成预训练（mGPT）的自回归Transformer 开始初始化。利用从大规模交错数据中学习到的通用多模态表示，设计了两种微调策略——FP-SFT 和 Omni-SFT，分别释放了 mGPT 在文本到图像生成和全能任务统一方面的潜力。展示了 Lumina-mGPT 在各种任务中的广泛多模态能力，并在与扩散模型的对比中强调了其高质量的文本到图像生成能力。