51c视觉~合集21

原创

qq6669490e54384 2024-08-23 12:12:40 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#HWformer

西工大&台湾清华&西电&港中文 3位 IEEE Fellow 提出异构窗口 Transformer 的图像去噪方法

本文分享论文Heterogeneous window Transformer for image denoising，HWformer旨在通过捕捉全局上下文信息来增强像素之间关联，提高去噪效果，并通过建立长距离和短距离建模之间联系来提高去噪性能、

作者：田春伟,郑梦华、林嘉文、李志武、张大鹏

单位：西北工业大学，台湾清华大学，西安电子科技大学，香港中文大学（深圳）

论文链接：https://arxiv.org/abs/2407.05709

代码链接：https://github.com/hellloxiaotian/HWformer

1.摘要

深度网络通常可以通过提取更多的结构信息来提高去噪效果。然而，它们可能会忽略图像中像素之间的相关性，以追求更好的去噪性能。窗口变换器（Window Transformer）可以使用长距离和短距离建模来交互像素，以解决上述问题。

为了在距离建模和去噪时间之间取得平衡，我们提出了一种异构窗口变换器（Heterogeneous Window Transformer，简称HWformer）用于图像去噪。HWformer首先设计了异构全局窗口来捕获全局上下文信息，以提高去噪效果。为了在长距离和短距离建模之间建立桥梁，全局窗口会进行水平和垂直的偏移，以促进多样化的信息获取，而不增加去噪时间。

为了防止独立块的信息丢失现象，稀疏思想引导前馈网络提取邻近块的局部信息。提出的HWformer在去噪时间上仅占流行Restormer的30%。

2.方法及贡献

尽管窗口变换器能够依靠短距离建模来减少去噪时间，局部窗口可能会限制上下文的交互。此外，现有的基于变换器的长距离建模会增加去噪时间。

为了在距离建模和去噪时间之间搭建桥梁，我们在图像去噪中提出了一种异构窗口变换器（HWformer）。HWformer首先设计了异构全局窗口，以尽可能保证自注意力机制的交互，从而获得更多的全局上下文信息，以提升图像去噪的性能。为了打破长距离和短距离建模交互的限制，全局窗口会水平和垂直地进行偏移，以促进多样化的信息获取，而不增加去噪时间。

为了防止独立块的原生效应，稀疏思想首次嵌入到前馈网络中，以提取更多邻近块的局部信息。此外，提出的HWformer在去噪时间上仅占流行的Restormer的30%。

论文的贡献在于：

设计了不同大小的异构全局窗口，以便于获取更丰富的全局上下文信息，克服短距离建模的缺点；

首次在全局窗口中设计了不同方向的偏移机制，以在短距离和长距离建模之间搭建桥梁，提高去噪性能而不增加去噪时间；

在前馈网络中提出了稀疏技术，以在图像去噪中捕获更多邻近块的局部信息；

提出的HWformer具有更快的去噪速度，在图像去噪方面几乎是流行的Restormer的三倍。

51c视觉~合集21_视觉

图 1 HWformer 的结构

3.实验及结果3.1 实验设置

为了公平地评估我们的HWformer，采用了多个公共合成噪声和真实噪声图像数据集，如BSD500、DIV2K、Flickr2K、WED以及SIDD-Medium，来训练和评估HWformer的性能。实验设置包括将图像随机裁剪成固定大小的块以加速训练，并在具有高性能GPU的计算环境中使用Adam优化器和特定的训练参数进行模型训练。

此外，实验中还对HWformer的关键组件进行了消融研究，并采用了一系列定量指标（如PSNR、SSIM、FSIM等）和定性分析来全面评估其去噪效果和计算效率，确保了结果的公平性和全面性。

3.2实验结果

表I详细呈现了Urban100数据集上，针对15噪声水平时不同模型配置的图像去噪性能对比。各模型配置由不同ID标识，它们在全局窗口变换增强块（GTEBlock）内部，通过调整水平（Ho）、垂直（Ve）和普通（Co）Transformer的数量及其组合方式来区分。

实验结果揭示了一个趋势：随着GTEBlock中Ho、Ve、Co的组合数量增加，模型的去噪性能得到提升。以ID 1和ID 9为例，后者在GTEBlock中集成了更多种类的Transformer，并融合了稀疏技术，实现了更高的峰值信噪比（PSNR），分别为33.72 dB和33.94 dB。

特别是，ID 9相较于ID 8的改进，凸显了稀疏技术在增强局部信息提取和去噪性能方面的积极作用，PSNR从33.47 dB提升至33.94 dB。进一步比较ID 1、ID 2和ID 3，结果表明，结合不同方向的变换对于捕获图像的多维特征至关重要，这反映在它们均超越了仅采用Co的ID 1的PSNR值。

然而，增加Ho、Ve、Co的数量虽可优化性能，也可能导致模型复杂度上升。因此，设计模型时必须在性能提升和复杂度控制间寻求平衡。

综合考虑，ID 9的模型配置在维持合理的复杂度基础上，实现了最优的去噪效果，因而被视为最佳配置。

51c视觉~合集21_视觉_02

图2和图3提供了在Urban100数据集上，不同去噪方法对灰度图像去噪的视觉比较。

51c视觉~合集21_视觉_03

51c视觉~合集21_视觉_04

表II提供了在BSD68数据集上，不同窗口大小对于图像去噪性能影响的实验结果。表中列出了从4×4到96×96不同尺寸的窗口，并展示了使用这些窗口大小进行去噪时的峰值信噪比（PSNR）值。随着窗口大小的增加，去噪性能通常会提高。较小的窗口（如4×4、6×6、8×8）相比于大窗口（如48×48、96×96）捕获的上下文信息较少，导致去噪性能较低。

实验结果显示，使用96×96的窗口大小在去噪性能上取得了最佳结果（PSNR为31.99 dB），表明较大的窗口能够捕获更多的全局信息，从而提高去噪效果。

51c视觉~合集21_视觉_05

表III提供了在不同噪声水平下，即15、25和50，对Set12数据集中的灰度图像去噪方法的性能比较。

随着噪声水平的增加（从15到50），所有方法的去噪性能（以PSNR为衡量标准）普遍下降。这是因为更高的噪声水平意味着更多的信息丢失和干扰，使得去噪任务更加困难。表中列出了包括BM3D、TNRD、DnCNN、FFDNet、N3Net、FOCNet、RDDCNN、DGAL、CTNet、SwinIR和HWformer（本文提出的方法）在内的多种去噪方法。

对于每个噪声水平，HWformer在多个类别的图像上几乎总是展现出最佳或接近最佳的性能。特别是在噪声水平为50时，HWformer在多个图像类别上相比其他方法有显著的PSNR提升，例如在“Starfish”图像上，HWformer相比于排名第二的SwinIR方法提高了0.31dB。

在多个噪声水平下，HWformer多次获得最高或并列最高分数，这表明该方法在实验设置中具有较高的一致性和优越性。

51c视觉~合集21_视觉_06

表IV提供了在BSD68和Urban100数据集上，不同噪声水平（15、25和50）对灰度图像去噪方法性能的比较。

在BSD68和Urban100数据集上，HWformer在不同噪声水平下通常展现出接近最佳或最佳性能，这表明其算法在多种噪声条件下的有效性。特别是在Urban100数据集上，噪声水平为25时，HWformer相比Restormer实现了0.15dB的性能提升，这在图像质量提升方面是一个显著的改进。

HWformer在两个数据集上的性能稳定性表明，该方法对于不同类型的图像内容都具有较好的适应性和鲁棒性。

51c视觉~合集21_视觉_07

表V展示了在McMaster和Urban100数据集上，不同噪声水平（15、25和50）对彩色图像去噪方法性能的比较。LPIPS指标衡量了去噪图像与原始无噪声图像之间的感知相似度。HWformer在某些情况下展示了较低的LPIPS值，这意味着其去噪结果在视觉上更接近原始图像。

51c视觉~合集21_视觉_08

表VI提供了在CBSD68和Kodak24数据集上，不同噪声水平（15、25和50）对彩色图像去噪方法在结构相似性指数（SSIM）和特征相似性指数（FSIM）这两个评价指标上的性能比较。HWformer与其他流行去噪方法（如DnCNN、FFDNet、DRUNet、IPT、CTNet、SwinIR和EDT-B）进行了比较，在多个噪声水平下，HWformer在SSIM和FSIM指标上通常能够获得与或优于这些方法的结果。

51c视觉~合集21_视觉_09

表VII展示了不同彩色图像去噪方法在Urban100数据集上，针对不同噪声水平（15、25和50）的峰值信噪比比率（PSBR）性能比较。HWformer在噪声水平为15和25时，在Urban100数据集上取得了最佳性能，这表明其算法在低至中等噪声水平下能够有效地恢复图像细节。

51c视觉~合集21_视觉_10

图4和图5提供了Urban100数据集上，不同去噪方法对彩色图像去噪效果的视觉比较。

51c视觉~合集21_视觉_11

51c视觉~合集21_视觉_12

随着噪声水平的增加，去噪算法面临的挑战也随之增加，这可能导致色彩差异值变大，反映出去噪后的图像与原始图像在色彩上的差异。

表VIII 展示了在McMaster数据集上，不同噪声水平（15、25和50）下，彩色图像去噪方法在色彩差异方面的表现。在McMaster数据集上，HWformer在所有测试的噪声水平下均展现出最佳或接近最佳的色彩差异性能。

特别是在噪声水平为15和25时，HWformer实现了最低的色彩差异值，表明其在保持色彩准确性方面的优势。HWformer与其他去噪方法（如DnCNN、IPT、CTNet、SwinIR、Restormer和EDT-B）相比，在多数情况下能够提供更低的色彩差异值，这意味着HWformer在去噪过程中更好地保留了原始图像的色彩信息。

51c视觉~合集21_视觉_13

SPARCS数据集通常用于评估去噪算法在处理实际遥感图像数据时的性能，这些图像可能包含更复杂的噪声特性和场景。

表IX 展示了在不同噪声水平（15、25和50）下，彩色图像去噪方法在SPARCS数据集上的平均峰值信噪比（PSNR）性能比较。与其他去噪方法（如DnCNN、DRUNet、IPT、CTNet和SwinIR）相比，HWformer在低至中等噪声水平下展现出了卓越的性能，这可能归功于其异构窗口变换器的设计，能够有效地处理不同类型的噪声。

51c视觉~合集21_视觉_14

表X 展示了在CC数据集上，不同真实噪声条件下，各种去噪方法的性能比较。CC数据集包含了不同相机（如Canon 5D、Nikon D600、Nikon D800）在不同ISO设置下拍摄的图像。

这些设置反映了实际摄影中可能遇到的不同光照和噪声条件。HWformer在多数情况下展现出了优异的去噪性能，除了在Nikon D800 ISO=1600的设置中略低于其他方法外，它在多数情况下都取得了最高的PSNR值，特别是在Nikon D600 ISO=3200和Nikon D800 ISO=3200的设置中。

51c视觉~合集21_视觉_15

图6提供了在CC数据集上，不同去噪方法对真实图像去噪效果的视觉比较。

51c视觉~合集21_视觉_16

表XI 展示了在SIDD（Sparse Diverse Denoise Dataset）数据集上，不同去噪方法对真实噪声图像的处理性能，使用峰值信噪比（PSNR）作为评价指标。

HWformer的性能优于其他比较方法，例如，它比排名第二的MPRNet（39.52dB）高出0.19dB，这一差距在图像质量评估中是显著的。

由于SIDD数据集包含的图像是从智能手机相机中获取的，具有高真实性，HWformer在这一数据集上的优异表现进一步证实了其在实际智能手机图像处理中的应用潜力。

51c视觉~合集21_视觉_17

表XII 提供了不同图像去噪方法在参数数量、浮点运算次数（FLOPs）和运行时间方面的比较。

表中列出了IPT、SwinIR、Restormer、EDT-B和HWformer这五种方法的参数数量。参数数量反映了模型的复杂性和容量。尽管HWformer在参数数量上不是最轻量级的，但其FLOPs和运行时间表现出较高的效率。

特别是在96×96图像尺寸下，HWformer的运行时间显著低于其他方法，显示出较快的处理速度。HWformer虽然在参数数量上略高于SwinIR和EDT-B，但其FLOPs和运行时间都显示出较好的效率，这表明HWformer在保持较低计算成本的同时，能够实现有效的去噪性能。

HWformer的低运行时间特别适用于需要实时或近实时处理的应用场景，如智能手机摄影、视频监控等。

51c视觉~合集21_视觉_18

4.结论

本文提出了一种异构窗口变换器（Heterogeneous Window Transformer，简称HWformer）用于图像去噪。HWformer首先设计了异构全局窗口，便捕获更丰富的全局信息，克服了短距离建模的局限性。

考虑到短距离建模的优势，通过不同方向的平移对全局窗口进行操作，以便在不增加去噪时间的情况下获取多样化的信息。为了防止独立块的原生效应，首次将稀疏思想嵌入到前馈网络中，以提取邻近块的更多局部信息。提出的HWformer具有更快的去噪速度，适合于智能手机和相机。

在未来，作者将致力于减少HWformer的计算成本，进一步降低图像去噪的计算开销。

#T-Rex Label

超震撼 AI 自动标注工具，开箱即用、检测一切

“赛博螺丝工”解放双手的时刻来了！

重复手动拉框一直以来都是数据标注中最令人头疼的部分。人工标注不准确且低效，会严重影响数据集的质量。

人工标注费时费力

今天向大家介绍一款全新的交互式AI自动标注工具：T-Rex Label，可以帮助您显著提升标注效率。T-Rex Label 支持在密集场景下进行一键标注，适用于各行各业的数据集。作为一款开箱即用的工具，它将大幅提高您的标注效率。

AI 一键智能标注

T-Rex Label 如何实现提效 99%？

相信了解计算机视觉的朋友都会对刷新 SOTA 纪录的 Grounding DINO 和 T-Rex2 模型有所耳闻。这些都是由 IDEA 计算机视觉团队研发的开集目标检测模型，T-Rex Label 是由该团队基于 T-Rex2 推出的自动标注工具。接下来，我们就详细讲讲 T-Rex Label 如何借助 T-Rex2 实现“一键标注”与“检测一切”。

视觉提示，一键简化工作流程

T-Rex2 视觉提示功能相比于语言提示更高效。视觉提示可以直接框选 prompt 生成指令。语言提示在一些情况下则需要反复的措辞与修改，会消耗更多的时间。对于语言描述困难的物体，如复杂的形状或特殊的纹理，视觉提示可以有效降低语言障碍对标注过程的影响，即使在面对罕见的物体时也能提供准确高效的标注。

视觉提示演示

交互式视觉提示则可以让用户立即得到反馈，并在必要时进行快速修正，确保标注的准确性，提升数据质量。

交互式视觉提示演示

因此，T-Rex Label 的工作流程可以概括为：框选目标物体→ AI 一键标注→人工检查与 AI 辅助修正，省去了编排语言指令与手动拉框的过程，大大简化了标注流程，为研究人员节省了不少时间。

超越 GPT-4V, YOLOv8，效率、准确度兼备

在国外学者 Konlavach Mengsuwan 的论文[1] 中，更是直观地展示了 T-Rex 开集物体检测模型在计数方面的优势，远超 GPT-4V 和 YOLOv8！

GPT-4V 作为性能最强的多模态模型模型，在物体计数的速度与准确度上远不及T-Rex。在效率方面，T-Rex 可以实现0.5秒完成一张图片推理，包含物体检测与物体计数。GPT-4V 则需要 1.05 秒才能处理一张图片。在准确度方面，T-Rex 预测准确度 R2 值为 0.923，是 GPT-4V Zero-Shot 的2.5倍，这说明 T-Rex 的图片分析结果更接近真实情况，能实现高精确度的物体检测。

51c视觉~合集21_视觉_19

GPT-4 Zero-Shot VS T-Rex

T-Rex Label 的 AI 智能标注功能可以精准地按照提示识别物体。特别是针对高难度的复杂场景，T-Rex Label 更能展现出准确度优势。复杂场景除了物体数量，还存在物体大小、形状、角度的变异性，一些模型会在复杂场景中频频出错，因此还需要大量查缺补漏的时间。但 T-Rex Label 可以精准地识别出绝大部分物体，帮助标注员减少返工的时间。

复杂场景效果演示

使用预训练模型自动标注，通常需要收集数据、标注数据、微调模型、部署模型、再用于自动标注，这个周期较长，且耗时耗力。以 YOLOv8 为例，根据论文[1] 的实验结果，YOLOv8 需要花费大量的时间进行标注和训练，整个流程时长是 T-Rex 的194倍，标注的准确性也不及 T-Rex。

51c视觉~合集21_视觉_20

YOLOv8 VS T-Rex

卓越的零样本检测能力，让 T-Rex Label 无需额外的训练成本就可以直接应用到各类场景的标注中，具有极强的泛化能力。目前已知 T-Rex Label 在农业、工业、动物、生物、医药、OCR、零售、电子、运输、物流等多个领域的数据集上都表现优异。开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用 whaosoft aiot自动驾驶也可以哦

多行业适用

[1] Mengsuwan K, Palacio J C R, Ryo M. ChatGPT and general-purpose AI count fruits in pictures surprisingly well[J]. arXiv preprint arXiv:2404.08515, 2024.

T-Rex Label 无需下载安装，上手成本极低，还支持 Github 账号一键登录！

#HQ-DiT

不懂就问，DiT能量化到只有4位吗？HQ-DiT：高效的 FP4 混合精度量化 DiT

本文介绍了一种新颖的高效混合精度量化方法HQ-DiT，该方法使用4位浮点数对扩散变换器（DiT）进行量化，显著改善了其在推理过程中的性能和资源使用效率。

本文提出了一种对 Diffusion Transformer (DiT) 的混合浮点数量化技术，属于是后训练量化 (Post-Training Quantization)，把权重量化为 4-bit 的浮点数以完成推理。因为 DiT 这种模型最近在工业和学术领域获得了极大的关注，因为其良好的视觉生成能力优于以 U-Net 为代表的传统扩散模型。但是，DiT 也伴随着较高的参数计数和实现成本，严重限制了它们在手机等资源有限设备上的使用。与定点量化 (例如 INT8) 相比，浮点数量化，再加上本文提出的裁剪范围选择机制，这个机制可以自然地与 DiT 中的数据分布对齐，使得量化误差最小。本文的结果表面：DiT 可以实现极低的精度量化 (4 位)，对性能的影响可以忽略不计。

本文做了什么工作

提出了一种为 DiT 设计的高效的 PTQ 方法，能使用 4-bit 浮点数 (FP4) 量化 DiT，并实现与全精度模型相当的性能。据作者所知，HQ-DiT 首次尝试使用 FP 数据格式量化 DiT。

提出了一种新的算法，该算法可以根据数据分布自适应地选择最佳 FP 格式，能够节约计算开销。

HQ-DiT 使用 FP4 量化 DiT 中的权重和激活值，与全精度模型相比，加速 5.09 倍，内存节约 2.13 倍。HQ-DiT在低精度量化方面取得了 SOTA 的结果，FP4 模型在 Inception Score (IS) 和 Frechet Inception Distance (FID) 方面都优于全精度的 latent diffusion model (LDM)。

1 HQ-DiT：高效的 FP4 混合精度量化 DiT

论文名称：HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization

论文地址：http://arxiv.org/pdf/2405.19751

1.1 在 DiT 中使用浮点数量化

Diffusion Transformers (DiTs[1]) 因其卓越的性能而备受学术界和工业界的关注，比较引人关注的应用是 OpenAI 的 SoRA[2]。最近的研究 Lumina-T2X[3]也已经证明了它在不同模式的令人印象深刻的生成能力。但是，迭代去噪步骤和巨大的计算需求会减慢其推理速度。而且，在每个 Denoising timestep 上，DiT 模型大量参数和复杂的网络结构仍会带来很大的计算负担，阻碍了它们在资源有限的实际场景中的适用性。

模型量化通过将权重和激活值压缩到低位表示，来减少内存和计算负担。在各种量化方法中，后训练量化 (Post-Training Quantization, PTQ) 是一种无训练的方法，用于快速有效的量化。与需要多轮微调的量化感知训练 (Quantization-Aware Training, QAT) 相比，PTQ 可以显著降低计算成本。这使得量化像 DiT 这样的大模型成为一个很有吸引力的解决方案。现有的对于扩散模型的 PTQ 方法主要采用定点数量化 (即 INT 量化)。但是这在低比特的情况下会带来比较大的量化误差。为了验证这点，作者将几个为大语言模型设计的量化方法用在 DiT 上，包括 SmoothQuant[4], FPQ[5], 和 GPTQ[6]。如图 1 所示，将权重和激活量化为 4 位精度会导致严重的性能下降，导致 FID 的增加高达 100。此外，由于搜索最优量化方案所需的校准过程，这些方法所涉及的量化过程也会产生较高的计算成本。

51c视觉~合集21_视觉_21

图1：ImageNet 256 × 256 上不同量化策略的比较结果。权重和激活值都被量化到4位

浮点数 (FP) 量化为整数 (INT) 量化提供了一种更灵活的替代方案。相比整数使用固定的 scaling factor，FP 包含指数，对不同范围的数据自适应。这种适应性使其能够保持不同量级的精度，使 FP 成为各种商业硬件平台的理想数据格式选择，如 Nvidia 的 Blackwell (H200)。

但是，与 INT 量化通过截断和舍入得到量化值不同，FP 量化的难点在于选择适当的组合：有多少位被分配给指数，有多少位被分配给尾数。如果选择没选好，可能会导致性能不佳。为了解决这个问题，作者基于 channel 数据分布来确定 FP 组合。与之前的 LLM-FP4[7]相比，本文方法通过定制每个 channel 中数据的独特特征来优化性能。由于较高的通道间方差和较低的通道内方差，量化激活值是一个挑战[8]。

1.2 扩散模型简介

扩散模型 (DM) 因其生成各种逼真图像的显著能力而备受关注。在 DM 前向过程, 给定输入图像 , 生成一系列高斯噪声并将其添加到中, 从而产生一系列噪声样本。

51c视觉~合集21_视觉_22

式中，是控制每一步高斯噪声强度的超参数。

在反向过程中，给定一个随机采样的高斯噪声。合成图像通过以下过程逐步生成：

51c视觉~合集21_视觉_23

式中, 和通过下式来定义:

51c视觉~合集21_视觉_24

上式中，表示使用 DNN 生成的预测噪声。DiT 模型用 Transformer 替换经常使用的 U-Net。DiT 在视觉生成能力方面被认为超过了传统的扩散模型。

Classifier-free Guidance

在 DiT 中，用户可以提供一个额外的类标签 cc 作为图像生成的指导。在这种情况下，反向过程变为：

51c视觉~合集21_视觉_25

Classifier-free Guidance[9]使用隐式分类器替换显式分类器，调整引导权重来控制生成图像的真实性和平衡多样性。根据贝叶斯公式，分类器的梯度可以表示为：

51c视觉~合集21_视觉_26

CFG 可以控制生成样本的真实性和多样性的平衡，广泛应用于 DALL·E 等生成模型。

1.3 扩散模型中的激活值是如何分布的？

51c视觉~合集21_视觉_27

图2：DiT 不同时间步的激活值分布

为了了解 DiT 中输入激活的分布，作者在 50 个 Denosing Step 中收集了 DiT Block 的输入激活值，如图 2 所示。然后在特定时间步分析激活矩阵的分布，如图 3 所示。

与 Q-Diffusion[10]观察到的模式类似，Outlier 存在于整个 channel 级别。具体而言，激活中的异常值规模大约是激活值其余部分的 100 倍。因此，每个 token 量化时不可避免地会引入大量错误。鉴于激活在不同 channel 中表现出高方差，但 channel 内的方差较低，Outlier 会被限制在有限数量的 channel 中。因此，作者认为 "Per-Channel Quantization" + 最小化异常值可能可以实现较低的量化误差。

51c视觉~合集21_视觉_28

图3：Hadamard 变换前后 DiT 线性层输入激活的幅度分布

1.4 给激活值乘以 Hadamard 变换

之前的工作已经证明 Hadamard 变换可以应用于消除数据中存在的异常值。本文引入随机 Hadamard 变换来消除 DiT 的输入激活中存在的异常值, 方法是将其与正交 Hadamard 矩阵相乘，其中是 DiT 的 Embedding Dimension，满足。矩阵就会表现出更平滑的分布, 即：大多数异常值被消除, 如图 3 的右侧所示。为了保持 DiT Block 内线性层的数学等价性, 需要将每个 DiT Block 的 Self-Attention 层和 FFN 层中的相应权重矩阵应用 Hadamard 矩阵。

为了数学上的等价性, Query, Key 和 Value 矩阵乘以 : 。这个过程在推理之前进行, 不会产生额外的在线计算成本。这样子一来，输出就不会因为 Hadamard 矩阵而发生改变：。而且, 把输入激活值从修改为了，相当于我们去量化后者, 量化误差要小得多, 如图 3 右侧所示。

51c视觉~合集21_视觉_29

图4：SA 模块和 FFN 模块的量化流程

然后, Attention 和 Value 的乘积这里还需要再量化一下, SA 的输出这里可以表示为 , 这里的不是 Value 矩阵, 而是应该写成 ,这里是 head 的数量。这里面的才是 Value 矩阵。

那么现在要把量化之后, 再与相乘, 那么会产生上述的 Outlier 的问题。因此, 就有了下面的操作:

51c视觉~合集21_视觉_30

通过引入这两个矩阵, 可以克服 Outlier 对量化引入的问题: 可以有效减轻内的异常值, 而不需要任何额外的计算开销。但是要注意这里的 , 其中是 Identity 矩阵。

此外, 在 FFN 模块里面, 也是用的 Hadamard 矩阵。这里面包含两个线性映射矩阵和还有一个 GELU 激活函数。第一个线性矩阵可以 , 因为输入会变为。该操作可以离线执行, 在推理过程中没有任何额外的成本。第1个线性层的输出还包含异常值, 需要额外的 Hadamard 变换来去除异常值。由于 GELU 激活函数的存在, Hadamard 变换需要在线执行。为了减轻这种成本, 本文设计了一个高效的 Hadamard 变换, 其计算复杂度如下:

如果的维度是 2 的幂, Walsh-Hadamard 变换时间复杂度计算的时间复杂度是。如果不是 2 的幂, 通过利用 Kronecker 乘积的性质, 时间复杂度可以变为。因此可以通过 Kronecker 方法构建一个新的 Hadamard 矩阵（比如 , 这里为为为 28)。

1.5 权重量化的 FP 格式选择

权重量化的目的是找到满足下式的权重：

51c视觉~合集21_视觉_31

选择合适的 FP 组合进行权重量化是至关重要的，因为指数和尾位宽的选择不当会导致显著的量化误差。

选择 FP 数据格式的简单方法涉及详尽地搜索每个可能的组合，但这会导致很高的计算开销。作者提出了一种简单高效的 FP 格式选择方法。本文方法基于一个简单的事实，即对于具有固定总位宽的 FP 格式，更多的指数位允许更大的可表示的值的范围，如下图5所示。但是，较大的指数位宽 (例如 E2M1) 也会导致表示数据的分布不均匀，使得长尾现象更加明显。比如下图 E2M1 的最大值表示 12 (bias=0 的情况下)，E1M2 的最大值表示 3.5 (bias=0 的情况下)。

51c视觉~合集21_视觉_32

图5：FP 格式的 E2M1 和 E1M2 的分布，偏差设置为 0

对于 DiT 模型中权重矩阵，可以通过以下指标分析它们的数据分布来确定最佳 FP 格式：

51c视觉~合集21_视觉_33

式中, 是一个表示分位数的超参数 (作者使用 25)。通过上式, 基本上能够得到一个表示权重中的最大值与最小值关系的指标。本文的目标是用低误差表示该区间内的所有元素值。另一方面, 对于给定的指数和尾宽分别为和的 FP 格式, 最大值和最小值之间的比率可计算如下:

51c视觉~合集21_视觉_34

其中, 最大值是 , 最小值是 min_val 。目标是找到最优的 FP 格式, 使接近于。

然后作者使用前面描述的 FP 组合搜索方法为每个 DiT Block 找到了最佳的 FP 组合。

激活值的量化

对激活值的量化使用简单的 MinMax 量化方法，如下图 6 所示。MinMax 量化根据激活通道的最大值设置 bias 参数，然后通过除以 scale 参数将全精度数据映射到量化的数据范围。

51c视觉~合集21_视觉_35

图6：MinMax 量化方法介绍

如下图 7 所示，HQ-DiT 应用于每个 DiT Block 内的所有全连接层。FP4 和 FP32 的计算分别对应蓝色和红色。

51c视觉~合集21_视觉_36

图7：HQ-DiT 的最终量化策略，FP4 和 FP32 的计算分别对应蓝色和红色

1.6 实验结果

本文的实验是 ImageNet 无条件图像生成和条件图像生成，分辨率包括 256×256 和 512×512。作者还在 DiT 上实现了其他复杂的量化方法，包括 SmoothQuant[4], FPQ[5], 和 GPTQ[6]。

本节中，作者展示了使用 HQ-DiT 的条件图像生成和无条件图像生成的结果。在无条件图像生成中，DiT 去噪过程中没有提供外部指导。对于条件图像生成，将特定的类标签作为额外的输入来指导 DiT 的去噪过程。

无条件图像生成结果

结果如图 7 所示。虽然 SmoothQuant 和 FPQ 对 8 位权重和 8 位激活是有效的 (W8A8)，但它们的性能随着 4 位权重和 4 位激活而显著下降。相比之下，HQ-DiT 表现出卓越的性能，在 W8A8 精度上实现了最高的 IS 和 FID。此外，与全精度 (FP32) 结果相比，FID 仅略有增加。本文方法即使在 W4A4 精度下也能保持执行无条件生成任务的能力。这种显著的改进突出了 HQ-DiT 减轻异常值的影响并为每层选择最佳数据格式的能力。

51c视觉~合集21_视觉_37

图7：256×256 无条件图像生成结果

条件图像生成结果

结果如图 8 所示。ImageNet 256×256 上的结果表明，采用 2 种不同的 Classifier-Free Guidance Scale，即 1.5 和 4.0。同样，作者提供了 3 个指标的综合评估结果，包括 IS、FID 和 sFID。可以观察到，对于 4.0 的 cfg，与 FP32 DiT 相比，HQ-DiT 在 W4A8 的设置下，FID 下降了 6.98，sFID 下降了 2.2。与其他基线算法相比，HQ-DiT 也实现了最佳性能。

51c视觉~合集21_视觉_38

图8：ImageNet 256×256 和 ImageNet 512×512 条件图像生成结果

作者进一步评估了 DiT 在 ImageNet 512×512 的性能。时间步长的总数设置为 20，而其余设置与 ImageNet 256×256 的设置相同。根据图 8 所示的评估结果，本文 W4A4 模型达到了 370.69 的 IS，FID 相对于 32 位的基线模型提升了 6.82，同时在基线算法中获得了最佳性能。

消融实验结果

Hadamard 变换对图像质量的影响

作者首先研究了 Hadamard 变换对不同设置下量化模型的性能的影响。作者评估了使用或者不使用 Hadamard 变化的情况下，HQ-DiT 生成的图像的质量。在没有 Hadamard 变换的情况下，HQ-DiT 在 W4A4 上无法生成高质量的图像，只能得到 3.14 的 IS 和 200.85 的 FID。相反，通过引入 Hadamard 变换，本文方法实现了 47.13 的 IS 和9.94 的 sFID，性能水平与全精度模型相当。

FP 格式选择消融实验

此外，作者通过实验来分析 FP 格式选择的效果。作者固定整个 DiT 层的 FP 组合，将 HQ-DiT 与其他基线进行比较，得到 3 个基线，包括 E3M0、E2M1 和 E1M2。图 9 所示的结果表明，本文的混合 FP 格式实现了 437.13 的 IS，优于所有其他 FP4 格式。本文的 FID 为 9.25，接近 E1M2 的 FID 结果 (9.20)。这些结果表明本文的 FP 组合选择和混合 FP 量化方案可以有效地提高 DiT 的性能。

51c视觉~合集21_视觉_39

图9：FP 格式选择的效果。ImageNet 256×256 上的实验结果

#CKGConv

全新图卷积！Mila和华为提出CKGConv：连续卷积核的图卷积网络

注意力机制并不是发展图神经网络唯一路径，强大的图卷积网络同样拥有其自身的优势。

近年来，基于Transformer的图模型(图Transformer，graph Transformer)成为了一个备受关注的研究方向。有别于传统的基于信息传递机制(Message-passing)的图神经网络(简称MPNN)，图Transformer通过全局注意力机制来聚合全图的所有其他节点的信息，因此它能有效克服MPNNs的过度挤压(over-squashing), 过度平滑(over-smoothing)，以及有限的表征能力(上界为于1阶WL算法)。得益于图Transformer的设计，在对结构信息要求较高的图任务中（如[1], [2])，图Transformer的表现有着对MPNNs极大的优势 [3, 4]。

近年来，在视觉领域，不少研究者在质疑注意力机制和Transformer是不是唯一的“正确解”。不基于注意力机制的卷积网络(Convolution Networks, 简称ConvNet)，是否能够于达到Transformer一样的性能。

同样的，在图学习领域有不少研究者也在思考，是否能够不通过注意力机制来拓展MPNNs。不基于注意力机制的图卷积网络(Graph ConvNet[^1])，真的就一定不如图Transformer吗？注意力机制真的就那么重要吗？

在ICML2024上，来自麦吉尔大学， Mila魁北克人工智能研究所以及华为诺亚方舟实验室的研究者发表了一个基于连续卷积核(continuous kernel)的全新图卷积算子(图连续卷积CKGConv)，基于此算子的纯图卷积网络(CKGCN)在多个图任务中同样能够达到媲美SOTA图Transformer的性能。作者通过探索实验说明注意力机制并不是发展图神经网络唯一路径，强大的图卷积网络同样拥有其自身的优势。

51c视觉~合集21_视觉_40

论文@PMLR: https://proceedings.mlr.press/v235/ma24k.html

代码@github: https://github.com/networkslab/CKGConv

1. 突破信息传递限制的图卷积 CKGConv

定义欧几里得空间(如图像，序列等)上的卷积(Convolution)算子，实际上是利用一个查找表(Lookup Table)来存储卷积核的系数。卷积核中一个位置对应一个可学习的参数。

51c视觉~合集21_视觉_41

但由于图结构的不规则性以及排列不变性，大多数基于MPNNs的图卷积只会有一个或两个可学习参数，所有领域中的点共享一个可学习参数(在考虑一个通道的情况下)。这个性质大大限制的普通图卷积，继而导致了过度平滑(所有领域的点共享一个参数)，过度挤压(只能聚合来自相邻的点的信息)。为了克服传统图卷积的缺点，受欧几里得空间里的正则坐标系(canonical coordinates)的启发，作者提出两点改进：

使用(相对/绝对)图位置编码(PE)来定义图的伪坐标系(pseudo-coordinates)，使得图卷积可以定义在连续化的伪坐标系上，而不是受限于离散的图结构上 (图结构空间上是不存在正则坐标系的)。

由于伪坐标的不规则性，常规卷积中的Lookup Table同样并不适用，作者希望借助神经网络的泛化性能来克服此问题。因此作者将卷积核视为一个由相对位置映射到卷积系数的连续函数，并且重参数(reparameterize)卷积核为一个神经网络(即continuous kernel [7]).

51c视觉~合集21_视觉_42

基于这两点，我们可以很灵活的定义图卷积运算：给图上点的信号函数(node signal, 也称作点的表征) ，CKGConv的运算为

51c视觉~合集21_视觉_43

p 其中卷积后的信号函数和是可学习的权重矩阵和偏置向量; 为逐项乘积; 为伪坐标系定义下的相对位置编码; 是一个基于 MLP (多层感知器) 的卷积核函数。是定义的图卷积支撑集(即卷积核覆盖的区域)。

作者使用了来自于GRIT[4]的随机游走概率编码RRWP来定义伪坐标系。在仅使用图连续卷积CKGConv、不使用任何注意力机制的情况下，提出的图连续卷积网络CKGCN能够在多个图任务重，达到和目前性能最好的图Transformer(如GraphGPS[3], GRIT[4])相当的表现。

51c视觉~合集21_视觉_44

2. CKGConv的性质2.1 不局限于特定的图位置编码

为了说明CKGConv并不局限于使用RRWP，作者也尝试了其他几种常见的图位置编码PE(如电阻距离RD[5], 最短路径距离SPD[6])来定义图的伪坐标系，CKGCN也能达到接近SOTA图模型的表现。这说明CKGConv的灵活性，并不局限于某种特定的PE。

51c视觉~合集21_视觉_45

2.2 灵活的卷积核大小

得益于神经网络的泛化性能，CKGConv的卷积核函数可以支持任意定义的卷积核大小。同注意力机制一样，CKGConv也可以支持可变大小的全局图卷积运算。除此之外，作者也验证了CKGConv可以支持非全局的卷积运算，并且进行了对比实验。实验结果说明，当卷积核大小达到一定阈值后，CKGConv也可以达到和全局卷积相当的表现。这说明CKGConv具有后续拓展到更大的图数据的灵活性。

51c视觉~合集21_视觉_46

2.3 和图Transformer相当的结构表征能力

基于广义距离-WL框架[5]，作者也从理论上证明CKGConv可以拥有和图Transformer相当的结构表征能力。其表征能力介于1-WL与3-WL之间。

3. CKGConv和注意力机制的对比

注意力机制能够基于输入内容来改变权重大小，但是代价是需要Softmax来稳定输出的数值，这使得注意力系数必须是非负的。与注意力机制不同，CKGConv的权重仅基于输入的图结构，因此其不会由于输入点的信号变化而变化；由于不需要额外稳定数值输出，因此CKGConv的卷积核是可以同时有正负的系数。作者的对卷积核的可视化也证明了这点。

51c视觉~合集21_视觉_47

作者还做了消融实验，如果强加类似注意力矩阵(attention matrix)的限制于CKGConv的卷积核(kernel)的系数，即卷积核系数非负且加和为一，则CKGCN的性能会受到一定的影响。

51c视觉~合集21_视觉_48

4. 同时有正负卷积核系数的优势

作者同时也用两个小示例来展示同时有正负的系数的卷积核的优势。

4.1 CKGConv能够抵抗过度平滑问题

51c视觉~合集21_视觉_49

如图，作者考虑一个例子：相邻的点有不一样的图信号。作者分别训练2层/6层的图卷积网络(GCN [8])和图连续卷积网络 (CKGCN)来重构图上的点信号。在该实验中，作者去除了所有残差连接和标准化层：2层的GCN和CKGCN都可以100%的重构点信号；但是6层的GCN就无法重构点信号，展现的过度平滑导致的问题；但是6层的CKGCN依然能够100%重构点信号，显示它能够抵抗过度平滑问题。

4.2 CKGConv能够检测异配(heterophily)图信号

大部分图神经网络(GNNs)都较为擅长处理同配图(homophily)，即图中相连的节点更倾向于拥有相似的特征或标签。由于大部分GNNs都等价于低通滤波(Low-pass filter)，因此它们对于异配(heterophily)图信号的处理能力相对较弱。

受计算机视觉中的边缘检测(edge detection^2)启发，作者设计一个小实验去说明CKGConv具有检测周边信号变化较大的点的能力，即检测异配信号的能力。

51c视觉~合集21_视觉_50

如图，作者考虑一个例子：基于点信号(左)，图中的点能够自然分成两个簇(cluster)，任务是找到处于簇边缘的点(即，相邻的点有不一样的信号)。

51c视觉~合集21_视觉_51

在只考虑只有一个单通道的滤波(即卷积核)的情况下，CKGConv的表现远好于图卷积网络的卷积(GCNConv)。对CKGConv的卷积强加上Softmax或者Softplus来强制卷积系数非负，均会导致CKGConv检测边缘点的能力下降。这充分说明同时拥有正负卷积系数的重要之处。

5. 结合CKGConv和注意力机制？

作者还做了一个小试验，尝试结合CKGConv和图注意力机制。作者分别训练多个CKGCN和图Transformer(GRIT)，并对他们进行集成(ensemble)。作者发现GRIT和CKGCN的集成比起同一模型的集成，在ZINC上得到更好的表现。这可能启示CKGCN和GRIT学习到的信息可能是互补的。因此，如何结合CKGConv和注意力机制可能是未来的研究方向。

51c视觉~合集21_视觉_52

结论

现有图卷积网络的缺陷大多数是由于图卷积(包括由其拓展的其他MPNNs)定义于离散且排列不变的图结构上。构造符合排列不变的图伪坐标系(pseudo-coordinate)可以拓展图卷积的定义，克服大部分现有图卷积的缺陷（即，过度挤压，过度平滑，以及表征能力上界为于1-WL，处理异配图能力限制等)。

使用pseudo-coordinate并不局限于使用注意力机制，利用连续卷积核(continuous kernel)可以构造出强大的图卷积(CKGConv)，可以在理论上和实征上达到于SOTA图Transformer相当的性能。

结合连续图卷积(CKGConv)和注意力机制有构造出更强图模型的潜力。

#Transfusion

语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场

就在刚刚，Meta最新发布的Transfusion，能够训练生成文本和图像的统一模型了！完美融合Transformer和扩散领域之后，语言模型和图像大一统，又近了一步。也就是说，真正的多模态AI模型，可能很快就要来了！

Transformer和Diffusion，终于有了一次出色的融合。

自此，语言模型和图像生成大一统的时代，也就不远了！

这背后，正是Meta最近发布的Transfusion——一种训练能够生成文本和图像模型的统一方法。

论文地址：https://arxiv.org/abs/2408.11039

英伟达高级科学家Jim Fan盛赞：之前曾有很多尝试，去统一Transformer和Diffusion，但都失去了简洁和优雅。

现在，是时候来一次Transfusion，来重新激活这种融合了！

在X上，论文共一Chunting Zhou，为我们介绍了Transfusion其中的「玄机」。

为何它能让我们在一个模型中，同时利用两种方法的优势？

这是因为，Transfusion将语言建模（下一个token预测）与扩散相结合，这样，就可以在混合模态序列上训练单个Transformer。

研究者从头开始，在混合文本和图像数据上预训练了参数量高达70亿的Transfusion模型。

使用文本和图像数据的混合，他们建立了一系列单模态和跨模态基准的缩放定律。

实验表明，Transfusion在单模态和多模态基准测试中，相较于对图像进行量化并在离散图像token上训练语言模型，很明显具有更好的扩展性。

研究者发现，Transfusion能够生成与相似规模的扩散模型相媲美的高质量图像，而且，它同时也保持了强大的文本生成能力。

作者强调，团队着重做了建模的创新。

首先，全局因果注意力加上每个图像内的双向注意力，是至关重要的。

另外，引入模态特定的编码和解码层后，可以提高性能，并且可以将每个图像压缩到64甚至16个块！

总之，研究者成功地证明了，将Transfusion方法扩展到70亿参数和2万亿多模态token后，可以生成与类似规模的扩散模型和语言模型相媲美的图像和文本。

这就充分利用了两者的优势！

最后，作者激动地畅想道——

Transfusion为真正的多模态AI模型开启了激动人心的可能性。

这些模型可以无缝处理任何离散和连续模态的组合！无论是长篇视频生成、与图像或视频的交互式编辑/生成会话，我们都可以期待了。

生图效果秒杀DALL-E 2和Stable Diffusion

Transfusion的生图效果如何？让我们来检验一下。

以下这些，都是用在2万亿多模态token上训练的70亿参数Transfusion生成的图像——

可以看出，它的生图质量非常之高。

在GenEval基准测试上，它直接超越了DALL-E 2和Stable Diffusion XL！

左右滑动查看（共四组）

研究者训练了一个具有U-Net编码/解码层（2×2潜在像素块）的70亿参数模型，处理相当于2T tokens的数据，其中包括1T文本语料库tokens和35亿张图像及其标注。

表9显示，Transfusion在性能上与高性能图像生成模型如DeepFloyd相当，同时超越了先前发布的模型，包括SDXL。

虽然Transfusion在SD 3后面稍显逊色，但该模型通过反向翻译利用合成图像标注，将其GenEval性能在小规模上提升了6.5%（0.433→0.498）。

此外，Transfusion模型也可以生成文本，并且其性能与在相同文本数据分布上训练的Llama模型相当。

图像编辑

以下这些，则是用微调后的70亿参数Transfusion模型编辑的图像——

左右滑动查看（共三组）

研究者使用仅包含8000个公开可用图像编辑示例的数据集对70亿参数模型进行了微调，其中每个示例包括一个输入图像、一个编辑提示词和一个输出图像。

对EmuEdit测试集中随机示例的人工检查表明，微调的Transfusion模型可以按照指示进行图像编辑。也就是说，Transfusion模型确实可以适应并泛化到新的模态组合。

让语言和图像大一统的模型来了

我们都知道，多模态生成模型需要能够感知、处理和生成离散元素（如文本或代码）和连续元素（例如图像、音频和视频数据）。

不过，离散元素和连续元素，却很难在同一个模型中大一统起来。

在离散模态中，是语言模型占主导地位，它靠的是在下一个token预测目标上训练的。

而在生成连续模态上，则是扩散模型及其泛化一直处于最前沿。

有没有可能将二者相结合呢？

此前，学界曾尝试了多种方法，包括扩展语言模型，以使用扩散模型作为工具，或者通过将预训练的扩散模型移植到语言模型上。

此外，还有人通过量化连续模态，在离散tokens上训练标准语言模型，从而简化模型架构。然而这样做的代价，就是信息的丢失。

而Meta的研究者在这项工作中，通过训练单个模型，来同时预测离散文本tokens和扩散连续图像，他们成功地做到了完全整合两种模态，而不丢失信息。

他们的方法就是——引入Transfusion。

这是一种训练单一统一模型的方法，可以无缝理解和生成离散和连续的模态。

研究者的主要创新就在于，他们针对不同的模态使用了不同的损失——文本使用语言建模，图像使用扩散——从而在共享的数据和参数上进行训练

研究者在50%的文本和50%的图像数据上预训练了一个Transformer模型，不过对于两种模态来说，分别使用了不同的目标。

前者的目标是，预测文本的下一个token；而后者的目标，则是图像的扩散。

在每个训练步骤中，模型都会同时接触到这两种模态和损失函数。标准嵌入层将文本tokens转换为向量，而块化层（patchification layer）则将每个图像表征为一系列块向量。

随后，研究者对文本tokens应用因果注意力，对图像块应用双向注意力。

在推理时，他们引入了一种解码算法，它结合了语言模型的文本生成和扩散模型的图像生成的标准实践。

从此，有望训练真正的多模态模型

在文本到图像生成中，研究者发现：Transfusion在计算量不到三分之一的情况下，FID和CLIP分数均超过了Chameleon的离散化方法。

在控制FLOPs的情况下，Transfusion的FID分数比Chameleon模型低约2倍。

在图像到文本生成中，也可以观察到类似的趋势：Transfusion在21.8%的FLOPs下与Chameleon匹敌。

令人惊讶的是，Transfusion在学习文本到文本预测方面也更有效，在大约50%到60%的Chameleon FLOPs下实现了文本任务的困惑度平价。

同时，研究者观察到：图像内的双向注意力非常重要，如果用因果注意力替代它，就会损害文本到图像生成。

他们还发现，通过添加U-Net上下块来编码和解码图像，就可以使Transfusion在相对较小的性能损失下，压缩更大的图像块，从而能将服务成本降低到多达64倍。

最后，研究者证明了：Transfusion可以生成与其他扩散模型相似质量的图像。

他们在2万亿tokens上，从零开始训练了一个7B参数的Transformer，它增强了U-Net的下采样/上采样层（0.27B参数）。

在这2万亿tokens中，包含1万亿的文本tokens，以及大约5个周期的692M图像及标注，相当于另外1万亿个patches/tokens。

在GenEval基准上，Transfusion模型优于其他流行模型，如DALL-E 2和SDXL。

而且，与那些图像生成模型不同的是，它还可以生成文本，在文本基准上达到了Llama 1级别的性能水平。

总之，实验表明：Transfusion是一种十分有前途的方法，可以用于训练真正的多模态模型。

数据表征

研究者在两种模态上进行了数据实验：离散文本和连续图像。

每个文本字符串被标记化为来自固定词汇表的离散token序列，其中每个token被表征为一个整数。

每个图像被编码为使用VAE的潜在块，其中每个块被表征为一个连续向量；这些块从左到右、从上到下排序，以从每个图像创建一个块向量序列。

对于混合模态的例子，研究者在将图像序列插入文本序列之前，用特殊的图像开始（BOI）和图像结束（EOI）token包围每个图像序列。

因此，就得到了一个可能同时包含离散元素（表征文本token的整数）和连续元素（表征图像块的向量）的单一序列。

模型架构

模型的大部分参数属于一个单一的Transformer，它会处理每个序列，无论模态如何。

Transformer将一个高维向量序列作为输入，并生成类似的向量作为输出。

为了将数据转换到这个空间，研究者使用了具有不共享参数的轻量级模态组件。

对于文本，这些自己组件是嵌入矩阵，会将每个输入整数转换为向量空间，并将每个输出向量转换为词汇表上的离散分布。

对于图像，研究者则尝试了两种方法，将k×k块向量的局部窗口压缩为单个Transformer向量（反之亦然）：（1）一个简单的线性层，以及（2）U-Net的上下块。

研究者使用预训练的VAE（变分自编码器）将图像和潜在表征进行互相转换，然后通过简单的线性层或U-Net下采样块，将其转换为patch表征

Transfusion注意力

语言模型通常使用因果掩码，来有效地计算整个序列的损失和梯度，只需一次前向-后向传递，而不会泄露未来token的信息。

相比之下，图像通常会使用不受限制的（双向）注意力来建模。

而Transfusion通过对序列中的每个元素应用因果注意力，并在每个单独图像的元素内应用双向注意力，来结合这两种注意力模式。

这样，每个图像块就可以在关注同一图像中其他块的同时，只关注序列中先前出现的文本或其他图像的块。

结果显示，启用图像内注意力显著提升了模型性能。

在因果掩码上扩展后，Transfusion就允许同一图像的patch相互为条件

训练目标

为了训练模型，研究者将语言建模目标LLM应用于文本token的预测，将扩散目标LDDPM应用于图像块的预测。

LM损失是逐个token计算的，而扩散损失是逐个图像计算的，这可能跨越序列中的多个元素（图像块）。

具体来说，他们根据扩散过程，向每个输入潜在图像x0添加噪声ε，以在块化之前产生xt，然后计算图像级别的扩散损失。

通过简单地将每种模态上计算出的损失与平衡系数λ结合，研究者合并了这两种损失：

51c视觉~合集21_视觉_53

这个公式，也是一个更广泛想法的具体实例：将离散分布损失和连续分布损失结合，就可以优化同一模型。

推理

为了反映训练目标，解码算法也需要在两种模式之间切换：LM和扩散。

在LM模式中，从预测分布中逐个token进行采样。当采样到一个BOI token时，解码算法切换到扩散模式。

具体来说，这需要将形式为n个图像块的纯噪声xT附加到输入序列中（取决于所需的图像大小），并在T步内去噪。

在每一步t中，噪声会被预测并使用它生成x_(t−1)，然后将其覆盖在序列中的x_t上。即，模型始终基于噪声图像的最后一个时间步进行条件处理，无法关注之前的时间步。

一旦扩散过程结束，就将一个EOI token附加到预测的图像上，并切换回LM模式。

如此一来，就可以生成任意混合的文本和图像模态。

实验与Chameleon的比较

研究者在不同模型规模（N）和token计数（D）下，比较了Transfusion与Chameleon，并使用两者的组合作为FLOPs（6ND）的代理。

为了简化和参数控制，这些实验中的Transfusion变体使用简单的线性图像编码器/解码器，块大小为2×2，以及双向注意力。

如图5所示，在每个基准测试中，Transfusion始终表现出比Chameleon更好的scaling law。

受参数、数据和计算控制的不同规模的Transfusion和Chameleon模型的性能，其中所有轴都是对数的

表3则显示了模型的评估结果，以及平价FLOP比率。

其中，平价FLOP比率用来估算相对计算效率：Transfusion和Chameleon达到相同性能水平所需的FLOPs数量之比。

计算效率的差异在图像生成中特别显著，其中FID Transfusion以1/34的计算量实现了与Chameleon的平价。

最大（7B）Transfusion和Chameleon模型在受控环境中的性能，两个模型均在0.5T token上进行训练

令人惊讶的是，纯文本基准测试也显示出Transfusion的更好性能，即使Transfusion和Chameleon以相同方式建模文本。

与原始Llama 2配方相比，0.76B Transfusion和Chameleon模型在纯文本基准上的性能

架构消融

- 注意力掩码

表5显示，在所有基准测试中，启用这种注意力模式比标准因果注意力效果更好，并且在使用图像编码/解码架构时也是如此。特别是，在使用线性编码层时，FID的改善最为显著（61.3→20.3）。

在仅因果的架构中，序列中后出现的块不会向前面的块传递信息；由于U-Net块内含有双向注意力，并独立于Transformer的注意力掩码，因此这种差距不太明显。

有/无图像内双向注意力的0.76B Transfusion模型的性能

- 块大小

Transfusion模型可以在不同尺寸的潜在像素块上定义。较大的块大小允许模型在每个训练批次中打包更多图像，并显著减少推理计算量，但可能会带来性能损失。

表6显示，虽然随着每个图像由更少的线性编码块表征，性能确实一致下降，但使用U-Net编码的模型在涉及图像模态的任务中受益于较大的块。

这可能是因为训练期间看到的总图像（和扩散噪声）数量更大。

此外，随着块逐渐变大，文本性能也在变差。

这可能是因为Transfusion需要投入更多资源（即参数）来学习如何处理具有较少块的图像，从而减少推理计算。

- 块编码/解码架构

实验表明，使用U-Net的上升和下降块比使用简单的线性层有优势。

一个可能的原因是模型受益于U-Net架构的归纳偏置；另一种假设是，这种优势来自于U-Net层引入的整体模型参数的显著增加。

为了分离这两个混杂因素，研究者将核心Transformer扩展到70亿个参数，同时保持U-Net参数量（几乎）不变；在这种设置下，额外的编码器/解码器参数仅占总模型参数的3.8%增加，相当于token嵌入参数的量。

表7显示，尽管随着Transformer的增长，U-Net层的相对优势缩小，但并未消失。

例如，在图像生成中，U-Net编码器/解码器使得较小的模型能够获得比使用线性块化层的70亿模型更好的FID分数。

在图像描述中，也有类似的趋势——添加U-Net层让1.4B Transformer（总计1.67B）的CIDEr得分超过了线性70亿模型的性能。

总体而言，U-Net对图像的编码和解码确实具有归纳偏置的优势。

Transfusion的线性和U-Net变体在不同模型大小上的性能

- 图像加噪

实验中，80%的图像-标注对按照标注优先的顺序排列，图像依赖于标注，这基于图像生成可能比图像理解更需要数据的直觉。剩下的20%对则是标注依赖于图像。

然而，这些图像需要作为扩散目标的一部分被加噪。

为此，研究者测量了在20%的情况下限制扩散噪声到最大t=500，即图像在标注之前出现时的效果。

表8显示，限制噪声显著改善了图像描述，CIDEr得分显著提高，同时对其他基准测试的影响相对较小（小于1%）。

结论

这项研究探讨了如何弥合离散序列建模（下一个token预测）与连续媒体生成（扩散）之间的差距。

研究者提出了一个简单但以前未被探索的解决方案：在两个目标上训练一个联合模型，将每种模态与其偏好的目标联系起来。

实验表明，Transfusion可以有效扩展，几乎没有参数共享成本，同时能够生成任何模态。

作者介绍

Chunting Zhou

共同一作Chunting Zhou，是Meta AI的研究科学家，研究兴趣是高效且可扩展的生成模型。

她于2022年在卡耐基梅隆大学计算机科学学院的语言技术研究所获得博士学位，从事的是自然语言处理的研究。

此前，她于2016年在香港大学获得计算机科学硕士学位，于2014年在大连理工大学获得计算机软件工程学士学位。

Lili Yu

另一位共同一作Lili Yu，也是Meta AI的研究科学家。

她于2016年在麻省理工学院获得电气工程与计算机科学博士学位，于2011年在北京大学获得物理学学士学位。

Xuezhe Ma

在这篇论文中，还有一位华人作者Xuezhe Ma，是南加州大学信息科学研究所的研究主管和计算机科学系的研究助理教授。

原则上，表征学习可以自动学习在数学和计算上便于处理的表征。对此Xuezhe Ma认为，基于深度学习方法的表征学习技术可以从根本上改变传统的特征设计范式。

他的研究重点是通过开发和分析深度学习技术来实现这一转变，以提高表征学习的有效性、效率、可解释性和鲁棒性。主要贡献如下：

- 多模态大语言模型（LLMs）的效率

开发了高效的统一神经架构和学习算法，以学习各种数据模态的通用语义空间。

- 大语言模型中的高效且鲁棒的长上下文建模

开发了高效且鲁棒的架构和方法，用于在大语言模型中建模长程依赖关系。

- 多模态大语言模型在长序列数据中的应用和评估方法

将长上下文大语言模型应用于实际任务，并开发可靠的评估指标。

他在卡耐基梅隆大学语言技术研究所获得博士学位，师从Eduard Hovy教授，并在上海交通大学获得了计算机科学硕士和学士学位。

参考资料：

https://the-decoder.com/metas-transfusion-blends-language-models-and-image-generation-into-one-unified-model/

https://x.com/violet_zct/status/1826243212530610389

https://x.com/DrJimFan/status/1827116592951652823

上一篇：51c大模型~合集40

下一篇：51c嵌入式~电路~合集3

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯