CVPR(2024)微信&中山大学提出SingDiffusion: 仅需训练一次即可无缝应用到现有的扩散模型中,SD1.5图像生成质量提升33%。

扩散模型凭借其在图像生成方面的出色表现,开启了生成式模型的新纪元。诸如Stable Diffusion,DALLE,Imagen,Sora等大模型涌现,进一步丰富了生成式 AI 的应用前景。

然而,当前的扩散模型在理论上并非完美,比如采样时间端点处未定义的奇点问题。会影响扩散模型的生成能力,导致模型出现平均灰度问题,即难以生成亮度强或者弱的图像,这在一定程度上也限制了当前扩散模型的应用范围。

针对此问题,微信视觉算法团队和中山大学联合提出了一个即插即用的方法SingDiffusion,该方法成功解决了平均灰度问题,显著提升了现有扩散模型的生成能力。这一研究成果已在 CVPR 2024 会议上发表。

论文阅读

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_即插即用

解决扩散模型中时间间隔端点的奇异性

摘要

大多数扩散模型假设逆过程遵循高斯分布。然而,这种近似尚未经过严格验证,尤其是在t=0和t=1的奇点处。不正确地处理此类奇点会导致应用中的平均亮度问题,并限制极端亮度或黑暗图像的生成。

我们主要致力于从理论和实践的角度解决奇点。最初,我们建立逆过程近似的误差界限,并展示其在奇点时间步长的高斯特性。基于这一理论见解,我们确认t=1处的奇点是有条件可去除的,而t=0处的奇点是固有属性。

基于这些重要结论,我们提出了一种新颖的即插即用方法SingDiffusion来解决初始奇异时间步采样问题,该方法不仅有效解决了各种扩散模型的平均亮度问题,而无需额外的训练工作,而且还增强了其显着降低FID分数的发电能力。

方法

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_灰度_02

现有的扩散模型在t=0和t=1时遇到奇点。特别是由于没有考虑到t=1时的采样,会遇到平均亮度问题。为了解决这个问题,我们提出了一个即插即用的SingDiffusion方法(红色突出显示)来弥补这个差距。

奇点的定义

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_灰度_03

重要理论贡献

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_图像生成_04

解决平均亮度问题

Stable Diffusion和SingDiffusion在平均亮度问题上的比较。

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_灰度_05

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_即插即用_06

提高30K COCO提示的FID和CLIP分数

SingDiffusion、SD-1.5 和 SD-2.0 之间基于 30k COCO图像的Pareto曲线比较,跨不同指导尺度。

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_AIGC_07

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_即插即用_08

实验

无缝适应不同的模型

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_AIGC_09

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_AIGC_10

无缝适应ControlNet

SingDiffusion可以与ControlNet无缝集成使用。

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_图像生成_11

微信&中山大学提出SingDiffusion: 可无缝应用到SD和ControlNet中,SD1.5图像生成质量提升33%_即插即用_12

总结

文章从理论上探讨了奇异点,并提出了一个即插即用模块SingDiffusion来解决在初始奇异时间步长的采样挑战。可以训练一次并以即插即用的方式无缝集成到CIVITAI上的预训练模型中。

通过将该模块集成到现有的预训练模型中,有效地解决了生成暗图像和亮图像的困难,并进一步提高了整体图像质量,定量分析也证实了这一点。