全网最全AI绘画Stable Diffusion关键技术解析

精选原创

Dlimeng 2024-03-16 16:29:35 ©著作权

©著作权归作者所有：来自51CTO博客作者Dlimeng的原创作品，请联系作者获取转载授权，否则将追究法律责任

很多人觉得AI绘画不稳定，对于以后是否替代插画师，摄影工作者，设计师，表示存疑，作为AI从业者本文从AI绘画关键技术分析，明白以前生产者肯定会被淘汰，现在没有到达黄金期。

技术一定会让更多人失业，而我们拥抱变化，增强自身。

AI绘画中Stable Diffusion 占领开源方案9成以上。 Stable Diffusion（稳定扩散）是一种先进的深度学习模型，用于生成高质量的图像。它的关键技术包括多个版本演化、VAE（变分自编码器）、UNet架构、CLIP文本编码器、分类器引导技术、以及注意力机制等。

全网最全AI绘画Stable Diffusion关键技术解析_aigc

“improved aesthetics” 主要指这次升级提升了 Stable Diffusion 在图像质量和艺术风格上的表现，使其生成的图像更富艺术感和审美价值。

5plus 指的是 Stable Diffusion 模型的配置版本

全网最全AI绘画Stable Diffusion关键技术解析_AI作画_02

SD2.0：
这是Stable Diffusion的一个主要版本。
它在之前版本的基础上实现了显著的改进，特别是在图像的美学质量和生成模型的细节上。
SD2.1：
这个版本进一步优化了之前版本的特性。
强调了更有效的文本编码器，使用了更先进的CLIP版本，生成的图像与文本提示的一致性和相关性有所提升。
SD变种：
这可能是Stable Diffusion的一个变体版本，具有特殊的属性或针对特定应用场景的优化。
SDXL：
这是Stable Diffusion的一个扩展版本。
演化更大的模型（比如使用了更大的UNet），或者训练了更广泛的数据集。
强调了CLIP文本编码器和VAE的改进，提供了更准确的文本到图像的转换能力。

Stable Diffusion 2.x系列:

SD 2.0：基于CompVis模型，提升细节生成能力。
SD 2.1：引入Hypernetwork，支持无限分辨率生成。

SD 的演化过程中，最主要的变化就是模型结构和训练数据的变化。SD1.x 系列，大多数是在 SD1.2 的基础上继续微调得到的，包括我们使用最多的 SD1.4 和 SD1.5 模型；SD2.x 系列则是新开的故事线，使用了全新的模型结构。

全网最全AI绘画Stable Diffusion关键技术解析_ai_03

全网最全AI绘画Stable Diffusion关键技术解析_AI作画_04

在Stable Diffusion (SD) 技术中，VAE 起到了关键的作用。原始的扩散模型，虽然在生成图像方面表现出色，但存在两个主要限制：

VAE 作用：

VAE详细文章

UNet主要通过其跨尺度的上下文学习和精确的像素预测，提供了高质量和高分辨率的图像生成能力。

UNet详细文章

CLIP通过跨模态的图像文本表示，为Stable Diffusion提供了精确的条件图像生成和语义一致的图像编辑能力。

CLIP详细文章

现在主流AI绘画模型，文本引导图像生成的过程采用了无分类器引导（Classifier Free Guidance）

原始的扩散模型从随机噪声出发，并不能用文本控制内容。于是，OpenAI 在论文中便提出了有分类器引导。

利用预训练的分类模型对生成的中间结果进行识别和评估，得到当前图像的分类信息,然后将该信息反馈回生成模型，引导其生成符合期望类别的图像。

全网最全AI绘画Stable Diffusion关键技术解析_stable diffusion_05

算法1：分类器引导的扩散采样

这个算法描述了如何使用分类器来引导扩散模型的采样过程。它的步骤如下：

输入是一个类别标签 y和一个梯度尺度 s 。
从标准正态分布 $全网最全AI绘画Stable Diffusion关键技术解析_aigc_06$ 中采样一个向量 $全网最全AI绘画Stable Diffusion关键技术解析_stable diffusion_07$
通过迭代过程，从 ( T ) 到 1 对 $全网最全AI绘画Stable Diffusion关键技术解析_AI绘画_08$ 进行采样，其中 ( T ) 是总的时间步数。
在每一步 ( t )，利用扩散模型 $全网最全AI绘画Stable Diffusion关键技术解析_AI绘画_09$ 和 $全网最全AI绘画Stable Diffusion关键技术解析_AI绘画_10$ 来计算均值 $全网最全AI绘画Stable Diffusion关键技术解析_ai_11$ 和方差 $全网最全AI绘画Stable Diffusion关键技术解析_ai_12$
然后使用分类器 $全网最全AI绘画Stable Diffusion关键技术解析_ai_13$ 对 ( x_t ) 的梯度 $全网最全AI绘画Stable Diffusion关键技术解析_ai_14$
最后，从条件分布 $全网最全AI绘画Stable Diffusion关键技术解析_ai_15$ 中采样 $全网最全AI绘画Stable Diffusion关键技术解析_ai_16$
这个过程重复直到 ( t=0 )，最后返回 $全网最全AI绘画Stable Diffusion关键技术解析_ai_17$

算法2：分类器引导的DDIM采样

DDIM（Denoising Diffusion Implicit Models）是一种扩散模型的变体，它允许更快的采样过程。这个算法使用分类器引导来执行DDIM采样。它的步骤如下：

输入和算法1相同。
同样从标准正态分布中采样一个向量 $全网最全AI绘画Stable Diffusion关键技术解析_stable diffusion_07$
通过迭代过程，从 T 到 1 对 $全网最全AI绘画Stable Diffusion关键技术解析_AI绘画_08$
在每一步 ( t )，使用 $全网最全AI绘画Stable Diffusion关键技术解析_stable diffusion_20$ 来计算噪声，然后用分类器 $全网最全AI绘画Stable Diffusion关键技术解析_ai_13$ 来引导这个噪声的方向。
使用这个引导的噪声来更新 $全网最全AI绘画Stable Diffusion关键技术解析_AI绘画_08$ 并采样 $全网最全AI绘画Stable Diffusion关键技术解析_ai_16$
这个过程重复直到 t=0，最后返回 $全网最全AI绘画Stable Diffusion关键技术解析_ai_17$