Stable Diffusion 3发布，和Sora背后原理同架构，文字终于不乱码了

原创

AIGC_Studio 2024-04-01 13:08:49 博主文章分类：深度学习 ©著作权

文章标签 人工智能 StableDiffusion AIGC 计算机视觉深度学习 文章分类 bard AIGC

©著作权归作者所有：来自51CTO博客作者AIGC_Studio的原创作品，请联系作者获取转载授权，否则将追究法律责任

继 OpenAI 的 Sora 连续一周霸屏后，昨晚，生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示，这是他们最强大的文生图模型。

Stable Diffusion 3发布，和Sora背后原理同架构，文字终于不乱码了_StableDiffusion

提示：史诗般的动漫作品，一位巫师在夜晚的山顶上向漆黑的天空施放宇宙咒语，咒语上写着 "Stable Diffusion 3"，由五彩缤纷的能量组成（Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy）

与之前的版本相比，Stable Diffusion 3 生成的图在质量上实现了很大改进，支持多主题提示，文字书写效果也更好了。以下是一些官方示例：

直接上效果！首先，是开挂的文字渲染能力如黑板上的粉笔字路牌、公交灯牌的霓虹效果以及刺绣上“勾”得快要看到针脚的“晚安”。可谓是非常逼真！

提示：电影照片，教室的桌子上放着一个红苹果，黑板上用粉笔写着 "go big or go home" 的字样（cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk）

Stable Diffusion 3发布，和Sora背后原理同架构，文字终于不乱码了_AIGC_02

提示：一幅画，画中宇航员骑着一只穿着蓬蓬裙的猪，撑着一把粉色的伞，猪旁边的地上有一只戴着高帽的知更鸟，角落里有 "stable diffusion" 的字样（a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"）

Stable Diffusion 3发布，和Sora背后原理同架构，文字终于不乱码了_StableDiffusion_03

提示：黑色背景上变色龙的摄影棚特写（studio photograph closeup of a chameleon over a black background

Stable Diffusion 3发布，和Sora背后原理同架构，文字终于不乱码了_人工智能_04

Stable Diffusion 3发布，和Sora背后原理同架构，文字终于不乱码了_深度学习_05

Stable Diffusion3

Stable Diffusion 3是 Stability AI 最新推出的功能最强大的文本到图像生成的模型。它在处理多文本提示、图像质量甚至文本渲染能力方面都有重大的改进。Stable Diffusion 3 和 Sora 一样采用了 diffusion transformer 架构。

该模型套件的参数量从 800M 到 8B 不等。它结合了Diffusion Transformer结构（类似于Sora中的结构）和Flow Matching。目前 Stability AI 并没有发布有关 Stable Diffusion 3 的诸多细节，也没有带来最新的技术报告详解，但是这不影响它的一些亮眼表现。

其一，Stable Diffusion 3 模型的参数范围从 800M（小于常用 Stable Diffusion 1.5 版本）到 8B （大于 Stable Diffusion XL 版本）不等。这一尺寸范围允许模型的不同版本在各个设备譬如从智能手机到服务器上本地运行。要想使用，你可能仍然需要一个强大的 GPU 和一个用于机器学习工作的设置。

其二，Stable Diffusion 3 之所以被称之为“最强大的文本到图像模型”，是因为自 Stable Diffusion 3 使用了类似 OpenAI Sora 的技术，即扩散 Transformer 架构。其中，“基于 Transformer 的可扩展扩散模型 DiT”由领导 Sora 项目成员之一的 Will Peebles 和纽约大学任助理教授谢赛宁二人于 2022 年首创，但是于 2023 年进行了修订，现在已经达到可扩展性。通过增加 Transformer 的深度和宽度，以及改变输入图像的分块方式，DiT 模型能够生成具有高质量和细节的图像。

Diffusion Transformer（DiT）

Stable Diffusion 3发布，和Sora背后原理同架构，文字终于不乱码了_人工智能_06

论文标题：Scalable Diffusion Models with Transformers

论文链接：https://arxiv.org/pdf/2212.09748.pdf

Diffusion Transformer 是 Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁最初在 2022 年底发布的研究，2023 年 3 月更新第二版。论文探究了扩散模型中架构选择的意义，研究表明 U-Net 归纳偏置对扩散模型的性能不是至关重要的，并且可以很容易地用标准设计（如 Transformer）取代。

具体来说，论文提出了一种基于 Transformer 架构的新型扩散模型 DiT，并训练了潜在扩散模型，用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性，各个型号的 DiT 都取得了不错的效果。

基于 DiT 的启发，Stability AI 进一步提出了 Hourglass Diffusion Transformer (HDiT)。这是一种随像素数量扩展的图像生成模型，支持直接在像素空间进行高分辨率（如 1024 × 1024）训练。这项工作通过改进骨干网络解决了高分辨率合成问题。Transformer 架构可以扩展到数十亿个参数，HDiT 在此基础上，弥补了卷积 U-Net 的效率和 Transformer 的可扩展性之间的差距，无需使用典型的高分辨率训练技术即可成功进行训练。

Diffusion Transformer（DiT）架构代表了一类融合了Transformer技术的新型扩散模型。与通常使用卷积 U-Net 主干网的传统扩散模型不同，DiT 采用Transformer结构对图像的潜在特征表示进行操作。DiT的网络结构如下：

Stable Diffusion 3发布，和Sora背后原理同架构，文字终于不乱码了_StableDiffusion_07

这种架构对于 ImageNet 等大型数据集上的基于类别条件图像生成任务特别有效，DiTs 在图像质量和生成模型性能方面树立了新的标杆。

FLOW MATCHING

Stable Diffusion 3发布，和Sora背后原理同架构，文字终于不乱码了_深度学习_08

论文标题：FLOW MATCHING FOR GENERATIVE MODELING

论文链接：https://arxiv.org/pdf/2210.02747.pdf

具体来说，论文提出了「Flow Matching」的概念，这是一种基于固定条件概率路径向量场回归训练 CNF 的免模拟方法。Flow Matching 与用于在噪声和数据样本之间进行转换的高斯概率路径的通用族兼容（通用族将现有的扩散路径归纳为具体实例）。

研究者发现，使用带有扩散路径的 Flow Matching 可以为扩散模型的训练提供更稳健、更稳定的替代方案。此外，Flow Matching 还为使用其他非扩散概率路径训练 CNF 打开了大门。其中一个特别值得关注的例子是使用最优传输（OT）位移插值来定义条件概率路径。这些路径比扩散路径更有效，训练和采样速度更快，泛化效果更好。在 ImageNet 上使用 Flow Matching 对 CNF 进行训练，在似然性和采样质量方面的性能始终优于其他基于扩散的方法，并且可以使用现成的数值 ODE 求解器快速、可靠地生成采样。

Stable Diffusion 3发布，和Sora背后原理同架构，文字终于不乱码了_StableDiffusion_09