多模态逆天图片生成，OpenAI又一力作：DALL·E 2

原创

wx5818749fd7805 2023-04-13 10:47:48 博主文章分类：有趣的论文 ©著作权

文章标签 DALL.E 2 openai 文字到图像生成图像特征技术细节 文章分类 DALL·E 2 AIGC

©著作权归作者所有：来自51CTO博客作者wx5818749fd7805的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

1.DALL . E 2：集艺术之大成
2. 技术细节

2.1 CLIP
2.2 DALL.E 2具体方法

3.后续

1.DALL . E 2：集艺术之大成

还记得2021年刷爆AI圈的DALL·E，它是基于文本token来生成超现实主义的图像，比如下面的牛油果形状的椅子。

多模态逆天图片生成，OpenAI又一力作：DALL·E 2_DALL.E 2

最近，OpenAI基于其1.0版本进行了升级，发布了DALL·E 2。该版本除了可以像1.0版本一样，从自然语言的描述中创建逼真的图像和艺术，还可以：

对现有生成的图片进行二次创作：添加和删除元素的阴影,反射,和纹理。
根据现有图片进行风格迁移
生成高像素的图片

二次创作：编辑图像 例如在下面图中，旋转一个位置放置火烈鸟：

多模态逆天图片生成，OpenAI又一力作：DALL·E 2_文字到图像生成_02

风格迁移 根据提供的一张图片，生成另一种风格

多模态逆天图片生成，OpenAI又一力作：DALL·E 2_图像特征_03

生成高像素的图片 对比于1.0版本，升级之后的DALL能够生成更高像素的图片：

多模态逆天图片生成，OpenAI又一力作：DALL·E 2_技术细节_04

一些网友已经纷纷开启试用：

文本内容：1980年代，泰迪熊在月球上进行人工智能研究

多模态逆天图片生成，OpenAI又一力作：DALL·E 2_openai_05

文本内容：蒙娜丽莎在喝酒

多模态逆天图片生成，OpenAI又一力作：DALL·E 2_图像特征_06

从上面可以看出，DALL.E 2生成的效果可以和画家画出的图片媲美。

体验网址如下（不过需要加入waitlist）：https://labs.openai.com/waitlist

2. 技术细节

2.1 CLIP

CLIP是基于文本-图像对的预训练方法，它主要是通过对比学习思想，来匹配对应的图像和其文字描述。其中包含了text-encoder和image-encoder。对于一个包含 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_DALL.E 2_07$ 个文本-图像对的数据集来说，对比学习就是将N个图像和N个文本进行两两匹对，然后预测出其相似概率。其中只有 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_DALL.E 2_07$ 个是正样本（图中对角线元素），其余 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_DALL.E 2_09$ 为负样本。

多模态逆天图片生成，OpenAI又一力作：DALL·E 2_DALL.E 2_10

CLIP模型可以直接实现zero-shot分类，即不需要任何训练数据，就能在某个具体下游任务上实现分类。

根据任务构造分类标签文本：A photo of {label}，通过text-encoder得到对应的文本特征
将要预测的图像经过image encoder得到输出特征，然后与第一步的输出进行余弦相似计算，得到预测概率

2.2 DALL.E 2具体方法

在训练集上构成 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_DALL.E 2_11$ ，其中 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_openai_12$ 为图片， $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_DALL.E 2_13$ 为其说明文字。给定图片 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_openai_12$ ， $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_图像特征_15$ 表示CLIP模型生成的图像特征， $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_文字到图像生成_16$ 表示CLIP生成的文本特征。

多模态逆天图片生成，OpenAI又一力作：DALL·E 2_openai_17

生成图片主要有两个步骤：

利用真实文本描述 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_图像特征_18$ ，通过CLIP生成的图像特征 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_文字到图像生成_19$
利用真实文本描述 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_图像特征_18$ 和CLIP生成的图像特征 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_文字到图像生成_19$ ，解码成图片 $多模态逆天图片生成，OpenAI又一力作：DALL·E 2_文字到图像生成_22$