文章目录

  • 1.DALL . E 2:集艺术之大成
  • 2. 技术细节
  • 2.1 CLIP
  • 2.2 DALL.E 2具体方法
  • 3.后续

1.DALL . E 2:集艺术之大成

还记得2021年刷爆AI圈的DALL·E,它是基于文本token来生成超现实主义的图像,比如下面的牛油果形状的椅子

多模态逆天图片生成,OpenAI又一力作:DALL·E 2_DALL.E 2


最近,OpenAI基于其1.0版本进行了升级,发布了DALL·E 2。该版本除了可以像1.0版本一样,从自然语言的描述中创建逼真的图像和艺术,还可以:

  • 对现有生成的图片进行二次创作添加和删除元素的阴影,反射,和纹理。
  • 根据现有图片进行风格迁移
  • 生成高像素的图片

二次创作:编辑图像 例如在下面图中,旋转一个位置放置火烈鸟:

多模态逆天图片生成,OpenAI又一力作:DALL·E 2_文字到图像生成_02

风格迁移 根据提供的一张图片,生成另一种风格

多模态逆天图片生成,OpenAI又一力作:DALL·E 2_图像特征_03

生成高像素的图片 对比于1.0版本,升级之后的DALL能够生成更高像素的图片:

多模态逆天图片生成,OpenAI又一力作:DALL·E 2_技术细节_04

一些网友已经纷纷开启试用:

文本内容:1980年代,泰迪熊在月球上进行人工智能研究

多模态逆天图片生成,OpenAI又一力作:DALL·E 2_openai_05


文本内容:蒙娜丽莎在喝酒

多模态逆天图片生成,OpenAI又一力作:DALL·E 2_图像特征_06


从上面可以看出,DALL.E 2生成的效果可以和画家画出的图片媲美。

体验网址如下(不过需要加入waitlist):https://labs.openai.com/waitlist

2. 技术细节

2.1 CLIP

CLIP是基于文本-图像对的预训练方法,它主要是通过对比学习思想,来匹配对应的图像和其文字描述。其中包含了text-encoderimage-encoder。对于一个包含多模态逆天图片生成,OpenAI又一力作:DALL·E 2_DALL.E 2_07个文本-图像对的数据集来说,对比学习就是将N个图像和N个文本进行两两匹对,然后预测出其相似概率。其中只有多模态逆天图片生成,OpenAI又一力作:DALL·E 2_DALL.E 2_07个是正样本(图中对角线元素),其余多模态逆天图片生成,OpenAI又一力作:DALL·E 2_DALL.E 2_09为负样本。

多模态逆天图片生成,OpenAI又一力作:DALL·E 2_DALL.E 2_10


CLIP模型可以直接实现zero-shot分类,即不需要任何训练数据,就能在某个具体下游任务上实现分类。

  • 根据任务构造分类标签文本:A photo of {label},通过text-encoder得到对应的文本特征
  • 将要预测的图像经过image encoder得到输出特征,然后与第一步的输出进行余弦相似计算,得到预测概率

2.2 DALL.E 2具体方法

在训练集上构成多模态逆天图片生成,OpenAI又一力作:DALL·E 2_DALL.E 2_11,其中多模态逆天图片生成,OpenAI又一力作:DALL·E 2_openai_12为图片,多模态逆天图片生成,OpenAI又一力作:DALL·E 2_DALL.E 2_13为其说明文字。给定图片多模态逆天图片生成,OpenAI又一力作:DALL·E 2_openai_12多模态逆天图片生成,OpenAI又一力作:DALL·E 2_图像特征_15表示CLIP模型生成的图像特征,多模态逆天图片生成,OpenAI又一力作:DALL·E 2_文字到图像生成_16表示CLIP生成的文本特征。

多模态逆天图片生成,OpenAI又一力作:DALL·E 2_openai_17

生成图片主要有两个步骤:

  • 利用真实文本描述多模态逆天图片生成,OpenAI又一力作:DALL·E 2_图像特征_18 ,通过CLIP生成的图像特征多模态逆天图片生成,OpenAI又一力作:DALL·E 2_文字到图像生成_19
  • 利用真实文本描述多模态逆天图片生成,OpenAI又一力作:DALL·E 2_图像特征_18和CLIP生成的图像特征多模态逆天图片生成,OpenAI又一力作:DALL·E 2_文字到图像生成_19,解码成图片多模态逆天图片生成,OpenAI又一力作:DALL·E 2_文字到图像生成_22
3.后续

图像生成工具一直是黑产可利用的工具之一。在限制措施上,OpenAI限制了DALL·E 2生成暴力、仇恨或成人图像的能力。同时还使用了先进的技术来防止生成真实人物的脸,包括公众人物的脸照片生成。

如果过滤器识别出可能违规的文本提示和图像上传,将不会生成图像。这样将会有效的减少DALL.E 2工具的滥用。

目前DALL.E 2还处于测试阶段,OpenAI一直寻找外包专家合作,并将提供给一定量的可信任用户使用。官网中提到:随着时间的推移,将计划邀请更多的人来预览这项研究,以了解并不断改进我们的安全系统。