GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_计算机视觉


作者 | 付奶茶、王二狗

大离谱!

我用GPT-4(V)和DALL·E 3 「混合双打」之下,生成了一张张 牛鲨🐂🦈图,那么问题来了,这到底是牛还是鲨?

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_深度学习_02

起因是这样的!

职高逆袭MI

最近推特上出现了一种有趣的玩法,要求GPT-4(V)详细地描述一张图片,然后DALL·E 3 基于该描述生成对应的图像,再循环往复, 根据这个测试的结果来观察图文之间转换、复原的过程。

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_生成图片_03

首先输入想要测试的原图,让GPT-4(V)尽可能详细地生成图片的描述语:

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_深度学习_04

然后我们再将生成的描述语喂给DALL·E 3让其根据文本产生对应的图片。

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_生成图片_05

然后,我们再将图片喂给GPT-4(V)生成描述.....

循环几次后,我们可以看到蒙娜丽莎在反复的循环测试中,虽然面部出现了改变,但是在大方向上比如人物性别、背后场景上仍然能看到相似之处:

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_深度学习_06

▲蒙娜丽莎

但是!小乌龟就没那么幸运了!

小乌龟在一轮轮的转换中逐渐变样,先是失去了自己的形状,后来竟然变成了猫头鹰!

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_循环测试_07

▲乌龟->猫头鹰

这个小测试可以直观展现GPT-4V和DALL·E 3之间图文信息处理与生成上的协同与差异。小编们挑选了一些可爱又有趣的小例子,让我们一同欣赏它们生成的结果吧!

1、 顶流-卡皮巴拉

它还是一如既往的灰常稳定,尽管在不断循环的测试中,画风和场景不断变化,但形象是固定的,那就是卡皮巴拉的身影!

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_深度学习_08

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_计算机视觉_09

▲选取代表性描述

2、西游记

再来看看师徒四人~

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_生成图片_10

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_循环测试_11

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_生成图片_12

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_深度学习_13

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_计算机视觉_14

另外再看看八戒单猪照~

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_深度学习_15

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_循环测试_16

在八戒的测试中,DALL·E 3识别出来是人假扮的,但是描述没有明确猪的概念。因此在后续的循环测试中,出现了主体形象的改变~图片中的八戒逐渐变成了一只戴着贵族礼帽的富贵猫猫!

3、蓝黑白金裙

在究竟裙子的颜色究竟是“白色与金色”或是“黑色与蓝色”上,GPT4V在测试的初期给出了确定的答复:(我猜测,应该是过去的训练学习到了相关)

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_计算机视觉_17

▲小编试图找到高清图,但是原图就很糊wwww

然而抓马的来了!DALL·E 3根据GPT-4V生成的描述绘图后再让其对生成后的图片进行描述时:

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_计算机视觉_18

▲第二轮的生成结果

已经被固定成蓝金!【狗头】

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_计算机视觉_19

4、玲娜贝儿

我们川沙坦己在测试中被认出来了是小狐狸!被心软软的GPT-4V和DALL·E 3大大保留了水灵灵的蓝色眼睛和长睫毛~

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_生成图片_20

而这只名叫做“夕小瑶”的小狐狸可就没那么幸运了!!!!

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_循环测试_21

喂!你在说谁是猫头鹰!

5、牛鲨、虎鲨来了!

让我们一起来看看GPT-4V和DALL·E 3的答案吧!

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_人工智能_22

在初级题上,GPT-4V很坚定这是一条棕色的鱼~

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_生成图片_23

虽然在循环测试中,模型没有偏向牛,但是在后续的描述逐渐放大了海洋生物的眼睛,生成的图像逐渐跑偏...最终转向为一张海洋鱼的眼睛。

最后,我们回到我们文章开头抛出的问题,那么这张到底是牛还是鲨?

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_人工智能_24

GPT-4V一眼认出了他是合成图!在测试的过程中不会下定义指定究竟是哪一种生物,在文本和图像转换的循环测试中也只是将两种生物的元素一直合成在一起。

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_深度学习_25

别等了,大家赶紧上手试试看吧!

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」_深度学习_26