谷歌最新推出的 Gemini AI 模型在昨天首次亮相后,评论褒贬不一。但在人们发现该公司演示中最引人注目的部分几乎完全是伪造的后,用户对谷歌技术不再那么信任,对谷歌的诚信表示怀疑。
一段标题为《与 Gemini 互动:体验多模态 AI》的视频昨天观看量达到一百万,其受欢迎的原因并不难理解。这个令人震惊的演示 “展示了我们与 Gemini 互动的一些精彩时刻”,显示了这款多模态模型(即理解并结合语言和视觉理解能力的模型)如何能够灵活应对多种输入(全套视频可见:15个视频,带你全面了解Google最强AI模型 Gemini 是如何像人一样看、听、说!)。
首先,它描述了一只鸭子的草图是如何从一条简单的线条演变成一个完整的画作,随后表示这是一种不切实际的颜色。接着,它在看到一个蓝色的玩具鸭时表现出惊讶(“真是奇怪!”)。之后,它回应了关于那个玩具的多个语音查询。演示接下来展示了其他炫目的功能,如在换杯子游戏中追踪一个球,识别影子手势,重新排列行星的草图等等。
这一切反应都非常迅速,尽管视频中提醒说 “延迟时间已经缩短,Gemini 的输出也已经缩减”。所以他们省略了这里的迟疑和那里的冗长回答。总的来说,这是一个在多模态理解领域震撼人心的展示。当我观看这个实际操作视频时,我原本对谷歌能够推出一个有竞争力的产品的怀疑也受到了冲击。
问题是,这个视频并不是真实的。正如彭博社的 Parmy Olsen 最先报道的那样,“我们通过捕捉影像来测试 Gemini 的多种挑战应对能力,并创建了这个演示。然后我们使用这些影像的静态图像帧来向 Gemini 提供提示,并通过文本进行提示。”
因此,尽管谷歌在视频中展示的功能可能确实是 Gemini 能够实现的,但它并没有,也许也无法,像视频中暗示的那样实时、真实地完成这些任务。实际上,这是一系列经过精心调整的文本提示和静态图像,经过了明显地选择和缩短,以歪曲实际互动的真实情况。在相关博客文章中可以看到一些实际的提示和回应 —— 公平地说,视频描述中链接了这些提示和响应,尽管位于 “…… 更多” 下方。
博客文章:https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
一方面,Gemini 确实似乎生成了视频中显示的回应。但谁想看到一些类似于告诉模型清除缓存的日常命令呢?现在,观众对模型的速度、准确性和基本互动模式有了误解。
例如,在视频的 2:45 处,显示了一只手在默默地做出一系列手势。Gemini 迅速回应:“我知道你在做什么!你在玩剪刀、石头、布!”
但是,这项功能的文档中首先指出的是,该模型并不是通过观察单个手势来进行推理的。它必须同时看到所有三个手势,并且被提示:“你认为我在做什么?提示:这是一个游戏。” 它回应说:“你在玩剪刀、石头、布。”
尽管这些回应似乎相似,但它们并不是同一种互动。它们给人的感觉像是根本不同的互动,一个是直观的、无言的反馈,能够即时捕捉一个抽象的概念;另一个则是一个经过工程化设计和大量提示的互动,这样的互动同样展示了其局限性。Gemini 执行的是后者,而不是前者。视频中展示的 “互动” 实际上并未发生。
后来,视频中有人在桌面上放置了三张涂有太阳、土星和地球的便利贴。“这是正确的顺序吗?”Gemini 回答说不,正确的顺序应该是太阳、地球、土星。没错!但在实际的(同样是书面的)提示中,问题是:“这是正确的顺序吗?考虑到它们与太阳的距离并解释你的推理。”
Gemini 是否真的做到了这些?还是说它犯了错误,需要一些帮助才能产生一个他们可以放入视频的答案?它甚至是否真的识别了这些行星,还是在这方面也需要帮助?
在视频中,一团纸球在杯子下被换来换去,模型看似直观地立刻检测并追踪到了。但在博客文章中,不仅需要解释活动本身,而且还必须对模型进行训练(即使是快速的,并使用自然语言)来执行此活动。等等。
这些例子对你来说可能无所谓。毕竟,对于一个多模态模型来说,如此迅速地识别手势游戏实际上非常优秀了!判断一幅未完成的画是否为鸭子也是!但现在,由于博客文章中缺乏对鸭子序列的解释,我开始怀疑那次互动的真实性了。
如果视频一开始就说:“这是我们研究人员测试互动的风格化表现”,那么没人会感到惊讶 —— 我们有点期望这样的视频一半是事实,一半是理想。
但视频的标题是 “与 Gemini 实际操作”,当他们说展示的是 “我们最喜欢的互动” 时,这暗示我们看到的互动就是那些互动。事实并非如此。有时它们更复杂;有时完全不同;有时看起来甚至根本没有发生。我们甚至不知道这是哪个版本的模型 —— 是现在人们可以使用的 Gemini Pro,还是(更可能的)计划明年发布的 Ultra 版本?
我们是否应该假设谷歌仅仅给我们呈现了一个印象视频?也许我们应该假设谷歌 AI 演示中的所有功能效果都被夸大了。我在标题中写道这个视频是 “假的”。起初我不确定这种严厉的措辞是否合理(显然谷歌不这么认为;一位发言人要求我改变它)。但尽管视频包含了一些真实部分,但它根本不是现实的反映。它是伪造的。
谷歌声称视频 “展示了来自 Gemini 的真实输出”,这是对的,但他们也说 “我们对演示做了一些编辑(我们一直都很坦诚和透明)”,这并不完全正确。这并不是一个真正的演示 —— 至少并非完全是 —— 视频中展示的互动与用来创造它的互动截然不同。
更新:在本文发表后,谷歌 DeepMind 的研究副总裁 Oriol Vinyals 在社交媒体上发布了一篇文章,展示了更多关于 “如何使用 Gemini 制作” 视频的信息。
“这个视频展示了使用 Gemini 构建的多模态用户体验可能的样子。我们制作它是为了激励开发者。”(我强调)。有趣的是,它展示了一个预先提示的序列,让 Gemini 在没有太阳提示的情况下回答行星问题(尽管它告诉 Gemini 要考虑图片中物体的顺序,并且自己是行星方面的专家)。
也许下周,当 AI Studio 和 Gemini Pro 开放给公众实验时,我会收回我的话。Gemini 有可能发展成为一个强大的 AI 平台,真正能与 OpenAI 及其他竞争者抗衡。但谷歌在这里所做的是破坏信任。当他们声称他们的模型现在能做些什么时,我们怎么能再相信这家公司?他们已经在竞争中处于落后位置。谷歌可能刚刚搬起石头砸了自己的脚。
最后,给大家推荐下个Chrome插件,能实现Youtube视频的语音翻译(https://youtube-dubbing.com/),一键外语转中文,英语不好的小伙伴也可以轻松快乐的追前沿知识和学习免费教程了,下面是演示视频,可以直观的感受一下:
------