天下武功唯快不破,GPT-4o真的牛_Image

在2024年5月14日凌晨,OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听!、看!、说!丝滑流畅毫无延迟,就像在打一个视频电话。

面对这一更新发布,激动者不在少数,各类自媒体震惊体轮番上阵,更有甚者鼓吹AGI时代已来。

天下武功唯快不破,GPT-4o真的牛_Image_02

Related Image

唱衰者同样存在,贬低GPT-4o所展现的能力只是将tts,vision,llm等已然发布过的技术进行了二次打包组装,并无创新技术存在,而且演示的能力之前的Gemini-1.5已然演示过(虽然被实锤为剪辑)。

天下武功唯快不破,GPT-4o真的牛_App_03

Related Image

作为一个大语言模型开发者,我也着实震惊于GPT-4o所展现的强大的多模态能力。不过遭受过AI原生应用开发反复拷打的我,最为感叹的点在于 232 毫秒语音响应的这一数据,更别说在急速响应的情况下,GPT-4o回复的内容质量还在上一代基础上有了大幅度的提升。不得不说,天下武功唯快不破!LLM领域的摩尔定律依然存在。

如果你还不理解我为啥我要关注全场精彩演示里的这个简单数字,不如听我说说我在AI开发时的一些小故事!

快真的很重要

天下武功唯快不破,GPT-4o真的牛_App_04

在AI技术发展的过程中,速度一直是衡量性能的重要指标。无论是在数据处理、模型训练还是实时交互中,快速响应都是用户体验的关键。

天下武功唯快不破,GPT-4o真的牛_Image_05

Demo还没跑完,观众已经跑完了

在去年这个时候,LLM已然起步。在一次hackthon比赛中,为了展示AI的强大能力,我们构想了一个使用AI还原诗词场景的产品。

然而要完成这个创意,我们需要通过LLM语义理解,文生图提示词自动优化,生图接口调用,自动视频串场剪辑,tts语音合成等诸多耗时环节,来完成一个完整的演示。然而,由于这些环节的处理速度太慢,有时候在演示时,Demo还没跑完,观众已经跑完了。这就是速度对于AI应用的重要性。

能听懂情绪如同有魔法一般

在人机交互中,理解用户的情绪和语境是提升体验的重要一环。GPT-4o在这方面的能力,让机器的“听觉”不再局限于文字,而是能够感知到语气和情感。

别说语气,听清文字,当初就不尴尬了

天下武功唯快不破,GPT-4o真的牛_App_06

回想起2018年雷军在演示小米小爱蓝牙音箱随身版时的那一幕,他连续问三次“三个木叫什么?”,结果蓝牙音箱答非所问。那时候的AI还不能很好的理解人的语境和情绪,甚至连基本的词义都理解不清。而现在,GPT-4o的出现,让我们看到了AI在理解人类情绪和语境方面的巨大进步。

集成也是创新,GPT-4o如有大脑

天下武功唯快不破,GPT-4o真的牛_Image_07

在AI领域,将不同的技术进行有效集成,实现1+1>2的效果,本身就是一种创新。GPT-4o的多模态能力,就是这种集成创新的体现。

GPT-4o能辅导数学题了,我用的LLM还判断不了0-1

在我开发Agent的过程中,我需要通过模型进行0-1决策,以执行下一步的任务,但无法得到合适的回复。我问模型以下问题,期望只有真正需要执行搜索动作时,才回复true,然而模型却无法正常运转。

天下武功唯快不破,GPT-4o真的牛_Image_08

Related Image

这就是GPT-4o的强大之处,它不仅能理解我们的问题,还能根据问题的内容做出正确的回答。这是我们在开发AI应用时,一直追求的目标。

结语

AGI还尚未到来,但AI技术的进步真的每一次都能震撼人心,让我们一起迎接这个精彩的未来吧!