天下武功唯快不破，GPT-4o真的牛

关注 AI小智

文章目录

快真的很重要
Demo还没跑完，观众已经跑完了
能听懂情绪如同有魔法一般
别说语气，听清文字，当初就不尴尬了
集成也是创新，GPT-4o如有大脑
GPT-4o能辅导数学题了，我用的LLM还判断不了0-1
结语

天下武功唯快不破，GPT-4o真的牛

原创

AI小智 2024-05-15 08:23:43 博主文章分类：大模型科普 ©著作权

文章标签 Image 模态 App 文章分类 神经网络人工智能

©著作权归作者所有：来自51CTO博客作者AI小智的原创作品，请联系作者获取转载授权，否则将追究法律责任

天下武功唯快不破，GPT-4o真的牛_Image

在2024年5月14日凌晨，OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App，并展示了一系列新能力。最新旗舰大模型GPT-4o，不仅免费可用，能力更是横跨听!、看!、说!丝滑流畅毫无延迟，就像在打一个视频电话。

面对这一更新发布，激动者不在少数，各类自媒体震惊体轮番上阵，更有甚者鼓吹AGI时代已来。

天下武功唯快不破，GPT-4o真的牛_Image_02

Related Image

唱衰者同样存在，贬低GPT-4o所展现的能力只是将tts，vision，llm等已然发布过的技术进行了二次打包组装，并无创新技术存在，而且演示的能力之前的Gemini-1.5已然演示过（虽然被实锤为剪辑）。

天下武功唯快不破，GPT-4o真的牛_App_03

Related Image

作为一个大语言模型开发者，我也着实震惊于GPT-4o所展现的强大的多模态能力。不过遭受过AI原生应用开发反复拷打的我，最为感叹的点在于 232 毫秒语音响应的这一数据，更别说在急速响应的情况下，GPT-4o回复的内容质量还在上一代基础上有了大幅度的提升。不得不说，天下武功唯快不破！LLM领域的摩尔定律依然存在。

如果你还不理解我为啥我要关注全场精彩演示里的这个简单数字，不如听我说说我在AI开发时的一些小故事！

快真的很重要

天下武功唯快不破，GPT-4o真的牛_App_04

在AI技术发展的过程中，速度一直是衡量性能的重要指标。无论是在数据处理、模型训练还是实时交互中，快速响应都是用户体验的关键。

天下武功唯快不破，GPT-4o真的牛_Image_05

Demo还没跑完，观众已经跑完了

在去年这个时候，LLM已然起步。在一次hackthon比赛中，为了展示AI的强大能力，我们构想了一个使用AI还原诗词场景的产品。

然而要完成这个创意，我们需要通过LLM语义理解，文生图提示词自动优化，生图接口调用，自动视频串场剪辑，tts语音合成等诸多耗时环节，来完成一个完整的演示。然而，由于这些环节的处理速度太慢，有时候在演示时，Demo还没跑完，观众已经跑完了。这就是速度对于AI应用的重要性。

能听懂情绪如同有魔法一般

在人机交互中，理解用户的情绪和语境是提升体验的重要一环。GPT-4o在这方面的能力，让机器的“听觉”不再局限于文字，而是能够感知到语气和情感。

别说语气，听清文字，当初就不尴尬了

天下武功唯快不破，GPT-4o真的牛_App_06

回想起2018年雷军在演示小米小爱蓝牙音箱随身版时的那一幕，他连续问三次“三个木叫什么？”，结果蓝牙音箱答非所问。那时候的AI还不能很好的理解人的语境和情绪，甚至连基本的词义都理解不清。而现在，GPT-4o的出现，让我们看到了AI在理解人类情绪和语境方面的巨大进步。

集成也是创新，GPT-4o如有大脑

天下武功唯快不破，GPT-4o真的牛_Image_07

在AI领域，将不同的技术进行有效集成，实现1+1>2的效果，本身就是一种创新。GPT-4o的多模态能力，就是这种集成创新的体现。

GPT-4o能辅导数学题了，我用的LLM还判断不了0-1

在我开发Agent的过程中，我需要通过模型进行0-1决策，以执行下一步的任务，但无法得到合适的回复。我问模型以下问题,期望只有真正需要执行搜索动作时，才回复true，然而模型却无法正常运转。

天下武功唯快不破，GPT-4o真的牛_Image_08

Related Image

这就是GPT-4o的强大之处，它不仅能理解我们的问题，还能根据问题的内容做出正确的回答。这是我们在开发AI应用时，一直追求的目标。

结语

AGI还尚未到来，但AI技术的进步真的每一次都能震撼人心，让我们一起迎接这个精彩的未来吧！

赞
收藏
评论
分享
举报

上一篇：智能体时代：Agent开发的三重境界

下一篇：如何构建终极的AI自动化系统：多代理协作指南

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

AI小智

关注

分类列表

职场话题

2024软考

华为认证

K8s

数据库

近期文章

文章目录

快真的很重要
Demo还没跑完，观众已经跑完了
能听懂情绪如同有魔法一般
别说语气，听清文字，当初就不尴尬了
集成也是创新，GPT-4o如有大脑
GPT-4o能辅导数学题了，我用的LLM还判断不了0-1
结语

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册