Hello, GPT-4o！

原创

YJL 2024-05-27 14:24:06 ©著作权

文章标签 人工智能基准测试响应时间模态 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者YJL的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hello, GPT-4o！_响应时间

2024年5月13日，OpenAI 在官网正式发布了最新的旗舰模型 GPT-4o

它是一个 多模态模型，可以实时推理音频、视频和文本。

Hello, GPT-4o！_模态_02

* 发布会完整版视频回顾：https://www.youtube.com/watch?v=DQacCB9tDaw

Hello, GPT-4o！_基准测试_03

GPT-4o（“o”代表“omni”，意为“全能”）是迈向更自然的人机交互的一大进步——它能够接受任意组合的文本、音频和图像作为输入，并输出各种组合的文本、音频和图像。

它能够在232毫秒内对音频输入作出响应，平均响应时间为320毫秒，与人类在对话中的响应时间相近。

在英文和代码方面，它与GPT-4 Turbo的性能相当，而在非英文语言的文本方面有着显著的提升。

此外，它在API方面不仅更快，而且成本降低了50%。与现有模型相比，GPT-4o在视觉和音频理解方面表现尤为出色。

Hello, GPT-4o！_基准测试_04

* GPT-4o发布会前的预热视频

在这个发布会前的预热视频中，OpenAI的员工拿着手机拍摄周围的场景，GPT-4o非常快就提供了对周围环境的描述。接着员工让GPT-4o猜测今天要做什么，它说可能会与OpenAI有关，例如举办发布会之类的。

当员工提到这个发布会与“你”有关时，GPT-4o的回答让人有些惊讶，它竟然表现出人类般的惊讶和停顿，这是 以往任何语音助手都没有的技术特征。

曾于2013年获得奥斯卡最佳原创剧本的电影《Her》中，就展现了一场人与AI的爱恨纠葛，而11年后的今天，无所不能的“Her”已经由GPT-4o变成了现实，从今天起我们每个人都能拥有一个“Her”！

GPT-4o功能展示

* 以下为部分功能展示，之后我们将在视频号上公布GPT-4o的功能展示合辑，欢迎大家关注！

值得一提的是，在第四个展示案例中，家长要求GPT-4o 不要直接告诉答案，而是像名师一般，“授之于鱼，不如授之于渔”并逐步 引导学生自我思维并最终学会解题思路 的方式。

GPT-4o功能评估

在传统基准测试中，GPT-4o 在文本、推理和编码智能方面实现了与 GPT-4 Turbo 相当的性能，同时在多语言、音频和视觉能力方面设立了新的高水平标杆。

1、文本性能

Hello, GPT-4o！_基准测试_06

提升的文本推理能力：GPT-4o在MMLU上取得了 88.7% 的新高分，超过了包括Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0、Llama3 400b等目前市面上著名大模型。

2、音频ASR性能

Hello, GPT-4o！_响应时间_07

音频ASR性能：GPT-4o 在所有语言上显著提高了与Whisper-v3的语音识别性能，特别是对于资源较少的语言。

3、音频翻译性能

Hello, GPT-4o！_人工智能_08

音频翻译性能：GPT-4o 在语音翻译方面取得了新的 最先进水平，并在MLS基准上优于Whisper-v3。

4、视觉理解评估

Hello, GPT-4o！_模态_09

视觉理解评估：GPT-4o 在视觉感知基准测试上取得了 最先进的性能。

Hello, GPT-4o！_响应时间_10

目前，GPT-4o 的文本和图像功能已经对ChatGPT开放，不久后，OpenAI将在ChatGPT Plus中推出GPT-4o的语音模式的新Alpha版本。让我们期待更强大的语音助手出现吧。

--- End ---

Hello, GPT-4o！_响应时间_11

欢迎关注微软智汇AI 官方账号

一手资讯抢先了解

Hello, GPT-4o！_人工智能_12

上一篇：祝全天下所有的妈妈们节日快乐！

下一篇：【StoryDiffusion】多图漫画和长视频的一致性神器！

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯