OpenAI 宣布推出具有音频和视觉理解优势的新模型“GPT-4o”

原创

IntelliRealm 2024-05-17 08:01:10 ©著作权

©著作权归作者所有：来自51CTO博客作者IntelliRealm的原创作品，请联系作者获取转载授权，否则将追究法律责任

OpenAI 宣布推出具有音频和视觉理解优势的新模型“GPT-4o”_多语言

OpenAI最新型号GPT-4o

OpenAI 13 日（美国时间）公布了新的 AI 模型“GPT-4o”。ChatGPT允许您将音频、图像和视频与高速处理结合起来。

本次人工智能新闻要点

OpenAI于13日（美国时间）公布了其最新的AI模型“GPT-4o”。它不仅可以无缝处理文本，还可以无缝处理音频、图像和视频，从而可以以自然的节奏进行实时语音对话。

与现有型号相比，GPT-4o 因其改进的视觉和音频理解能力而脱颖而出。它可以在最短 232 毫秒、平均 320 毫秒的时间内响应语音输入，这与人类对话的响应时间大致相同。他们现在可以理解复杂的交互元素，例如对话中断、背景噪音、多种声音和语气。

OpenAI 宣布推出具有音频和视觉理解优势的新模型“GPT-4o”_多语言_02

它可以理解并快速响应多种语言，在演示中，GPT-4o 将英语实时翻译成意大利语。

在文本方面，GPT-4o 在英语和代码方面与 GPT-4 Turbo 的性能相匹配，并且在非英语语言的文本方面也有显着改进。与 GPT-4 Turbo 相比，面向开发人员的 API 现在速度提高了 2 倍，成本降低了 50%，并且速率限制提高了 5 倍。

OpenAI 宣布推出具有音频和视觉理解优势的新模型“GPT-4o”_多语言_03

此外，它将作为 macOS 的新桌面应用程序提供。在演示中，应用程序内拍摄的屏幕截图用于检查代码并演示对温度变化图图像的理解和解释。

GPT-4o甚至可以由免费用户使用。付费用户每小时可以交换的消息数量是免费用户的 5 倍，团队和企业用户的限制甚至更少。

语音功能将在未来几周内在ChatGPT Plus中发布 alpha 版本。对视频识别功能的支持也将逐步推出。

OpenAI 宣布推出具有音频和视觉理解优势的新模型“GPT-4o”_开发人员_04

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯