OpenAI 13 日(美国时间)公布了新的 AI 模型“GPT-4o”。ChatGPT允许您将音频、图像和视频与高速处理结合起来。
本次人工智能新闻要点
- GPT-4o 因其视觉和音频理解而脱颖而出。多语言支持和图像/视频识别启用
- 在各种基准测试中优于现有模型和竞争模型
- 免费用户也可以使用它,付费和企业计划可以在宽松的限制下提高效率。
OpenAI于13日(美国时间)公布了其最新的AI模型“GPT-4o”。它不仅可以无缝处理文本,还可以无缝处理音频、图像和视频,从而可以以自然的节奏进行实时语音对话。
与现有型号相比,GPT-4o 因其改进的视觉和音频理解能力而脱颖而出。它可以在最短 232 毫秒、平均 320 毫秒的时间内响应语音输入,这与人类对话的响应时间大致相同。他们现在可以理解复杂的交互元素,例如对话中断、背景噪音、多种声音和语气。
它可以理解并快速响应多种语言,在演示中,GPT-4o 将英语实时翻译成意大利语。
在文本方面,GPT-4o 在英语和代码方面与 GPT-4 Turbo 的性能相匹配,并且在非英语语言的文本方面也有显着改进。与 GPT-4 Turbo 相比,面向开发人员的 API 现在速度提高了 2 倍,成本降低了 50%,并且速率限制提高了 5 倍。
此外,它将作为 macOS 的新桌面应用程序提供。在演示中,应用程序内拍摄的屏幕截图用于检查代码并演示对温度变化图图像的理解和解释。
GPT-4o甚至可以由免费用户使用。付费用户每小时可以交换的消息数量是免费用户的 5 倍,团队和企业用户的限制甚至更少。
语音功能将在未来几周内在ChatGPT Plus中发布 alpha 版本。对视频识别功能的支持也将逐步推出。