北京时间5月14日凌晨,OpenAI 一场不到 30 分钟的发布会,正式发布了 GPT-4o,视频语音交互丝滑到吓人,还即将免费可用!
GPT-4o,其中的「o」代表「omni」(即全面、全能的意思),这个模型同时具备文本、图片、视频和语音方面的能力,甚至就是 GPT-5 的一个未完成版。
发布会内容总结:
1.新的 GPT-4o 模型:打通任何文本、音频和图像的输入,相互之间可以直接生成,无需中间转换。
2.GPT-4o 语音延迟大幅降低,能在 232 毫秒内回应音频输入,平均为 320 毫秒,这与对话中人类的响应时间相似。
3.GPT-4o 向所有用户免费开放 。
(新语音模式几周内先对Plus用户开放)
4.GPT-4o API,比 GPT 4-Turbo 快 2 倍,价格便宜 50% 。
5.惊艳的实时语音助手演示:对话更像人、能实时翻译,识别表情,可以通过摄像头识别画面写代码分析图表 。
6.ChatGPT 新 UI,更简洁。
7.一个新的 ChatGPT 桌面应用程序,适用于 macOS,Windows 版本今年晚些时候推出。
微软这边,也是在Azure OpenAl Studio上早早进行了跟进。
Azure OpenAI已上线GPT-4o预览模型 !
参考链接:
来源于微软官网
微软这边,也是在Azure OpenAl Studio上早早进行了跟进。
从5月14日开始,Azure OpenAI 服务客户可以在美国的两个地区通过Azure OpenAI Studio中的预览游乐场探索 GPT-4o 的广泛功能。
注意:
GPT-4o 早期访问游乐场目前仅适用于West US3和East US的资源,并且每个订阅每五分钟最多只能有 10 个请求。
即使批准修改,所有早期访问 Playground 用户仍会启用 Azure OpenAI 服务滥用监控;默认内容过滤器已启用且无法修改。
GPT-4o 是 Azure OpenAI 预览模型,目前不可用于部署/直接 API 访问,AOI服务预计5月21日正式上线。
GPT-4o 专为速度和效率而设计。其以最少的资源处理复杂查询的先进能力可以转化为成本节约和性能提高。此初始版本侧重于文本和视觉输入,以提供模型潜力的一瞥,为音频和视频等进一步功能铺平道路。
微软表示,GPT-4o 的推出为各个行业的企业带来了无数的可能性:
-增强的客户服务:通过集成不同的数据输入,GPT-4o 可实现更加动态和全面的客户支持交互。
-高级分析:利用 GPT-4o 处理和分析不同类型数据的能力,以增强决策并揭示更深入的见解。
-内容创新:利用 GPT-4o 的生成能力来创建引人入胜且多样化的内容格式,以满足广泛的消费者偏好。
晚些时间,微软也将在Microsoft Build 2024上分享更多有关 GPT-4o 和其他Azure AI更新的信息,以帮助开发人员进一步释放生成式 AI 的力量。
↑实测,Azure OpenAI企业用户还在等什么,快去体验吧!
出于合规角度,建议国内企业可以选择微软的Azure OpenAI服务来使用接口。
通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用ChatGPT的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。