
OpenAI 推出 o3-Pro 模型
OpenAI 刚宣布两项重大更新。首先,o3 模型价格降低 80%。其次,他们发布了全新模型 o3-pro。
o3-pro 是 OpenAI 当前最先进的多模态模型,具备深度推理能力。它能逐一解决复杂问题,在编码、数学、科学、视觉感知等领域表现更可靠。
OpenAI 的模型命名一团糟。如果你搞不清 o3 与 GPT-4.x 系列或 GPT-4o 的区别,不必担心。以下是简要对比:
- GPT-4.x:多模态模型,无高级推理能力,支持文本和图像。
- GPT-4o:“o”代表“omni”,支持文本、图像和音频处理。
- o3 和 o3-pro:具备推理能力的多模态模型,主要是“思考型”模型,以文本为主,部分支持图像。
这些推理模型能代理式使用 ChatGPT 的所有工具,包括网页搜索、用 Python 分析上传文件和数据、推理视觉输入,甚至在某些场景生成图像。
相较 o3,o3-pro 使用更多计算资源,推理更深入,答案更优质。
o3-pro 是什么?
要理解 o3-pro,需先了解 OpenAI o3 模型的幕后机制,因为 o3-pro 仅仅是 o3 增加了更多时间和计算资源,以更深入推理。
o 系列模型是 OpenAI 专注于推理的模型,与旧的 GPT 系列训练方式不同。o3 不仅预训练于网络文本,还通过大规模强化学习(RL)训练,目标是让模型逐一推理问题,而非简单复述信息。
🤔 注意关键点: o3 开发中,强化学习展现了与 GPT 预训练相同的“更多计算=更好性能”扩展规律。增加计算预算并延长推理时间,性能持续提升,甚至超出预期。
OpenAI 通过强化学习技术重走扩展路径,在训练和推理中投入十倍计算资源。因此,o3 的智能随思考时间增长而提升。
这解释了 o3-pro 并非全新架构,而是 o3 以更大计算和推理预算运行。
OpenAI 验证,在相同延迟和成本下,o3 已优于 o1。若延长 o3 的“思考时间”,性能将持续提升。这正是 o3-pro 的设计核心。
以下是 o3-pro 在写作、编程、数据分析等领域的比较评估,优于 o3。
在编码、数学、科学问题的可靠性上,o3-pro 得分高于早期 o 系列模型。
o3 分解复杂查询的能力,尤其是多步编码或推理密集的业务逻辑,较 GPT-4o 和 4.1 显著升级。
🌰 例如,尝试构建一个规划代理,需将目标分解为可执行任务,每步附推理和依据。GPT-4o 常走捷径或生成模糊列表,而 o3 是我首个体验到生成详细、逻辑严密的计划的模型。
现在,o3-pro 为开发者提供相同架构,但计算和推理预算更大。理论上,这将带来更可靠的深度推理和更优的复杂问题表现。
o3-Pro 功能与限制
以下是 o3-pro 的功能概述:
- 200,000 上下文窗口
- 最大 100,000 输出令牌
- 知识截止: 2024 年 6 月 1 日
- 支持推理 Token
100,000 输出令牌限制正受到部分开发者批评。谷歌已支持高达 100 万输出令牌,OpenAI 为何不提升这一限制?
小编认为,100,000 令牌限制无伤大雅。实际开发中,我几乎用不到上限。对于长篇结构化输出或需管理大量状态的代理,100,000 令牌完全够用。
支持的工具(仅限 API):
- 文件搜索
- 图像生成(仅输入)
- 多模态对话编程(MCP,代理工具编排)
不支持的工具:
- 网页搜索
- 代码解释器
- 计算机操作
换言之,o3-pro 是深度思考者,而非万能工具。它不会运行 Python 脚本或浏览网页,但其推理复杂输入和多步查询的能力超越 OpenAI 以往任何模型。
o3-pro 仅通过 API 提供,专为多轮交互设计,模型需保持状态并深入推理。
o3-pro 的独特之处在于其工具支持,包括网页搜索、文件分析、视觉输入推理、Python 使用、记忆个性化等功能。
由于扩展推理能力和工具使用,请求需数分钟完成。一些用户测试复杂编码任务,高推理提示的延迟达 1-3 分钟。OpenAI 建议使用后台模式避免超时。
其他限制需注意:
- ChatGPT 中的临时对话功能因“技术问题”暂时禁用,OpenAI 正在修复。
- o3-pro 无法生成图像。
- ChatGPT 的 Canvas 功能不支持 o3-pro。
o3-Pro 定价
现在谈谈成本,这对开发代理或应用的开发者至关重要。
每百万令牌定价:
- 输入:$20
- 输出:$80
相较已停用的 o1-pro 模型,价格降低 87%。
但 o3-pro 仍比基础 o3 模型贵 10 倍。以下是三种 o3 模型令牌价格对比:
若应用需高吞吐量或快速响应,成本会迅速累积。对于需深度推理的代理,价值可能值得。对于休闲应用或聊天界面,o3 或 GPT-4.x 模型更合适。
了解更多模型详细定价,请访问 此处。
o3-Pro 访问与测试
截至今日,ChatGPT Pro 和 Team 用户可在应用内访问 o3-pro,取代已停用的 o1-pro。开发者也可通过 API 使用 o3-pro。企业和教育客户将于下周获得访问权限。
您还可连接多种工具,激活更强大功能,如文件搜索、图像生成、连接 MCP 服务器等。
测试-1
输入:你的回答包含多少个单词?
o3-pro 的回答没问题,但思考过程耗时超过 30秒,意外地慢。
GPT-4o,提出相同问题,不到两秒内回答。
🚀 这表明简单任务无需高级推理模型。选择适合任务的模型至关重要。
尽管推理能力卓越,o3-pro 在某些视觉任务上仍有困难。例如,要求 AI 数手部表情符号的手指数量。
测试-2
输入:这个手部表情符号有几根手指?
回答错误,这可能是因为 o3-pro 依赖学习模式,而非真正“理解”视觉。模型训练于数百万正常手部图像,倾向于“预期”五指手。当遇到六指手时,细节可能在图像编码中丢失。
无论原因如何,计数物体、手指或图像细微变化仍是多模态模型的难题。
测试-3
输入:评估在六个月内,欧洲市场推出新产品的可行性。考虑市场需求、竞争、监管要求和经济条件。使用市场分析工具获取准确数据。
回应耗时 1 分 39 秒,输出令牌 2k+。模型返回详细分析,涵盖所有要求因素。
这种深度规划和多因素评估正是 o3-pro 擅长的任务。对于复杂推理,o3-pro 明显优于简单大模型。
总结
o3-pro 的价格不低,但对于需要深入思考和高质推理的代理或应用,其价值可能物有所值。
OpenAI 发布 o3-pro 后,谷歌正准备推出 Gemini Ultra 模型。若 Gemini Ultra 更便宜、更快,或在编码、推理上更优,本月模型之争将非常有趣。
联系我们
有任何云成本管理的需求或问题?欢迎通过以下方式联系我们!
公众号
企业微信客服
业务咨询
技术社区
地址
北京市海淀区自主创新大厦 5层