今天,OpenAI 正式发布了两款新模型:o3 和 o4-mini —— “o” 系列中最先进的版本,经过训练可在回答前进行更深入的思考。这些是迄今为止最智能的模型,使 ChatGPT 能够处理复杂任务,具备深度推理能力和主动使用工具的能力。
首次,这些模型可以使用 ChatGPT 的全部工具:网页搜索、通过 Python 阅读和分析文件、处理图像输入以及生成图像。它们被设计为自主决定何时以及如何使用工具,并能以合适的输出格式快速响应(通常在1分钟内)。
🚀 主要新特性
o3-mini
- 迄今为止最强大的推理模型
- 在 Codeforces、SWE-bench、MMMU 等基准测试上创下新纪录
- 对图像、图表和曲线分析能力极强
- 在真实世界任务中,严重错误率比 o1 降低 20%
- 在编程、创造性思维、生物学、数学和工程等领域评价极高
o4-mini
- 紧凑型模型,优化了速度和成本
- 在 AIME 2024–2025 Python 测试中表现出色(99.5% pass@1)
- 在 STEM 和非 STEM 任务(如数据科学)上均优于 o3-mini
- 支持比 o3 更高的使用上限,适合高频查询场景
多模态
编程
🧠 视觉推理
- 可将图像直接整合进推理链
- 能理解模糊图片、手写板、教材或草图
- 推理过程中可旋转、缩放和编辑图片
- 在多模态测试中处于领先地位
🔧 像真正的智能体一样使用工具
示例:问题“今年夏天加州的用电量与去年相比如何?”
→ o3 可以:
- 搜索公共事业数据
- 编写 Python 代码生成预测
- 创建图表,分析趋势
- 灵活连接工具,主动寻找更多数据(如有需要)
⚙️ 优化效率与成本
- o3 比 o1 更智能且更具性价比
- o4-mini 比 o3-mini 明显更高效
- 对于大多数真实场景,o3 和 o4-mini 都比以往模型更智能且更便宜
🔒 安全与可控
- 安全训练数据全面更新
- 增强了拒绝回答敏感内容(生物武器、恶意软件等)的能力
- LLM 监控系统可检测约 99% 的危险红队挑战
- 针对自学习 AI、网络安全和生物学进行了全面评估——未达到高风险水平
💻 Codex CLI – 命令行直接推理
- 轻量级编程智能体,可直接在终端运行
- 支持发送图片、绘图、截图进行本地代码推理
- 在 GitHub 上开源
- 为使用 Codex CLI 的项目提供 100 万美元资助(每个项目 API 额度 2.5 万美元)
🔓 访问与分发
- ChatGPT Plus、Pro 和 Team 用户可选择 o3、o4-mini、o4-mini-high
- 企业和教育用户将在一周后获得访问权限
- 免费用户可通过“Think”按钮试用 o4-mini
- API 完全支持 Chat Completions 和 Responses
- Responses API 即将支持工具集成:网页搜索、文件搜索、代码编写
Source: https://openai.com/index/introducing-o3-and-o4-mini/