本日、OpenAIは正式に2つの新しいモデル、o3 と o4-mini を発表しました。これらは「o」モデルシリーズの中で最も高度なバージョンであり、回答前により深く考えるように訓練されています。これまでで最も賢いモデルであり、ChatGPTが複雑なタスクを深い推論能力と積極的なツール活用で処理できるようになります。
これらのモデルは初めて、ChatGPTの全ツールを利用できます:ウェブ検索、Pythonによるファイルの読み取り・解析、画像入力の処理、画像生成などです。いつ・どのようにツールを使うかを自律的に判断し、適切な出力形式で迅速に(多くの場合1分以内に)応答します。
🚀 主な新機能
o3-mini
- これまでで最も強力な推論モデル
- Codeforces、SWE-bench、MMMUなどのベンチマークで新記録を樹立
- 画像、チャート、グラフの解析に非常に強い
- 実世界のタスクでo1と比較して重大なエラーを20%削減
- プログラミング、創造的思考、生物学、数学、工学などの分野で高評価
o4-mini
- コンパクトなモデルで、速度とコストを最適化
- Pythonを用いたAIME 2024–2025で印象的なパフォーマンス(99.5% pass@1)
- STEMおよび非STEMタスク(データサイエンスなど)でo3-miniを上回る
- o3よりも高い利用上限で、高頻度のクエリに適応
マルチモーダル
コーディング
🧠 ビジュアル推論
- 画像を推論チェーンに直接統合可能
- ぼやけた画像、手書きのボード、教科書、スケッチも理解
- 推論中に画像の回転、ズーム、編集が可能
- マルチモーダルテストでトップクラス
🔧 本物のエージェントのようなツール活用
例:「今年の夏のカリフォルニアの電力消費量は昨年と比べてどうか?」
→ o3は以下が可能:
- 公共事業データの検索
- 予測を生成するPythonコードの作成
- チャートの作成、トレンドの分析
- ツールを柔軟に連携し、必要に応じて追加データを自発的に取得
⚙️ 効率とコストの最適化
- o3はo1よりも賢く、コスト効率も高い
- o4-miniはo3-miniよりも大幅に効率的
- 多くの実世界シナリオで、o3とo4-miniは従来モデルよりも賢く安価
🔒 安全性とコントロール
- 安全性トレーニングデータを全面的に更新
- 敏感な内容(生物兵器、マルウェア等)への回答拒否能力を強化
- LLM監視システムが約99%の危険なレッドチームチャレンジを検出
- 自己学習AI、ネットワークセキュリティ、生物学について徹底評価済み – 高リスクレベルではない
💻 Codex CLI – コマンドラインからの直接推論
- ターミナルで直接実行できる軽量コーディングエージェント
- 画像、図、スクリーンショットを送信し、ローカルコード推論と組み合わせ可能
- GitHubでオープンソース
- Codex CLIを利用したプロジェクト向けに100万ドルの助成金(1プロジェクトあたりAPIクレジット25,000ドル)
🔓 アクセスと配布
- ChatGPT Plus、Pro、Teamユーザーはo3、o4-mini、o4-mini-highを選択可能
- エンタープライズおよびEduユーザーは1週間後に利用可能
- 無料ユーザーは「Think」ボタンからo4-miniを試用可能
- APIはChat CompletionsおよびResponsesで完全対応
- Responses APIはまもなくツール統合(ウェブ検索、ファイル検索、コード作成)をサポート予定
Source: https://openai.com/index/introducing-o3-and-o4-mini/