Введение в OpenAI o3 и o4-mini

OpenAI запускает o3 и o4-mini — интеллектуальные модели, способные к глубокому рассуждению, использующие изображения и инструменты для решения сложных задач. Это важный шаг, который приближает ChatGPT к становлению по-настоящему автономным агентом.

Сегодня OpenAI официально запускает две новые модели: o3 и o4-mini – самые продвинутые версии в серии моделей “o”, обученные дольше размышлять перед ответом. Это самые умные модели из когда-либо выпущенных, позволяющие ChatGPT справляться со сложными задачами с глубокими возможностями рассуждения и проактивным использованием инструментов.

Впервые эти модели могут использовать полный набор инструментов в ChatGPT: веб-поиск, чтение и анализ файлов с помощью Python, обработку изображений и генерацию изображений. Они разработаны для автономного принятия решений о том, когда и как использовать инструменты, отвечая быстро (часто менее чем за 1 минуту) в соответствующем формате вывода.

🚀 Ключевые новые возможности

o3-mini

Самая мощная модель рассуждения на сегодняшний день
Устанавливает новые рекорды на бенчмарках, таких как Codeforces, SWE-bench, MMMU
Исключительно сильна в анализе изображений, диаграмм и графиков
Снижает количество серьёзных ошибок на 20% по сравнению с o1 в реальных задачах
Высоко оценена в областях программирования, креативного мышления, биологии, математики и инженерии

o4-mini

Компактная модель, оптимизированная по скорости и стоимости
Впечатляющая производительность на AIME 2024–2025 с использованием Python (99,5% pass@1)
Превосходит o3-mini как в STEM, так и в не-STEM задачах (например, в data science)
Позволяет использовать больше запросов, чем o3, подходит для высокой частоты обращений

Мультимодальность

Кодирование

🧠 Визуальное рассуждение

Может напрямую интегрировать изображения в цепочки рассуждений
Понимает размытые изображения, рукописные доски, учебники или эскизы
Может вращать, увеличивать и редактировать изображения в процессе рассуждения
Лидирует в мультимодальных тестах

🔧 Использование инструментов как настоящий агент

Пример: вопрос “Какое потребление электроэнергии в Калифорнии этим летом по сравнению с прошлым годом?”
→ o3 может:

Искать данные коммунальных служб
Писать код на Python для генерации прогнозов
Создавать графики, анализировать тренды
Гибко подключать инструменты, проактивно искать дополнительные данные при необходимости

⚙️ Оптимизация эффективности и стоимости

o3 умнее и экономичнее, чем o1
o4-mini значительно эффективнее, чем o3-mini
Для большинства реальных сценариев o3 и o4-mini умнее и дешевле предыдущих моделей

🔒 Безопасность и контроль

Полностью обновлённые данные для обучения по безопасности
Улучшена способность отказываться отвечать на чувствительный контент (биологическое оружие, вредоносное ПО и т.д.)
Система мониторинга LLM обнаруживает ~99% опасных red-team атак
Тщательно оценены по направлениям самообучающегося ИИ, сетевой безопасности и биологии – не представляют высокого риска

💻 Codex CLI – Прямое рассуждение из командной строки

Лёгкий агент для программирования, который может работать прямо в терминале
Поддерживает отправку изображений, рисунков, скриншотов для совместного локального анализа кода
Открытый исходный код на GitHub
Грантовый фонд $1 млн для проектов, использующих Codex CLI (API кредиты $25k на проект)

🔓 Доступ и распространение

Пользователи ChatGPT Plus, Pro и Team могут выбрать o3, o4-mini, o4-mini-high
Пользователи Enterprise и Edu получат доступ через 1 неделю
Бесплатные пользователи могут попробовать o4-mini через кнопку “Think”
API полностью поддерживается через Chat Completions и Responses
Вскоре API Responses будет поддерживать интеграцию инструментов: веб-поиск, поиск файлов, написание кода

Source: https://openai.com/index/introducing-o3-and-o4-mini/