Introducción a OpenAI o3 y o4-mini

OpenAI lanza o3 y o4-mini: modelos inteligentes capaces de razonamiento profundo, que utilizan imágenes y herramientas para resolver problemas complejos. Este es un paso importante que acerca a ChatGPT a convertirse en un agente verdaderamente autónomo.

Hoy, OpenAI lanza oficialmente dos nuevos modelos: o3 y o4-mini, las versiones más avanzadas de la serie de modelos “o”, entrenadas para pensar más tiempo antes de responder. Son los modelos más inteligentes jamás lanzados, lo que permite a ChatGPT manejar tareas complejas con capacidades de razonamiento profundo y uso proactivo de herramientas.

Por primera vez, estos modelos pueden utilizar toda la suite de herramientas en ChatGPT: búsqueda web, lectura y análisis de archivos mediante Python, procesamiento de entradas de imágenes y generación de imágenes. Están diseñados para decidir de forma autónoma cuándo y cómo usar las herramientas, respondiendo rápidamente (a menudo en menos de 1 minuto) en el formato de salida adecuado.

🚀 Nuevas funciones clave

o3-mini

El modelo de razonamiento más potente hasta la fecha
Establece nuevos récords en benchmarks como Codeforces, SWE-bench, MMMU
Extremadamente fuerte en el análisis de imágenes, gráficos y diagramas
Reduce los errores graves en un 20% en comparación con o1 en tareas del mundo real
Altamente valorado en campos como programación, pensamiento creativo, biología, matemáticas e ingeniería

o4-mini

Modelo compacto, optimizado para velocidad y costo
Rendimiento impresionante en AIME 2024–2025 usando Python (99.5% pass@1)
Supera a o3-mini tanto en tareas STEM como no STEM (como ciencia de datos)
Permite límites de uso más altos que o3, adecuado para alta frecuencia de consultas

Multimodal

Código

🧠 Razonamiento visual

Puede integrar imágenes directamente en cadenas de razonamiento
Entiende imágenes borrosas, pizarras escritas a mano, libros de texto o bocetos
Puede rotar, hacer zoom y editar imágenes durante el razonamiento
Líder en pruebas multimodales

🔧 Uso de herramientas como un verdadero agente

Ejemplo: la pregunta “¿Cómo se compara el consumo de electricidad en California este verano con el del año pasado?”
→ o3 puede:

Buscar datos públicos de servicios eléctricos
Escribir código Python para generar pronósticos
Crear gráficos, analizar tendencias
Conectar herramientas de manera flexible, buscar proactivamente datos adicionales si es necesario

⚙️ Optimizando eficiencia y costo

o3 es más inteligente y rentable que o1
o4-mini es significativamente más eficiente que o3-mini
Para la mayoría de los escenarios del mundo real, o3 y o4-mini son más inteligentes y económicos que los modelos anteriores

🔒 Seguridad y control

Datos de entrenamiento de seguridad completamente actualizados
Capacidad mejorada para rechazar responder a contenido sensible (armas biológicas, malware, etc.)
El sistema de monitoreo LLM detecta ~99% de desafíos peligrosos de red-team
Evaluado exhaustivamente en IA autoaprendizaje, seguridad de red y biología – no presenta altos niveles de riesgo

💻 Codex CLI – Razonamiento directo desde la línea de comandos

Agente de codificación ligero que puede ejecutarse directamente en la terminal
Soporta el envío de imágenes, dibujos, capturas de pantalla para razonamiento combinado de código local
Código abierto en GitHub
Fondo de subvenciones de $1 millón USD para proyectos que usen Codex CLI (créditos API $25k por proyecto)

🔓 Acceso y distribución

Los usuarios de ChatGPT Plus, Pro y Team pueden elegir o3, o4-mini, o4-mini-high
Los usuarios Enterprise y Edu tendrán acceso después de 1 semana
Los usuarios gratuitos pueden probar o4-mini mediante el botón “Think”
API totalmente soportada vía Chat Completions y Responses
La API de Responses pronto soportará integración de herramientas: búsqueda web, búsqueda de archivos, escritura de código

Source: https://openai.com/index/introducing-o3-and-o4-mini/