La programación con IA pasó de ser un asistente de autocompletado a un terreno donde los laboratorios buscan delegar trabajo técnico completo: planificar, ejecutar, revisar y depurar en ciclos largos. En ese contexto, OpenAI y Anthropic publicaron casi a la vez sus modelos más avanzados orientados a desarrollo, con diferencias relevantes según el tipo de tarea.
Dos anuncios casi simultáneos y un foco común: agentes que ejecutan trabajo real
El movimiento apunta a una competencia por convertirse en la herramienta base de los equipos de software. La diferencia ya no la marca un fragmento de código correcto, sino la capacidad de sostener flujos completos con herramientas, terminal, repositorios grandes y revisión de cambios. Ese giro conecta con la presión por productividad en sectores intensivos en operación y datos, como la automatización y digitalización en operaciones mineras, donde la integración de software y procesos es cada vez más crítica.
Qué ofrece GPT-5.3-Codex: velocidad, agencia y foco en terminal
Según el anuncio oficial de OpenAI sobre GPT-5.3-Codex, el modelo se posiciona como un sistema orientado a agentes de programación que amplía lo delegable por un desarrollador, combinando mejoras en rendimiento de código, razonamiento y conocimiento profesional, además de reportar una ejecución 25% más rápida por cambios de infraestructura.
Te puede interesar
Elon Musk acusa a OpenAI de abandonar su misión sin fines de lucro durante juicio en California Tecnologías mineras avanzadas conquistan el espacio profundo con inteligencia artificial OpenAI lanza GPT-5.5 con mejoras en programación, trabajo autónomo y uso de herramientasEn las cifras publicadas por la compañía, GPT-5.3-Codex registra 77,3% en Terminal-Bench 2.0 y 64,7% en OSWorld-Verified, lo que lo favorece en flujos centrados en terminal y herramientas. El mismo anuncio indica que está disponible en planes pagados de ChatGPT “donde se usa Codex” (app, CLI, extensión IDE y web) y que la empresa trabaja para habilitar acceso vía API. OpenAI también muestra avances prácticos con ejemplos de juegos web creados por el modelo, incluyendo uno de carreras con ocho mapas.
Qué ofrece Claude Opus 4.6: planificación, bases de código grandes y contexto de 1 millón
De acuerdo con la ficha pública de Claude Opus 4.6, Anthropic presenta esta versión como una mejora directa en planificación, autonomía y fiabilidad dentro de bases de código extensas, con foco en sostener tareas agénticas por más tiempo y revisar su propio trabajo con mayor precisión.
En los benchmarks que Anthropic publica en esa misma página, Opus 4.6 reporta 65,4% en Terminal-Bench 2.0 y 72,7% en OSWorld, además de una ventana de contexto de hasta 1 millón de tokens (beta). La compañía también detalla disponibilidad vía API y precios base de US$5 por millón de tokens de entrada y US$25 por millón de tokens de salida, junto con un testimonio atribuido a Rakuten sobre cierre y asignación autónoma de incidencias en múltiples repositorios.
Dónde sí hay comparación directa y dónde no
El cruce más comparable es Terminal-Bench 2.0 porque ambas empresas reportan porcentaje en esa evaluación: OpenAI informa 77,3% y Anthropic 65,4%. En cambio, el dato de OSWorld requiere cautela porque no necesariamente se está citando la misma variante: el propio proyecto OSWorld explica que desde el 28 de julio de 2025 el benchmark fue mejorado y pasó a llamarse OSWorld-Verified, con ajustes y resultados actualizados en su documentación de OSWorld, lo que limita las lecturas directas si una cifra proviene de “OSWorld” y la otra de “OSWorld-Verified”.
Qué cambia para equipos técnicos: del copiloto al agente que ejecuta
El salto de ambos modelos empuja un uso donde la IA participa en procesos prolongados de análisis, ejecución y revisión, no solo en generación de código. Para industrias con operación crítica y superficies digitales crecientes, esto se cruza con tendencias ya instaladas: el uso de inteligencia artificial en minería y el aumento de riesgos de ciberseguridad en la digitalización minera.
En la práctica, la elección tiende a moverse por criterios operativos:
- Si el trabajo está dominado por terminal, automatización y tooling, el diferencial en Terminal-Bench es una señal a considerar.
- Si el foco está en flujos largos con mucha información y repositorios extensos, la ventana de contexto y la estabilidad en tareas prolongadas pesan.
- Si se requiere integración inmediata en productos, la disponibilidad (planes, plataforma y API) define los plazos reales.
Checklist mínimo antes de llevarlo a producción
- Definir qué tareas se delegan (y cuáles quedan prohibidas) cuando el agente puede ejecutar acciones.
- Medir desempeño en repositorios propios: tests, linters, tiempos y tasa de retrabajo.
- Establecer trazabilidad: logs, control de herramientas, revisión de cambios y rollback.
- Asegurar políticas de credenciales y secretos, especialmente en entornos con datos sensibles.
- Validar costos por uso real (tokens, contexto largo, ejecución prolongada) frente al ahorro de horas de ingeniería.
- Documentar responsabilidades: cuándo el agente propone, cuándo ejecuta y cuándo debe escalar a humano.
- Considerar el contexto competitivo que empuja esta carrera, reflejado en medidas como el “código rojo” de OpenAI para mejorar ChatGPT ante el avance de rivales en el mercado de IA aplicada.

