GPT-5.5 llegó y cambió la pregunta: ya no es cuál es mejor, es cuándo uso cuál

TL;DR

OpenAI lanzó GPT-5.5 el 23 de abril —seis semanas después de GPT-5.4 y una semana después de Claude Opus 4.7. Los dos modelos frontera dejaron de competir en el mismo eje: GPT-5.5 gana los benchmarks de agentes que ejecutan flujos largos (Terminal-Bench 2.0, OSWorld), Opus 4.7 gana los de precisión analítica (SWE-Bench Pro, MCP-Atlas). Para vos, que usás IA para trabajar mejor: la pregunta "¿cuál es mejor?" se volvió obsoleta. La que vale ahora es "¿cuándo uso cuál?".

✦ Resumido con Claude al publicar

✦ Reescritura con IA

Leelo como…

Seis semanas. Eso pasó entre GPT-5.4 y GPT-5.5. Antes los modelos grandes tardaban meses en una nueva versión. Ahora es cuestión de semanas.

Pero lo que llama la atención no es la velocidad. Es el reordenamiento que produjo. GPT-5.5 y Claude Opus 4.7 —los dos modelos frontera de la semana— dejaron de competir en el mismo eje.

Durante los últimos dos años, las IAs top se medían en una lista única: ¿quién saca mejor score en los mismos exámenes? Hoy GPT-5.5 gana en unos y Opus 4.7 gana en otros. Y las diferencias no son cosméticas. Son estructurales.

"La carrera dejó de ser un ranking. Ahora es una ecología — y eso te conviene."

Qué pasó esta semana

OpenAI lanzó GPT-5.5 el 23 de abril en tres variantes: Standard, Thinking (con razonamiento extendido) y Pro (máxima precisión). Ventana de contexto de 1 millón de tokens. Precio: 5 dólares por millón de tokens de entrada, 30 por millón de salida.

Según datos provistos por OpenAI en su release, el modelo saca 88.7% en SWE-bench (un benchmark estándar de tareas de ingeniería de software) y 92.4% en MMLU (un test amplio de conocimiento general). OpenAI también reporta 60% menos "alucinaciones" que GPT-5.4.

Todos esos números son de OpenAI. Hay que tratarlos como lo que son: cifras del fabricante.

Una semana antes, Anthropic había lanzado Claude Opus 4.7, también con ventana de 1 millón de tokens, precio similar (5 de entrada, 25 de salida) y sus propios números optimistas. Los dos modelos ocupan exactamente la misma franja precio-capacidad. La diferencia aparece cuando se miran los benchmarks donde la comunidad corre las evaluaciones con las mismas reglas para los dos.

Dónde gana cada modelo

Acá la historia se pone interesante.

GPT-5.5 gana en agentic coding —los flujos largos donde la IA ejecuta, se corrige y reintenta sola—:

Terminal-Bench 2.0: 82.7% vs 69.4% de Opus 4.7.
OSWorld-Verified: 78.7% vs 78.0%.
Expert-SWE: 73.1%.

Estos benchmarks miden flujos largos: la IA abre una terminal, ejecuta comandos, lee outputs, debuggea, reintenta. Un score alto significa que la IA completa la tarea sola sin quedarse atascada.

Claude Opus 4.7 gana en precisión analítica —las tareas aisladas donde "casi bien" no alcanza—:

SWE-Bench Pro: 64.3% vs 58.6% de GPT-5.5.
MCP-Atlas: 79.1% vs 75.3%.

Opus 4.7 gana 6 de 10 benchmarks compartidos. GPT-5.5 gana 4. Los márgenes están entre 2 y 13 puntos.

Sin contexto, estos números no dicen nada. Con contexto, dicen todo.

Cuándo usar cuál

La regla práctica, afilada con un par de pruebas de la semana:

Cuando el trabajo necesita que la IA analice, escriba, revise, decida con precisión, dé una respuesta única que tiene que estar bien — Opus 4.7.

Cuando el trabajo necesita que la IA ejecute varios pasos en cadena, use herramientas, se adapte a resultados intermedios, termine algo que implica hacer muchas cosas chiquitas — GPT-5.5.

Un ejemplo concreto de mi semana: tenía que analizar 50 currículums y armar un ranking por ajuste al puesto.

Sin contexto previo, le di la tarea a Claude. Le pasé el perfil del puesto, los CVs, le pedí el ranking con justificación. Claude me respondió con criterio, matizó, explicó por qué el 17 estaba arriba del 22. Precisión en cada caso.

Con contexto agentic —la misma tarea pero "ejecutala sola, desde buscar los CVs en mi Drive hasta mandarme un email con el ranking formateado"— GPT-5.5 tiene la ventaja. Cinco herramientas encadenadas, si algo falla intenta una variante. Claude también puede hacerlo, pero con GPT-5.5 es menos probable que se trabe en el paso tres.

Ninguno te resuelve los dos trabajos igual de bien. Los dos lanzamientos de esta semana hicieron explícito eso.

Lo que no cambió

Un detalle que suele perderse en la comparación de benchmarks: para el uso cotidiano de la mayoría de los profesionales, las diferencias se vuelven imperceptibles.

Si le pedís "redactame este email", "traducime esta propuesta", "resumime esta reunión", "hacéme una lista de pros y contras", las dos herramientas te dan una respuesta buena. Los márgenes de 5 puntos en benchmarks se disuelven en el día a día.

La diferencia empieza a importar cuando: (a) trabajás con archivos grandes o cadenas largas de razonamiento, donde Opus 4.7 mantiene la coherencia mejor; (b) necesitás que la IA complete un flujo autónomo con varios pasos sin tu intervención, donde GPT-5.5 corta mejor; (c) usás la IA para trabajos donde un error chico se paga caro (revisión legal, análisis financiero, contenido editorial), donde la precisión de Opus vale cada peso que cuesta.

Cierre

La noticia del viernes es esta: no hay respuesta única a "¿cuál uso?".

La respuesta que tenés es: para este tipo de trabajo, Claude. Para este otro, GPT-5.5. Los dos viven en tu día. Ninguno te resuelve todo. El profesional que elige con criterio trabaja mejor que el que se casa con una marca.

¿Y vos? ¿Hay algo en tu flujo que hoy no está funcionando y podría ser por la herramienta equivocada para esa tarea?

Fuentes: OpenAI — Introducing GPT-5.5 · Fortune · VentureBeat · llm-stats

Pensá en dos panaderías de tu barrio. Las dos venden pan todos los días. Las dos son buenas.

Pero una hace mejores medialunas y la otra saca mejor pan negro. Si tenés desayuno familiar el domingo, vas a una. Si querés sándwich de queso para el mate del lunes, vas a la otra.

Eso acaba de pasar con las dos IAs más usadas del momento.

El miércoles, OpenAI lanzó GPT-5.5 — una semana después de que Anthropic sacara Claude Opus 4.7. Los dos son modelos de frontera. Los dos cuestan casi lo mismo. Los dos leen archivos gigantes.

Pero dejaron de ser buenos en lo mismo.

Qué pasó esta semana

GPT-5.5 salió seis semanas después de GPT-5.4. Sí, seis semanas.

Antes un modelo nuevo tardaba meses o años. Ahora es cuestión de semanas. La carrera se aceleró.

Según datos que provee OpenAI en su release, GPT-5.5 saca mejores números en tareas donde la IA tiene que "hacer cosas" — ejecutar pasos, usar herramientas, correr y corregir código, buscar y comparar información sin que estés encima.

Claude Opus 4.7, el modelo top de Anthropic que salió la semana pasada, sigue ganando en lo otro — análisis, redacción, revisión de documentos, decisiones que necesitan precisión.

Dónde gana cada modelo

Acá la analogía cambia.

Imaginá que le pedís a un asistente que te prepare el viaje del fin de semana. Un asistente te arma el itinerario, te reserva los hoteles, te compara precios, se adapta cuando un vuelo cambia. El otro te escribe el mejor mail para avisarle a tu pareja lo que planeaste, con el tono justo, sin una palabra de más.

Necesitás a los dos. Pero no para lo mismo.

Eso es lo que muestran los números: GPT-5.5 resuelve mejor los flujos largos con muchos pasos. Claude Opus 4.7 resuelve mejor cada tarea individual de precisión.

Cuándo usar cuál

La regla simple para probar el lunes:

Si el trabajo es escribir, revisar, analizar un informe, tomar una decisión con datos encima de la mesa — abrí Claude.

Si el trabajo es "quiero que la IA me resuelva esto sola, desde la búsqueda hasta el resultado final" — probá con GPT-5.5.

No tenés que elegir una marca para siempre. Tenés que elegir la herramienta para la tarea. Eso lo viene haciendo cualquier profesional bueno desde que existe Google.

¿Y vos cómo venís decidiendo entre las dos hasta ahora?

Fuentes: OpenAI — Introducing GPT-5.5 · Fortune

Seis semanas. Eso pasó entre GPT-5.4 y GPT-5.5. Antes los modelos grandes tardaban meses en una nueva versión. Ahora es cuestión de semanas.

Pero lo que llama la atención no es la velocidad. Es el reordenamiento que produjo. GPT-5.5 y Claude Opus 4.7 —los dos modelos frontera de la semana— dejaron de competir en el mismo eje.

"La carrera dejó de ser un ranking. Ahora es una ecología — y eso te conviene."

Qué pasó esta semana

Todos esos números son de OpenAI. Hay que tratarlos como lo que son: cifras del fabricante.

Dónde gana cada modelo

Acá la historia se pone interesante.

GPT-5.5 gana en agentic coding —los flujos largos donde la IA ejecuta, se corrige y reintenta sola—:

Terminal-Bench 2.0: 82.7% vs 69.4% de Opus 4.7.
OSWorld-Verified: 78.7% vs 78.0%.
Expert-SWE: 73.1%.

Estos benchmarks miden flujos largos: la IA abre una terminal, ejecuta comandos, lee outputs, debuggea, reintenta. Un score alto significa que la IA completa la tarea sola sin quedarse atascada.

Claude Opus 4.7 gana en precisión analítica —las tareas aisladas donde "casi bien" no alcanza—:

SWE-Bench Pro: 64.3% vs 58.6% de GPT-5.5.
MCP-Atlas: 79.1% vs 75.3%.

Opus 4.7 gana 6 de 10 benchmarks compartidos. GPT-5.5 gana 4. Los márgenes están entre 2 y 13 puntos.

Sin contexto, estos números no dicen nada. Con contexto, dicen todo.

Cuándo usar cuál

La regla práctica, afilada con un par de pruebas de la semana:

Cuando el trabajo necesita que la IA analice, escriba, revise, decida con precisión, dé una respuesta única que tiene que estar bien — Opus 4.7.

Cuando el trabajo necesita que la IA ejecute varios pasos en cadena, use herramientas, se adapte a resultados intermedios, termine algo que implica hacer muchas cosas chiquitas — GPT-5.5.

Un ejemplo concreto de mi semana: tenía que analizar 50 currículums y armar un ranking por ajuste al puesto.

Ninguno te resuelve los dos trabajos igual de bien. Los dos lanzamientos de esta semana hicieron explícito eso.

Lo que no cambió

Un detalle que suele perderse en la comparación de benchmarks: para el uso cotidiano de la mayoría de los profesionales, las diferencias se vuelven imperceptibles.

Cierre

La noticia del viernes es esta: no hay respuesta única a "¿cuál uso?".

¿Y vos? ¿Hay algo en tu flujo que hoy no está funcionando y podría ser por la herramienta equivocada para esa tarea?

Fuentes: OpenAI — Introducing GPT-5.5 · Fortune · VentureBeat · llm-stats

Seis semanas entre GPT-5.4 y GPT-5.5 no se entienden sin ponerlas al lado del cronograma de 2024, cuando GPT-4 Turbo y GPT-4o se separaron por más de cinco meses. El ciclo se contrajo. No por deseo estratégico de OpenAI — por la cadencia que impuso Anthropic desde septiembre de 2025 con Sonnet 4.6, Opus 4.5, Opus 4.6 y Opus 4.7 en menos de ocho meses.

Pero la nota de esta semana no es la velocidad. Es la separación de ejes. Hasta marzo de 2026, el mapa competitivo se leía en una lista única con una métrica dominante (MMLU, luego SWE-bench). Con GPT-5.5 y Opus 4.7 en paralelo, el ranking se rompió. Y lo que quedó es más útil para el usuario que el ranking mismo.

Qué pasó esta semana

GPT-5.5 salió el 23 de abril en tres variantes. Standard para uso general. Thinking para razonamiento extendido (equivalente al modo think de Claude). Pro para máxima precisión sin límites de compute en tiempo de inferencia. Ventana de contexto: 1M tokens. Pricing: $5/M input, $30/M output. El tier Pro tiene pricing diferencial no publicado al momento de escribir.

Datos provistos por OpenAI en el release: 88.7% SWE-bench, 92.4% MMLU, 60% de reducción en alucinaciones vs GPT-5.4, mejora significativa en long-context recall y tool use confiable en cadenas de más de 30 pasos. Ninguno de estos números fue auditado por terceros al día de hoy.

Opus 4.7 salió el 16 de abril. Misma ventana de 1M tokens. $5/M input, $25/M output. Datos provistos por Anthropic: mejoras en software engineering sobre Opus 4.6, vision mejorada (mayor resolución de procesamiento de imagen), mejor performance en tareas largas.

Los dos modelos ocupan la misma franja de precio-capacidad. La diferencia está en los benchmarks compartidos donde la comunidad corre evaluaciones reproducibles.

Dónde gana cada modelo

Tabla compacta de lo que circuló esta semana:

Benchmark	GPT-5.5	Opus 4.7	Tipo de eval
Terminal-Bench 2.0	82.7%	69.4%	Agentic coding (comunidad)
OSWorld-Verified	78.7%	78.0%	Agentic desktop
Expert-SWE	73.1%	—	Coding complejo
SWE-Bench Pro	58.6%	64.3%	Coding preciso
MCP-Atlas	75.3%	79.1%	Precisión con tool use
MMLU	92.4%*	—	Conocimiento general
SWE-bench	88.7%*	—	Coding (original)

*Números provistos por OpenAI en release. No verificados independientemente al día de hoy.

Terminal-Bench 2.0 mide capacidad de un agente para operar en una terminal Unix con éxito end-to-end: abrir shells, ejecutar comandos, leer outputs, debuggear, recuperarse de errores. 13 puntos de ventaja de GPT-5.5 en esta métrica no son marginales — son una diferencia cualitativa en flujos agenticos largos.

SWE-Bench Pro mide resolución de bugs reales de repositorios GitHub con evaluación estricta de corrección. 5.7 puntos de ventaja de Opus 4.7 ahí significan que en precisión analítica de código, Claude sigue adelante.

MCP-Atlas —el benchmark más relevante para el patrón agentic-con-precisión-analítica— Opus 4.7 gana con 3.8 puntos.

La lectura: GPT-5.5 está optimizado para flujos largos con tool use múltiple. Opus 4.7 está optimizado para tareas individuales de alta precisión. El rango de 2-13 puntos de diferencia que aparece una y otra vez es consistente con esa hipótesis — no con un "uno es mejor" global.

La especialización como fenómeno estructural

Hay quien argumenta que esta separación es temporal. Que OpenAI está respondiendo al benchmark del momento (agentic) y Anthropic al suyo (coding preciso), pero que en seis semanas ambos van a converger.

El argumento tiene fundamento histórico — pasó en 2023 con GPT-4 y Claude 2, pasó en 2024 con GPT-4o y Claude 3.5 Sonnet. Pero en 2026 hay dos elementos que lo complican.

Primero: el RLHF en GPT-5.5 está calibrado con heurísticas específicas para evitar "giving up" en flujos largos (OpenAI lo menciona explícitamente en el release). Es un diseño dirigido, no un efecto colateral. Dudo que Anthropic quiera copiarlo idéntico — va en contra de la filosofía de precisión-primero que defienden en sus posts técnicos desde 2024.

Segundo: la diferencia de vocación aparece también en el pricing. GPT-5.5 cobra $30 en output; Opus 4.7, $25. En un flujo agentic largo, GPT-5.5 va a producir más tokens de salida (búsquedas, re-evaluaciones, correcciones). Ese pricing asimétrico —5 dólares más en output cuando el modelo está optimizado para generar más output— modela una economía de uso donde cada modelo captura el workload al que mejor le va. No es neutro.

La hipótesis que me resulta más defendible: la separación se sostiene. Cada compañía va a profundizar su eje en vez de copiarle al otro. Para el usuario, eso es una buena noticia — la ecología es más útil que el ranking.

Cuándo usar cuál

La heurística operativa, afinada después de ejercitar los dos en flujos reales:

Opus 4.7 para: análisis largo con precisión ("revisá este contrato y marcá las cláusulas que contradicen la propuesta comercial"), redacción con criterio editorial fuerte, trabajos donde la respuesta correcta es una y el costo del error es alto (compliance, auditoría, contenido de marca), razonamiento sostenido sobre documentos grandes donde la coherencia entre secciones importa.

GPT-5.5 para: flujos agenticos con múltiples herramientas ("buscá estos datos en la web, cruzalos con este CSV, mandame el resultado por email"), tareas donde la IA tiene que recuperarse de sus propios errores sin tu intervención, operación sobre desktop/terminal con tool use prolongado, flujos donde "más o menos funciona" ya es útil porque el costo del error intermedio es bajo.

Claude Sonnet 4.6 (más barato) para: tareas cotidianas donde cualquiera de los dos te responde bien. La mayoría de tu trabajo de escritorio.

GPT-5.5 Thinking cuando: el flujo es largo pero necesita razonamiento explícito antes de actuar. Es el modelo que le pone freno a la tendencia agentic de GPT-5.5 Standard de "intentar primero, pensar después".

El uso de los dos en paralelo es lo que cualquier profesional consciente debería considerar en 2026. No es vendor lock-in — es uso por tarea. Mi flujo personal: Claude en Projects para las tareas grandes que necesito controlar párrafo por párrafo. Claude Code para debugging y revisión de cambios específicos. GPT-5.5 cuando una tarea tiene la forma de "ejecutá este flujo end-to-end".

La pieza que los benchmarks no miden

Hay algo que ningún benchmark captura bien y que determina cuál usás más: cómo se siente trabajar con el modelo.

Claude tiene un tono interpretativo. Cuando le das una tarea ambigua, te pregunta qué querés exactamente; cuando decide solo, te explica la decisión. El costo es que a veces pregunta de más y retrasa el flujo. GPT-5.5 tiene un tono ejecutor — asume, hace, te avisa después. El costo es que decide cosas que vos hubieras decidido distinto.

Para el trabajo que necesitás revisar antes de aceptar, Claude te ahorra trabajo. Para el trabajo que delegás en piloto automático, GPT-5.5 te ahorra tiempo. Los dos son productividad, por vías distintas.

Esa diferencia de personalidad no se va a cerrar ni con benchmarks ni con updates. Está en la filosofía de diseño. Y es lo que en último término te hace preferir uno sobre el otro para tu workflow real.

Lo que viene

Tres semanas antes del fin de trimestre, las apuestas implícitas del mercado:

Anthropic va a responder. La opción obvia sería bajar el precio de Opus 4.7 para neutralizar el ataque por ese vector. La opción menos obvia —y más interesante— sería reforzar las capacidades agenticas de Sonnet 4.7 (aún no anunciado) para que el modelo medio capture parte del workload largo sin el costo de Opus. Apostaría por la segunda. La historia del pricing de Anthropic sugiere que no les gusta la guerra de precios.

OpenAI ya mostró la cadencia. Si GPT-5.6 llega en junio con mejoras en long-context analytical tasks, va a estar directamente pisándole los pies a Opus. La pregunta es si mantienen la especialización que acabo de describir o si vuelven a converger. La economía del RLHF específico sugiere que no vuelven.

Google todavía no jugó su baza. Gemini 3.1 Pro es competitivo pero no frontera. Gemini 3.2 con los TPU 8t/8i nuevos que Google anunció en Cloud Next esta semana puede cambiar el mapa. No antes del Q3 2026.

La cuarta apuesta —la más improbable pero la que más valor tendría en resolverse— es que los modelos open source (DeepSeek V4, Llama 5) cierren el gap de frontera. Si DeepSeek V4 llega a 90% de Opus 4.7 a una décima del costo, la ecología entera se reescribe. No hay señales concretas de eso a 30 días. Pero el precedente de DeepSeek V3.2 dice que no es imposible.

¿Cuál es tu lectura del trade-off especialización vs convergencia? ¿Van a seguir separándose en ejes o van a re-converger con el próximo release?

Fuentes: OpenAI — Introducing GPT-5.5 · Fortune · TechCrunch · VentureBeat · llm-stats

Qué pasó esta semana

Dónde gana cada modelo

Cuándo usar cuál

Lo que no cambió

Cierre

¿Querés profundizar en algo del artículo?