Primera Plana · IA en el panorama · Edición #0059

GPT-5.5 llegó y cambió la pregunta: ya no es cuál es mejor, es cuándo uso cuál

OpenAI sacó un modelo frontera seis semanas después del anterior y una semana después de Opus 4.7. Los dos ya no compiten en el mismo eje.

G
Germán Falcioni 24 April 2026
✦ Lectura: 10 min
Ilustración editorial · Generada con IA para la edición #0059
TL;DR

OpenAI lanzó GPT-5.5 el 23 de abril —seis semanas después de GPT-5.4 y una semana después de Claude Opus 4.7. Los dos modelos frontera dejaron de competir en el mismo eje: GPT-5.5 gana los benchmarks de agentes que ejecutan flujos largos (Terminal-Bench 2.0, OSWorld), Opus 4.7 gana los de precisión analítica (SWE-Bench Pro, MCP-Atlas). Para vos, que usás IA para trabajar mejor: la pregunta "¿cuál es mejor?" se volvió obsoleta. La que vale ahora es "¿cuándo uso cuál?".

✦ Resumido con Claude al publicar
Reescritura con IA
Leelo como…

Seis semanas. Eso pasó entre GPT-5.4 y GPT-5.5. Antes los modelos grandes tardaban meses en una nueva versión. Ahora es cuestión de semanas.

Pero lo que llama la atención no es la velocidad. Es el reordenamiento que produjo. GPT-5.5 y Claude Opus 4.7 —los dos modelos frontera de la semana— dejaron de competir en el mismo eje.

Durante los últimos dos años, las IAs top se medían en una lista única: ¿quién saca mejor score en los mismos exámenes? Hoy GPT-5.5 gana en unos y Opus 4.7 gana en otros. Y las diferencias no son cosméticas. Son estructurales.

"La carrera dejó de ser un ranking. Ahora es una ecología — y eso te conviene."

Qué pasó esta semana

OpenAI lanzó GPT-5.5 el 23 de abril en tres variantes: Standard, Thinking (con razonamiento extendido) y Pro (máxima precisión). Ventana de contexto de 1 millón de tokens. Precio: 5 dólares por millón de tokens de entrada, 30 por millón de salida.

Según datos provistos por OpenAI en su release, el modelo saca 88.7% en SWE-bench (un benchmark estándar de tareas de ingeniería de software) y 92.4% en MMLU (un test amplio de conocimiento general). OpenAI también reporta 60% menos "alucinaciones" que GPT-5.4.

Todos esos números son de OpenAI. Hay que tratarlos como lo que son: cifras del fabricante.

Una semana antes, Anthropic había lanzado Claude Opus 4.7, también con ventana de 1 millón de tokens, precio similar (5 de entrada, 25 de salida) y sus propios números optimistas. Los dos modelos ocupan exactamente la misma franja precio-capacidad. La diferencia aparece cuando se miran los benchmarks donde la comunidad corre las evaluaciones con las mismas reglas para los dos.

Dónde gana cada modelo

Acá la historia se pone interesante.

GPT-5.5 gana en agentic coding —los flujos largos donde la IA ejecuta, se corrige y reintenta sola—:

  • Terminal-Bench 2.0: 82.7% vs 69.4% de Opus 4.7.
  • OSWorld-Verified: 78.7% vs 78.0%.
  • Expert-SWE: 73.1%.

Estos benchmarks miden flujos largos: la IA abre una terminal, ejecuta comandos, lee outputs, debuggea, reintenta. Un score alto significa que la IA completa la tarea sola sin quedarse atascada.

Claude Opus 4.7 gana en precisión analítica —las tareas aisladas donde "casi bien" no alcanza—:

  • SWE-Bench Pro: 64.3% vs 58.6% de GPT-5.5.
  • MCP-Atlas: 79.1% vs 75.3%.

Opus 4.7 gana 6 de 10 benchmarks compartidos. GPT-5.5 gana 4. Los márgenes están entre 2 y 13 puntos.

Sin contexto, estos números no dicen nada. Con contexto, dicen todo.

Cuándo usar cuál

La regla práctica, afilada con un par de pruebas de la semana:

Cuando el trabajo necesita que la IA analice, escriba, revise, decida con precisión, dé una respuesta única que tiene que estar bien — Opus 4.7.

Cuando el trabajo necesita que la IA ejecute varios pasos en cadena, use herramientas, se adapte a resultados intermedios, termine algo que implica hacer muchas cosas chiquitas — GPT-5.5.

Un ejemplo concreto de mi semana: tenía que analizar 50 currículums y armar un ranking por ajuste al puesto.

Sin contexto previo, le di la tarea a Claude. Le pasé el perfil del puesto, los CVs, le pedí el ranking con justificación. Claude me respondió con criterio, matizó, explicó por qué el 17 estaba arriba del 22. Precisión en cada caso.

Con contexto agentic —la misma tarea pero "ejecutala sola, desde buscar los CVs en mi Drive hasta mandarme un email con el ranking formateado"— GPT-5.5 tiene la ventaja. Cinco herramientas encadenadas, si algo falla intenta una variante. Claude también puede hacerlo, pero con GPT-5.5 es menos probable que se trabe en el paso tres.

Ninguno te resuelve los dos trabajos igual de bien. Los dos lanzamientos de esta semana hicieron explícito eso.

Lo que no cambió

Un detalle que suele perderse en la comparación de benchmarks: para el uso cotidiano de la mayoría de los profesionales, las diferencias se vuelven imperceptibles.

Si le pedís "redactame este email", "traducime esta propuesta", "resumime esta reunión", "hacéme una lista de pros y contras", las dos herramientas te dan una respuesta buena. Los márgenes de 5 puntos en benchmarks se disuelven en el día a día.

La diferencia empieza a importar cuando: (a) trabajás con archivos grandes o cadenas largas de razonamiento, donde Opus 4.7 mantiene la coherencia mejor; (b) necesitás que la IA complete un flujo autónomo con varios pasos sin tu intervención, donde GPT-5.5 corta mejor; (c) usás la IA para trabajos donde un error chico se paga caro (revisión legal, análisis financiero, contenido editorial), donde la precisión de Opus vale cada peso que cuesta.

Cierre

La noticia del viernes es esta: no hay respuesta única a "¿cuál uso?".

La respuesta que tenés es: para este tipo de trabajo, Claude. Para este otro, GPT-5.5. Los dos viven en tu día. Ninguno te resuelve todo. El profesional que elige con criterio trabaja mejor que el que se casa con una marca.

¿Y vos? ¿Hay algo en tu flujo que hoy no está funcionando y podría ser por la herramienta equivocada para esa tarea?

Fuentes: OpenAI — Introducing GPT-5.5 · Fortune · VentureBeat · llm-stats

Seguí explorando

¿Querés profundizar en algo del artículo?

01 ¿Entonces cuál me conviene para mi trabajo?

Depende casi exclusivamente de qué tipo de trabajo hacés. Si la mayor parte de tu día pasa redactando, revisando textos, analizando información compleja, preparando documentos o tomando decisiones que necesitan precisión, Opus 4.7 sigue siendo la opción que menos te va a fallar.nnSi en cambio armás flujos donde la IA tiene que ejecutar varios pasos en secuencia (buscar en la web, leer archivos, escribir código, correrlo, corregir y reintentar sin vos en el medio), GPT-5.5 te va a llegar al resultado con menos tropiezos.nnNo es dogma. Es especialización. El profesional que usa las dos herramientas con criterio trabaja mejor que el que se casa con una marca.n

02 ¿Los números que publican son reales o son propaganda?

Los dos tipos de cifras conviven. OpenAI publica 88.7% en SWE-bench y 92.4% en MMLU con datos provistos por OpenAI en su release. Anthropic publicó en su momento sus propios números para Opus 4.7. Los dos son números del fabricante.nnLa forma sana de leerlos: mirá los benchmarks del ecosistema —Terminal-Bench 2.0, SWE-Bench Pro, MCP-Atlas—, que son donde la comunidad corre las evaluaciones con las mismas reglas para todos. Ahí las diferencias se sostienen.nnY sobre todo: probalo vos, con tu trabajo real, antes de sacar conclusiones. El benchmark más importante es el de tu lunes a las 3 de la tarde.n

03 ¿Esto significa que Claude se está quedando atrás?

No. Significa que la carrera cambió de forma. Durante 2024 y 2025 los modelos frontera se medían en una lista única: ¿quién saca mejor score en los mismos exámenes? En abril de 2026, GPT-5.5 y Opus 4.7 prácticamente empatan en casos de uso generales y se separan en los especializados.nnOpus 4.7 gana 6 de 10 benchmarks compartidos. GPT-5.5 gana 4. Las diferencias están entre 2 y 13 puntos.nnPara el usuario del día a día, ninguno de los dos te va a dejar mal parado en lo que hace bien. Quedarse atrás sería no tener producto competitivo — que no es el caso. Opus 4.7 tiene producto competitivo con creces.n

Siguiente artículo
Copilot dejó de sugerir y empezó a hacer: lo que cambia mañana en tu Word, Excel y PowerPoint