Gemini a fondo — la IA que vive dentro de todo Google

TL;DR

Gemini es la IA de Google y se distingue por una jugada que ninguna otra empresa puede copiar: está integrada de fábrica en Gmail, Docs, Sheets, Drive, Meet, Maps, Chrome y Android. Para 3 mil millones de usuarios de Gmail (Google, 2024), Gemini llegó sin que lo eligieran. Técnicamente tiene dos armas que sí son medibles: la ventana de contexto más grande del mercado (hasta 2 millones de tokens en Gemini 1.5 Pro, según Google DeepMind) y multimodalidad nativa. Donde no compite de igual a igual: coding agentic (Claude manda), consistencia de tono en textos largos (Claude), generación creativa de imagen y voz en nivel artístico (ChatGPT con DALL-E y Voice mode). La tesis operativa: Gemini es la IA que más gente usa sin saber que la usa, y esa es una ventaja de distribución imposible de replicar sin tener Google detrás.

✦ Resumido con Claude al publicar

✦ Reescritura con IA

Leelo como…

En febrero de 2024, Google DeepMind publicó un blog anunciando que Gemini 1.5 Pro soportaba una ventana de contexto de 1 millón de tokens, con una versión experimental de 2 millones. La cifra pasó desapercibida para el público general. Para cualquiera que hubiera intentado procesar documentos largos con una IA, fue un cambio de régimen.

Para poner la cifra en escala: dos millones de tokens son aproximadamente 1.500 páginas de texto, o varias horas de audio, o una hora de video. Claude tenía —y tiene— 200 mil tokens. ChatGPT, 128 mil.

Lo que eso cambió, en la mesa de trabajo de cualquier profesional que lee documentos largos, fue la mentalidad. Antes pensabas "tengo que resumir este PDF antes de preguntarle algo a la IA". Ahora le pasás el PDF entero y le preguntás. Esa es la ventaja concreta de Gemini que no tiene nada que ver con marketing.

La tesis "the Gemini era"

En mayo de 2024, en la keynote de Google I/O, Sundar Pichai usó una frase que definió el posicionamiento de la empresa: "the Gemini era". La tesis implícita: Google no iba a competir como "otra app de chat" sino como la capa de IA que atraviesa todos sus productos.

Esa decisión es estratégica y vale desarmarla. Microsoft tiene Copilot. OpenAI tiene ChatGPT. Anthropic tiene Claude. Cada uno es, esencialmente, una aplicación a la que tenés que ir. Google tuvo que elegir: ¿convertir a Gemini en otra app más o meterlo adentro de Gmail, Docs, Drive, Meet, Maps, Chrome y Android?

Eligió la segunda. La consecuencia es que, para 3 mil millones de usuarios de Gmail según Google (2024), Gemini llegó sin que lo eligieran.

La línea de productos, nivel intermedio

Gemini no es un modelo, es una familia integrada a varias superficies. Vale recorrerla.

Gmail y Docs. Los dos lugares donde más gente se cruza con Gemini sin buscarlo. "Help me write" genera borradores, reescribe en otro tono, expande un bullet en párrafo. Los resúmenes de hilos largos en Gmail funcionan. Dentro de Docs, la lectura y reescritura de texto largo tiene calidad competitiva con Claude.

Sheets. Acá Gemini tiene una función específica que es bastante útil: generar fórmulas a partir de una descripción en lenguaje natural ("sumá las filas donde la columna B dice activo") y hacer análisis exploratorio de datos. Para quien no es power user de planillas, baja la barrera de entrada.

Drive. Búsqueda semántica sobre tus archivos. Preguntá "dónde está el contrato con X del año pasado" y te lo encuentra aunque el archivo no tenga "contrato" en el nombre.

Maps. Itinerarios conversacionales. "Dame un plan de 3 días en Buenos Aires con foco en parrillas y museos" devuelve un itinerario con lugares reales, tiempos de traslado y horarios.

NotebookLM. Una pieza aparte que merece atención. Le subís 10, 20, 50 documentos — papers, PDFs, artículos — y el modelo los vuelve tu corpus de referencia. Genera resúmenes, responde preguntas citando la fuente, y en 2024 agregó una función de "podcast": dos voces conversan sobre tus documentos como si fueran presentadores. Para investigación aplicada es la herramienta más original de toda la línea Gemini.

Gemini Live. Modo de voz/cámara multimodal en tiempo real. Apuntás la cámara del celular a algo y conversás. Para cocinar, para estudiar, para identificar plantas, funciona sorprendentemente bien. Compite de frente con Voice mode de ChatGPT.

Los modelos detrás: Flash vs Pro

Vale distinguir las variantes porque hacen trade-offs explícitos.

Gemini 1.5 Flash es el modelo rápido y barato. Corre en Gmail, Docs y Sheets por default. Latencia baja, calidad suficiente para la mayoría de tareas cortas.

Gemini 1.5 Pro es el modelo de razonamiento. Ventana de hasta 2 millones de tokens, mejor en tareas complejas. Corre cuando pedís cosas que requieren más cabeza, o cuando lo seleccionás explícitamente.

Gemini 2.0 Flash (lanzado fines de 2024) es la siguiente generación del modelo rápido: mejor multimodalidad, mejor uso de herramientas, agentes más capaces.

Deep Research es un modo especial donde Gemini busca, lee y cruza decenas de fuentes en la web antes de redactar un informe. Compite con la función homónima de ChatGPT. Toma varios minutos pero el output es mucho más denso que un chat normal.

Dónde Gemini gana y dónde no (honesto)

Conviene hablar sin fanatismo. La conversación de "cuál IA es mejor" no tiene sentido sin decir para qué.

Gemini gana en: ventana de contexto (2M tokens, muy por encima del resto), multimodalidad nativa (texto, imagen, audio, video en el mismo request), integración con Google Workspace (estructural — ninguna otra la puede igualar sin tener Google), velocidad y precio en Flash (más barato por millón de tokens que los equivalentes de competencia).

Claude gana en: coding agentic (especialmente en Claude Code y Computer Use), seguir instrucciones con literalidad, consistencia de tono en textos largos, y —notablemente— en confiabilidad según mediciones externas. El Vectara Hallucination Leaderboard ubica a Claude con tasa de alucinación menor; LMArena ronda cifras parejas entre Claude y Gemini en distintas categorías.

ChatGPT gana en: generación de imagen (DALL-E sigue siendo más fuerte que Imagen para uso creativo), Voice mode avanzado (más pulido que Gemini Live para conversación libre), ecosistema de GPTs personalizados, y mindshare cultural.

El test honesto: ¿a cuál le delegás qué?

Si me preguntás hoy qué uso yo para qué, la respuesta es mixta, y creo que esa es la conclusión útil.

Para análisis de contratos, código que va a producción y textos donde necesito tono coherente, Claude. Para resúmenes de reuniones, búsqueda dentro de mi Drive, y redacción rápida en Gmail, Gemini — porque ya estaba adentro y la fricción de copiar-pegar a Claude es mayor que la diferencia de calidad. Para exploración visual y conversación por voz casual, ChatGPT.

No es que una sea "la mejor". Es que cada una ganó un pedazo distinto del día de trabajo.

La pregunta para vos

¿Vos sabés cuánto de tu día ya está asistido por IA sin que la hayas elegido? Si tu trabajo pasa por Gmail y Docs, probablemente más de lo que pensás. Para entender el panorama competitivo completo, mirá Google y Gemini — la estrategia de distribución. Si querés el mapa general sin fanatismos, La carrera de las IAs.

Una amiga me escribió el otro día: "¿Desde cuándo Gmail tiene IA?". Le había aparecido un botoncito que decía "Help me write" arriba del cuadro de respuesta y no sabía qué era.

Ese botón es Gemini. No lo instaló. No se suscribió. No eligió nada. Gemini apareció en su Gmail porque Google lo encendió.

Esa escena —la persona que descubre que la IA ya estaba adentro de su correo— es la historia más importante que se puede contar sobre Gemini.

Lo que Gemini ya está haciendo en tu cuenta

Probablemente lo estés usando sin saberlo. Un repaso rápido de dónde vive.

Gmail. El botón "Help me write" redacta un mail desde cero o mejora el borrador. Arriba de cada hilo largo aparece un "Summarize this email" que te da el resumen en dos líneas. Pedile "resumime los mails del jefe de esta semana" y los encuentra y te arma el resumen.

Docs. Mismo botón "Help me write" adentro de cada documento. Arrastrar un PDF y pedir "resumilo en tres puntos" funciona. Te reescribe un párrafo en otro tono si se lo pedís.

Meet. Las notas automáticas de reunión — "take notes for me" — graban, transcriben y resumen la reunión sola. Al final del meet te llega el resumen con los próximos pasos listados.

gemini.google.com. El chat público, la versión tipo ChatGPT pero de Google. La entrada más común para gente que todavía no descubrió que Gemini ya vivía dentro de sus otras apps.

Android. Si tenés celular Android reciente, cuando mantenés apretado el botón de inicio, en vez del viejo Google Assistant ahora sale Gemini.

Gratis vs pago, sin rodeos

La versión gratis de Gemini (en gemini.google.com) te alcanza para probar, chatear, y algunas integraciones básicas. Sirve.

El salto importante es Google One AI Premium: el plan que suma Gemini avanzado dentro de Gmail, Docs, Sheets, Drive y Meet. Alrededor de 20 dólares mensuales. Para empresas hay Google Workspace con Gemini, con precios por usuario.

La diferencia no es "mejor modelo". Es "adentro de tus apps vs afuera".

La jugada que ningún otro puede copiar

Gmail tiene 3 mil millones de usuarios según Google (2024). Android corre en la mayoría de celulares del mundo fuera de Estados Unidos. Chrome es el navegador dominante.

Cuando Google decidió que Gemini no sería una app separada sino una capa de IA dentro de todos sus productos, le puso encima a la IA una audiencia a la que ninguna otra empresa puede llegar sin pasar por Google.

Claude tiene mejor razonamiento técnico. ChatGPT tiene más mindshare cultural. Pero ni Claude ni ChatGPT tienen Gmail.

Donde no es la mejor opción

Conviene decirlo con todas las letras para no venderte humo.

Para código serio — agentes que modifican varios archivos, refactor grande, debugging complejo — Claude es todavía mejor. Para escribir textos largos que mantengan el mismo tono del principio al final, Claude también. Para explorar creativamente con imágenes y voz, ChatGPT con DALL-E y Voice mode rinde más.

Gemini brilla donde el trabajo está pegado a tu bandeja de entrada, a tus documentos compartidos, a tu calendario y a tu Drive. Ahí no tiene rival.

Lo que tenés que llevarte

Tres ideas para no perderte:

Ya lo estás usando aunque no lo sepas. Abrí Gmail y Docs: los botones de "Help me write" y los resúmenes automáticos son Gemini. No hace falta instalar nada.

La versión gratis te alcanza para probar. La paga vale si vivís en Google Workspace. Si tu trabajo diario está en Gmail y Docs, los 20 dólares de Google One AI Premium se pagan solos.

Es la mejor IA para algunas cosas, no para todas. Para contratos, código crítico y textos largos, mirá Claude. Para creatividad visual y voz, ChatGPT. Para todo lo que ya estaba en tu cuenta Google, Gemini.

La tesis "the Gemini era"

Eligió la segunda. La consecuencia es que, para 3 mil millones de usuarios de Gmail según Google (2024), Gemini llegó sin que lo eligieran.

La línea de productos, nivel intermedio

Gemini no es un modelo, es una familia integrada a varias superficies. Vale recorrerla.

Drive. Búsqueda semántica sobre tus archivos. Preguntá "dónde está el contrato con X del año pasado" y te lo encuentra aunque el archivo no tenga "contrato" en el nombre.

Maps. Itinerarios conversacionales. "Dame un plan de 3 días en Buenos Aires con foco en parrillas y museos" devuelve un itinerario con lugares reales, tiempos de traslado y horarios.

Los modelos detrás: Flash vs Pro

Vale distinguir las variantes porque hacen trade-offs explícitos.

Gemini 1.5 Flash es el modelo rápido y barato. Corre en Gmail, Docs y Sheets por default. Latencia baja, calidad suficiente para la mayoría de tareas cortas.

Gemini 2.0 Flash (lanzado fines de 2024) es la siguiente generación del modelo rápido: mejor multimodalidad, mejor uso de herramientas, agentes más capaces.

Dónde Gemini gana y dónde no (honesto)

Conviene hablar sin fanatismo. La conversación de "cuál IA es mejor" no tiene sentido sin decir para qué.

El test honesto: ¿a cuál le delegás qué?

Si me preguntás hoy qué uso yo para qué, la respuesta es mixta, y creo que esa es la conclusión útil.

No es que una sea "la mejor". Es que cada una ganó un pedazo distinto del día de trabajo.

La pregunta para vos

El 14 de mayo de 2024, en el escenario principal de Google I/O en Mountain View, Sundar Pichai abrió la keynote con una frase que iba a definir los siguientes dieciocho meses de estrategia corporativa: "we are fully in the Gemini era". La frase parecía retórica de keynote. No lo era. Era una declaración de arquitectura.

Lo que Pichai anunciaba, debajo de la retórica, era que Google había tomado una decisión estructural: Gemini no sería una app separada compitiendo contra ChatGPT en la góndola de las IAs. Sería una capa transversal encendida dentro de Gmail, Docs, Sheets, Drive, Meet, Maps, Chrome y Android. Para los 3 mil millones de usuarios de Gmail según Google (2024) —la base instalada más grande de software profesional del mundo— Gemini iba a llegar sin que lo eligieran. Esa decisión es lo que vale analizar en detalle técnico y competitivo.

La apuesta técnica: ventana de contexto como diferenciador

La primera ventaja medible de Gemini sobre la competencia es arquitectural: la ventana de contexto. Google DeepMind anunció en febrero de 2024 que Gemini 1.5 Pro soportaba 1 millón de tokens de contexto, con una variante experimental de 2 millones. Esa es, al día de hoy, la ventana más grande desplegada comercialmente.

Para contexto comparativo: Claude Opus 4.7 opera con 200 mil tokens. GPT-4 y sus descendientes directos, con 128 mil. La diferencia de orden de magnitud no es cosmética. Es la diferencia entre poder darle al modelo un libro completo (Gemini) y tener que particionarlo antes (todos los demás).

La innovación técnica detrás de esa ventana está documentada parcialmente en el technical report de Gemini 1.5 de Google DeepMind. Combina mixture-of-experts con mejoras de atención que le permiten mantener calidad de recuperación —needle-in-a-haystack— a lo largo de la ventana completa. El test estándar es pasarle dos millones de tokens de texto, esconder una oración específica en algún lugar aleatorio, y pedir que la recupere. Gemini 1.5 Pro lo hace con precisión cercana al 100% según los benchmarks publicados por Google, aunque conviene leer esos números con el disclaimer estándar: son del proveedor, no verificados por tercero independiente.

La consecuencia práctica, que es la que más importa: flujos de trabajo que antes eran imposibles (análisis cruzado de 1.500 páginas de documentación legal, revisión de un repo de código completo, transcripción y análisis de una hora de video) ahora están en mesa. No está resuelto completamente —la calidad de atención se degrada hacia los extremos de la ventana, el costo y la latencia escalan no-linealmente— pero la barrera de entrada cayó de manera dramática.

Multimodalidad nativa vs añadida

La segunda ventaja arquitectural de Gemini es multimodalidad nativa. El modelo fue entrenado desde el inicio con texto, imagen, audio y video como modalidades de primera clase, no como capacidades agregadas después.

La diferencia con GPT-4V (visión agregada a GPT-4 en 2023) y con Claude (que incorporó visión en Claude 3 en 2024) es sutil pero importante. En Gemini, podés pasar un video de media hora y preguntar sobre escenas específicas; podés pasar un podcast y pedir análisis del tono de voz; podés pasar código, diagramas y descripción en lenguaje natural juntos en el mismo prompt. No es imposible en los competidores, pero en Gemini es el caso de uso central, no periférico.

Gemini Live —el modo voz/cámara multimodal en tiempo real lanzado en 2024— es la expresión consumer de esa arquitectura. Señala hacia donde va Project Astra, el proyecto de agente multimodal que Google DeepMind tiene en desarrollo.

La línea de productos como capas

Vale mapear la línea completa de Gemini con precisión técnica porque el lector experto necesita saber cuál capa usar para qué.

Gemini (gemini.google.com). La app consumer. Acceso directo al modelo.

Google One AI Premium. La capa de suscripción para consumidores individuales que encende Gemini dentro de Gmail, Docs, Sheets, Drive y Meet. Alrededor de 20 dólares mensuales.

Google Workspace con Gemini. La capa enterprise para organizaciones. Mismo stack que Premium con controles de administración, cumplimiento y data residency. Pricing por asiento.

Vertex AI. La capa de plataforma en Google Cloud. API programable, herramientas de MLOps, integración con BigQuery y el resto de servicios de GCP. Es donde corren las soluciones enterprise que construyen sobre Gemini a escala.

Gemini Extensions. Conectores a YouTube, Maps, Flights, Hotels y otros servicios de Google. Convierten a Gemini en un orquestador de servicios dentro del ecosistema Google. Competencia directa conceptual con los custom GPTs de OpenAI.

Gemma. La familia de modelos abiertos que Google publica con pesos descargables. Apuesta paralela: ganar el mindshare de developers y del mundo open source que Anthropic y OpenAI dejaron vacante. Llama de Meta es la competencia directa en esa capa.

NotebookLM. Producto separado, originalmente concebido como herramienta de investigación sobre documentos propios. La función de "podcast" —dos voces generadas conversando sobre tus documentos subidos— convirtió a NotebookLM en uno de los productos más compartidos de Google en 2024.

Project Astra, Veo, Imagen: lo que viene

Tres proyectos de Google DeepMind merecen atención porque señalan la dirección estratégica.

Project Astra. El agente multimodal en desarrollo. Demos en Google I/O 2024 mostraron el modelo manteniendo contexto continuo de cámara y voz durante interacciones largas. La tesis: un asistente que vé y escucha continuamente, no que responde por turnos. Aún no es producto público en 2026 más allá de Gemini Live, pero es hacia dónde apunta la apuesta.

Veo. Generación de video. Compite con Sora de OpenAI. Por calidad el comparativo depende del benchmark y de quién lo hace; la integración con YouTube y con la base de datos de video de Google es ventaja estructural.

Imagen. Generación de imagen. Calidad competente pero en uso creativo DALL-E y Midjourney siguen marcando el pulso. Imagen gana en casos donde la integración con Docs o Slides importa más que la calidad artística marginal.

Comparativa técnica honesta (y con disclaimers)

Una comparativa profesional entre Gemini, Claude y ChatGPT en 2026 tiene que aceptar que los benchmarks están sesgados por su proveedor y que la evaluación real depende del caso de uso. Dicho eso, la lectura según evaluaciones externas verificables:

LMArena (antes Chatbot Arena), que rankea modelos por preferencia ciega de usuarios, muestra a los top modelos de Gemini, Claude y GPT alternándose en las primeras posiciones según la semana. No hay un ganador claro; la brecha entre los tres es chica y variable.

Vectara Hallucination Leaderboard mide tasa de alucinación en tareas de resumen de documentos. Claude aparece consistentemente en la cima (menor alucinación). Gemini viene cerca pero un escalón por debajo. ChatGPT varía según versión.

SWE-bench Verified (benchmark de coding agentic sobre issues reales de GitHub). Claude domina esta categoría — tanto la versión Sonnet como Opus — por un margen claro sobre Gemini y GPT. Esto coincide con la experiencia reportada por la comunidad developer.

MMLU, GSM8K, HumanEval (benchmarks clásicos de razonamiento y código). Los tres modelos líderes están en un rango muy cercano, con liderazgo rotativo según release.

Donde Gemini gana claramente en métricas técnicas: contexto (2M tokens), costo/velocidad en Flash, multimodalidad nativa. Donde pierde: coding agentic (Claude), confiabilidad en resumen (Claude, según Vectara), calidad de imagen creativa (DALL-E), pulido de voice mode (ChatGPT).

Tesis editorial

Cierro con una tesis que va más allá del reportaje.

La conversación sobre "quién gana la carrera de las IAs" está mal planteada porque asume que hay una sola carrera. Hay al menos tres mercados distintos. La capa de investigación académica y frontera técnica — ahí OpenAI, Anthropic y DeepMind pelean en condiciones similares. La capa de trabajo profesional con responsabilidad — ahí Anthropic tiene la ventaja, y los datos de adopción en segmentos legales, financieros y de consultoría la confirman. La capa de adopción masiva por distribución — ahí Google no tiene competidor y no va a tenerlo en el horizonte previsible.

Gemini es la apuesta de Google por capturar la tercera capa —adopción masiva por distribución— y por quedar competitivo en la primera. La segunda, la del trabajo profesional, es la que cedió deliberadamente al elegir priorizar integración sobre consistencia de voz o confiabilidad en benchmarks de alucinación.

Esa es una elección estratégica coherente. No es que Gemini "no pueda" competir con Claude en trabajo profesional; es que Google entendió que la base instalada de Gmail-Docs-Drive-Chrome-Android les da una posición inalcanzable en un mercado mucho más grande. Preferir ese mercado sobre el de los analistas de contratos es matemática de negocios sana, no derrota técnica.

Para el profesional que toma decisiones de herramientas, la implicancia es concreta. No tiene sentido elegir una sola IA. Tiene sentido asumir que vas a usar Gemini de facto (porque ya está encendido en tu cuenta Google), y elegir conscientemente cuándo salir a Claude o a ChatGPT para tareas donde la diferencia de calidad paga el costo de cambio de ventana. El mapa es de convivencia, no de reemplazo.

Y eso, también, es lo que Google buscaba cuando encendió el botón "Help me write" en 3 mil millones de Gmails. No necesita ganar todas las conversaciones. Solo necesita ser la IA default, la que está encendida, la que no requiere decisión. Lo demás lo resuelve la inercia.

¿Cuál es el caso de uso donde, aunque Gemini esté adentro de tu suite, elegís salir y abrir otra IA? Ese es el test empírico de dónde la distribución deja de ser suficiente.