Análisis · Historia y Fundamentos · Edición #0007

Qué es un modelo de lenguaje — LLMs explicados para tu tía

Un modelo de lenguaje es autocomplete potenciado. Aprende patrones de texto. Por eso puede escribir, resumir, traducir y codear.

G
Germán Falcioni 12 April 2026
✦ Lectura: 8 min
Predicción de próximas palabras: una visualización de probabilidades en cascada
TL;DR

Un LLM predice la siguiente palabra basado en patrones que aprendió. No entiende de verdad, pero los patrones son tan ricos que parece que sí. Claude, GPT y Gemini son LLMs. Saber cómo funcionan evita sorpresas.

✦ Resumido con Claude al publicar
Reescritura con IA
Leelo como…

Hay una confusión gigante sobre qué hace un modelo de lenguaje. Porque "predice la siguiente palabra" suena simple, y "entiende el contexto" suena más impresionante.

La realidad es más interesante que cualquiera de las dos.

El autocomplete del celular no entendía nada

Recordás el predictive text de hace 10 años. Escribías tres palabras y te sugería "mañana", "después", "hoy".

Funcionaba porque las máquinas del teléfono aprendían qué palabras tienden a seguir otras. "Buenos" → "días" es probable. No porque lo "entiende" — porque estadísticamente es lo que pasa.

Un LLM (Large Language Model) es exactamente lo mismo, pero con escala y sofisticación insanas.

Entrenamiento: el modelo lee textos. No lee bien, entiende bien. Solo lee. Mete ojos. Mientras lee, aprende probabilidades.

"Cuando aparece 'reino unido', las próximas palabras probables son 'es', 'tiene', 'está'."

"Cuando aparece 'sqrt(' la próxima probabilidad es '('."

"Cuando aparece 'El arte de la', lo probable es 'guerra'."

Cuando vos escribís a Claude, pasa esto: Lee tu prompt. Calcula probabilidades. Elige la palabra más probable (o arriesga un poco a veces). Escribe esa palabra. Repite.

Palabra. Tras. Palabra.

Eso que leés como una respuesta fluida es, técnicamente, 1000+ decisiones de predicción hechas en milisegundos.

¿Por qué puede hacer tareas tan complejas?

Porque casi toda tarea es predicción de secuencias.

Escribir: predecir qué palabra viene en una narrativa lógica.

Resumir: predecir qué palabras son "lo esencial" de un texto (patrones detectados).

Traducir: predecir la secuencia en idioma B que corresponde a la secuencia en idioma A.

Codear: predecir qué línea de Python es probable después de esta estructura.

El modelo no sabe que está "resumiendo". No tiene concepto de "resumen". Lo que hace es: "en este contexto de resumen, qué palabras son probables". Y aprende eso de millones de ejemplos.

Nunca nadie programó esas capacidades. El modelo las emergió del pattern matching.

El fenómeno de las capacidades emergentes

Aquí es donde se pone raro.

Nadie programó a Claude para escribir poesía. Nadie la entrenó específicamente en métrica ni rima.

Pero puede hacerlo.

¿Cómo?

Porque leyó tanta poesía durante el entrenamiento que los patrones de las palabras en un poema son tan consistentes que puede reproducirlos. No porque "sepa" poesía. Porque aprendió las correlaciones estadísticas de palabras en contextos poéticos.

Esto es lo loco: las correlaciones eran tan ricas que, en cierto punto de la escala (cuando el modelo tiene suficientes parámetros, suficientes datos), capacidades nuevas emergen sin ser programadas.

Se llama "emergencia". Wei et al. en su investigación de 2022 documentaron que cuando los modelos crecen en escala, de repente aparecen habilidades que no estaban presentes en versiones más pequeñas.

Es por eso que cuando publican una versión más potente de Claude, de repente puede hacer cosas nuevas. No porque alguien le enseñó. Porque la complejidad de los patrones alcanzó un umbral.

El sesgo más importante: diferencia entre predicción y comprensión

Esto es lo que la mayoría subestima.

Claude no entiende un poema. Predice qué palabra es probable en un contexto poético.

¿Se nota la diferencia?

Un poeta entiende qué emociones está transmitiendo. Claude muestra patrones de palabras que correlacionan con emoción (según lo que aprendió).

Si le preguntás "¿por qué escribiste sobre la muerte así?" — el poeta dice "porque sentía esto". Claude dice "porque esa secuencia de palabras tiene alta probabilidad en este contexto".

Importa cuando necesitás comprensión real. Por ejemplo:

Si le pedís que entienda matices éticos de una decisión compleja que nunca antes vio patrón similar → problema. Puede sonar creíble, pero podría estar prediciendo mal.

Si le pedís que escriba algo que suene como vos, que capture tu voz → casi nunca falla, porque tu voz es patrón, y los patrones son el juego de Claude.

Las limitaciones que explican muchas sorpresas

Alucinaciones: a veces Claude inventa datos. Parece confiada diciendo cosas falsas.

¿Por qué? Porque predice cuál es la palabra probable. Si el patrón dice "después de 'Einstein descubrió' viene una teoría", pero da por verdadero "Einstein descubrió el teletransporte" — es porque el patrón (X descubrió Y) tiene altísima probabilidad de estar seguido de algo creíble. Sin experiencia vivida, Claude no detecta que ese Y es falso.

Knowledge cutoff: Claude fue entrenada hasta abril 2024. No sabe qué pasó después.

No porque "no pueda saber". Porque no fue entrenada con datos posteriores. No tiene patrón que aprender.

Sesgos: los patrones que aprendió reflejan sesgos de internet. Si internet dice "programador = hombre", el modelo aprendió esa correlación. Está en los parámetros.

Imposibilidad de "cambiar de opinión": Una vez entrenado, sus pesos están fijos. No aprende de la conversación contigo. Cada conversación es nueva (sin memoria). Cada respuesta es predicción fresca sin memory learning.

¿Y qué significa esto en la práctica?

Claude es excelente herramienta para:

  • Generar variaciones: escritura, ideas, código, diseño
  • Sintetizar: resumir, explicar, traducir
  • Brainstorming: porque puede generar secuencias variadas
  • Análisis superficial: buscar patrones en texto

Y menos confiable para:

  • Hechos críticos sin verificación: porque puede alucinar
  • Decisiones de riesgo alto: porque no entiende realmente, predice
  • Comprensión profunda de contextos nunca vistos: porque necesita experiencia

Modelos que existen (la familia de LLMs)

Claude (Anthropic) — entrenamiento enfocado en seguridad y utilidad. 3.5 Sonnet es la versión actual.

GPT-4o, GPT-4 (OpenAI) — multimodal, excelente en reasoning. Caro, potente.

Gemini (Google) — integración con Google Suite. Útil si vivís en el ecosistema.

Llama (Meta) — open source, local, menos potente pero privado.

Todos son variaciones del mismo concepto: LLMs. Todos predicen secuencias. Todos emergieron de la misma arquitectura (Transformers). Las diferencias están en el tamaño (parámetros), los datos de entrenamiento, y los ajustes post-entrenamiento.

¿Y a vos?

¿Entendés ahora por qué Claude a veces sorprende positivamente (capacidades emergentes) y otras veces alucinaciona (predicción de probabilidades)?

Esa comprensión cambia cómo lo usás. No lo pedís que haga lo imposible. Pero confías en lo que sí hace bien.

¿Hay algún límite de Claude que te haya frustrado últimamente?

Seguí explorando

¿Querés profundizar en algo del artículo?

01 ¿Un LLM realmente 'entiende' lo que dice?

No en el sentido humano. Aprende correlaciones entre palabras. Esas correlaciones son tan sofisticadas que PARECE que entiende, pero es predicción de patrones, no comprensión. La distinción importa cuando usás Claude para tareas donde la comprensión real es crítica.

02 ¿Por qué a veces Claude alucinaciona?

Porque predice palabras probables siguiendo patrones. Si el patrón dice 'después de X viene Y', predice Y aunque sea falso. Sin experiencia real (como sí tiene un humano), no detecta la contradicción.

03 ¿Qué son 'parámetros' y por qué importan?

'Parámetros' son los números internos del modelo — las conexiones entre neuronas. Más parámetros = más patrones posibles = potencialmente más potente. Claude 3.5 Sonnet tiene decenas de miles de millones. La cantidad importa, pero la calidad de entrenamiento importa igual o más.

Siguiente artículo
IA generativa — qué es y por qué cambió todo