Tenés un celular con autocomplete. Escribís "Hola ¿cómo" y te sugiere "estás".
Un modelo de lenguaje es lo mismo, pero turbinado.
¿Cómo funciona un LLM en realidad?
Durante el entrenamiento, el modelo lee texto. Muchísimo texto. Novelas, artículos, código, redes sociales — prácticamente todo lo que existe en internet.
Mientras lee, aprende patrones. "Después de 'buenos' generalmente viene 'días'". "Si escribe 'la lluvia', probablemente después viene 'cae'".
Cuando vos le escribís un prompt a Claude, el modelo adivina cuál es la palabra que probablemente viene siguiente. Luego adivina la siguiente. Y la siguiente. Palabra a palabra, hasta que decide parar.
No entiende. Predice. Pero sus predicciones son tan buenas que parece que entiende.
¿Por qué puede escribir, traducir, codear?
Porque todos esos son problemas de predicción de palabras.
Escribir una historia = predecir qué palabra viene después de una trama.
Traducir = predecir cuál es la secuencia de palabras en otro idioma que corresponde a este patrón.
Codear = predecir cuál es la línea de código que sigue en este programa.
El truco es que Claude no "sabe" programar. Sabe qué patrones de código son probables. Y porque millones de desarrolladores escriben código de forma consistente, los patrones son buenos. Tan buenos que funcionan.
Lo mágico: capacidades emergentes
Nadie programó a Claude para escribir un poema sobre la muerte.
Nadie le enseñó matemáticas formalmente.
Pero aparecen. ¿Por qué?
Porque el modelo aprendió patrones tan ricos que, en cierto punto, empieza a hacer cosas que nadie esperaba. Es como si los patrones se combinaran de formas que crean nuevas habilidades.
Se llama "emergencia". Y es la razón por la cual sorprende lo que los LLMs pueden hacer.
Las limitaciones reales
Un LLM nunca vivió un día. Lee todo libro que existe, pero nunca comió, nunca lloró, nunca fue traicionado.
Eso importa cuando necesitás que entienda contexto emocional profundo o experiencia sensorial. Puede imitar, pero no comprende.
Además: alucinaciones. A veces inventa datos. No por maldad — porque predice cuál es la palabra probable y a veces esa palabra es un hecho falso. Sin experiencia real, no lo detecta.
Y: knowledge cutoff. Claude fue entrenada hasta cierta fecha. No sabe qué pasó después. No por incapacidad — porque no fue entrenada con esos datos.
¿Qué tenés que recordar?
Cuando abrás Claude y escribas un prompt, está usando un sistema que predice palabras con una sofisticación insana. No es pensamiento. Es probabilidad estadística disfrazada de pensamiento.
Y eso, paradójicamente, es suficiente para trabajar mejor cada día.
¿Hay algo que te sorprendió de cómo funcionan estos modelos?
Hay una confusión gigante sobre qué hace un modelo de lenguaje. Porque "predice la siguiente palabra" suena simple, y "entiende el contexto" suena más impresionante.
La realidad es más interesante que cualquiera de las dos.
El autocomplete del celular no entendía nada
Recordás el predictive text de hace 10 años. Escribías tres palabras y te sugería "mañana", "después", "hoy".
Funcionaba porque las máquinas del teléfono aprendían qué palabras tienden a seguir otras. "Buenos" → "días" es probable. No porque lo "entiende" — porque estadísticamente es lo que pasa.
Un LLM (Large Language Model) es exactamente lo mismo, pero con escala y sofisticación insanas.
Entrenamiento: el modelo lee textos. No lee bien, entiende bien. Solo lee. Mete ojos. Mientras lee, aprende probabilidades.
"Cuando aparece 'reino unido', las próximas palabras probables son 'es', 'tiene', 'está'."
"Cuando aparece 'sqrt(' la próxima probabilidad es '('."
"Cuando aparece 'El arte de la', lo probable es 'guerra'."
Cuando vos escribís a Claude, pasa esto: Lee tu prompt. Calcula probabilidades. Elige la palabra más probable (o arriesga un poco a veces). Escribe esa palabra. Repite.
Palabra. Tras. Palabra.
Eso que leés como una respuesta fluida es, técnicamente, 1000+ decisiones de predicción hechas en milisegundos.
¿Por qué puede hacer tareas tan complejas?
Porque casi toda tarea es predicción de secuencias.
Escribir: predecir qué palabra viene en una narrativa lógica.
Resumir: predecir qué palabras son "lo esencial" de un texto (patrones detectados).
Traducir: predecir la secuencia en idioma B que corresponde a la secuencia en idioma A.
Codear: predecir qué línea de Python es probable después de esta estructura.
El modelo no sabe que está "resumiendo". No tiene concepto de "resumen". Lo que hace es: "en este contexto de resumen, qué palabras son probables". Y aprende eso de millones de ejemplos.
Nunca nadie programó esas capacidades. El modelo las emergió del pattern matching.
El fenómeno de las capacidades emergentes
Aquí es donde se pone raro.
Nadie programó a Claude para escribir poesía. Nadie la entrenó específicamente en métrica ni rima.
Pero puede hacerlo.
¿Cómo?
Porque leyó tanta poesía durante el entrenamiento que los patrones de las palabras en un poema son tan consistentes que puede reproducirlos. No porque "sepa" poesía. Porque aprendió las correlaciones estadísticas de palabras en contextos poéticos.
Esto es lo loco: las correlaciones eran tan ricas que, en cierto punto de la escala (cuando el modelo tiene suficientes parámetros, suficientes datos), capacidades nuevas emergen sin ser programadas.
Se llama "emergencia". Wei et al. en su investigación de 2022 documentaron que cuando los modelos crecen en escala, de repente aparecen habilidades que no estaban presentes en versiones más pequeñas.
Es por eso que cuando publican una versión más potente de Claude, de repente puede hacer cosas nuevas. No porque alguien le enseñó. Porque la complejidad de los patrones alcanzó un umbral.
El sesgo más importante: diferencia entre predicción y comprensión
Esto es lo que la mayoría subestima.
Claude no entiende un poema. Predice qué palabra es probable en un contexto poético.
¿Se nota la diferencia?
Un poeta entiende qué emociones está transmitiendo. Claude muestra patrones de palabras que correlacionan con emoción (según lo que aprendió).
Si le preguntás "¿por qué escribiste sobre la muerte así?" — el poeta dice "porque sentía esto". Claude dice "porque esa secuencia de palabras tiene alta probabilidad en este contexto".
Importa cuando necesitás comprensión real. Por ejemplo:
Si le pedís que entienda matices éticos de una decisión compleja que nunca antes vio patrón similar → problema. Puede sonar creíble, pero podría estar prediciendo mal.
Si le pedís que escriba algo que suene como vos, que capture tu voz → casi nunca falla, porque tu voz es patrón, y los patrones son el juego de Claude.
Las limitaciones que explican muchas sorpresas
Alucinaciones: a veces Claude inventa datos. Parece confiada diciendo cosas falsas.
¿Por qué? Porque predice cuál es la palabra probable. Si el patrón dice "después de 'Einstein descubrió' viene una teoría", pero da por verdadero "Einstein descubrió el teletransporte" — es porque el patrón (X descubrió Y) tiene altísima probabilidad de estar seguido de algo creíble. Sin experiencia vivida, Claude no detecta que ese Y es falso.
Knowledge cutoff: Claude fue entrenada hasta abril 2024. No sabe qué pasó después.
No porque "no pueda saber". Porque no fue entrenada con datos posteriores. No tiene patrón que aprender.
Sesgos: los patrones que aprendió reflejan sesgos de internet. Si internet dice "programador = hombre", el modelo aprendió esa correlación. Está en los parámetros.
Imposibilidad de "cambiar de opinión": Una vez entrenado, sus pesos están fijos. No aprende de la conversación contigo. Cada conversación es nueva (sin memoria). Cada respuesta es predicción fresca sin memory learning.
¿Y qué significa esto en la práctica?
Claude es excelente herramienta para:
- Generar variaciones: escritura, ideas, código, diseño
- Sintetizar: resumir, explicar, traducir
- Brainstorming: porque puede generar secuencias variadas
- Análisis superficial: buscar patrones en texto
Y menos confiable para:
- Hechos críticos sin verificación: porque puede alucinar
- Decisiones de riesgo alto: porque no entiende realmente, predice
- Comprensión profunda de contextos nunca vistos: porque necesita experiencia
Modelos que existen (la familia de LLMs)
Claude (Anthropic) — entrenamiento enfocado en seguridad y utilidad. 3.5 Sonnet es la versión actual.
GPT-4o, GPT-4 (OpenAI) — multimodal, excelente en reasoning. Caro, potente.
Gemini (Google) — integración con Google Suite. Útil si vivís en el ecosistema.
Llama (Meta) — open source, local, menos potente pero privado.
Todos son variaciones del mismo concepto: LLMs. Todos predicen secuencias. Todos emergieron de la misma arquitectura (Transformers). Las diferencias están en el tamaño (parámetros), los datos de entrenamiento, y los ajustes post-entrenamiento.
¿Y a vos?
¿Entendés ahora por qué Claude a veces sorprende positivamente (capacidades emergentes) y otras veces alucinaciona (predicción de probabilidades)?
Esa comprensión cambia cómo lo usás. No lo pedís que haga lo imposible. Pero confías en lo que sí hace bien.
¿Hay algún límite de Claude que te haya frustrado últimamente?
Un modelo de lenguaje es un sistema que aprendió a predecir la siguiente palabra en una secuencia, dada una distribución de probabilidades sobre vocabulario inferida de patrones estadísticos en datos de entrenamiento.
No es una definición accesible. Pero es precisa. Y la precisión importa cuando querés entender realmente qué está pasando en el sistema que usás cada día.
La arquitectura subyacente: Transformers
Todo LLM moderno (Claude, GPT, Gemini, Llama) está basado en una arquitectura de 2017 llamada Transformer, descrita en el seminal paper "Attention Is All You Need" de Vaswani et al.
La idea central: attention mechanism. Dado un token (palabra fragmentada), el modelo asigna pesos a todos los otros tokens en el contexto, determinando cuál es relevante para predecir el siguiente.
Esto es diferente a RNNs (que procesan secuencialmente, token a token, lo que causa vanishing gradients en secuencias largas) y a feedforward networks (que procesan en paralelo pero pierden relaciones de largo plazo).
Transformers: procesa en paralelo (escalable masivamente) pero preserva relaciones de cualquier distancia en la secuencia (a través de multi-head attention).
Resultado: puede aprender que "el gato está en la casa" — la palabra "gato" es importante para predecir qué viene después en una oración posterior, aunque estén separadas por 100 tokens. Eso es el mecanismo que permite que los LLMs manejen contexto de miles de tokens.
Parámetros: los números internos que definen capacidad
Cuando leés "Claude tiene X mil millones de parámetros", esos parámetros son los pesos en la red neuronal.
Cada conexión entre "neuronas" (en realidad operaciones matriciales) tiene un número asociado. Durante el entrenamiento, esos números se ajustan para minimizar el error de predicción mediante backpropagation.
Un LLM moderno tiene decenas de miles de millones de parámetros. Claude 3.5 Sonnet: Anthropic no publica exactamente, pero está en el rango de decenas de miles de millones. GPT-4: estimado en 1+ trillones considerando mixtures of experts.
¿Más parámetros = más potente?
No necesariamente en línea recta. Pero sí correlaciona fuertemente. Las Scaling Laws de OpenAI y DeepMind muestran que la capacidad del modelo mejora de forma predecible con: (1) más parámetros, (2) más datos de entrenamiento, (3) más computación durante el entrenamiento (FLOP).
Pero los parámetros sin buena distribución de datos son inútiles. Un modelo con 10 trillones de parámetros entrenado en 10 horas es peor que un modelo con 1 trillón entrenado en 10,000 horas.
Hoffmann et al. (2022) propusieron el Chinchilla scaling laws, sugiriendo que para un presupuesto computacional fijo, la mejor estrategia es balancear modelo size y data size equitativamente.
Emergencia: el fenómeno mal comprendido
Emergent abilities es un término acuñado por Wei et al. (2022) en su paper que documentó capacidades que no fueron explícitamente entrenadas pero que aparecen cuando el modelo alcanza cierta escala.
Ejemplos: - In-context learning: Los LLMs pueden aprender de ejemplos en el contexto de la conversación (few-shot learning) sin actualizar parámetros. Esto emerge en modelos grandes; no ocurre significativamente en modelos pequeños (< 1B parámetros). - Chain-of-thought reasoning: Modelos pequeños no resuelven problemas de multi-step logic. GPT-3.5 + prompting de chain-of-thought comienza a hacerlo. La tasa de acierto sube dramáticamente. - Arithmetic y symbolic reasoning: Capacidades que aparecen en escalas particulares.
¿Por qué emerge?
Hipótesis dominante: los patrones estadísticos aprendidos en el entrenamiento son tan ricos y complejos que, en cierto punto, la combinación de esos patrones genera nuevas propiedades macroscópicas. No es que el modelo "aprendió a razonar de verdad" en sentido algorítmico — es que las correlaciones de su predicción de siguiente palabra, cuando se aplican iterativamente y en contexto, producen un resultado que parece reasoning sin que haya una lógica explícita programada.
Matemáticamente, sigue siendo predicción. Cognitivamente y conductualmente, parece algo más.
El límite crítico: predicción vs comprensión
Aquí está el sesgo más importante que la mayoría subestima.
Una predicción muy buena de "cuál es la próxima palabra probable" parece comprensión, pero epistemológicamente no es comprensión.
Ejemplo: Dale a Claude un artículo de Nature sobre física cuántica (durante entrenamiento: leyó miles de papers similares). Pregunta: "¿Qué significa superposición?"
Claude da: [respuesta coherente, técnicamente precisa, con uso correcto de terminología].
¿Entiende superposición? No. Predice qué palabras correlacionan con "explicación de superposición" en contextos similares observados durante entrenamiento.
¿Cómo sabés? Porque si le das un concepto que nunca vio correlación clara (una paradoja nueva, un escenario contrafáctico absolutamente novedoso), puede generar respuesta plausible pero demostrablemente falsa.
Un físico entiende: puede visualizar el fenómeno, comprender por qué ocurre, ver las implicaciones en dominios no entrenados.
Claude predice: genera palabras que son estadísticamente asociadas a "explicación de superposición en contextos de física cuántica".
¿Importa la diferencia?
Sí. Cuando necesitás que el sistema maneje casos edge verdaderamente novedosos, la predicción falla de forma característica. Cuando necesitás análisis de un patrón visto 10000 veces en el training set, la predicción brilla.
Alucinaciones: no son bugs, son features del sistema
Cuando Claude inventa un hecho o cita un paper que no existe, no es glitch o error.
Es que el modelo, dada la secuencia [A, B, C], predice que [D, E, F] es probable en la distribución aprendida. D, E, F suenan creíbles (porque los patrones de la forma "D es una teoría científica" o "E es un papers" tienen altísimas probabilidades). Pero D es falso, E no existe.
Sin acceso a base de datos verificable en tiempo real, sin experiencia sensoriomotora, sin una noción de "verdad" separada de "probabilidad", el modelo predice palabras probables que resultan ser falsas.
Esto es estructural. No se "arregla" con prompt engineering mejorado. Se mitiga: - Pedir citation con localizaciones específicas (fuerza al modelo a localizar verdades en su entrenamiento) - Usar RAG (Retrieval-Augmented Generation): le proporcionás documentos verificados externos - Pedir que exprese incertidumbre cuantificada ("soy 40% segura que...") - Implementar verificación externa
Pero el fenómeno subyace: predicción sin acceso a verificación externa = posibilidad de error sistemático (hallucination).
Knowledge cutoff y la ilusión de actualidad
Claude tiene entrenamiento hasta abril 2024. Hay eventos posteriores que no están en los parámetros.
Esto no es falta de capacidad. Es que los patrones de eventos post-abril-2024 no están en los 10+ trillones de conexiones sinápticas.
Importa porque el usuario asume "si no lo sabe, lo dirá explícitamente". Pero a veces, si la pregunta es sobre abril-2024 (cuando el modelo tiene patrón robusto), puede generar "noticias de mayo" que suenan plausibles pero son predicciones extrapoladas, no hechos.
Multimodalidad: extensión del framework
Claude (y GPT-4o, Gemini) es multimodal: puede procesar texto, imágenes, y en futuras versiones audio, video.
¿Cómo funciona con imágenes?
La imagen se convierte a tokens (embedding visual a través de un encoder, típicamente basado en vision transformers como ViT). Esos tokens entran al LLM core como contexto adicional. El LLM entonces predice texto que es probable dada la imagen.
Es el mismo mecanismo fundamental: predicción de secuencia. La entrada es más rica (imagen → tokens + texto tokens), pero el core sigue siendo "qué es estadísticamente probable después".
Qué significa para arquitectura de prompting
Entendiendo que Claude es predictor de secuencias:
- Más contexto = mejor predicción. (Método CAFÉ: dar contexto relevante → predicción más alineada con intención)
- Ejemplos en el prompt = pattern matching intenso. (Few-shot learning: "aquí hay tres ejemplos, ahora genera uno similar")
- Pedir que "piense paso a paso" = generar secuencias intermedias. Fuerza al modelo a generar tokens intermedios que exploran el espacio de predicción de forma más cuidadosa.
- Temperature (aleatoriedad en sampling) = qué tan probables deben ser palabras para ser elegidas. (T=0: palabra máxima probabilidad deterministicamente; T=1: más aleatorio, más creativo; T=2: caótico)
Ajuste post-entrenamiento: RLHF y Constitutional AI
Después que el modelo termina el entrenamiento de lenguaje (predecir siguiente palabra mediante cross-entropy loss), sufre ajuste adicional.
RLHF (Reinforcement Learning from Human Feedback): Humanos califican pares de respuestas: "¿cuál es mejor?" El modelo aprende mediante PPO (Proximal Policy Optimization) a maximizar probabilidad de respuestas que humanos califican bien, mientras minimiza divergencia KL del modelo base.
Constitutional AI (usado por Anthropic en Claude): Además de RLHF, el modelo se entrena contra un conjunto de "constitucionales" (principios éticos). Predice si su propia respuesta viola esos principios, y se auto-corrige.
Esto no cambia los parámetros fundamentales del transformer. Pero la distribución de probabilidad sobre la cual el modelo samples respuestas se calibra: hacia respuestas más útiles, más seguras, menos sesgadas.
Por eso Claude siente diferente a un LLM raw (como un modelo base no ajustado): fue ajustado explícitamente para ser útil y seguro.
Trayectoria: especulación informada
A corto plazo: multiplicación de modelos especializados. LLMs finetuned masivamente para medicina (diagnóstico, literatura), derecho (contract analysis), código (domain-specific).
A medio plazo: sistemas agénticos. LLMs como orquestadores que predicen no solo palabras sino también acciones (llamar API, usar herramientas, integración con bases de datos externas). RAG se vuelve default.
A largo plazo: pregunta abierta epistemológicamente. ¿Convergen LLMs mejorados (con memory, multimodalidad, test-time reasoning, feedback loops) a algo que se aproxime a AGI? ¿O el techo es predicción muy sofisticada pero no comprensión genuina (como la define filosofía de la mente)?
Postura: es predicción de secuencias extremadamente potente. No hemos visto emergencia de comprensión genuina en sentido filosófico (qualia, intencionalidad). Pero el problema está abierto.
Síntesis
Cuando usás Claude, estás usando un sistema que en su core fundamental predice la siguiente palabra en una distribución de probabilidades.
Que sea capaz de predicción tan sofisticada que parezca razonamiento, creatividad, comprensión emocional — eso es observable y real conductualmente. Pero la ejecución subyacente es matemáticamente predicción de secuencia.
Eso no la hace menos útil. La hace diferente. Y comprender la diferencia entre utilidad conductual y comprensión epistemológica es el inicio de usarla bien.