Las IAs chinas — DeepSeek, Qwen y el otro lado de la carrera

TL;DR

DeepSeek, Qwen, Kimi y otros laboratorios chinos compiten hoy con Claude y ChatGPT en benchmarks y, a veces, en precio. La historia interesante no es que "China alcanzó a EEUU" — es que las restricciones de exportación de GPUs de NVIDIA impuestas por Washington en 2022-2023 forzaron a esos laboratorios a optimizar agresivamente sobre hardware limitado, y publicaron las técnicas. DeepSeek-R1 (enero 2025) demostró que el razonamiento estilo o1 se podía reproducir open-source por una fracción del costo percibido. Para uso profesional con datos sensibles, Claude sigue siendo la elección sólida. Para startups que necesitan self-host con licencia permisiva, Qwen2.5-72B en infra propia es una opción legítima. Los filtros de contenido alineados a normativa china son reales — no son un detalle menor.

✦ Resumido con Claude al publicar

✦ Reescritura con IA

Leelo como…

El 26 de diciembre de 2024, DeepSeek publicó en GitHub un documento técnico de 53 páginas titulado DeepSeek-V3 Technical Report. No fue un blog post de marketing: fue un paper detallado, con arquitectura, decisiones de entrenamiento, curvas de pérdida, y una cifra que paralizó a Silicon Valley cuando los analistas la leyeron con atención. La corrida final de entrenamiento habría costado unos 5,6 millones de dólares.

El mercado tardó cuatro semanas en procesar lo que ese número implicaba. El lunes 27 de enero de 2025, con la app de DeepSeek liderando el App Store de EEUU por delante de ChatGPT, Wall Street reaccionó. Nvidia cerró ese día con una pérdida de capitalización de 589 mil millones de dólares — la caída más grande en un solo día para cualquier empresa en la historia de la bolsa estadounidense. El Nasdaq perdió 3,1 por ciento. El índice de semiconductores SOX cayó 9,2.

Lo que se rompió ese lunes no fue DeepSeek. Se rompió una creencia: que entrenar IA de frontera requería capex de escala EEUU y era, por lo tanto, un juego de pocos jugadores.

¿De dónde salió DeepSeek?

DeepSeek se fundó en mayo de 2023 en Hangzhou. Su creador, Liang Wenfeng, venía de dirigir High-Flyer, un fondo cuantitativo chino que había acumulado un cluster importante de GPUs Nvidia — inicialmente para trading de alta frecuencia, no para IA. Cuando Liang pivoteó hacia modelos de lenguaje, tenía dos cosas raras para el ecosistema chino: capacidad de compute propia sin depender de una big tech, y cultura de optimización heredada de finanzas cuantitativas.

La trayectoria de productos hasta hoy:

DeepSeek-V2 (mayo 2024) — primer modelo que llamó la atención en benchmarks técnicos, con la arquitectura Mixture-of-Experts que después explotarían en V3.
DeepSeek-V3 (diciembre 2024) — 671 mil millones de parámetros totales, 37 mil millones activos por token. El paper que incluye la cifra de 5,6 millones.
DeepSeek-R1 (enero 2025) — modelo de razonamiento tipo o1. Open-weights bajo licencia MIT.

La licencia MIT de R1 es importante. Es la licencia más permisiva que existe. Podés descargar los pesos, fine-tunearlos, correrlos en producción comercial, sin pedirle permiso a nadie.

La cifra de 5,6 millones está en disputa (y no importa tanto)

Hay que ser honesto con los números. Los 5,6 millones corresponden solo al costo de compute de la corrida final — no incluyen las GPUs (el capex de hardware que ya tenían), ni salarios de investigadores, ni las docenas de experimentos fallidos previos, ni el data labeling. SemiAnalysis y otros analistas independientes estimaron el costo total real en el orden de los 500 millones cuando se incluye todo.

Pero ese debate se queda corto del punto. Aun si DeepSeek gastó 500 millones, entrenar el equivalente a GPT-4 por medio billón de dólares sigue siendo un orden de magnitud menos que los 5 a 10 mil millones que analistas venían calculando para el próximo ciclo de escalado de OpenAI o Anthropic.

La eficiencia por dólar de cómputo no es marketing chino. Está documentada en el paper, es reproducible por equipos técnicos, y sus técnicas centrales — multi-head latent attention, auxiliary-loss-free load balancing, FP8 mixed precision training — ya fueron adoptadas por laboratorios occidentales.

Qwen, Kimi y el resto del pelotón

DeepSeek es la cara visible, pero no es el único jugador serio del lado chino.

Qwen (Alibaba). La serie más consistente. Qwen2 (mediados de 2024), Qwen2.5 (fines de 2024), Qwen3 (2025). Modelos de distintos tamaños — 7B, 32B, 72B — todos con pesos abiertos bajo licencia Apache 2.0 (también permisiva). Qwen2.5-72B es el modelo de facto para muchas startups que necesitan self-host. Alibaba lo empuja porque quiere vender infraestructura de Alibaba Cloud; los modelos abiertos son el anzuelo.

Kimi (Moonshot). Especialidad: contexto largo. Fue el primero en ofrecer comercialmente ventanas de un millón de tokens en chino, antes que los occidentales tuvieran equivalentes. Fuerte en el mercado chino, menos conocido afuera.

Baichuan, Zhipu GLM, 01.AI (Yi). Tres laboratorios con modelos competentes. 01.AI está fundada por Kai-Fu Lee, figura conocida en el ecosistema occidental. Zhipu tiene vínculos académicos con Tsinghua.

Ernie Bot (Baidu). Es la respuesta corporativa más directa a ChatGPT. Más cerrada, menos técnicamente innovadora, pero con distribución enorme dentro de China vía productos de Baidu.

El ecosistema es más diverso de lo que sugiere el foco mediático en DeepSeek.

El contexto que no sale en los titulares

Para entender por qué laboratorios chinos innovaron tan agresivamente en eficiencia, hay que mirar qué estaba haciendo Washington.

En octubre de 2022 la Administración Biden, a través del Bureau of Industry and Security del Departamento de Comercio, impuso restricciones sobre la exportación de GPUs avanzadas a China. Las H100 y A100 de Nvidia — los chips de referencia para entrenar modelos de frontera — quedaron prohibidas. Nvidia respondió creando variantes levemente degradadas (la H800, después la H20) que cumplían los umbrales de la regulación. Washington endureció las restricciones en octubre de 2023 para tapar esas brechas.

El objetivo declarado era frenar a China. El efecto real fue distinto: los laboratorios chinos, con menos cómputo por investigador y hardware inferior, tuvieron que optimizar agresivamente. Y publicaron las técnicas.

Eso es lo que hace único a DeepSeek-V3 como documento: no es un producto cerrado con una caja negra adentro, es un manual de operaciones. Cualquier laboratorio con los recursos puede leer el paper y aplicar las mismas técnicas.

¿Qué hago yo, profesionalmente, con todo esto?

Acá es donde vale separar casos de uso.

Si tu trabajo es con clientes reales, con contratos, con datos sensibles, con reputación en juego — Claude sigue siendo la apuesta que hago todos los días. No porque DeepSeek-R1 sea malo en capacidad bruta (no lo es), sino porque la combinación de jurisdicción, trayectoria de confianza, garantías contractuales y soporte multilingüe consistente no existe en los modelos chinos accesibles al público. Para el trabajo delegable con datos que no pueden salir de mi control, Anthropic en Estados Unidos sigue siendo el proveedor que entiendo y al que puedo señalar responsabilidad.

Si tu trabajo es una startup técnica con presupuesto limitado y necesitás self-host — ahí Qwen2.5-72B o DeepSeek-V3 corriendo en tu propia infraestructura son opciones legítimas. Licencia permisiva, capacidad alta, sin tercero mirando tus prompts. Esta es una puerta real que hace dos años no existía para nadie fuera de las big tech.

Si estás aprendiendo — probá todos. DeepSeek tiene una web pública. Qwen tiene demo en Hugging Face. ChatGPT y Claude los conocés. Ver cómo piensa cada uno te da intuición que ningún blog te da.

Si tu tema es periodismo, investigación política, derechos humanos o cualquier cosa que toque geopolítica asiática — los modelos chinos accesibles al público no son la herramienta. No por maldad, por regulación de origen.

Para cerrar y para seguir

El surgimiento de DeepSeek y la consolidación de Qwen cambiaron la conversación sobre qué significa "caro" entrenar un modelo de frontera. Rompieron un supuesto de costo, democratizaron técnicas a través de papers públicos, y forzaron a los laboratorios occidentales a reaccionar en eficiencia.

Pero no son intercambiables con Claude o ChatGPT para uso profesional occidental. Los filtros de contenido son reales. La jurisdicción es real. El soporte multilingüe desigual es real. Son herramientas distintas para casos distintos.

¿En qué parte de tu flujo de trabajo te serviría tener una opción open-weights con licencia permisiva corriendo en tu propia infraestructura? Si querés contexto más amplio del panorama competitivo, La carrera de las IAs es el siguiente eslabón. Si querés entender cómo se compara la capacidad de estos modelos, Cómo se miden las IAs te arma el marco.

El lunes 27 de enero de 2025 una app llamada DeepSeek amaneció en el puesto número uno del App Store de Estados Unidos. Por delante de ChatGPT.

Eso no había pasado nunca.

La app era el chatbot de una empresa china de la que la mayoría no había escuchado hablar. Y en Wall Street, ese mismo lunes, Nvidia — la empresa que fabrica los chips que entrenan a las IAs — perdió 589 mil millones de dólares de valor bursátil en un solo día. La caída más grande de una empresa en la historia del mercado estadounidense.

¿Qué es DeepSeek y por qué sorprendió?

DeepSeek es una startup china fundada en 2023 en la ciudad de Hangzhou. Su fundador se llama Liang Wenfeng y viene de un fondo de inversión cuantitativo. O sea: gente acostumbrada a optimizar hasta el último centavo.

En diciembre de 2024 publicaron un paper técnico muy detallado sobre un modelo llamado DeepSeek-V3. En el paper decían que habían entrenado un modelo comparable a GPT-4 por alrededor de 5,6 millones de dólares.

Para entender por qué eso fue una bomba: la industria daba por sentado que entrenar un modelo de ese nivel costaba entre cien y varios cientos de millones. Decir "lo hicimos por menos de seis millones" era, en ese momento, ciencia ficción.

Un mes después, en enero de 2025, lanzaron DeepSeek-R1. Un modelo que sabía razonar paso a paso — pensar antes de responder, como el o1 de OpenAI. Pero R1 era open-source: los pesos disponibles para descargar, con licencia MIT (la más permisiva que existe).

Ahí explotó todo.

No es solo DeepSeek

China tiene más de una empresa haciendo esto en serio.

Alibaba — sí, el gigante del ecommerce — tiene una línea de modelos llamada Qwen (se pronuncia "juen"). Qwen2.5 y Qwen3 son competitivos y también open-source. Se usan mucho en startups que necesitan auto-hospedar la IA y tener control total de su data.

Moonshot hace Kimi, que es muy fuerte en conversaciones largas. Baichuan, Zhipu, 01.AI son otros nombres del ecosistema. Y después está Ernie Bot de Baidu — la respuesta más directa a ChatGPT, pero más cerrada y menos innovadora.

Son varios jugadores. Algunos apuntan a competir en benchmarks, otros a dominar mercados específicos dentro de China.

La parte incómoda

Hay dos cosas que tenés que saber si pensás usar cualquiera de estas herramientas.

Primero: los modelos chinos accesibles al público tienen filtros obligatorios. La autoridad regulatoria china — que se llama Cyberspace Administration of China, o CAC — exige que los modelos registren sus datos de entrenamiento y filtren ciertos temas sensibles: Tiananmen, Taiwán, crítica al Partido, algunos más. Si preguntás algo de eso, el modelo te va a esquivar.

Para código, matemática, análisis técnico: no te toca la censura. Para periodismo, historia reciente o cualquier tema político: sí.

Segundo: si usás el servicio oficial, tu data va a servidores chinos. No es un detalle menor cuando trabajás con información de clientes.

Lo que tenés que llevarte

Tres ideas para no perder el norte:

DeepSeek no "alcanzó" a EEUU por magia. Lo hizo porque desde 2022 Washington restringió la exportación de GPUs avanzadas a China, y los laboratorios chinos tuvieron que optimizar con lo que tenían. El resultado fue el opuesto al esperado — aprendieron a hacer más con menos y publicaron cómo.

Los modelos chinos son una opción real, con letra chica. Para uso técnico neutro (código, análisis, matemática) funcionan muy bien, muchas veces más barato. Para datos sensibles o temas políticos, no son la herramienta.

Para tu trabajo profesional con clientes, Claude sigue siendo la apuesta sólida. Para un side project o aprender a correr modelos abiertos en tu propia infra, Qwen2.5 con licencia Apache es una puerta legítima de entrada. No son decisiones excluyentes.

Lo que se rompió ese lunes no fue DeepSeek. Se rompió una creencia: que entrenar IA de frontera requería capex de escala EEUU y era, por lo tanto, un juego de pocos jugadores.

¿De dónde salió DeepSeek?

La trayectoria de productos hasta hoy:

DeepSeek-V2 (mayo 2024) — primer modelo que llamó la atención en benchmarks técnicos, con la arquitectura Mixture-of-Experts que después explotarían en V3.
DeepSeek-V3 (diciembre 2024) — 671 mil millones de parámetros totales, 37 mil millones activos por token. El paper que incluye la cifra de 5,6 millones.
DeepSeek-R1 (enero 2025) — modelo de razonamiento tipo o1. Open-weights bajo licencia MIT.

La licencia MIT de R1 es importante. Es la licencia más permisiva que existe. Podés descargar los pesos, fine-tunearlos, correrlos en producción comercial, sin pedirle permiso a nadie.

La cifra de 5,6 millones está en disputa (y no importa tanto)

Qwen, Kimi y el resto del pelotón

DeepSeek es la cara visible, pero no es el único jugador serio del lado chino.

Ernie Bot (Baidu). Es la respuesta corporativa más directa a ChatGPT. Más cerrada, menos técnicamente innovadora, pero con distribución enorme dentro de China vía productos de Baidu.

El ecosistema es más diverso de lo que sugiere el foco mediático en DeepSeek.

El contexto que no sale en los titulares

Para entender por qué laboratorios chinos innovaron tan agresivamente en eficiencia, hay que mirar qué estaba haciendo Washington.

¿Qué hago yo, profesionalmente, con todo esto?

Acá es donde vale separar casos de uso.

Para cerrar y para seguir

El 7 de octubre de 2022, el Bureau of Industry and Security del Departamento de Comercio de Estados Unidos publicó una regulación que cambió la geopolítica del silicio. Entre otras medidas, prohibió la exportación a China de GPUs por encima de umbrales específicos de interconexión y compute — en la práctica, las Nvidia A100 y H100 quedaron fuera del alcance legal del mercado chino. Doce meses después, en octubre de 2023, la regulación se endureció para cerrar las brechas que Nvidia había abierto con las variantes H800 y L40S.

La lógica estratégica declarada era simple: si China no puede comprar los mejores chips, no puede entrenar los mejores modelos, y Estados Unidos preserva su ventaja de frontera. La lógica era simple y la consecuencia fue la opuesta. Cuando Liang Wenfeng publicó el paper de DeepSeek-V3 en diciembre de 2024, demostró que un laboratorio operando con GPUs H800 degradadas — y un cluster estimado alrededor de 2.000 unidades, chico para estándares de frontera — podía producir un modelo funcional en el rango de GPT-4 a un costo de compute documentado de 5,6 millones de dólares. La restricción produjo el incentivo. El incentivo produjo la innovación. Y la innovación se publicó.

Vale desarmar esta historia con precisión técnica porque la lectura superficial — "China alcanzó a EEUU" — pierde el punto. El punto es que el régimen de eficiencia que DeepSeek documentó redefine qué se considera caro entrenar, y ese nuevo régimen se le aplica también a los laboratorios occidentales que tenían budgets construidos sobre el supuesto anterior.

Arquitectura técnica: qué hace eficiente a DeepSeek-V3

El paper de V3 describe tres innovaciones técnicas centrales que operan en conjunto.

Multi-head Latent Attention (MLA). Transformers clásicos almacenan en memoria un caché de clave-valor (KV cache) proporcional al número de heads de atención. En modelos grandes ese caché domina el costo de memoria durante inferencia. MLA comprime las representaciones KV en un espacio latente de dimensionalidad reducida antes del almacenamiento, descomprimiéndolas on-the-fly. Reduce el tamaño del caché por un factor significativo — DeepSeek reporta reducción de aproximadamente 93 por ciento del KV cache respecto a atención multi-head estándar, a costo de una pérdida marginal de calidad.

Mixture-of-Experts con auxiliary-loss-free load balancing. V3 tiene 671 mil millones de parámetros totales pero solo 37 mil millones se activan por token. La arquitectura MoE no es innovación de DeepSeek — GPT-4 se estima MoE también. La innovación es el método de balancear carga entre expertos. Los MoE clásicos usan una pérdida auxiliar para empujar utilización uniforme de expertos, lo cual interfiere con la pérdida principal de entrenamiento. DeepSeek elimina la pérdida auxiliar y balancea mediante un bias dinámico por experto que se ajusta durante training. Simple conceptualmente, disruptivo en práctica.

FP8 mixed-precision training. Entrenar modelos grandes en FP16 es estándar; en FP8 es más barato en memoria y compute pero numéricamente más frágil. DeepSeek implementa un esquema híbrido donde la mayoría de operaciones corre en FP8 con estrategias específicas para preservar estabilidad numérica en regiones críticas (gradient accumulation, normalización). El resultado es una reducción sustancial en compute requerido por paso de entrenamiento, sin pérdida de calidad medible en benchmarks.

Las tres innovaciones son reproducibles por cualquier laboratorio con equipo técnico competente. El paper las describe con suficiente detalle como para implementarlas. Esa publicación abierta es la diferencia estratégica con el approach occidental cerrado de OpenAI post-GPT-3.

DeepSeek-R1 y la reproducción open-source del paradigma de razonamiento

En septiembre de 2024 OpenAI liberó o1, el primer modelo de razonamiento de frontera — un modelo que dedica compute adicional a generar cadenas de pensamiento internas antes de producir la respuesta final. En benchmarks de matemática olímpica y código competitivo, o1 subió los puntajes en órdenes de magnitud. OpenAI no publicó cómo lo había hecho. La industria especulaba.

DeepSeek-R1, publicado el 20 de enero de 2025, fue la primera reproducción pública abierta del paradigma. El paper acompañante — DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — describe el método. Punto central: razonamiento emergente se puede obtener mediante reinforcement learning puro sobre recompensas de verificación (correcto/incorrecto en problemas de matemática y código), sin necesidad de chain-of-thought supervisado humano.

El hallazgo intermedio que reportaron — el modelo R1-Zero, entrenado solo con RL sin fine-tuning supervisado previo, exhibiendo comportamiento de auto-reflexión emergente ("aha moments" documentados en el paper) — fue técnicamente llamativo y está bajo escrutinio académico. Pero el modelo final R1, bajo licencia MIT, llegó a benchmarks competitivos con o1 en matemática y código a una fracción del costo de inferencia.

La consecuencia operativa para el campo: cualquier laboratorio competente con cluster de entrenamiento moderado puede ahora reproducir un modelo de razonamiento. El moat técnico de "tener un modelo de razonamiento" se evaporó en noventa días.

Qwen y la estrategia open-weights corporativa

La jugada de Alibaba con Qwen es diferente y complementaria. Alibaba no necesita vender inferencia — tiene el negocio de Alibaba Cloud. Necesita vender infraestructura. Los modelos abiertos son el lead generation.

Qwen2.5, publicado en septiembre de 2024, ofreció la línea más completa de checkpoints abiertos al momento: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B parámetros, todos bajo Apache 2.0 salvo el más grande (que requiere licencia comercial para uso a escala, con términos razonables). Qwen2.5-72B-Instruct en benchmarks estándar se ubica en el mismo rango que Llama 3.1-70B y competitivo con Claude 3.5 Haiku en tareas de texto general.

Qwen3, la generación actual, introdujo soporte nativo para razonamiento estilo R1 en algunas variantes. La estrategia es mantener paridad aproximada con la frontera abierta occidental.

Para un arquitecto técnico que evalúa self-hosting, la elección real hoy es entre Llama 3 (Meta, Apache), Qwen2.5/3 (Alibaba, Apache), y DeepSeek-V3 (DeepSeek, MIT). Los tres son competitivos. La diferenciación es licencia, perfil de sesgos, y densidad de idiomas. Qwen tiene ventaja marginal en idiomas asiáticos y español estándar; Llama tiene ventaja en inglés y data occidental; DeepSeek tiene ventaja en matemática y código.

El régimen regulatorio chino: CAC y el data mix

La Cyberspace Administration of China publicó en agosto de 2023 las Medidas Interim para la Gestión de Servicios de IA Generativa. Requisitos operativos para cualquier modelo accesible al público en China:

Registro previo del modelo con el regulador antes del lanzamiento público.
Declaración del corpus de entrenamiento con verificación de "legalidad" de las fuentes.
Filtros activos sobre categorías de contenido prohibidas: subversión del poder estatal, crítica al Partido, cuestionamiento de la soberanía sobre Taiwán, eventos históricos sensibles (Tiananmen), contenido separatista relacionado a Tibet o Xinjiang.
Mecanismos de auditoría permanente.

La implementación técnica de estos filtros es post-training en la mayoría de los modelos abiertos: se aplican en el layer de servicio, no en los pesos. Esto tiene una consecuencia interesante para quien despliega los pesos en infraestructura propia fuera de China — los filtros de CAC son mayormente removibles con fine-tuning. Lo que no es removible es el sesgo del data mix inicial: los modelos se entrenaron sobre corpus donde ciertas narrativas históricas y políticas estaban sub-representadas o sesgadas por origen.

Para uso técnico neutro (código, matemática, razonamiento científico) el sesgo es irrelevante. Para cualquier aplicación que involucre análisis histórico, político o cultural, es un factor a tener en cuenta — no un deal-breaker automático, pero sí un requisito de validación adicional.

El efecto de retorno sobre Occidente

Lo que Washington no anticipó — o anticipó pero subestimó — es que la restricción de hardware produce retorno técnico en dos vías. Vía corta: los laboratorios chinos optimizan y publican. Vía larga: esas técnicas se vuelven estándar de la industria, y los laboratorios occidentales, que tenían margen para ser ineficientes mientras el cómputo era abundante, pierden esa holgura.

Esto ya se está viendo en 2026. Las labs occidentales publicaron en el último año implementaciones de MLA, variantes de auxiliary-loss-free MoE, y experimentos con FP8 training. Los costos reportados de entrenar modelos de frontera en Occidente están bajando en parte por competencia comercial, en parte por migración directa de técnicas originadas en China.

Anthropic hasta ahora ha elegido mantener su stack cerrado y no publica detalles de arquitectura. Es una elección coherente con su tesis — la diferenciación de Anthropic no está en eficiencia de entrenamiento sino en alineamiento y confiabilidad. Pero el punto más amplio es que la frontera técnica ya no se puede tratar como patrimonio geográfico. Washington descubrió que las restricciones a la exportación de hardware son un instrumento más lento que los papers publicados en Hangzhou.

Tesis editorial

Voy a cerrar con una tesis que excede el reporting.

Las restricciones de exportación de GPUs impuestas por EEUU sobre China en 2022-2023 produjeron un resultado contrario al declarado. En lugar de frenar a los laboratorios chinos, los forzaron a convertir restricción de hardware en eficiencia arquitectural publicada. El resultado neto es un nuevo régimen global de costos donde entrenar un modelo competitivo con GPT-4 cuesta un orden de magnitud menos que lo que se creía hace 24 meses, y donde las técnicas que producen ese régimen están documentadas en papers abiertos que cualquiera puede leer.

La consecuencia para el usuario profesional occidental es doble. Por un lado, la elección para trabajo con datos sensibles sigue siendo una herramienta alineada con tu jurisdicción y con tu régimen contractual — para mí, para mi consultora, para mis clientes, sigue siendo Claude, y esa elección no cambia por los eventos de enero 2025. Por el otro, el ecosistema open-weights con licencia permisiva dejó de ser un juguete académico. Qwen2.5-72B y DeepSeek-V3 corriendo en infraestructura propia son opciones de producción real para casos donde el self-hosting importa.

El conflicto geopolítico no se resolvió. Las restricciones a exportación se van a endurecer probablemente en los próximos 18 meses. Pero el genio de la eficiencia ya salió de la botella y la industria va a operar en el nuevo régimen, sean cuales sean las decisiones políticas futuras. Esa es la consecuencia estructural que importa leer con frialdad.

¿Cuál es tu criterio para decidir entre usar un modelo propietario bajo jurisdicción occidental versus self-hostear un modelo open-weights con licencia permisiva para casos con datos sensibles?

¿De dónde salió DeepSeek?

La cifra de 5,6 millones está en disputa (y no importa tanto)

Qwen, Kimi y el resto del pelotón

El contexto que no sale en los titulares

¿Qué hago yo, profesionalmente, con todo esto?

Para cerrar y para seguir

¿Querés profundizar en algo del artículo?