GLM-5 de Zhipu AI (Z.ai) es una de las bestias open-weight más tochas de este 2026. Está pensada a saco para agentic engineering y tareas de largo aliento. Su lanzamiento (11-12 de febrero) ha sido un golpe en la mesa para el ecosistema de IA autónoma.
Spoiler: Un MoE de 744B (con 40B activos), 200K de contexto y unos números brutales en coding y benchmarks de agentes, aunque sacrifica un poco de velocidad y no es tan potente en lo multimodal.
⚡ En resumen
- ✅ GLM-5: Arquitectura MoE de 744B, 40B activos por token, ventana de 200K, entrenada con 28.5T de tokens y usa DeepSeek Sparse Attention (DSA).
- ✅ Puntos fuertes: Se sale en temas de agentes y código (77.8% en SWE-bench Verified). Un razonamiento finísimo cuando le toca usar herramientas.
- ✅ Limitaciones: La inferencia es algo lenta, lo multimodal no es nativo del todo y necesitas un maquinón si quieres hacer self-hosting.
- 🎯 ¿Qué vas a encontrar aquí? Un análisis técnico a fondo: arquitectura, benchmarks reales y dónde brilla de verdad.
- 👇 Sigue bajando para ver tablas, ejemplos y links oficiales.
📚 Contenido del post
🎯 Qué es GLM-5 y de dónde viene
GLM-5 es el nuevo buque insignia de Zhipu AI (Z.ai), lanzado calentito en febrero de 2026. Viene de la familia GLM (General Language Model), un linaje que los cracks del laboratorio KEG (Universidad de Tsinghua) y Zhipu AI llevan puliendo desde 2019.
Hablamos de un Transformer decoder-only con arquitectura MoE (Mixture-of-Experts), diseñado para lo más difícil: razonamiento puro, picar código, sistemas de agentes y planificación compleja. Lo mejor es que va con licencia MIT (es open-weight), así que te puedes bajar los pesos y tunearlo como quieras.
GLM-5 es el salto evolutivo de la familia hacia la escala masiva. Han pasado de generar código simple a meterse de lleno en el agentic engineering a largo plazo.
Evolución de la familia GLM:
- 2022 — GLM-130B (uno de los primeros pesos pesados abiertos de China).
- 2023–2024 — Serie GLM-4 (el salto al MoE).
- 2025 — GLM-4.5/4.7 (355B totales, 32B activos).
- 2026 — GLM-5 (744B totales, unos 40B activos por token).
Dato clave: GLM-5 se entrenó exclusivamente con hardware Huawei Ascend y el framework MindSpore. Esto es vital porque demuestra que Zhipu AI puede pasar de NVIDIA tras los bloqueos de EE. UU. Los pesos están disponibles en Hugging Face (zai-org/GLM-5) y ModelScope, incluyendo versiones cuantizadas en FP8 para que no te explote el servidor al intentar correrlo.
Anuncio oficial de GLM-5 |
Repo en Hugging Face |
ModelScope
¿Por qué es importante este bicho en 2026?
GLM-5 llega justo cuando los modelos abiertos chinos están cazando a los modelos "frontera" de Occidente. Meter 744B de parámetros con DeepSeek Sparse Attention permite que el bicho sea eficiente procesando contextos enormes. La clave aquí es la autonomía: sabe corregirse solo, encadena herramientas de maravilla y genera soluciones completas, no solo texto plano.
Al tener licencia MIT, tienes vía libre total para fine-tuning y despliegue comercial. Es el "caramelo" para cualquier empresa que quiera control total de sus datos y no quiera pasar por el aro de las APIs cerradas de Claude o GPT.
Resumen: GLM-5 es la evolución lógica hacia los agentes autónomos. Es, a día de hoy, uno de los proyectos abiertos más ambiciosos que existen.
Arquitectura de GLM-5
Básicamente es un Transformer decoder-only con esteroides. Usa Mixture-of-Experts (MoE): 744B de parámetros en total, pero solo activa unos 40B por token (usa el top-8 de 256 expertos). Para el contexto largo usa DeepSeek Sparse Attention (DSA), embeddings RoPE, activaciones SwiGLU y post-LN.
Se ha tragado 28.5T de tokens en el pre-training y para el post-training usaron Slime, un framework de RL asíncrono que lo vuelve un hacha en razonamiento y planificación.
La mezcla de MoE con DSA es la jugada maestra: escala los parámetros a lo bestia sin que la inferencia sea un infierno, y Slime lo pule para que se comporte como un agente autónomo de verdad.
Ventana de contexto
Oficialmente aguanta 200.000 tokens de entrada (en tests reales ha llegado a 202.752 sin despeinarse). En cuanto a generación, puede escupir hasta 131.072 tokens de una tacada.
Reasoning y Benchmarks
GLM-5 está en la liga de los grandes: 77.8% en SWE-bench Verified y 60.7% en Terminal-Bench 2.0. Básicamente, es lo mejor que puedes encontrar en open-weight ahora mismo.
| Benchmark |
GLM-5 |
Claude Opus 4.5 |
GPT-5.2 |
Tipo de tarea |
| SWE-bench Verified |
77.8% |
80.9% |
80.0% |
Issues de GitHub |
| Terminal-Bench 2.0 |
60.7% |
59.3% |
54.0% |
Comandos de CLI |
| HLE w/Tools |
50.4% |
43.4% |
45.5% |
Examen con herramientas |
Conclusión: GLM-5 lidera el segmento abierto en temas de ingeniería y agentes. Básicamente está dándose de tortas cara a cara con los modelos cerrados más potentes de 2026.
Multimodalidad
Respuesta corta: GLM-5 es, ante todo, un modelo de texto con superpoderes para generar documentos estructurados (.docx, .pdf, .xlsx). No procesa imágenes, audio o vídeo de forma nativa; para eso, el bicho tira de otros modelos de la familia GLM (como GLM-Image o GLM-Vision) vía API o tool-calling. No es una experiencia "seamless" o integrada al 100 %.
El foco total de GLM-5 es el reasoning de texto, el código y los sistemas de agentes, no ser una navaja suiza multimodal.
GLM-5 depende de herramientas y modelos externos para temas multimodales, a diferencia de Gemini 2.0 o GPT-5.2, que traen el procesamiento nativo de serie.
Ficha técnica de multimodalidad (2026):
Anuncio oficial de GLM-5 (sección de capacidades) |
Docs de capacidades multimodales de Z.ai
Comparativa y realidad práctica
Frente a Gemini 2.0 o GPT-5.2 (que son multimodales nativos desde la médula), GLM-5 se queda corto en tareas que mezclan formatos a la vez. En el benchmark MMMU, GLM-5 (con sus módulos de visión) ronda el 70-75 % frente al 84-88 % de los líderes.
Pero ojo, su fuerte son los escenarios "document-heavy": generar informes financieros, presentaciones o PRDs desde datos brutos sin herramientas externas. En automatización de oficina para empresas, ahí es donde brilla.
Limitación real: Al no tener un encoder/decoder único, el pipeline se fragmenta (GLM-5 + modelo de visión), lo que sube la latencia y el gasto de tokens.
Conclusión: GLM-5 es para texto y documentos. Para visión o audio, es un "llámame a este otro modelo". Ideal para el sector corporativo, menos versátil para consumo masivo.
Capacidades de Tool-calling
GLM-5 soporta todo el arsenal compatible con OpenAI: parámetros `tools`, `tool_choice`, thinking mode (intercalado o preservado), streaming de herramientas, salidas estructuradas y encadenamiento (chaining). Básicamente, el modelo puede planificar, ejecutar, analizar el resultado y corregirse solo hasta terminar la tarea.
Está optimizado para workflows de agentes complejos, como demuestran sus notas en Vending Bench 2 ($4,432) y BrowseComp (75.9%).
El tool-calling en GLM-5 no es un parche; es parte integral del post-training, lo que le da una precisión altísima al elegir qué herramienta usar y cuándo.
Detalles técnicos de la API (api.z.ai /v4/chat/completions):
- tools: Array de funciones en formato JSON Schema. El modelo te devuelve el `tool_calls` con los argumentos listos para ejecutar.
- tool_choice: "auto", "required", "none" o una función específica. Tú mandas.
- thinking mode:
- interleaved — reflexiona entre cada paso de decodificación y llamada.
- preserved — mantiene el razonamiento entre varios turnos (clave en Agent mode).
- tool_stream=true: Recibes los parámetros de la herramienta en tiempo real (ideal para UIs de agentes).
- structured output: Fuerza el JSON según tu esquema con `response_format`.
- multi-tool chaining: Puede llamar a varias herramientas en una sola respuesta o ir paso a paso (plan → ejecución → análisis → siguiente paso).
Documentación oficial de Function Calling |
Thinking Mode y razonamiento preservado
Eficiencia y ejemplos reales
Gracias al framework Slime (RL), GLM-5 es quirúrgico eligiendo herramientas:
- τ²-Bench: 89.7 % de precisión en invocación.
- Vending Bench 2: Ciclo completo de simulación de negocio con corrección de errores sobre la marcha.
Limitación: En horas punta, el tool-calling puede sufrir throttling (limitación de velocidad). Y si no afinas bien las descripciones de las herramientas, el modelo puede caer en el "over-calling" (llamar a herramientas sin necesidad).
Conclusión: El tool-calling es de lo mejorcito de GLM-5. Si vas a montar agentes autónomos que usen herramientas reales, este es tu modelo open-weight.
Costes de la API
Precios oficiales: En api.z.ai, GLM-5 sale a $1 por 1M de tokens de entrada y $3.2 por 1M de salida. El input cacheado baja a $0.2 por 1M. La versión GLM-5-Code sube un pelín: $1.2 input / $5 output.
Es mucho más barato que Claude Opus 4.5 ($5-$10 input) o GPT-5.2 ($1.75-$5 input), pero ojo: GLM-5 quema tokens más rápido por el thinking mode (un 2-3x comparado con GLM-4.7).
El precio base es un chollo para agentes en producción y sesiones largas, sobre todo si aprovechas el context caching o te montas el self-hosting.
Detalle de precios (Febrero 2026):
| Modelo |
Input (1M tokens) |
Cached Input |
Output (1M tokens) |
Nota |
| GLM-5 |
$1.00 |
$0.20 |
$3.20 |
Modelo principal |
| GLM-5-Code |
$1.20 |
$0.30 |
$5.00 |
Optimizado para código |
Página oficial de precios
Lo que realmente vas a pagar
- Thinking mode: Al "pensar", el modelo genera entre un 20 % y un 50 % más de tokens internos. Eso sube la factura en tareas complejas.
- Context caching: Si haces RAG o sesiones de agente muy largas, el ahorro es masivo ($0.2/M).
- Self-hosting: Al ser licencia MIT, puedes correrlo en local (vLLM/SGLang). Te ahorras la API, pero prepara la cartera para el hardware: necesitas unas 8 GPUs H200 (1.5 TB de pesos en BF16).
Comparativa rápida: GLM-5 es entre 3 y 10 veces más barato que Claude Opus o GPT-5.2. Para proyectos de gran volumen, la diferencia es abismal.
Conclusión: GLM-5 revienta el mercado en precio/rendimiento. Es la opción lógica para aplicaciones de producción masivas que necesiten agents y long-context sin arruinarse.
Para qué tareas es un "must"
GLM-5 brilla de verdad en tareas que piden autonomía total, planificación a largo plazo, uso intensivo de herramientas y contextos gigantes: agentic coding, refactorización de código, agentes autónomos con self-correction, RAG empresarial con documentos kilométricos y generación de archivos estructurados desde datos en bruto.
El modelo saca ventaja cuando no solo quieres una respuesta de texto, sino un razonamiento multi-paso, encadenar herramientas y que te entregue el "artefacto" o resultado final listo para usar.
GLM-5 marca el paso de "escribir código" a "resolver el problema" con planificación autónoma y verificación de resultados. Es ideal para agentes en producción y pipelines de ingeniería.
Escenarios clave donde GLM-5 se sale (basado en benchmarks y su arquitectura):
- Agentic coding e ingeniería de software: Ciclo completo (full-stack), refactorización de código legacy, limpieza de bugs y diseño de arquitectura. Sus notas en SWE-bench Verified (77.8%) significan que puede resolver issues reales de GitHub en repositorios grandes gracias a sus 200K de contexto.
- Agentes autónomos (long-horizon): Agentes de varios turnos que se corrigen solos y encadenan herramientas (como en Vending Bench 2 o BrowseComp para navegación web compleja). Perfecto para montar tu propio "Devin" o automatizar procesos corporativos.
- Automatización de documentos: Crear informes, PRDs, modelos financieros o propuestas de patrocinio desde cero → te escupe el archivo listo (.docx, .pdf, .xlsx) con sus tablas y gráficos bien puestos. Es de sus puntos más fuertes en Agent mode.
- Enterprise RAG y razonamiento de largo contexto: Analizar parrafadas legales, logs infinitos o bases de código enteras (200K+ de contexto estable gracias a DSA).
- Tareas multi-paso con herramientas: Escenarios donde hay que llamar a varias utilidades, chequear si el resultado es bueno y ajustar el tiro (como en Terminal-Bench 2.0).
Dónde no es la mejor opción
El modelo flojea un poco si buscas:
- Chatbots ultra-rápidos: El thinking mode mete latencia (va a unos 17–19 tokens/s). Para un chat instantáneo, hay opciones más ágiles.
- Multimodalidad nativa "pesada": Si necesitas que el modelo "vea" o "escuche" de forma fluida, vas a tener que usar modelos externos de la familia, y la integración no es tan fina.
- Sistemas en tiempo real con picos masivos: El throttling y la concurrencia limitada en horas punta pueden ser un problema.
- Tareas creativas con mucha "situational awareness": Claude Opus 4.5 suele ser más fino con prompteo matizado y generación de mockups de UI.
En resumen: GLM-5 es tu bicho si priorizas autonomía, planificación y generar resultados finales ahorrando en tokens, no si buscas velocidad pura o multimodalidad total.
Conclusión: GLM-5 es una bestia para tareas de ingeniería, RAG empresarial y agentes de largo recorrido. Si necesitas latencia mínima o creatividad pura, mejor mira otros modelos.
❓ Preguntas frecuentes (FAQ)
¿Cuándo salió GLM-5?
Se lanzó oficialmente entre el 11 y 12 de febrero de 2026, justo después del Año Nuevo Chino, con los pesos abiertos en Hugging Face y ModelScope desde el primer día.
¿Qué licencia tiene?
Usa licencia MIT. Es open-weight total: puedes bajarlo, tunearlo, hostearlo tú mismo y usarlo comercialmente sin dramas, siempre que mantengas el copyright.
¿Tiene visión o es multimodal?
Es principalmente un modelo de texto. Para temas de visión (entender o generar imágenes), tienes que conectarlo con GLM-Image o GLM-Vision. No es nativo como Gemini 2.0 o GPT-5.2, lo cual añade un poco de latencia al proceso.
¿Cuál es el tope de contexto?
Soporta 200.000 tokens de entrada y genera hasta 131.072 tokens de salida. Gracias a DeepSeek Sparse Attention, la calidad no cae en picado aunque llenes la ventana.
¿Puedo correrlo en mi servidor (self-hosting)?
Sí, pero prepara la cartera. Necesitas unos 1.5 TB de memoria para los pesos en BF16 (mínimo 8 GPUs H200 o H20 con buen ancho de banda). Si usas cuantización FP8 bajas los requisitos, pero sigue siendo hardware de nivel enterprise. Si eres un equipo pequeño, mejor tira de API o OpenRouter.
✅ Conclusiones
- 🔹 GLM-5 es un modelo MoE masivo (744B) enfocado a tope en ingeniería, código y agentes autónomos.
- 🔹 Sus pros técnicos: Ventana de 200K con DSA, resultados top en SWE-bench (77.8%), API barata ($1 / $3.2 por millón de tokens) y licencia MIT.
- 🔹 Sus contras: Inferencia algo lenta (~18 tokens/s), multimodalidad no nativa y unos requisitos de hardware para hostearlo que dan miedo (~1.5 TB de pesos).
- 🔹 Nivel de juego: Se codea con Claude Opus 4.5 y GPT-5.2 en tareas específicas de agentes y programación, lo cual es una locura para un modelo abierto.
Idea clave: GLM-5 es ahora mismo una de las mejores opciones abiertas si necesitas agentes autónomos, procesar contextos masivos y tener control total sobre el modelo sin dejarte el presupuesto en APIs cerradas.
Análisis completo de la plataforma Z.ai (2026)
Si quieres ver la comparativa a fondo entre el modo Chat y el modo Agent, la arquitectura de la API y cómo exprimir GLM-5 al máximo, echa un ojo a este post:
Z.ai (Zhipu AI) 2026: Arquitectura, modos Chat vs Agent y todo el potencial de GLM-5