AI_TOOLS 06 junio 2026 12 min de lectura 5.543 vista

Ollama 0.30: Novedades — GGUF, Vulkan, llama.cpp y tool calling

Actualizado: 24 June 2026

Idioma: 🇺🇦 🇬🇧 🇩🇪 🇪🇸

Dmitro Petrov

A Tech Lead who builds AI/ML systems for production — and writes about how they actually work.

✦ Preguntarle a la IA sobre este artículo

Ollama 0.30: Novedades — GGUF, Vulkan, llama.cpp y tool calling

Ollama 0.30 ha sido lanzado con soporte para modelos GGUF de Hugging Face, aceleración en NVIDIA y Vulkan, que ahora está activo por defecto. Esta actualización es interesante no por sus cifras individuales, sino por cómo Ollama se integra cada vez más estrechamente con llama.cpp, lo que afecta a los modelos que podrás ejecutar mañana.

A continuación, un análisis sin marketing: qué ha cambiado realmente, a quién le importa y cuáles son las trampas que el comunicado de prensa omite. Si aún no estás familiarizado con Ollama, empieza con el artículo introductorio sobre qué es Ollama y por qué es necesaria.

En resumen: lo principal en la versión 0.30 es una integración más profunda con llama.cpp, que abre todo el ecosistema GGUF, Vulkan por defecto y una aceleración notable en NVIDIA. Para la mayoría de los usuarios, lo más útil es la capacidad de ejecutar cualquier modelo GGUF de Hugging Face con uno o dos comandos.

Contenido

Novedades en Ollama 0.30 — en resumen
Integración más profunda con llama.cpp: por qué es lo principal
Soporte GGUF de Hugging Face
Aceleración en NVIDIA: sin marketing
Vulkan por defecto — con matices
Tool calling y agentes de codificación: ollama launch
Qué modelos son ahora más fáciles de ejecutar
¿Vale la pena actualizar a la versión 0.30?
Preguntas frecuentes
Conclusiones

Novedades en Ollama 0.30 — en resumen

Ollama 0.30 no es una nueva función aislada, sino un conjunto de cambios en torno a una única decisión: una colaboración más estrecha con llama.cpp sobre el motor MLX en Apple Silicon. Según el blog oficial de Ollama, la versión trae un rendimiento mejorado y compatibilidad con modelos GGUF a través de llama.cpp, complementando el motor MLX en Apple Silicon y ampliando el soporte de hardware.

Los principales cambios en una lista:

Soporte GGUF de Hugging Face — puedes ejecutar cualquier modelo GGUF de Hugging Face o tus propios modelos fine-tuned a través de un simple Modelfile. La compatibilidad ampliada significa que más familias de modelos funcionan "directamente".
Aceleración en NVIDIA — hasta un 20% más rápido gracias a las optimizaciones de los equipos de NVIDIA y llama.cpp.
Vulkan por defecto — mayor soporte para GPUs AMD e Intel cuando se instala el backend correspondiente.
Tool calling se traslada a agentes de codificación — si un modelo soporta la llamada a herramientas, puedes conectarlo a Claude Code, Codex u OpenCode a través de ollama launch.

A continuación, cada punto en detalle, con énfasis en lo que significa en la práctica, no en el comunicado de prensa.

Integración más profunda con llama.cpp: por qué es lo principal

llama.cpp es un motor de inferencia LLM de bajo nivel escrito en C/C++ que subyace a una gran parte del ecosistema de IA local. La mayoría de los nuevos modelos de pesos abiertos aparecen primero en formato GGUF para llama.cpp, y solo luego llegan a otras herramientas.

El formato GGUF (GPT-Generated Unified Format) en sí mismo es una forma de empaquetar un modelo en un solo archivo: pesos, tokenizador y metadatos juntos, ya cuantificados. Es en este formato que llama.cpp almacena los modelos, y es este el que Ollama ahora entiende directamente. En palabras sencillas: GGUF es el "contenedor" del modelo, y llama.cpp es el motor que lo ejecuta.

Hugging Face   ← donde se encuentran los archivos GGUF de los modelos
      ↓ descargas .gguf
   GGUF         ← formato: pesos + tokenizador + metadatos en un solo archivo
      ↓ lee
  llama.cpp     ← motor de inferencia (C/C++)
      ↓ envuelve, añade API / CLI / gestión de modelos
   Ollama       ← capa conveniente sobre llama.cpp

Ollama siempre ha utilizado llama.cpp como backend, pero en la versión 0.30 esta integración se ha vuelto más estrecha. La consecuencia práctica es simple: cuanto más cerca esté Ollama de llama.cpp, más rápido estarán disponibles los nuevos modelos en Ollama, sin tener que esperar a que el equipo escriba soporte para arquitecturas separadas.

La lógica es la siguiente: los modelos salen primero para llama.cpp. Una integración más estrecha significa que la brecha entre "el modelo ha aparecido" y "el modelo funciona en Ollama" se reduce.

También hay un lado negativo que vale la pena conocer honestamente: Ollama utiliza una versión *vendored* (integrada) de llama.cpp, que no siempre se mantiene al día con los últimos commits. Históricamente, esto ha creado una brecha de rendimiento, por ejemplo, en AMD a través de Vulkan, donde algunas optimizaciones de llama.cpp llegaban a Ollama con retraso. Por lo tanto, "integración con llama.cpp" no significa "todas las últimas optimizaciones al instante", sino "una brecha significativamente menor que antes".

Soporte GGUF con Hugging Face

Este es probablemente el cambio más útil para el trabajo diario. Anteriormente, para ejecutar un modelo que no estaba en el registro oficial de Ollama, tenías que buscar soluciones alternativas. Ahora puedes tomar cualquier archivo GGUF de Hugging Face y ejecutarlo directamente.

El proceso consta de tres pasos. Primero, descargas el archivo GGUF de Hugging Face. Luego, creas un Modelfile, un archivo de texto con una sola directiva FROM que apunta a la ruta del archivo descargado:

FROM ./my-model.Q4_K_M.gguf

Y finalmente, creas y ejecutas el modelo:

ollama create my-model -f Modelfile
ollama run my-model

Presta atención al orden de los argumentos: es correcto ollama create my-model -f Modelfile, y no ollama create -f Modelfile my-model. Muchos resúmenes de la actualización lo confunden, y el comando falla con un error.

Este es el camino básico. En la práctica, surgen matices: qué cuantización elegir, cómo comprobar si el archivo admite la llamada a herramientas, qué hacer cuando el modelo no se carga. Todo esto, con ejemplos paso a paso, se encuentra en una guía separada: Cómo ejecutar modelos GGUF desde Hugging Face en Ollama.

Lo que esto aporta en la práctica: acceso a miles de modelos fine-tuned de la comunidad, la posibilidad de probar cuantizaciones experimentales y la ejecución de tus propios modelos reentrenados sin necesidad de convertirlos al formato Ollama.

Aceleración en NVIDIA: sin marketing

La afirmación oficial es un aumento de rendimiento de hasta el 20% en NVIDIA gracias a las optimizaciones de los equipos de NVIDIA y llama.cpp. La cifra es real, pero vale la pena entender el contexto antes de esperar que tu inferencia sea cinco veces más rápida.

Varias aclaraciones honestas:

"Hasta un 20%" es el límite superior en una configuración específica, no un aumento garantizado en todas partes. El benchmark oficial se realizó en Gemma 4 26B con cuantización Q4_K_M en una NVIDIA RTX 5090, una tarjeta de gama alta. Tus cifras dependerán del modelo, el tamaño del contexto y la versión actual de los drivers.
El aumento es más notable en tarjetas más nuevas, donde hay algo que optimizar para las características modernas de CUDA. En GPUs más antiguas, la diferencia puede ser menor.
En el trabajo diario, un 20% significa, hipotéticamente, 60 tok/s en lugar de 50, lo cual es agradable pero no revolucionario. Si tu cuello de botella no está en la GPU, sino en el tamaño del modelo o en el swap, no sentirás esta aceleración.

Personalmente, creo que vale la pena instalar Ollama 0.30 al menos por una mejor compatibilidad con modelos GGUF y mejoras generales de la plataforma. Si trabajas en NVIDIA, el aumento adicional de rendimiento será un bono agradable. Al mismo tiempo, no debes esperar que la actualización por sí sola resuelva el problema de la inferencia lenta en hardware débil; aquí, las características de tu equipo siguen jugando un papel clave.

Vulkan por defecto - con matices

Aquí hay la mayor confusión, así que lo explicaré en detalle. La historia de Vulkan en Ollama ha cambiado de una versión a otra, y muchas guías en Internet describen un estado obsoleto.

Cómo era: Vulkan apareció en la versión 0.12.11 (noviembre de 2025) como opt-in, es decir, había que activarlo manualmente a través de la variable OLLAMA_VULKAN=1. Esto proporcionaba una alternativa a CUDA (NVIDIA) y ROCm (AMD), especialmente útil para tarjetas AMD antiguas sin soporte ROCm y para GPUs Intel.

Cómo es ahora: según la documentación oficial de Ollama sobre hardware, Vulkan ahora está habilitado por defecto cuando se instala el backend correspondiente. En Windows, los drivers de la mayoría de los proveedores vienen con soporte Vulkan y no requieren configuración adicional.

Es decir, tanto las guías obsoletas ("Vulkan debe activarse manualmente") como los resúmenes demasiado optimistas ("Vulkan funciona en todas partes de fábrica") son imprecisos. La verdad está en el medio: por defecto, cuando hay un backend, en Windows, sin pasos adicionales; en Linux/AMD, todavía puede haber matices.

Lo que el comunicado de prensa no dice: el camino no fue fácil. Hubo un error en el que Vulkan permanecía activado incluso al intentar desactivarlo a través de OLLAMA_VULKAN=0, y en GPUs integradas débiles esto hacía que Ollama fuera *más lento* que el modo solo CPU. El equipo añadió posteriormente un control separado para iGPU (OLLAMA_IGPU_ENABLE) y desactivó la gráfica integrada por defecto precisamente por estos problemas.

Por experiencia propia, recomiendo después de la actualización no limitarse a comprobar que el modelo simplemente se inicia. Si tienes una iGPU débil o AMD en Linux, deberías asegurarte de que la inferencia realmente se está ejecutando a través de la GPU. El simple hecho de que se inicie no significa que todo esté configurado de manera óptima, y la diferencia de rendimiento entre GPU y CPU puede ser muy notable.

ollama ps
# Mira la columna PROCESSOR:
# 100% GPU  — inferencia en la tarjeta gráfica
# 100% CPU  — en el procesador
# parcialmente CPU — el modelo está haciendo swap o la GPU no se está utilizando por completo

Si ves que el Vulkan predeterminado en tu iGPU ofrece una velocidad peor que la CPU, puedes desactivar la gráfica integrada a través de una variable de entorno antes de iniciar el servidor:

OLLAMA_IGPU_ENABLE=0 ollama serve

Después de eso, vuelve a comprobar ollama ps para asegurarte de que la inferencia se está realizando como esperas. Más detalles sobre la elección de modelos para hardware débil se encuentran en el artículo Ollama en 8 GB de RAM: qué modelos funcionan en 2026.

Llamada a herramientas y agentes de codificación: ollama launch

Si un modelo GGUF admite la llamada a herramientas, esta funcionalidad se traslada a Ollama, y puedes conectar dicho modelo a tu agente de codificación favorito con un solo comando a través de ollama launch.

ollama launch es un comando que apareció antes (enero de 2026) y configura y ejecuta herramientas de codificación sin editar manualmente configuraciones y variables de entorno. Oficialmente se admiten cuatro integraciones: Claude Code, OpenCode, Codex y Droid. Qué GGUF local conectar al agente depende de cuán confiablemente el modelo llama a las herramientas; una comparación de confiabilidad está en en un artículo separado.

Ejemplo para Claude Code:

ollama launch claude

El comando te guiará interactivamente a través de la selección del modelo y lanzará la integración. Ten en cuenta: no hay un flag --model separado en la documentación; el modelo se elige durante el proceso. Si ves sintaxis como ollama launch claude --model my-model o integraciones inventadas como "hermes" en los resúmenes de la actualización, esto es impreciso, consulta la página oficial del equipo.

Para comprobar si un archivo GGUF específico admite la llamada a herramientas, busca la presencia de la capacidad tools en la salida de ollama show:

ollama show my-model

Capabilities
  completion
  tools           ← presente — el modelo admite la llamada a herramientas

Si tools no está en la sección Capabilities, el modelo no llamará a herramientas de forma nativa y no es adecuado para un agente. Cómo funciona la llamada a herramientas a nivel de API y en qué se diferencia de una simple llamada a función, se explica en el artículo Uso de herramientas vs. llamada a funciones: mecánica, JSON Schema y conexión con RAG.

Cabe mencionar por separado: junto con la versión 0.30, apareció Codex App en Ollama, una aplicación de escritorio donde puedes usar cualquier modelo de Ollama (local o en la nube) para codificar, con un navegador integrado y un modo de revisión de código.

Qué modelos son ahora más fáciles de ejecutar

La compatibilidad ampliada de GGUF significa que más familias de modelos funcionan "listas para usar". La lista incluye tanto familias grandes y conocidas como modelos fine-tuned de la comunidad:

Qwen, Gemma, DeepSeek: caballos de batalla principales de la IA local, ahora con una compatibilidad de cuantización más amplia.
gpt-oss: modelos abiertos de OpenAI.
Modelos fine-tuned de la comunidad: cualquier GGUF de Hugging Face, incluyendo entrenamientos personalizados.

Pero "más fácil de ejecutar" no significa "funciona igual de fiable en un agente": la compatibilidad ampliada se refiere a la *ejecución* del modelo, no a la calidad de su tool calling. Que un modelo se cargue y responda no garantiza que llame a las herramientas de forma estable bajo carga; este es un problema aparte que se resuelve eligiendo el modelo correcto (ver la sección anterior sobre tool calling y agentes de codificación).

¿Vale la pena actualizar a la versión 0.30?

La respuesta corta es sí, para la mayoría de los usuarios la actualización es segura y útil. Pero si "vale la pena" depende de lo que hagas exactamente.

Cómo actualizar con un solo comando (Linux): curl -fsSL https://ollama.com/install.sh | sh — sobrescribirá la versión existente por la última. En macOS/Windows, la actualización llega automáticamente a través del menú ("Restart to update"). Los modelos se conservan, no es necesario reinstalarlos. Un análisis completo, en el FAQ más abajo.

Actualízate sin duda si:

ejecutas modelos GGUF de Hugging Face o tus propios modelos fine-tuned — esta es la razón principal;
trabajas con agentes de codificación (Claude Code, Codex, OpenCode) a través de modelos locales;
tienes una NVIDIA y te encuentras con limitaciones en la velocidad de generación;
tienes una GPU AMD o Intel y quieres aceleración por GPU sin instalar manualmente bibliotecas específicas del proveedor.

Puedes no apresurarte si:

trabajas solo con modelos oficiales del registro de Ollama y todo te satisface;
tienes una iGPU débil — primero comprueba si Vulkan por defecto no ralentiza tu trabajo;
tienes un pipeline de producción en una versión antigua — primero prueba en dev, ya que el tool calling y el comportamiento de los modelos pueden cambiar entre versiones.

De experiencia personal

En mi MacBook Pro M1 de 16 GB, el escenario principal es el desarrollo local de pipelines de agentes para AskYourDocs con qwen3:8b y nomic-embed-text en paralelo. Para este escenario en Apple Silicon, el principal valor de la versión 0.30 no es Vulkan (es para GPUs de Windows/Linux) ni la aceleración NVIDIA, sino el acceso simplificado a GGUF desde Hugging Face: probar nuevas cuantizaciones y modelos fine-tuned se ha vuelto notablemente más cómodo. Si tu trabajo, como el mío, gira en torno a probar diferentes modelos para tareas específicas, este es el cambio por el que vale la pena actualizarse.

FAQ

¿Cómo actualizar Ollama a la versión 0.30?

El método depende del sistema operativo:

macOS y Windows: Ollama se actualiza automáticamente. Cuando haya una actualización disponible, haz clic en el icono en el menú (bandeja) y selecciona "Restart to update". O descarga la última versión manualmente desde el sitio web oficial.
Linux: no hay autoactualización, así que actualiza a través de la terminal, volviendo a ejecutar el script de instalación oficial: curl -fsSL https://ollama.com/install.sh | sh — sobrescribirá la versión existente por la última.
Homebrew (macOS): si lo instalaste a través de Homebrew: brew upgrade ollama.

No es necesario reinstalar los modelos existentes — se conservan en ~/.ollama/models y la actualización del binario no los elimina. Para comprobar la versión después de la actualización: ollama --version.

¿Romperá la versión 0.30 mis modelos existentes?

No, los modelos descargados seguirán funcionando. Pero si tienes un pipeline de producción con tool calling, pruébalo en dev antes de actualizar, ya que el comportamiento de los modelos y la serialización de las herramientas pueden diferir entre versiones.

¿Vulkan en la versión 0.30 realmente funciona listo para usar?

En Windows con los drivers de la mayoría de los proveedores, sí, sin pasos adicionales. En Linux/AMD puede haber matices (se requiere un driver compatible con ROCm v7). En iGPUs débiles, comprueba ollama ps después de iniciar — Vulkan por defecto a veces ralentiza el trabajo en comparación con la CPU.

¿Se puede ejecutar cualquier modelo GGUF de Hugging Face?

Sí — esta es una capacidad clave de la versión 0.30. Descargas el archivo GGUF, creas un Modelfile con FROM apuntando a la ruta del archivo y lo ejecutas a través de ollama create. Una guía paso a paso está en un artículo separado.

¿Qué tan real es la aceleración del 20% en NVIDIA?

Este es el límite superior en una configuración específica, no un aumento garantizado en todas partes. Es más notable en tarjetas más nuevas. En el trabajo diario, es un aumento agradable pero no revolucionario; si el cuello de botella no está en la GPU, no lo sentirás.

Conclusiones

Mi veredicto: en Apple Silicon, la actualización solo vale la pena por GGUF desde Hugging Face; Vulkan y la aceleración NVIDIA no tienen nada que ver aquí, así que no esperes nada de ellos en Mac.

Lo principal en la versión 0.30: una integración más estrecha con llama.cpp, que abre todo el ecosistema GGUF de Hugging Face.
Lo más útil en la práctica: ejecutar cualquier modelo GGUF con uno o dos comandos.
Vulkan por defecto: es real, pero con matices: en Windows listo para usar, en iGPUs débiles comprueba si no ralentiza.
NVIDIA hasta un 20%: límite superior, no una garantía; más notable en tarjetas más nuevas.
Actualízate si trabajas con GGUF, agentes de codificación o te encuentras con limitaciones de velocidad en NVIDIA. En producción, primero prueba en dev.

Si quieres probar inmediatamente la característica principal, ve a la guía práctica Cómo ejecutar modelos GGUF de Hugging Face en Ollama.

Categorías