Ollama 0.30 вийшов з підтримкою GGUF-моделей з Hugging Face, прискоренням на NVIDIA та Vulkan, який тепер активний за замовчуванням. Це оновлення цікаве не окремими цифрами, а тим, що Ollama дедалі тісніше зростається з llama.cpp — і це впливає на те, які моделі ти зможеш запустити завтра.
Нижче — розбір без маркетингу: що реально змінилось, кому це важливо, і де є підводні камені, про які пресреліз мовчить. Якщо ще не знайомий з Ollama — почни зі вступної статті про те, що таке Ollama і навіщо вона потрібна.
Коротко: головне в 0.30 — глибша інтеграція з llama.cpp, що відкриває весь GGUF-екосистему, Vulkan за замовчуванням і помітне прискорення на NVIDIA. Для більшості користувачів найкорисніше — можливість запускати будь-яку GGUF-модель з Hugging Face однією-двома командами.
Зміст
- Що нового в Ollama 0.30 — коротко
- Глибша інтеграція з llama.cpp: чому це головне
- Підтримка GGUF з Hugging Face
- Прискорення на NVIDIA: без маркетингу
- Vulkan за замовчуванням — з нюансами
- Tool calling і coding-агенти: ollama launch
- Які моделі тепер простіше запускати
- Чи варто оновлюватись до 0.30
- FAQ
- Висновки
Що нового в Ollama 0.30 — коротко
Ollama 0.30 — це не разова нова фіча, а пакет змін навколо одного рішення: тіснішої роботи з llama.cpp поверх MLX-движка на Apple Silicon. За офіційним блогом Ollama, реліз приносить покращену продуктивність і сумісність GGUF-моделей через llama.cpp, доповнюючи MLX-движок на Apple silicon і розширюючи підтримку обладнання.
Основні зміни одним списком:
- Підтримка GGUF з Hugging Face — можна запускати будь-яку GGUF-модель з Hugging Face або власні fine-tuned моделі через простий Modelfile. Розширена сумісність означає, що більше сімейств моделей працюють «з коробки».
- Прискорення на NVIDIA — до 20% швидше за рахунок оптимізацій від команд NVIDIA і llama.cpp.
- Vulkan за замовчуванням — ширша підтримка GPU AMD та Intel, коли встановлено відповідний бекенд.
- Tool calling переноситься на coding-агенти — якщо модель підтримує виклик інструментів, її можна підключити до Claude Code, Codex чи OpenCode через
ollama launch.
Далі — по кожному пункту детально, з акцентом на те, що це означає на практиці, а не в пресрелізі.
Глибша інтеграція з llama.cpp: чому це головне
llama.cpp — це низькорівневий движок для інференсу LLM, написаний на C/C++, який лежить в основі величезної частини локального AI-екосистеми. Більшість нових open-weight моделей з'являється спершу саме у форматі GGUF для llama.cpp — і лише потім потрапляє в інші інструменти.
Сам формат GGUF (GPT-Generated Unified Format) — це спосіб упаковки моделі в один файл: ваги, токенізатор і метадані разом, у вже квантизованому вигляді. Саме у цьому форматі llama.cpp зберігає моделі, і саме його тепер напряму розуміє Ollama. Простими словами: GGUF — це «контейнер» моделі, а llama.cpp — движок, що його запускає.
Hugging Face ← де лежать GGUF-файли моделей
↓ завантажуєш .gguf
GGUF ← формат: ваги + токенізатор + метадані в одному файлі
↓ читає
llama.cpp ← движок інференсу (C/C++)
↓ обгортає, додає API / CLI / керування моделями
Ollama ← зручний шар поверх llama.cpp
Ollama завжди використовувала llama.cpp як бекенд, але в 0.30 ця інтеграція стала тіснішою. Практичний наслідок простий: чим ближче Ollama до llama.cpp, тим швидше нові моделі стають доступними в Ollama — без очікування поки команда напише окрему підтримку архітектури.
Логіка така: моделі виходять для llama.cpp першими. Тісніша інтеграція означає, що розрив між «модель з'явилась» і «модель працює в Ollama» скорочується.
Є й зворотний бік, про який варто знати чесно: Ollama використовує vendored (вбудовану) версію llama.cpp, яка не завжди встигає за найсвіжішими комітами. Історично це створювало розрив у продуктивності — наприклад, на AMD через Vulkan, де частина оптимізацій llama.cpp потрапляла в Ollama із затримкою. Тож «інтеграція з llama.cpp» не означає «миттєво всі останні оптимізації» — вона означає «значно менший розрив, ніж раніше».
Підтримка GGUF з Hugging Face
Це, мабуть, найкорисніша зміна для щоденної роботи. Раніше, щоб запустити модель якої немає в офіційному реєстрі Ollama, доводилось шукати обхідні шляхи. Тепер можна взяти будь-який GGUF-файл з Hugging Face і запустити його напряму.
Процес зводиться до трьох кроків. Спершу завантажуєш GGUF-файл з Hugging Face. Потім створюєш Modelfile — текстовий файл з однією директивою FROM, що вказує на шлях до завантаженого файлу:
FROM ./my-model.Q4_K_M.gguf
І нарешті — створюєш та запускаєш модель:
ollama create my-model -f Modelfile
ollama run my-model
Зверни увагу на порядок аргументів: правильно ollama create my-model -f Modelfile, а не ollama create -f Modelfile my-model. У багатьох переказах оновлення його плутають — і команда падає з помилкою.
Це базовий шлях. На практиці зʼявляються нюанси: яку квантизацію обрати, як перевірити чи підтримує файл tool calling, що робити коли модель не завантажується. Усе це з покроковими прикладами — в окремому гайді: Як запускати GGUF-моделі з Hugging Face в Ollama.
Що це дає на практиці: доступ до тисяч fine-tuned моделей зі спільноти, можливість тестувати експериментальні квантизації, і запуск власних дотренованих моделей без конвертації у формат Ollama.
Прискорення на NVIDIA: без маркетингу
Офіційна заявка — до 20% приросту продуктивності на NVIDIA за рахунок оптимізацій від команд NVIDIA і llama.cpp. Цифра реальна, але варто розуміти контекст, перш ніж очікувати, що твій інференс стане на п'ятину швидшим.
Кілька чесних уточнень:
- «До 20%» — це верхня межа на конкретній конфігурації, а не гарантований приріст усюди. Офіційний бенчмарк робився на Gemma 4 26B з квантизацією Q4_K_M на NVIDIA RTX 5090 — топовій карті. Твої цифри залежатимуть від моделі, розміру контексту і поточної версії драйверів.
- Приріст найпомітніший на новіших картах — там, де є що оптимізувати під сучасні CUDA-фічі. На старших GPU різниця може бути меншою.
- У повсякденній роботі 20% означає, умовно, 60 tok/s замість 50 — приємно, але не революційно. Якщо у тебе вузьке місце не в GPU, а в розмірі моделі чи свопі — це прискорення ти не відчуєш.
Особисто я вважаю, що Ollama 0.30 варто встановити хоча б заради кращої сумісності з GGUF-моделями та загальних покращень платформи. Якщо ж ви працюєте на NVIDIA, то додатковий приріст продуктивності стане приємним бонусом. Водночас не варто розраховувати, що оновлення саме по собі вирішить проблему повільного інференсу на слабкому залізі — тут ключову роль, як і раніше, відіграють характеристики вашого обладнання.
Vulkan за замовчуванням — з нюансами
Тут найбільше плутанини, тому розберу детально. Історія Vulkan в Ollama змінювалась від версії до версії, і багато гайдів в інтернеті описують застарілий стан.
Як було: Vulkan з'явився у версії 0.12.11 (листопад 2025) як opt-in — його треба було вмикати вручну через змінну OLLAMA_VULKAN=1. Це давало альтернативу CUDA (NVIDIA) і ROCm (AMD), особливо корисну для старих карт AMD без підтримки ROCm та для Intel GPU.
Як стало: за офіційною документацією Ollama по обладнанню, тепер Vulkan увімкнено за замовчуванням, коли встановлено відповідний бекенд. На Windows драйвери більшості вендорів ідуть з підтримкою Vulkan і не потребують додаткового налаштування.
Тобто і застарілі гайди («Vulkan треба вмикати руками»), і надто оптимістичні перекази («Vulkan всюди працює з коробки») — обидва неточні. Правда посередині: за замовчуванням, коли є бекенд, на Windows — без зайвих кроків; на Linux/AMD — все ще можуть бути нюанси.
Про що пресреліз мовчить: шлях був нерівним. Був баг, коли Vulkan лишався увімкненим навіть при спробі відключити його через OLLAMA_VULKAN=0 — і на слабких інтегрованих GPU це робило Ollama повільнішою, ніж режим CPU-only. Команда згодом додала окреме керування iGPU (OLLAMA_IGPU_ENABLE) і відключила інтегровану графіку за замовчуванням саме через ці проблеми.
З власного досвіду раджу після оновлення не обмежуватися перевіркою того, що модель просто запускається. Якщо у вас слабкий iGPU або AMD під Linux, варто переконатися, що інференс дійсно працює через GPU. Сам факт запуску ще не означає, що все налаштовано оптимально, а різниця в продуктивності між GPU та CPU може бути дуже відчутною.
ollama ps
# Дивись на колонку PROCESSOR:
# 100% GPU — інференс на відеокарті
# 100% CPU — на процесорі
# частково CPU — модель свопить або GPU не задіяний повноцінно
Якщо бачиш, що дефолтний Vulkan на твоєму iGPU дає гіршу швидкість ніж CPU — інтегровану графіку можна відключити через змінну середовища перед запуском сервера:
OLLAMA_IGPU_ENABLE=0 ollama serve
Після цього знову перевір ollama ps, щоб переконатись, що інференс пішов так, як ти очікуєш. Детальніше про вибір моделей під слабке залізо — у статті Ollama на 8 ГБ RAM: які моделі працюють у 2026.
Tool calling і coding-агенти: ollama launch
Якщо GGUF-модель підтримує tool calling, ця можливість переноситься в Ollama — і таку модель можна підключити до улюбленого coding-агента однією командою через ollama launch.
ollama launch — команда, що з'явилась раніше (січень 2026) і налаштовує та запускає coding-інструменти без ручного редагування конфігів і змінних середовища. Офіційно підтримуються чотири інтеграції: Claude Code, OpenCode, Codex і Droid. Який саме локальний GGUF підключати до агента — залежить від того, наскільки надійно модель викликає інструменти; порівняння за надійністю є в окремій статті.
Приклад для Claude Code:
ollama launch claude
Команда інтерактивно проведе через вибір моделі та запустить інтеграцію. Зверни увагу: окремого флага --model у документації немає — модель обирається в процесі. Якщо бачиш у переказах оновлення синтаксис на кшталт ollama launch claude --model my-model або вигадані інтеграції типу «hermes» — це неточність, звіряйся з офіційною сторінкою команди.
Щоб перевірити, чи підтримує конкретний GGUF-файл tool calling, дивись наявність можливості tools у виводі ollama show:
ollama show my-model
Capabilities
completion
tools ← є — модель підтримує виклик інструментів
Якщо tools у секції Capabilities немає — модель не викличе інструменти нативно, і для агента вона не підходить. Як саме влаштований виклик інструментів на рівні API і чим він відрізняється від простого function calling — розбір у статті Tool use vs function calling: механіка, JSON Schema і зв'язок з RAG.
Окремо варто згадати: разом з 0.30 з'явився Codex App на Ollama — десктоп-застосунок, де можна використовувати будь-яку модель Ollama (локальну чи хмарну) для кодингу, з вбудованим браузером і режимом ревʼю коду.
Які моделі тепер простіше запускати
Розширена сумісність GGUF означає, що більше сімейств моделей працюють «з коробки». До списку входять як великі відомі сімейства, так і fine-tuned моделі від спільноти:
- Qwen, Gemma, DeepSeek — основні робочі конячки локального AI, тепер з ширшою сумісністю квантизацій.
- gpt-oss — відкриті моделі від OpenAI.
- Fine-tuned моделі зі спільноти — будь-який GGUF з Hugging Face, включно з нестандартними дотренуваннями.
Але «простіше запустити» не означає «однаково надійно працює в агенті»: розширена сумісність стосується запуску моделі, а не якості її tool calling. Те, що модель завантажилась і відповідає, ще не гарантує, що вона стабільно викликатиме інструменти під навантаженням — це окреме питання, яке вирішується вибором правильної моделі (див. розділ вище про tool calling і coding-агенти).
Чи варто оновлюватись до 0.30
Коротка відповідь — так, для більшості користувачів оновлення безпечне і корисне. Але «варто» залежить від того, що саме ти робиш.
Як оновити одною командою (Linux): curl -fsSL https://ollama.com/install.sh | sh — перезапише наявну версію на останню. На macOS/Windows оновлення приходить автоматично через меню («Restart to update»). Моделі зберігаються, перевстановлювати не треба. Повний розбір — у FAQ нижче.
Оновлюйся однозначно, якщо ти:
- запускаєш GGUF-моделі з Hugging Face або власні fine-tuned — це головна причина;
- працюєш з coding-агентами (Claude Code, Codex, OpenCode) через локальні моделі;
- маєш NVIDIA і впираєшся у швидкість генерації;
- маєш AMD чи Intel GPU і хочеш GPU-прискорення без ручного встановлення вендорських бібліотек.
Можна не поспішати, якщо ти:
- працюєш тільки з офіційними моделями з реєстру Ollama і тебе все влаштовує;
- маєш слабкий iGPU — спершу перевір, чи дефолтний Vulkan не сповільнить тобі роботу;
- маєш продакшн-пайплайн на старій версії — спочатку протестуй на dev, бо tool calling і поведінка моделей можуть змінитись між версіями.
З особистого досвіду
На моєму MacBook Pro M1 16 ГБ основний сценарій — локальна розробка агентних пайплайнів для AskYourDocs з qwen3:8b і nomic-embed-text паралельно. Для цього сценарію на Apple Silicon головна цінність 0.30 — не Vulkan (він про Windows/Linux GPU ) і не NVIDIA-прискорення, а саме спрощений доступ до GGUF з Hugging Face: тестувати нові квантизації й fine-tuned моделі стало помітно зручніше. Якщо твоя робота, як і моя, крутиться навколо тестування різних моделей під конкретні задачі — це та зміна, заради якої варто оновитись.
FAQ
Як оновити Ollama до 0.30?
Спосіб залежить від операційної системи:
- macOS і Windows — Ollama оновлюється автоматично. Коли зʼявиться оновлення, натисни на іконку в меню (трей) і обери «Restart to update». Або завантаж останню версію вручну з офіційного сайту.
- Linux — автооновлення немає, тому онови через термінал, повторно запустивши офіційний install-скрипт:
curl -fsSL https://ollama.com/install.sh | sh — він перезапише наявну версію на останню.
- Homebrew (macOS) — якщо ставив через Homebrew:
brew upgrade ollama.
Існуючі моделі перевстановлювати не потрібно — вони зберігаються в ~/.ollama/models і оновлення бінарника їх не видаляє. Перевірити версію після оновлення: ollama --version.
Чи зламає 0.30 мої наявні моделі?
Ні, завантажені моделі продовжать працювати. Але якщо в тебе продакшн-пайплайн з tool calling — протестуй його на dev перед оновленням, бо поведінка моделей і серіалізація tools можуть відрізнятись між версіями.
Vulkan у 0.30 справді працює з коробки?
На Windows з драйверами більшості вендорів — так, без додаткових кроків. На Linux/AMD можуть бути нюанси (потрібен ROCm v7-сумісний драйвер). На слабких iGPU перевір ollama ps після запуску — дефолтний Vulkan інколи сповільнює роботу порівняно з CPU.
Чи можна запускати будь-яку GGUF-модель з Hugging Face?
Так — це ключова можливість 0.30. Завантажуєш GGUF-файл, створюєш Modelfile з FROM на шлях до файлу, і запускаєш через ollama create. Покроковий гайд — у окремій статті.
Наскільки реальне прискорення на 20% на NVIDIA?
Це верхня межа на конкретній конфігурації, не гарантований приріст усюди. Найпомітніше на новіших картах. У повсякденній роботі — приємний, але не революційний приріст; якщо вузьке місце не в GPU, ти його не відчуєш.
Висновки
Мій вердикт — на Apple Silicon оновлення варте лише заради GGUF з Hugging Face; Vulkan і NVIDIA-прискорення тут ні до чого, тому не чекай від них нічого на Mac.
- Головне в 0.30 — тісніша інтеграція з llama.cpp, що відкриває весь GGUF-екосистему Hugging Face.
- Найкорисніше на практиці — запуск будь-якої GGUF-моделі однією-двома командами.
- Vulkan за замовчуванням — реально, але з нюансами: на Windows з коробки, на слабких iGPU перевіряй, чи не сповільнює.
- NVIDIA до 20% — верхня межа, не гарантія; найпомітніше на новіших картах.
- Оновлюйся, якщо працюєш з GGUF, coding-агентами або впираєшся у швидкість на NVIDIA. На продакшні — спочатку тест на dev.
Якщо хочеш одразу спробувати головну фічу — переходь до практичного гайда Як запускати GGUF-моделі з Hugging Face в Ollama.
Джерела