Ollama 0.30: що нового — GGUF, Vulkan, llama.cpp і tool calling

Actualizado:
Ollama 0.30: що нового — GGUF, Vulkan, llama.cpp і tool calling

Ollama 0.30 вийшов з підтримкою GGUF-моделей з Hugging Face, прискоренням на NVIDIA та Vulkan, який тепер активний за замовчуванням. Це оновлення цікаве не окремими цифрами, а тим, що Ollama дедалі тісніше зростається з llama.cpp — і це впливає на те, які моделі ти зможеш запустити завтра.

Нижче — розбір без маркетингу: що реально змінилось, кому це важливо, і де є підводні камені, про які пресреліз мовчить. Якщо ще не знайомий з Ollama — почни зі вступної статті про те, що таке Ollama і навіщо вона потрібна.

Коротко: головне в 0.30 — глибша інтеграція з llama.cpp, що відкриває весь GGUF-екосистему, Vulkan за замовчуванням і помітне прискорення на NVIDIA. Для більшості користувачів найкорисніше — можливість запускати будь-яку GGUF-модель з Hugging Face однією-двома командами.

Зміст

  1. Що нового в Ollama 0.30 — коротко
  2. Глибша інтеграція з llama.cpp: чому це головне
  3. Підтримка GGUF з Hugging Face
  4. Прискорення на NVIDIA: без маркетингу
  5. Vulkan за замовчуванням — з нюансами
  6. Tool calling і coding-агенти: ollama launch
  7. Які моделі тепер простіше запускати
  8. Чи варто оновлюватись до 0.30
  9. FAQ
  10. Висновки

Що нового в Ollama 0.30 — коротко

Ollama 0.30 — це не разова нова фіча, а пакет змін навколо одного рішення: тіснішої роботи з llama.cpp поверх MLX-движка на Apple Silicon. За офіційним блогом Ollama, реліз приносить покращену продуктивність і сумісність GGUF-моделей через llama.cpp, доповнюючи MLX-движок на Apple silicon і розширюючи підтримку обладнання.

Основні зміни одним списком:

  • Підтримка GGUF з Hugging Face — можна запускати будь-яку GGUF-модель з Hugging Face або власні fine-tuned моделі через простий Modelfile. Розширена сумісність означає, що більше сімейств моделей працюють «з коробки».
  • Прискорення на NVIDIA — до 20% швидше за рахунок оптимізацій від команд NVIDIA і llama.cpp.
  • Vulkan за замовчуванням — ширша підтримка GPU AMD та Intel, коли встановлено відповідний бекенд.
  • Tool calling переноситься на coding-агенти — якщо модель підтримує виклик інструментів, її можна підключити до Claude Code, Codex чи OpenCode через ollama launch.

Далі — по кожному пункту детально, з акцентом на те, що це означає на практиці, а не в пресрелізі.

Глибша інтеграція з llama.cpp: чому це головне

llama.cpp — це низькорівневий движок для інференсу LLM, написаний на C/C++, який лежить в основі величезної частини локального AI-екосистеми. Більшість нових open-weight моделей з'являється спершу саме у форматі GGUF для llama.cpp — і лише потім потрапляє в інші інструменти.

Сам формат GGUF (GPT-Generated Unified Format) — це спосіб упаковки моделі в один файл: ваги, токенізатор і метадані разом, у вже квантизованому вигляді. Саме у цьому форматі llama.cpp зберігає моделі, і саме його тепер напряму розуміє Ollama. Простими словами: GGUF — це «контейнер» моделі, а llama.cpp — движок, що його запускає.

Hugging Face   ← де лежать GGUF-файли моделей
      ↓ завантажуєш .gguf
   GGUF         ← формат: ваги + токенізатор + метадані в одному файлі
      ↓ читає
  llama.cpp     ← движок інференсу (C/C++)
      ↓ обгортає, додає API / CLI / керування моделями
   Ollama       ← зручний шар поверх llama.cpp

Ollama завжди використовувала llama.cpp як бекенд, але в 0.30 ця інтеграція стала тіснішою. Практичний наслідок простий: чим ближче Ollama до llama.cpp, тим швидше нові моделі стають доступними в Ollama — без очікування поки команда напише окрему підтримку архітектури.

Логіка така: моделі виходять для llama.cpp першими. Тісніша інтеграція означає, що розрив між «модель з'явилась» і «модель працює в Ollama» скорочується.

Є й зворотний бік, про який варто знати чесно: Ollama використовує vendored (вбудовану) версію llama.cpp, яка не завжди встигає за найсвіжішими комітами. Історично це створювало розрив у продуктивності — наприклад, на AMD через Vulkan, де частина оптимізацій llama.cpp потрапляла в Ollama із затримкою. Тож «інтеграція з llama.cpp» не означає «миттєво всі останні оптимізації» — вона означає «значно менший розрив, ніж раніше».

Ollama 0.30: що нового — GGUF, Vulkan, llama.cpp і tool calling

Підтримка GGUF з Hugging Face

Це, мабуть, найкорисніша зміна для щоденної роботи. Раніше, щоб запустити модель якої немає в офіційному реєстрі Ollama, доводилось шукати обхідні шляхи. Тепер можна взяти будь-який GGUF-файл з Hugging Face і запустити його напряму.

Процес зводиться до трьох кроків. Спершу завантажуєш GGUF-файл з Hugging Face. Потім створюєш Modelfile — текстовий файл з однією директивою FROM, що вказує на шлях до завантаженого файлу:

FROM ./my-model.Q4_K_M.gguf

І нарешті — створюєш та запускаєш модель:

ollama create my-model -f Modelfile
ollama run my-model
Зверни увагу на порядок аргументів: правильно ollama create my-model -f Modelfile, а не ollama create -f Modelfile my-model. У багатьох переказах оновлення його плутають — і команда падає з помилкою.

Це базовий шлях. На практиці зʼявляються нюанси: яку квантизацію обрати, як перевірити чи підтримує файл tool calling, що робити коли модель не завантажується. Усе це з покроковими прикладами — в окремому гайді: Як запускати GGUF-моделі з Hugging Face в Ollama.

Що це дає на практиці: доступ до тисяч fine-tuned моделей зі спільноти, можливість тестувати експериментальні квантизації, і запуск власних дотренованих моделей без конвертації у формат Ollama.

Прискорення на NVIDIA: без маркетингу

Офіційна заявка — до 20% приросту продуктивності на NVIDIA за рахунок оптимізацій від команд NVIDIA і llama.cpp. Цифра реальна, але варто розуміти контекст, перш ніж очікувати, що твій інференс стане на п'ятину швидшим.

Кілька чесних уточнень:

  • «До 20%» — це верхня межа на конкретній конфігурації, а не гарантований приріст усюди. Офіційний бенчмарк робився на Gemma 4 26B з квантизацією Q4_K_M на NVIDIA RTX 5090 — топовій карті. Твої цифри залежатимуть від моделі, розміру контексту і поточної версії драйверів.
  • Приріст найпомітніший на новіших картах — там, де є що оптимізувати під сучасні CUDA-фічі. На старших GPU різниця може бути меншою.
  • У повсякденній роботі 20% означає, умовно, 60 tok/s замість 50 — приємно, але не революційно. Якщо у тебе вузьке місце не в GPU, а в розмірі моделі чи свопі — це прискорення ти не відчуєш.

Особисто я вважаю, що Ollama 0.30 варто встановити хоча б заради кращої сумісності з GGUF-моделями та загальних покращень платформи. Якщо ж ви працюєте на NVIDIA, то додатковий приріст продуктивності стане приємним бонусом. Водночас не варто розраховувати, що оновлення саме по собі вирішить проблему повільного інференсу на слабкому залізі — тут ключову роль, як і раніше, відіграють характеристики вашого обладнання.

Vulkan за замовчуванням — з нюансами

Тут найбільше плутанини, тому розберу детально. Історія Vulkan в Ollama змінювалась від версії до версії, і багато гайдів в інтернеті описують застарілий стан.

Як було: Vulkan з'явився у версії 0.12.11 (листопад 2025) як opt-in — його треба було вмикати вручну через змінну OLLAMA_VULKAN=1. Це давало альтернативу CUDA (NVIDIA) і ROCm (AMD), особливо корисну для старих карт AMD без підтримки ROCm та для Intel GPU.

Як стало: за офіційною документацією Ollama по обладнанню, тепер Vulkan увімкнено за замовчуванням, коли встановлено відповідний бекенд. На Windows драйвери більшості вендорів ідуть з підтримкою Vulkan і не потребують додаткового налаштування.

Тобто і застарілі гайди («Vulkan треба вмикати руками»), і надто оптимістичні перекази («Vulkan всюди працює з коробки») — обидва неточні. Правда посередині: за замовчуванням, коли є бекенд, на Windows — без зайвих кроків; на Linux/AMD — все ще можуть бути нюанси.

Про що пресреліз мовчить: шлях був нерівним. Був баг, коли Vulkan лишався увімкненим навіть при спробі відключити його через OLLAMA_VULKAN=0 — і на слабких інтегрованих GPU це робило Ollama повільнішою, ніж режим CPU-only. Команда згодом додала окреме керування iGPU (OLLAMA_IGPU_ENABLE) і відключила інтегровану графіку за замовчуванням саме через ці проблеми.

З власного досвіду раджу після оновлення не обмежуватися перевіркою того, що модель просто запускається. Якщо у вас слабкий iGPU або AMD під Linux, варто переконатися, що інференс дійсно працює через GPU. Сам факт запуску ще не означає, що все налаштовано оптимально, а різниця в продуктивності між GPU та CPU може бути дуже відчутною.

ollama ps
# Дивись на колонку PROCESSOR:
# 100% GPU  — інференс на відеокарті
# 100% CPU  — на процесорі
# частково CPU — модель свопить або GPU не задіяний повноцінно

Якщо бачиш, що дефолтний Vulkan на твоєму iGPU дає гіршу швидкість ніж CPU — інтегровану графіку можна відключити через змінну середовища перед запуском сервера:

OLLAMA_IGPU_ENABLE=0 ollama serve

Після цього знову перевір ollama ps, щоб переконатись, що інференс пішов так, як ти очікуєш. Детальніше про вибір моделей під слабке залізо — у статті Ollama на 8 ГБ RAM: які моделі працюють у 2026.

Tool calling і coding-агенти: ollama launch

Якщо GGUF-модель підтримує tool calling, ця можливість переноситься в Ollama — і таку модель можна підключити до улюбленого coding-агента однією командою через ollama launch.

ollama launch — команда, що з'явилась раніше (січень 2026) і налаштовує та запускає coding-інструменти без ручного редагування конфігів і змінних середовища. Офіційно підтримуються чотири інтеграції: Claude Code, OpenCode, Codex і Droid. Який саме локальний GGUF підключати до агента — залежить від того, наскільки надійно модель викликає інструменти; порівняння за надійністю є в окремій статті.

Приклад для Claude Code:

ollama launch claude

Команда інтерактивно проведе через вибір моделі та запустить інтеграцію. Зверни увагу: окремого флага --model у документації немає — модель обирається в процесі. Якщо бачиш у переказах оновлення синтаксис на кшталт ollama launch claude --model my-model або вигадані інтеграції типу «hermes» — це неточність, звіряйся з офіційною сторінкою команди.

Щоб перевірити, чи підтримує конкретний GGUF-файл tool calling, дивись наявність можливості tools у виводі ollama show:

ollama show my-model

Capabilities
  completion
  tools           ← є — модель підтримує виклик інструментів

Якщо tools у секції Capabilities немає — модель не викличе інструменти нативно, і для агента вона не підходить. Як саме влаштований виклик інструментів на рівні API і чим він відрізняється від простого function calling — розбір у статті Tool use vs function calling: механіка, JSON Schema і зв'язок з RAG.

Окремо варто згадати: разом з 0.30 з'явився Codex App на Ollama — десктоп-застосунок, де можна використовувати будь-яку модель Ollama (локальну чи хмарну) для кодингу, з вбудованим браузером і режимом ревʼю коду.

Які моделі тепер простіше запускати

Розширена сумісність GGUF означає, що більше сімейств моделей працюють «з коробки». До списку входять як великі відомі сімейства, так і fine-tuned моделі від спільноти:

  • Qwen, Gemma, DeepSeek — основні робочі конячки локального AI, тепер з ширшою сумісністю квантизацій.
  • gpt-oss — відкриті моделі від OpenAI.
  • Fine-tuned моделі зі спільноти — будь-який GGUF з Hugging Face, включно з нестандартними дотренуваннями.

Але «простіше запустити» не означає «однаково надійно працює в агенті»: розширена сумісність стосується запуску моделі, а не якості її tool calling. Те, що модель завантажилась і відповідає, ще не гарантує, що вона стабільно викликатиме інструменти під навантаженням — це окреме питання, яке вирішується вибором правильної моделі (див. розділ вище про tool calling і coding-агенти).

Чи варто оновлюватись до 0.30

Коротка відповідь — так, для більшості користувачів оновлення безпечне і корисне. Але «варто» залежить від того, що саме ти робиш.

Як оновити одною командою (Linux): curl -fsSL https://ollama.com/install.sh | sh — перезапише наявну версію на останню. На macOS/Windows оновлення приходить автоматично через меню («Restart to update»). Моделі зберігаються, перевстановлювати не треба. Повний розбір — у FAQ нижче.

Оновлюйся однозначно, якщо ти:

  • запускаєш GGUF-моделі з Hugging Face або власні fine-tuned — це головна причина;
  • працюєш з coding-агентами (Claude Code, Codex, OpenCode) через локальні моделі;
  • маєш NVIDIA і впираєшся у швидкість генерації;
  • маєш AMD чи Intel GPU і хочеш GPU-прискорення без ручного встановлення вендорських бібліотек.

Можна не поспішати, якщо ти:

  • працюєш тільки з офіційними моделями з реєстру Ollama і тебе все влаштовує;
  • маєш слабкий iGPU — спершу перевір, чи дефолтний Vulkan не сповільнить тобі роботу;
  • маєш продакшн-пайплайн на старій версії — спочатку протестуй на dev, бо tool calling і поведінка моделей можуть змінитись між версіями.

З особистого досвіду

На моєму MacBook Pro M1 16 ГБ основний сценарій — локальна розробка агентних пайплайнів для AskYourDocs з qwen3:8b і nomic-embed-text паралельно. Для цього сценарію на Apple Silicon головна цінність 0.30 — не Vulkan (він про Windows/Linux GPU ) і не NVIDIA-прискорення, а саме спрощений доступ до GGUF з Hugging Face: тестувати нові квантизації й fine-tuned моделі стало помітно зручніше. Якщо твоя робота, як і моя, крутиться навколо тестування різних моделей під конкретні задачі — це та зміна, заради якої варто оновитись.

FAQ

Як оновити Ollama до 0.30?

Спосіб залежить від операційної системи:

  • macOS і Windows — Ollama оновлюється автоматично. Коли зʼявиться оновлення, натисни на іконку в меню (трей) і обери «Restart to update». Або завантаж останню версію вручну з офіційного сайту.
  • Linux — автооновлення немає, тому онови через термінал, повторно запустивши офіційний install-скрипт: curl -fsSL https://ollama.com/install.sh | sh — він перезапише наявну версію на останню.
  • Homebrew (macOS) — якщо ставив через Homebrew: brew upgrade ollama.

Існуючі моделі перевстановлювати не потрібно — вони зберігаються в ~/.ollama/models і оновлення бінарника їх не видаляє. Перевірити версію після оновлення: ollama --version.

Чи зламає 0.30 мої наявні моделі?

Ні, завантажені моделі продовжать працювати. Але якщо в тебе продакшн-пайплайн з tool calling — протестуй його на dev перед оновленням, бо поведінка моделей і серіалізація tools можуть відрізнятись між версіями.

Vulkan у 0.30 справді працює з коробки?

На Windows з драйверами більшості вендорів — так, без додаткових кроків. На Linux/AMD можуть бути нюанси (потрібен ROCm v7-сумісний драйвер). На слабких iGPU перевір ollama ps після запуску — дефолтний Vulkan інколи сповільнює роботу порівняно з CPU.

Чи можна запускати будь-яку GGUF-модель з Hugging Face?

Так — це ключова можливість 0.30. Завантажуєш GGUF-файл, створюєш Modelfile з FROM на шлях до файлу, і запускаєш через ollama create. Покроковий гайд — у окремій статті.

Наскільки реальне прискорення на 20% на NVIDIA?

Це верхня межа на конкретній конфігурації, не гарантований приріст усюди. Найпомітніше на новіших картах. У повсякденній роботі — приємний, але не революційний приріст; якщо вузьке місце не в GPU, ти його не відчуєш.

Висновки

  • Мій вердикт — на Apple Silicon оновлення варте лише заради GGUF з Hugging Face; Vulkan і NVIDIA-прискорення тут ні до чого, тому не чекай від них нічого на Mac.
    • Головне в 0.30 — тісніша інтеграція з llama.cpp, що відкриває весь GGUF-екосистему Hugging Face.
    • Найкорисніше на практиці — запуск будь-якої GGUF-моделі однією-двома командами.
    • Vulkan за замовчуванням — реально, але з нюансами: на Windows з коробки, на слабких iGPU перевіряй, чи не сповільнює.
    • NVIDIA до 20% — верхня межа, не гарантія; найпомітніше на новіших картах.
    • Оновлюйся, якщо працюєш з GGUF, coding-агентами або впираєшся у швидкість на NVIDIA. На продакшні — спочатку тест на dev.

    Якщо хочеш одразу спробувати головну фічу — переходь до практичного гайда Як запускати GGUF-моделі з Hugging Face в Ollama.

    Джерела

    Останні статті

    Читайте більше цікавих матеріалів

    Як запускати GGUF-моделі з Hugging Face в Ollama

    Як запускати GGUF-моделі з Hugging Face в Ollama

    В огляді Ollama 0.30 я показав базову механіку запуску GGUF у три кроки і пообіцяв окремий розбір з усіма нюансами. Ось він. Тут — повний практичний гайд: де брати GGUF-файл, як правильно написати Modelfile, які команди виконати, як перевірити підтримку tool calling і що робити, коли модель...

    Ollama 0.30: що нового — GGUF, Vulkan, llama.cpp і tool calling

    Ollama 0.30: що нового — GGUF, Vulkan, llama.cpp і tool calling

    Ollama 0.30 вийшов з підтримкою GGUF-моделей з Hugging Face, прискоренням на NVIDIA та Vulkan, який тепер активний за замовчуванням. Це оновлення цікаве не окремими цифрами, а тим, що Ollama дедалі тісніше зростається з llama.cpp — і це впливає на те, які моделі ти зможеш запустити...

    OCR у сучасних AI-системах: від сканованих документів до RAG

    OCR у сучасних AI-системах: від сканованих документів до RAG

    Коротко OCR — це не застаріла технологія. У 2024 році ринок OCR досяг $13,95 млрд і продовжує зростати. Близько 80% корпоративних даних є неструктурованими — сканування, PDF, зображення. OCR — перший крок до їх обробки. У RAG-системах OCR виконує роль шлюзу: без...

    AI-моделі для персонажів 2026: DeepSeek, GPT-4o mini та Euryale — що обрав я

    AI-моделі для персонажів 2026: DeepSeek, GPT-4o mini та Euryale — що обрав я

    Я розробляю власну платформу для спілкування з AI-персонажами — аналог Character.ai, але з власною архітектурою пам'яті, роутингом моделей і категоріями персонажів. Одне з перших практичних питань яке постало: яку LLM використовувати і чи підходить одна модель для всіх типів...

    Claude Opus 4.8: бенчмарки, цифри та що за ними стоїть

    Claude Opus 4.8: бенчмарки, цифри та що за ними стоїть

    Опубліковано: 30 травня 2026  |  Anthropic випустила Claude Opus 4.8 і одразу опублікувала таблицю бенчмарків із 15+ метрик. На перший погляд — черговий набір відсотків і позицій у рейтингах. Але якщо читати уважно — за цими цифрами стоїть...

    Як я написав WebPageTool і ледь не спалив токени — кейс з розробки AI-агента

    Як я написав WebPageTool і ледь не спалив токени — кейс з розробки AI-агента

    Один запит користувача. Одна URL. Одинадцять викликів підряд. Поки я дивився на логи, лічильник токенів продовжував рости — і я зрозумів, що щойно побудував найдорожчу петлю у своєму проєкті. Зміст Перший тест Що таке "важка операція" в LLM і чому це важливо...