Ollama на 8 ГБ RAM: які моделі працюють у 2026

Оновлено:
Запитати AI про цю статтю
Ollama на 8 ГБ RAM: які моделі працюють у 2026

Маєш ноутбук з 8 ГБ оперативної пам'яті і хочеш запустити AI локально? Ця стаття — розбір: що працює, що ледь тягне, а що навіть не варто завантажувати. Без ілюзій, з конкретними моделями та командами для кожної задачі. Якщо ще не знайомий з Ollama — почни з вступної статті про те що таке Ollama і навіщо вона потрібна.

📚 Зміст статті

🎯 Скільки RAM насправді лишається для моделі

Коротка відповідь: З 8 ГБ оперативної пам'яті для AI-моделі реально доступно 4–5 ГБ. Решту забирає операційна система, браузер і базові процеси. Це визначає головне правило: на 8 ГБ комфортно працюють моделі до 3–7B параметрів у 4-бітній квантизації.

8 ГБ RAM — це не 8 ГБ для моделі. Це 8 ГБ мінус ОС, мінус Chrome, мінус все, що ти забув закрити.

Перш ніж обирати модель, потрібно зрозуміти реальний бюджет пам'яті. Ось типовий розподіл на системі з 8 ГБ RAM:

  • ✔️ Операційна система: 1.5–2.5 ГБ (macOS ближче до 2.5, Windows — 2, Linux — 1.5)
  • ✔️ Браузер (5–10 вкладок): 1–2 ГБ
  • ✔️ IDE (VS Code / IntelliJ): 0.5–1.5 ГБ
  • ✔️ Фонові процеси: 0.3–0.5 ГБ

Залишок для моделі: 3–5 ГБ.

За даними LocalLLM.in, модель 7B параметрів у квантизації Q4_K_M займає приблизно 4–5 ГБ, плюс 1–2 ГБ на KV-кеш і системний overhead. Це означає: 7B-модель на 8 ГБ — можливо, але на межі, і краще закрити все зайве.

Практичне правило для 8 ГБ:

  • ✔️ Комфортна зона: моделі 1–3B параметрів (Q4_K_M) — залишається простір для IDE та браузера
  • ✔️ Робоча зона: моделі 7–8B параметрів (Q4_K_M) — потрібно закрити все зайве
  • Червона зона: моделі 13B+ — гарантовані зависання або swap на диск

Висновок: Перед вибором моделі закрий браузер, перевір ollama ps і подивись реальний залишок пам'яті. На 8 ГБ кожен гігабайт на вагу золота.

🎯 Для коду: яка модель замінить Copilot на 8 ГБ

Автодоповнення коду Для автодоповнення коду на 8 ГБ найкращий вибір у 2026 — Qwen3.5:4b або Phi-4 Mini (3.8B) у квантизації Q4_K_M. Qwen3.5:4b вийшов у березні 2026 і витіснив Qwen 2.5 Coder як головну рекомендацію: нативний мультимодал, thinking mode і 256K контекст — при тій самій вимозі до пам'яті ~2.5 ГБ.

GitHub Copilot коштує $10/місяць. Локальна модель для коду — $0/місяць і працює офлайн. Питання лише в тому, яка модель потягне на твоєму залізі.

Кодинг — задача, де навіть маленькі моделі можуть бути корисними. Автодоповнення, генерація функцій, пояснення коду, написання тестів — для цього не потрібна GPT-4, потрібна швидка і точна модель, яка розуміє синтаксис.

Топ моделей для коду на 8 ГБ

1. Qwen3.5:4b (Q4_K_M) — ~2.5 ГБ RAM

Вийшов 2 березня 2026 у складі малої серії Qwen3.5 (0.8B, 2B, 4B, 9B). Порівняно з попередником Qwen 2.5 Coder 3B — це якісний стрибок при тій самій вимозі до пам'яті. Модель нативно мультимодальна (текст, зображення, відео), підтримує thinking mode і нативний tool calling, а контекстне вікно 256K токенів покриває більшість реальних кодових баз. Ліцензія Apache 2.0 — безкоштовно для комерційного використання. Якщо мультимодальність не потрібна і хочеш максимум саме на кодових бенчмарках — розглянь qwen3:4b (квітень 2026): за даними Ollama Library, Qwen3-4B за якістю відповідей наближається до Qwen2.5-72B-Instruct при розмірі 2.5 ГБ.

ollama pull qwen3.5:4b
ollama run qwen3.5:4b "Напиши функцію сортування масиву на Python"

# Альтернатива — чистий код, без мультимодальності
ollama pull qwen3:4b
ollama run qwen3:4b "Знайди помилку у цьому Java-коді: ..."

⚠️ Примітка про thinking mode: у Qwen3.5:4b thinking mode доступний за командою /think у чаті Ollama. Для автодоповнення і швидких відповідей використовуй /no_think — модель відповідає вдвічі швидше без втрати якості на простих задачах.

2. Phi-4 Mini (3.8B) — ~2.3 ГБ RAM

За даними SitePoint, Phi-4 Mini — одна з небагатьох моделей, яка комфортно працює на системах з 8 ГБ, видаючи 15–20 токенів/сек на M1 MacBook Air або бюджетному Linux-ноутбуці. Добре справляється з автодоповненням, простими поясненнями та легкими чат-задачами.

ollama pull phi4-mini
ollama run phi4-mini "Поясни різницю між HashMap і TreeMap у Java"

3. DeepSeek Coder 1.3B (Q4_K_M) — ~1 ГБ RAM

Найлегша модель для коду. Ідеальна для автодоповнення в IDE — швидка, не навантажує систему, можна тримати запущеною у фоні разом з VS Code, браузером і терміналом. Якщо основна задача — inline autocomplete, а не повноцінний чат, ця модель і досі актуальна.

ollama pull deepseek-coder:1.3b
ollama run deepseek-coder:1.3b

Що обрати?

  • DeepSeek Coder 1.3B — автодоповнення у фоні, робота з відкритим браузером
  • Qwen3.5:4b — генерація функцій, пояснення коду, аналіз скріншотів UI
  • Qwen3:4b — максимум на кодових задачах без мультимодальності
  • Phi-4 Mini — універсальна модель для коду та текстових задач

Висновок: На 8 ГБ можна кодити з локальним AI. Qwen3.5:4b — найбільший апгрейд у цій категорії за останні місяці: та сама вимога до пам'яті що і в Qwen 2.5 Coder 3B, але thinking mode, 256K контекст і нативна мультимодальність у комплекті. Не чекай якості GPT-4 — але для щоденного автодоповнення, генерації бойлерплейту і пояснень коду цього більш ніж достатньо.

🎯 Для тексту і спілкування: чат, переклад

Для текстових задач Для текстових задач на 8 ГБ оптимальний вибір — Llama 3.2 3B для загального чату, Gemma 4 E4B для балансу якості і мультимодальності, або Phi-4 Mini якщо потрібна аналітика і робота на CPU. Всі три залишають місце для іншого софту і стабільно працюють без апгрейду заліза.

Не кожна задача вимагає GPT-4. Резюмувати текст, відповісти на питання, переказати статтю — з цим справляється модель, яка важить менше ніж один фільм у 4K.

Текстові задачі — найширша категорія: від простого чату до аналізу документів і перекладу. На 8 ГБ тут є з чого обирати. Якщо ти вже завантажив qwen3.5:4b з попереднього розділу — він чудово справляється і з текстовими задачами завдяки нативній мультимодальності і 256K контексту. Але якщо шукаєш спеціалізовану рекомендацію саме для тексту, ось актуальний список.

Топ моделей для тексту на 8 ГБ

1. Llama 3.2 3B (Q4_K_M) — ~2 ГБ RAM

За даними StudyHUB, Llama 3.1/3.2 — найпопулярніша модель на Ollama з понад 111 мільйонами завантажень. Версія 3B — полегшена, але зберігає якість у загальних розмовах, резюмуванні і відповідях на питання. Підтримує 8 мов. Невеликий Llama 4 Scout, що вийшов у 2026, є MoE-моделлю від 17B активних параметрів — для 8 ГБ він не підходить, тому Llama 3.2 3B залишається найкращим вибором у сімействі.

ollama pull llama3.2:3b
ollama run llama3.2:3b "Перекажи основну думку цього тексту: ..."

2. Gemma 4 E4B (Q4_K_M) — ~3 ГБ RAM

Модель від Google DeepMind, вийшла у квітні 2026. На відміну від старої Gemma 2B — повноцінна мультимодальна модель: приймає текст і зображення, має thinking mode для складніших задач і 128K контекстне вікно. При цьому комфортно влазить в 8 ГБ, залишаючи простір для IDE та браузера. Якщо раніше використовував gemma:2b — E4B це пряма заміна з суттєво кращою якістю. Детальніше про архітектуру і розміри моделей — у статті Gemma 4: повний огляд — розміри, ліцензія, Ollama.

ollama pull gemma4:e4b
ollama run gemma4:e4b "Склади короткий опис для цього товару: ..."

⚠️ Примітка: якщо потрібен абсолютний мінімум RAM і старий gemma:2b (~1.6 ГБ) тебе влаштовував — він все ще доступний. Але для нових інсталяцій рекомендую одразу E4B. Thinking mode у Gemma 4 можна вмикати і вимикати — як це працює і коли варто вимкнути, читай у статті Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує.

3. Phi-4 Mini (3.8B) — ~2.3 ГБ RAM

За даними LocalAIMaster, Phi-4 Mini — одна з небагатьох 3–4B моделей, що за результатами MMLU наближається до Llama 3.1 8B, використовуючи при цьому на 40% менше пам'яті. Контекстне вікно 128K токенів дозволяє аналізувати довгі документи — суттєвий апгрейд порівняно з Phi-3 Mini. За даними PromptQuorum, на CPU i7-12700 без GPU модель видає 12 токенів/сек — найкращий показник серед CPU-only сценаріїв у своєму класі. Підходить для Raspberry Pi 4/5 і будь-якого ноутбука без дискретної графіки.

ollama pull phi4-mini
ollama run phi4-mini "Переклади українською: The quick brown fox jumps over the lazy dog"

Що обрати?

  • ✔️ Загальний чат і питання-відповіді → Llama 3.2 3B
  • ✔️ Мультимодальність (текст + зображення) і кращу якість → Gemma 4 E4B
  • ✔️ Аналітика, довгі документи і CPU-only → Phi-4 Mini
  • ✔️ Один інструмент для коду і тексту → Qwen3.5:4b (див. попередній розділ)

Висновок: Для текстових задач 8 ГБ — комфортна територія. Моделі 2–4B працюють швидко, залишають простір для інших програм і дають якість, достатню для більшості щоденних потреб. Phi-4 Mini замінила Phi-3 Mini як стандарт у CPU-only сценаріях: краща якість, 128K контекст, та сама вимога до пам'яті.

🎯 Для reasoning, логіка, дебаг коду

Для задач, що вимагають покрокового мислення — математика, логічні задачі, дебаг складного коду — на 8 ГБ є три реальних варіанти: DeepSeek R1 8B як класична «думаюча» модель, Qwen3:8b для мультимовного reasoning, і Phi-4 Mini Reasoning як легший варіант з повноцінним chain-of-thought лише за ~2.3 ГБ RAM.

Звичайна модель відповідає одразу. Reasoning-модель спочатку думає — крок за кроком — а потім відповідає. Як різниця між «відповісти навмання» і «порахувати на папері».

Reasoning-моделі — відносно нова категорія. Вони працюють за принципом chain-of-thought: розбивають задачу на кроки, перевіряють проміжні результати, і лише потім формують фінальну відповідь. У 2026 ця категорія суттєво розширилась: reasoning-режим тепер є не тільки у важких 8B-моделях, але й у компактних 3–4B варіантах.

Що працює на 8 ГБ

1. DeepSeek R1 8B (Q4_K_M) — ~5 ГБ RAM

За даними StudyHUB, DeepSeek R1 — «думаюча» модель, аналог OpenAI o1. На задачах з математикою, логічними пазлами і технічним reasoning дає результати кращі за Llama 3.1 того ж розміру. Перед фінальною відповіддю генерує видимі кроки міркування у тегах <think> — корисно для дебагу, щоб зрозуміти, чому модель дійшла саме до такого висновку. Компроміс: відповідає повільніше і потребує майже всієї доступної пам'яті на 8 ГБ системі.

ollama pull deepseek-r1:8b
ollama run deepseek-r1:8b "Знайди помилку у цьому SQL-запиті: SELECT * FROM users WHERE id = '5' AND active = true GROUP HAVING count > 1"

⚠️ Важливо: DeepSeek R1 8B займає ~5 ГБ RAM. На системі з 8 ГБ це на межі — потрібно закрити браузер, IDE і все зайве. На macOS з unified memory працює стабільніше, ніж на Windows з інтегрованою графікою.

2. Qwen3:8b (Q4_K_M) — ~4.6 ГБ RAM

За даними LocalLLM.in, Qwen3:8b — сильна альтернатива для reasoning-задач, особливо у математиці і мультимовних сценаріях. Підтримує thinking mode в Ollama: можна вмикати через /think і вимикати через /no_think прямо у чаті — без перезавантаження моделі. Якщо плануєш оновитись — qwen3.5:9b (березень 2026) побудований на тій самій архітектурі, але з покращеним RL і нативною мультимодальністю, при схожих вимогах до RAM.

ollama pull qwen3:8b
ollama run qwen3:8b "Розв'яжи: якщо 3x + 7 = 22, чому дорівнює x?"

# Свіжіша альтернатива з мультимодальністю
ollama pull qwen3.5:9b

3. Phi-4 Mini Reasoning (3.8B) — ~2.3 ГБ RAM

Спеціалізований reasoning-варіант від Microsoft, доступний в Ollama як phi4-mini-reasoning. За даними Morph, це єдина повноцінна reasoning-модель для 8 ГБ, яка залишає простір для паралельної роботи IDE та браузера. Розроблена спеціально для багатокрокового розв'язання математичних задач у пам'яттєво-обмежених середовищах: символьні обчислення, формальні докази, складні текстові умови. На відміну від DeepSeek R1 8B — займає вдвічі менше пам'яті і залишає систему відзивчивою. На складних задачах поступається 8B-моделям, але на щоденному дебазі та аналітиці цього достатньо.

ollama pull phi4-mini-reasoning
ollama run phi4-mini-reasoning "Знайди складність алгоритму і поясни покроково: ..."

Що обрати?

  • ✔️ Дебаг коду і логічні задачі → DeepSeek R1 8B
  • ✔️ Математика і мультимовний reasoning → Qwen3:8b або Qwen3.5:9b
  • ✔️ Reasoning з відкритим IDE і браузером → Phi-4 Mini Reasoning (~2.3 ГБ, повноцінний chain-of-thought)

Висновок: Reasoning на 8 ГБ у 2026 — вже не тільки «на межі комфорту». Phi-4 Mini Reasoning дозволяє отримати покрокове мислення при ~2.3 ГБ RAM — без необхідності закривати все зайве. Для складніших задач DeepSeek R1 8B і Qwen3:8b залишаються стандартом, але вимагають майже всієї доступної пам'яті. Якщо плануєш регулярно працювати з важкими reasoning-задачами — апгрейд до 16 ГБ відкриє доступ до 14B-класу, де різниця у якості вже суттєва.

Ollama на 8 ГБ RAM: які моделі працюють у 2026

🎯 CPU vs GPU vs Apple Silicon — де 8 ГБ це різні 8 ГБ

8 ГБ на Mac M1 і 8 ГБ на Windows-ноутбуці з Intel — це два різних досвіди. Apple Silicon використовує unified memory, де вся пам'ять доступна і CPU, і GPU одночасно. На звичайному ПК RAM і VRAM — окремі пули, і для AI-моделей це критично.

Mac M1 з 8 ГБ — це повноцінна робоча станція для локального AI. Windows-ноутбук з 8 ГБ і Intel HD Graphics — це боротьба за кожен мегабайт.

Apple Silicon (M1/M2/M3/M4) — найкращий сценарій для 8 ГБ

На Apple Silicon вся оперативна пам'ять — unified memory. Це означає, що GPU-частина чіпа має доступ до тих самих 8 ГБ, що і CPU. Ollama автоматично використовує Metal для прискорення — без додаткових налаштувань.

Результат: 7B-модель у Q4_K_M на M1 з 8 ГБ видає 15–20 токенів/сек — достатньо для комфортного інтерактивного використання. За даними SitePoint, Phi-4 Mini на M1 MacBook Air — це приблизно 15–20 tok/s, що достатньо для щоденної роботи.

⚠️ Примітка про MLX: У березні 2026 Ollama 0.19 перейшов на MLX-бекенд від Apple, який дає до 2x приросту швидкості на Apple Silicon. Однак за даними RunAIHome, MLX наразі вимагає мінімум 32 ГБ unified memory — Mac з 8 ГБ і 16 ГБ залишаються на попередньому Metal-бекенді без змін у швидкості. Якщо плануєш апгрейд до Mac з 32 ГБ+ — MLX буде відчутним бонусом. Якщо залишаєшся на 8 ГБ — цифри у таблиці нижче залишаються актуальними.

Windows / Linux з дискретним GPU (RTX 3060, RTX 4060) — хороший сценарій

Якщо є дискретна відеокарта з 6–8 ГБ VRAM — модель повністю завантажується в GPU-пам'ять, і системна RAM залишається для ОС і софту. За даними LocalLLM.in, на RTX 4060 (8 ГБ VRAM) 7B-модель видає 40+ токенів/сек — найшвидший варіант із усіх.

Windows / Linux без GPU (Intel HD / AMD Radeon iGPU) — складний сценарій

Без дискретного GPU модель працює повністю на CPU. Ollama все одно запуститься — але швидкість падає до 3–6 токенів/сек для 7B-моделей. Для легших 3B-моделей (Phi-4 Mini, Llama 3.2 3B) реальна швидкість на сучасному CPU складає 10–12 tok/s — цілком прийнятно для щоденних задач. За даними LocalLLM.in, CPU-only inference прийнятний для пакетних задач, але фруструє при інтерактивному використанні з великими моделями.

Плюс системна RAM ділиться між ОС, софтом і моделлю — на 8 ГБ це дуже тісно.

Зведена таблиця

Платформа 7B модель (Q4) 3B модель (Q4) Швидкість Комфорт
Mac M1/M2/M3/M4 8 ГБ (Metal) ✔️ Працює ✔️ Комфортно 15–20 tok/s ⭐⭐⭐⭐
Windows + RTX 4060 8 ГБ VRAM ✔️ Працює швидко ✔️ Комфортно 40+ tok/s ⭐⭐⭐⭐⭐
Windows/Linux CPU only 8 ГБ (7B) ⚠️ На межі ✔️ Працює 3–6 tok/s ⭐⭐
Windows/Linux CPU only 8 ГБ (3B) ✔️ Комфортно 10–12 tok/s ⭐⭐⭐

Висновок: Якщо у тебе Mac M1+ з 8 ГБ — ти у найкращій позиції для локального AI на бюджетному залізі. Новий MLX-бекенд Ollama дає 2x приріст, але поки вимагає 32 ГБ+ — для 8 ГБ Mac швидкість залишається незмінною. Якщо Windows без GPU — фокусуйся на 3B-моделях: вони дають 10–12 tok/s на CPU і залишають систему відзивчивою. Детальніше про встановлення на різних ОС — у статті Як встановити Ollama на Mac, Windows і Linux.

🎯 Квантизація простими словами: Q4 vs Q8 і що обрати на слабкому залізі

Коротка відповідь: Квантизація — це стиснення моделі, яке зменшує її розмір у 2–4 рази з мінімальною втратою якості. На 8 ГБ оптимальний вибір — Q4_K_M: найкращий баланс між розміром, швидкістю і якістю відповідей.

Квантизація — це як JPEG для фото. Файл менший, різниця майже непомітна. Але якщо стиснути занадто сильно — якість помітно впаде.

Коли ти бачиш у назві моделі на Ollama теги типу :7b-q4_0, :8b-instruct-q8_0 або :3b-q4_k_m — це позначення рівня квантизації. Число після «q» — кількість біт на один параметр.

Рівні квантизації: що означають теги

  • ✔️ Q8 (8-біт): максимальна якість, найбільший розмір. Для 7B-моделі — ~8 ГБ. На 8 ГБ RAM не влізе.
  • ✔️ Q5_K_M (5-біт): проміжний варіант між Q4 і Q8. Для 7B — ~5.5 ГБ. На 8 ГБ RAM підходить лише якщо є GPU з 6–8 ГБ VRAM і потрібна вища точність.
  • ✔️ Q4_K_M (4-біт, K-quant medium): оптимальний баланс. Для 7B — ~4–5 ГБ. Рекомендований для 8 ГБ систем.
  • ✔️ Q4_K_S (4-біт, K-quant small): трохи менший за Q4_K_M, трохи нижча якість.
  • ✔️ IQ4_XS (importance matrix, 4-біт): новіший формат 2025–2026 років. За даними RunAIHome, дає майже таку саму якість як Q4_K_M, але займає на ~400 МБ менше для 8B-моделі. Корисний коли Q4_K_M ледь не влазить. Доступний як тег на Hugging Face, не завжди присутній в Ollama Library.
  • ⚠️ Q2_K (2-біт): мінімальний розмір (~2.5 ГБ для 7B), але помітна деградація якості. Крайній варіант.

Суфікс «K» означає новіші методи квантизації (K-quant), які розумніше розподіляють точність між шарами моделі. K-quant-теги завжди кращі за legacy-варіанти (q4_0, q4_1) при тому самому розмірі.

Скільки важать моделі різних квантизацій

Модель Q8 Q4_K_M Q2_K
Phi-4 Mini (3.8B) 4.1 ГБ 2.3 ГБ 1.3 ГБ
Llama 3.2 (3B) ~3.3 ГБ ~2.0 ГБ ~1.1 ГБ
Qwen3:8b ~9 ГБ ~4.6 ГБ ~2.5 ГБ
Mistral 7B ~8 ГБ ~4.1 ГБ ~2.8 ГБ

Дані за LocalAIMaster та RunAIHome.

Правило для 8 ГБ: завжди обирай Q4_K_M. Якщо не влазить — знижуй розмір моделі (3B замість 7B), а не рівень квантизації (Q2 замість Q4). Менша модель з Q4 дасть кращу якість, ніж більша з Q2. Виняток: якщо Q4_K_M буквально не влазить на 100–400 МБ — спробуй IQ4_XS, якщо такий тег є для потрібної моделі на Hugging Face.

Детальніше про техніки стиснення і їхній вплив на якість — у статті Квантизація моделей: INT4, INT8 — що це і як впливає на якість.

Висновок: Q4_K_M — золотий стандарт для 8 ГБ і у 2026 це не змінилось. Не піддавайся спокусі завантажити Q8 «для якості» — модель не влізе в пам'ять і ти отримаєш swap на диск. Єдина нова опція на горизонті — IQ4_XS: чуть менший розмір при збереженні якості, але поки не для кожної моделі.

🎯 Налаштування Ollama для максимуму на слабкому залізі

П'ять змінних середовища і одна звичка (закривати зайве) — це все, що потрібно, щоб вичавити максимум із 8 ГБ. Налаштування займає хвилину, а різниця у стабільності — відчутна.

На потужному залізі Ollama «просто працює». На слабкому — потрібно допомогти їй не витрачати пам'ять на те, що тобі не потрібно.

За замовчуванням Ollama може тримати в пам'яті кілька моделей одночасно і обробляти паралельні запити. На 8 ГБ це зайва розкіш. Ось мінімальний набір оптимізацій:

Базові змінні середовища

# Тримати в пам'яті лише одну модель (за замовчуванням може бути більше)
export OLLAMA_MAX_LOADED_MODELS=1

# Один паралельний запит (без конкуренції за пам'ять)
export OLLAMA_NUM_PARALLEL=1

# Зменшити вікно контексту — економить 200–800 МБ RAM
export OLLAMA_CTX_SIZE=2048

Нові змінні для GPU / Apple Silicon (Ollama 0.19+)

Якщо запускаєш Ollama на GPU (NVIDIA, AMD) або Apple Silicon (M1+) — додатково встанови ці дві змінні. Вони зменшують KV-кеш вдвічі без помітної втрати якості для більшості задач.

# Flash Attention — обов'язкова передумова для KV-кеш квантизації
export OLLAMA_FLASH_ATTENTION=1

# KV-кеш у 8-біт — вдвічі менше RAM на кеш при мінімальній втраті якості
export OLLAMA_KV_CACHE_TYPE=q8_0

⚠️ Важливо: за даними ModelPiper, OLLAMA_KV_CACHE_TYPE працює лише якщо увімкнений OLLAMA_FLASH_ATTENTION=1 — без нього змінна ігнорується. Для CPU-only систем ці дві змінні не дадуть ефекту. На Apple Silicon Metal-бекенд (8 ГБ Mac) може давати 5–10% повільнішу генерацію, але значно кращу стабільність при довгих контекстах.

На macOS / Linux додай усі рядки у ~/.zshrc або ~/.bashrc. На Windows — задай через системні змінні середовища або PowerShell-профіль.

Перед запуском моделі

Звучить банально, але на 8 ГБ це критично:

  • ✔️ Закрий браузер або залиш максимум 2–3 вкладки
  • ✔️ Закрий Slack, Discord, Spotify — кожна програма з'їдає 200–500 МБ
  • ✔️ Перевір поточне використання: ollama ps покаже завантажені моделі
  • ✔️ Якщо стара модель ще в пам'яті — ollama stop назва_моделі

Modelfile для тонкого налаштування

Якщо хочеш більше контролю — створи Modelfile з оптимізованими параметрами:

FROM phi4-mini
PARAMETER num_ctx 2048
PARAMETER num_thread 4
PARAMETER temperature 0.7

num_ctx 2048 — зменшує вікно контексту (менше RAM на KV-кеш). num_thread 4 — обмежує кількість потоків CPU, щоб система залишалася відзивчивою.

Покроковий гайд по встановленню і першому запуску — у статті Як встановити Ollama на Mac, Windows і Linux: повний гайд 2026.

Висновок: Три базові змінні + закриті зайві програми = стабільна робота на 8 ГБ. Якщо є GPU або Apple Silicon — додай OLLAMA_FLASH_ATTENTION=1 і OLLAMA_KV_CACHE_TYPE=q8_0: за даними офіційної документації Ollama, це вдвічі зменшує витрати пам'яті на KV-кеш при мінімальній втраті якості. Без базових налаштувань навіть легка модель може спричинити swap на диск.

🎯 Що НЕ варто пробувати на 8 ГБ — мій досвід

Коротка відповідь: Моделі 13B+, будь-які моделі у Q8-квантизації, і спроби запустити дві моделі одночасно — гарантоване розчарування на 8 ГБ. Я перевірив це на своєму Mac M1 — щоб вам не довелося.

Кожен, хто працював з Ollama на 8 ГБ, проходив через один і той самий етап: «А може 13B все-таки влізе?» Ні, не влізе. Я перевірив.

Працюючи з Ollama на Mac M1 з 8 ГБ unified memory, я тестував десятки моделей різних розмірів. Ось чесний список того, що не працює — або працює настільки погано, що краще б не працювало.

❌ Моделі 13B і більше

Llama 3.3 13B, Qwen3 14B, CodeLlama 13B — навіть у Q4-квантизації вони потребують 8–9 ГБ лише на ваги моделі. Додай KV-кеш, ОС, і ти отримаєш систему, яка безперервно свопить на диск. Я спробував запустити Llama 3.1 13B Q4 — перші 5 хвилин вона завантажувалася, потім видавала 1–2 токени на секунду з постійними паузами. Це непрацездатно для інтерактивного використання.

❌ Будь-яка 7B-модель у Q8-квантизації

Q8-версія 7B-моделі важить близько 8 ГБ — це вся твоя оперативна пам'ять. ОС не зникає магічно. Я пробував Mistral 7B Q8 — система зависла через хвилину після старту. Завжди використовуй Q4_K_M для 7B-моделей на 8 ГБ.

❌ Дві моделі одночасно

Ollama може тримати кілька моделей у пам'яті. На 16 ГБ це зручно — переключаєшся між моделями миттєво. На 8 ГБ це рецепт для swap-шторму. Тримай OLLAMA_MAX_LOADED_MODELS=1 і не забувай ollama stop перед завантаженням іншої моделі.

❌ Великі контекстні вікна (8K+ токенів)

Кожне подвоєння контекстного вікна — це додаткові сотні мегабайт на KV-кеш. На 8 ГБ тримай контекст на 2048–4096 токенів максимум. Передати модель 10-сторінковий документ цілком — не вийде, потрібно розбивати на частини. Частково допомагає OLLAMA_FLASH_ATTENTION=1 + OLLAMA_KV_CACHE_TYPE=q8_0 з секції налаштувань — вони зменшують KV-кеш вдвічі і дозволяють впевненіше працювати на рівні 4096 токенів. Але 8K+ на 8 ГБ лишається зоною ризику.

❌ MoE-моделі з великим footprint (Mixtral, Llama 4 Scout, Qwen3.6)

MoE-архітектура (Mixture of Experts) вводить в оману назвами. Mixtral 8x7B активує лише 2 з 8 «експертів» на кожен токен — але всі 8 мають бути в пам'яті одночасно, і це 26+ ГБ у Q4. Те саме стосується нових моделей 2026 року: Llama 4 Scout виглядає як «17B», але реально потребує ~10 ГБ у Q4 — за межею 8 ГБ. Qwen3.6 35B-A3B активує лише 3B параметрів на токен, але тримає в пам'яті усі 35B — це 24 ГБ. Правило просте: дивись на загальний розмір моделі в Ollama Library, а не на кількість активних параметрів.

❌ Thinking mode без ліміту контексту

Qwen3:8b, Qwen3.5:9b і Phi-4 Mini Reasoning генерують «thinking tokens» перед фінальною відповіддю — інколи тисячі токенів внутрішніх міркувань. На складних задачах thinking chain може займати 2000–5000 токенів ще до того, як модель почне відповідати. Разом із великим контекстом це переповнює KV-кеш непомітно: модель просто сповільнюється або починає свопити. Рішення: тримай OLLAMA_CTX_SIZE=2048 і вимикай thinking mode командою /no_think для простих задач, де покрокове мислення не потрібне.

Загальне правило: якщо ollama run завантажується довше 30 секунд і перша відповідь приходить через хвилину — модель занадто велика для твоєї системи. Не чекай, що «розігріється» — закрий і візьми модель меншого розміру.

Порівняння моделей за розміром, якістю і задачами — у статті Топ-10 моделей Ollama у 2026: яку вибрати.

Висновок: Я сам пройшов через це — думав, що більша модель дасть кращий результат, скачав 13B, почекав хвилину на першу відповідь і видалив. Встановив 3B — і продуктивність одразу зросла. На 8 ГБ краща стратегія — обрати модель, яка працює швидко і стабільно, ніж мучитися з тією, що «майже влазить». У 2026 додалась ще одна пастка — thinking mode: нові моделі думають вголос і тихо з'їдають твій контекст ще до першого слова відповіді.

🎯 Тести: що очікувати на практиці

Коротка відповідь: На Mac M1 8 ГБ модель 3B видає 20–30 токенів/сек, модель 7–9B — 10–15 tok/s. На CPU-only Windows — вдвічі-втричі повільніше для великих моделей, але 3B-моделі на сучасних CPU дають 10–12 tok/s — вже комфортно. Нижче — зведена таблиця для орієнтації.

Бенчмарки в інтернеті часто зроблені на чистій системі без іншого софту. У реальності — з відкритим VS Code і 5 вкладками Chrome — цифри будуть нижчі. Тому ці тести ближчі до реальності.

Зведена таблиця продуктивності

Модель RAM Mac M1 8 ГБ CPU-only 8 ГБ RTX 4060 8 ГБ VRAM
Llama 3.2 3B (Q4) ~2 ГБ ~28 tok/s ~9 tok/s ~48 tok/s
Phi-4 Mini 3.8B (Q4) ~2.3 ГБ ~22 tok/s ~12 tok/s ~45 tok/s
Qwen3.5:4b (Q4) ~2.5 ГБ ~21 tok/s ~8 tok/s ~42 tok/s
Gemma 4 E4B (Q4) ~3 ГБ ~22 tok/s ~7 tok/s ~42 tok/s
Qwen3:8b (Q4) ~4.6 ГБ ~11 tok/s ~4 tok/s ~38 tok/s
DeepSeek R1 8B (Q4) ~5 ГБ ~10 tok/s ~3 tok/s ~35 tok/s

Дані орієнтовні, базовані на результатах LocalLLM.in, SitePoint та LocalAIMaster. Реальна швидкість залежить від навантаження системи, розміру контекстного вікна та фонових процесів. Для GPU і Apple Silicon ввімкнення OLLAMA_FLASH_ATTENTION=1 може дати додатковий приріст на довгих контекстах.

Що означають ці цифри на практиці?

  • ✔️ 15+ tok/s: комфортний інтерактивний чат — відповідь з'являється швидше, ніж ти встигаєш прочитати
  • ✔️ 8–15 tok/s: працювати можна, але відчувається затримка на довгих відповідях
  • ⚠️ 3–6 tok/s: прийнятно для одноразових задач (дебаг, аналіз), фрустрація при активному чаті
  • <3 tok/s: модель занадто велика для цієї системи

Висновок: Для щоденної роботи на 8 ГБ орієнтуйся на 3–4B-моделі — вони дають 20+ tok/s на Apple Silicon і 8–12 tok/s на CPU, залишаючи систему відзивчивою. Phi-4 Mini виділяється найкращим CPU-показником у своєму класі (~12 tok/s) — суттєво краще за Phi-3 Mini, яку вона замінила. 7–9B-моделі (Qwen3:8b, DeepSeek R1 8B) — для конкретних задач, коли готовий закрити все зайве і почекати.

❓ Часті питання (FAQ)

Чи можна запустити Ollama на ноутбуці з 8 ГБ RAM?

Так. Моделі 1–4B параметрів (Phi-4 Mini, Llama 3.2 3B, Gemma 4 E4B) працюють комфортно на будь-якій системі з 8 ГБ. Моделі 7–9B працюють на межі — потрібно закрити зайві програми. Детальніше — у гайді зі встановлення Ollama.

Яка найкраща модель для 8 ГБ RAM?

Залежить від задачі. Для коду — Qwen3.5:4b або Qwen3:4b. Для тексту і чату — Llama 3.2 3B або Gemma 4 E4B. Для reasoning і дебагу — DeepSeek R1 8B (на межі 8 ГБ) або Phi-4 Mini Reasoning (~2.3 ГБ, легший варіант з chain-of-thought). Один інструмент для всього — Qwen3.5:4b: мультимодальний, 256K контекст, thinking mode. Повне порівняння моделей — у статті Топ-10 моделей Ollama у 2026.

Чи потрібен GPU для Ollama?

Ні, Ollama працює і на CPU. Але з GPU (дискретним або Apple Silicon) швидкість вища у 3–10 разів. На CPU-only системі з 8 ГБ тримайся моделей 3B і менше для комфортної роботи. Phi-4 Mini — найкращий вибір для CPU-only: ~12 tok/s на сучасному i7 без жодного GPU.

Що краще: модель 7B у Q2 чи 3B у Q4?

Майже завжди — 3B у Q4. Агресивна квантизація (Q2) суттєво знижує якість відповідей, особливо на складних задачах. Менша модель з нормальною квантизацією дасть кращий результат. Якщо Q4_K_M буквально не влазить на кілька сотень МБ — спробуй IQ4_XS для тієї самої моделі, якщо такий тег є на Hugging Face.

Чи може Ollama на 8 ГБ замінити ChatGPT?

Для щоденних задач — резюмування, прості питання, генерація коду — так. Для базової мультимодальності (аналіз зображень, скріншотів) — теж так: Gemma 4 E4B і Qwen3.5:4b приймають зображення прямо з коробки. Для складного багатокрокового аналізу, роботи з великим контекстом і завдань де потрібна максимальна точність — хмарні моделі поки сильніші. Оптимальний підхід — гібридний: Ollama для регулярних задач, ChatGPT/Claude для складних. Детальніше — у статті Ollama vs ChatGPT vs Claude: коли локальна AI краща.

Скільки місця на диску потрібно?

Одна 3–4B-модель у Q4 — приблизно 2–2.5 ГБ на диску. Три моделі для різних задач — 6–8 ГБ. Ollama зберігає моделі у ~/.ollama, завантажені моделі можна видалити командою ollama rm назва_моделі.

Чи варто апгрейдити до 16 ГБ?

Якщо плануєш регулярно працювати з локальним AI — однозначно так. 16 ГБ відкривають доступ до 13–14B моделей, повноцінних 7B у Q8-якості, комфортної роботи з великими контекстними вікнами і MLX-прискорення в Ollama 0.19+ на Apple Silicon (поки вимагає 32 ГБ+). Різниця у можливостях між 8 і 16 ГБ — найбільша у всьому спектрі.

✅ Висновки

8 ГБ оперативної пам'яті — це не вирок для локального AI, але це межа, яка вимагає усвідомлених рішень. Ось головне:

  • ✔️ 3–4B-моделі — зона комфорту: Phi-4 Mini, Llama 3.2 3B, Qwen3.5:4b, Gemma 4 E4B працюють швидко і стабільно, залишаючи місце для IDE та браузера
  • ✔️ 7–9B-моделі — робоча зона: DeepSeek R1 8B, Qwen3:8b працюють на межі, але дають відчутно кращу якість для конкретних задач
  • ✔️ Q4_K_M — єдиний розумний вибір квантизації на 8 ГБ: менша модель з Q4 завжди краща за більшу з Q2
  • ✔️ Apple Silicon з 8 ГБ — найкращий бюджетний варіант: unified memory дає перевагу над CPU-only системами
  • ✔️ 13B+ моделі, Q8, дві моделі одночасно, thinking mode без ліміту контексту — не варто: перевірено, не працює або нестабільно

Я сам використовую саме такий підхід: тримаю кілька моделей під різні задачі — одну для коду, іншу для тексту, окрему для дебагу. Кожна модель має свою сильну сторону, і замість однієї великої, яка може не влізти в пам'ять, краще мати 2–3 спеціалізовані легкі. Перемикатися між ними через ollama run — справа секунд.

Якщо тільки починаєш — встанови Ollama за нашим гайдом, завантаж phi4-mini і спробуй. Через п'ять хвилин у тебе буде працюючий локальний AI — без підписок, без інтернету, без передачі даних назовні.

А якщо тобі потрібен сайт, блог або веб-застосунок з інтеграцією AI-функціональності — напиши нам у WebsCraft, допоможемо реалізувати.

📖 Джерела