Маєш ноутбук з 8 ГБ оперативної пам'яті і хочеш запустити AI локально?
Ця стаття — розбір: що працює, що ледь тягне,
а що навіть не варто завантажувати. Без ілюзій, з конкретними моделями
та командами для кожної задачі. Якщо ще не знайомий з Ollama —
почни з вступної статті про те що таке Ollama і навіщо вона потрібна.
📚 Зміст статті
🎯 Скільки RAM насправді лишається для моделі
Коротка відповідь:
З 8 ГБ оперативної пам'яті для AI-моделі реально доступно 4–5 ГБ.
Решту забирає операційна система, браузер і базові процеси.
Це визначає головне правило: на 8 ГБ комфортно працюють моделі до 3–7B
параметрів у 4-бітній квантизації.
8 ГБ RAM — це не 8 ГБ для моделі.
Це 8 ГБ мінус ОС, мінус Chrome, мінус все, що ти забув закрити.
Перш ніж обирати модель, потрібно зрозуміти реальний бюджет пам'яті.
Ось типовий розподіл на системі з 8 ГБ RAM:
- ✔️ Операційна система: 1.5–2.5 ГБ (macOS ближче до 2.5, Windows — 2, Linux — 1.5)
- ✔️ Браузер (5–10 вкладок): 1–2 ГБ
- ✔️ IDE (VS Code / IntelliJ): 0.5–1.5 ГБ
- ✔️ Фонові процеси: 0.3–0.5 ГБ
Залишок для моделі: 3–5 ГБ.
За даними
LocalLLM.in,
модель 7B параметрів у квантизації Q4_K_M займає приблизно 4–5 ГБ,
плюс 1–2 ГБ на KV-кеш і системний overhead.
Це означає: 7B-модель на 8 ГБ — можливо, але на межі, і краще закрити
все зайве.
Практичне правило для 8 ГБ:
- ✔️ Комфортна зона: моделі 1–3B параметрів (Q4_K_M) — залишається простір для IDE та браузера
- ✔️ Робоча зона: моделі 7–8B параметрів (Q4_K_M) — потрібно закрити все зайве
- ❌ Червона зона: моделі 13B+ — гарантовані зависання або swap на диск
Висновок: Перед вибором моделі закрий браузер, перевір
ollama ps і подивись реальний залишок пам'яті.
На 8 ГБ кожен гігабайт на вагу золота.
🎯 Для коду: яка модель замінить Copilot на 8 ГБ
Автодоповнення коду
Для автодоповнення коду на 8 ГБ найкращий вибір у 2026 — Qwen3.5:4b або
Phi-4 Mini (3.8B) у квантизації Q4_K_M. Qwen3.5:4b вийшов у березні 2026 і
витіснив Qwen 2.5 Coder як головну рекомендацію: нативний мультимодал,
thinking mode і 256K контекст — при тій самій вимозі до пам'яті ~2.5 ГБ.
GitHub Copilot коштує $10/місяць. Локальна модель для коду —
$0/місяць і працює офлайн. Питання лише в тому, яка модель
потягне на твоєму залізі.
Кодинг — задача, де навіть маленькі моделі можуть бути корисними.
Автодоповнення, генерація функцій, пояснення коду, написання тестів —
для цього не потрібна GPT-4, потрібна швидка і точна модель,
яка розуміє синтаксис.
Топ моделей для коду на 8 ГБ
1. Qwen3.5:4b (Q4_K_M) — ~2.5 ГБ RAM
Вийшов 2 березня 2026 у складі малої серії Qwen3.5 (0.8B, 2B, 4B, 9B).
Порівняно з попередником Qwen 2.5 Coder 3B — це якісний стрибок при тій самій
вимозі до пам'яті. Модель нативно мультимодальна (текст, зображення, відео),
підтримує thinking mode і нативний tool calling, а контекстне вікно 256K токенів
покриває більшість реальних кодових баз. Ліцензія Apache 2.0 — безкоштовно
для комерційного використання. Якщо мультимодальність не потрібна і хочеш
максимум саме на кодових бенчмарках — розглянь qwen3:4b (квітень 2026):
за даними Ollama Library,
Qwen3-4B за якістю відповідей наближається до Qwen2.5-72B-Instruct при розмірі 2.5 ГБ.
ollama pull qwen3.5:4b
ollama run qwen3.5:4b "Напиши функцію сортування масиву на Python"
# Альтернатива — чистий код, без мультимодальності
ollama pull qwen3:4b
ollama run qwen3:4b "Знайди помилку у цьому Java-коді: ..."
⚠️ Примітка про thinking mode: у Qwen3.5:4b thinking mode
доступний за командою /think у чаті Ollama.
Для автодоповнення і швидких відповідей використовуй /no_think —
модель відповідає вдвічі швидше без втрати якості на простих задачах.
2. Phi-4 Mini (3.8B) — ~2.3 ГБ RAM
За даними
SitePoint,
Phi-4 Mini — одна з небагатьох моделей, яка комфортно працює на системах з 8 ГБ,
видаючи 15–20 токенів/сек на M1 MacBook Air або бюджетному Linux-ноутбуці.
Добре справляється з автодоповненням, простими поясненнями та легкими чат-задачами.
ollama pull phi4-mini
ollama run phi4-mini "Поясни різницю між HashMap і TreeMap у Java"
3. DeepSeek Coder 1.3B (Q4_K_M) — ~1 ГБ RAM
Найлегша модель для коду. Ідеальна для автодоповнення в IDE —
швидка, не навантажує систему, можна тримати запущеною у фоні разом
з VS Code, браузером і терміналом. Якщо основна задача — inline autocomplete,
а не повноцінний чат, ця модель і досі актуальна.
ollama pull deepseek-coder:1.3b
ollama run deepseek-coder:1.3b
Що обрати?
- DeepSeek Coder 1.3B — автодоповнення у фоні, робота з відкритим браузером
- Qwen3.5:4b — генерація функцій, пояснення коду, аналіз скріншотів UI
- Qwen3:4b — максимум на кодових задачах без мультимодальності
- Phi-4 Mini — універсальна модель для коду та текстових задач
Висновок: На 8 ГБ можна кодити з локальним AI.
Qwen3.5:4b — найбільший апгрейд у цій категорії за останні місяці:
та сама вимога до пам'яті що і в Qwen 2.5 Coder 3B, але thinking mode,
256K контекст і нативна мультимодальність у комплекті.
Не чекай якості GPT-4 — але для щоденного автодоповнення, генерації
бойлерплейту і пояснень коду цього більш ніж достатньо.
🎯 Для тексту і спілкування: чат, переклад
Для текстових задач
Для текстових задач на 8 ГБ оптимальний вибір — Llama 3.2 3B для загального
чату, Gemma 4 E4B для балансу якості і мультимодальності, або Phi-4 Mini
якщо потрібна аналітика і робота на CPU. Всі три залишають місце для іншого
софту і стабільно працюють без апгрейду заліза.
Не кожна задача вимагає GPT-4. Резюмувати текст,
відповісти на питання, переказати статтю — з цим справляється
модель, яка важить менше ніж один фільм у 4K.
Текстові задачі — найширша категорія: від простого чату до аналізу
документів і перекладу. На 8 ГБ тут є з чого обирати.
Якщо ти вже завантажив qwen3.5:4b з попереднього розділу —
він чудово справляється і з текстовими задачами завдяки нативній мультимодальності
і 256K контексту. Але якщо шукаєш спеціалізовану рекомендацію саме для тексту,
ось актуальний список.
Топ моделей для тексту на 8 ГБ
1. Llama 3.2 3B (Q4_K_M) — ~2 ГБ RAM
За даними
StudyHUB,
Llama 3.1/3.2 — найпопулярніша модель на Ollama з понад 111 мільйонами
завантажень. Версія 3B — полегшена, але зберігає якість у загальних
розмовах, резюмуванні і відповідях на питання. Підтримує 8 мов.
Невеликий Llama 4 Scout, що вийшов у 2026, є MoE-моделлю від 17B активних параметрів —
для 8 ГБ він не підходить, тому Llama 3.2 3B залишається найкращим вибором у сімействі.
ollama pull llama3.2:3b
ollama run llama3.2:3b "Перекажи основну думку цього тексту: ..."
2. Gemma 4 E4B (Q4_K_M) — ~3 ГБ RAM
Модель від Google DeepMind, вийшла у квітні 2026. На відміну від старої
Gemma 2B — повноцінна мультимодальна модель: приймає текст і зображення,
має thinking mode для складніших задач і 128K контекстне вікно. При цьому
комфортно влазить в 8 ГБ, залишаючи простір для IDE та браузера. Якщо
раніше використовував gemma:2b — E4B це пряма заміна з суттєво
кращою якістю. Детальніше про архітектуру і розміри моделей —
у статті Gemma 4: повний огляд — розміри, ліцензія, Ollama.
ollama pull gemma4:e4b
ollama run gemma4:e4b "Склади короткий опис для цього товару: ..."
⚠️ Примітка: якщо потрібен абсолютний мінімум RAM і старий
gemma:2b (~1.6 ГБ) тебе влаштовував — він все ще доступний.
Але для нових інсталяцій рекомендую одразу E4B. Thinking mode у Gemma 4
можна вмикати і вимикати — як це працює і коли варто вимкнути, читай
у статті Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує.
3. Phi-4 Mini (3.8B) — ~2.3 ГБ RAM
За даними
LocalAIMaster,
Phi-4 Mini — одна з небагатьох 3–4B моделей, що за результатами MMLU
наближається до Llama 3.1 8B, використовуючи при цьому на 40% менше пам'яті.
Контекстне вікно 128K токенів дозволяє аналізувати довгі документи — суттєвий
апгрейд порівняно з Phi-3 Mini. За даними
PromptQuorum,
на CPU i7-12700 без GPU модель видає 12 токенів/сек — найкращий показник
серед CPU-only сценаріїв у своєму класі. Підходить для Raspberry Pi 4/5
і будь-якого ноутбука без дискретної графіки.
ollama pull phi4-mini
ollama run phi4-mini "Переклади українською: The quick brown fox jumps over the lazy dog"
Що обрати?
- ✔️ Загальний чат і питання-відповіді → Llama 3.2 3B
- ✔️ Мультимодальність (текст + зображення) і кращу якість → Gemma 4 E4B
- ✔️ Аналітика, довгі документи і CPU-only → Phi-4 Mini
- ✔️ Один інструмент для коду і тексту → Qwen3.5:4b (див. попередній розділ)
Висновок: Для текстових задач 8 ГБ — комфортна
територія. Моделі 2–4B працюють швидко, залишають простір для інших
програм і дають якість, достатню для більшості щоденних потреб.
Phi-4 Mini замінила Phi-3 Mini як стандарт у CPU-only сценаріях:
краща якість, 128K контекст, та сама вимога до пам'яті.
🎯 Для reasoning, логіка, дебаг коду
Для задач, що вимагають покрокового мислення — математика, логічні задачі,
дебаг складного коду — на 8 ГБ є три реальних варіанти: DeepSeek R1 8B
як класична «думаюча» модель, Qwen3:8b для мультимовного reasoning,
і Phi-4 Mini Reasoning як легший варіант з повноцінним chain-of-thought
лише за ~2.3 ГБ RAM.
Звичайна модель відповідає одразу. Reasoning-модель
спочатку думає — крок за кроком — а потім відповідає.
Як різниця між «відповісти навмання» і «порахувати на папері».
Reasoning-моделі — відносно нова категорія. Вони працюють за принципом
chain-of-thought: розбивають задачу на кроки, перевіряють проміжні
результати, і лише потім формують фінальну відповідь.
У 2026 ця категорія суттєво розширилась: reasoning-режим тепер є
не тільки у важких 8B-моделях, але й у компактних 3–4B варіантах.
Що працює на 8 ГБ
1. DeepSeek R1 8B (Q4_K_M) — ~5 ГБ RAM
За даними
StudyHUB,
DeepSeek R1 — «думаюча» модель, аналог OpenAI o1. На задачах з математикою,
логічними пазлами і технічним reasoning дає результати кращі за Llama 3.1
того ж розміру. Перед фінальною відповіддю генерує видимі кроки міркування
у тегах <think> — корисно для дебагу, щоб зрозуміти,
чому модель дійшла саме до такого висновку. Компроміс: відповідає повільніше
і потребує майже всієї доступної пам'яті на 8 ГБ системі.
ollama pull deepseek-r1:8b
ollama run deepseek-r1:8b "Знайди помилку у цьому SQL-запиті: SELECT * FROM users WHERE id = '5' AND active = true GROUP HAVING count > 1"
⚠️ Важливо: DeepSeek R1 8B займає ~5 ГБ RAM.
На системі з 8 ГБ це на межі — потрібно закрити браузер, IDE і все
зайве. На macOS з unified memory працює стабільніше, ніж на Windows
з інтегрованою графікою.
2. Qwen3:8b (Q4_K_M) — ~4.6 ГБ RAM
За даними
LocalLLM.in,
Qwen3:8b — сильна альтернатива для reasoning-задач, особливо у математиці
і мультимовних сценаріях. Підтримує thinking mode в Ollama: можна вмикати
через /think і вимикати через /no_think прямо
у чаті — без перезавантаження моделі. Якщо плануєш оновитись —
qwen3.5:9b (березень 2026) побудований на тій самій архітектурі,
але з покращеним RL і нативною мультимодальністю, при схожих вимогах до RAM.
ollama pull qwen3:8b
ollama run qwen3:8b "Розв'яжи: якщо 3x + 7 = 22, чому дорівнює x?"
# Свіжіша альтернатива з мультимодальністю
ollama pull qwen3.5:9b
3. Phi-4 Mini Reasoning (3.8B) — ~2.3 ГБ RAM
Спеціалізований reasoning-варіант від Microsoft, доступний в Ollama як
phi4-mini-reasoning. За даними
Morph,
це єдина повноцінна reasoning-модель для 8 ГБ, яка залишає простір
для паралельної роботи IDE та браузера. Розроблена спеціально для
багатокрокового розв'язання математичних задач у пам'яттєво-обмежених
середовищах: символьні обчислення, формальні докази, складні текстові умови.
На відміну від DeepSeek R1 8B — займає вдвічі менше пам'яті і залишає
систему відзивчивою. На складних задачах поступається 8B-моделям,
але на щоденному дебазі та аналітиці цього достатньо.
ollama pull phi4-mini-reasoning
ollama run phi4-mini-reasoning "Знайди складність алгоритму і поясни покроково: ..."
Що обрати?
- ✔️ Дебаг коду і логічні задачі → DeepSeek R1 8B
- ✔️ Математика і мультимовний reasoning → Qwen3:8b або Qwen3.5:9b
- ✔️ Reasoning з відкритим IDE і браузером → Phi-4 Mini Reasoning (~2.3 ГБ, повноцінний chain-of-thought)
Висновок: Reasoning на 8 ГБ у 2026 — вже не тільки
«на межі комфорту». Phi-4 Mini Reasoning дозволяє отримати покрокове
мислення при ~2.3 ГБ RAM — без необхідності закривати все зайве.
Для складніших задач DeepSeek R1 8B і Qwen3:8b залишаються стандартом,
але вимагають майже всієї доступної пам'яті. Якщо плануєш регулярно
працювати з важкими reasoning-задачами — апгрейд до 16 ГБ відкриє
доступ до 14B-класу, де різниця у якості вже суттєва.
🎯 CPU vs GPU vs Apple Silicon — де 8 ГБ це різні 8 ГБ
8 ГБ на Mac M1 і 8 ГБ на Windows-ноутбуці з Intel — це два різних досвіди.
Apple Silicon використовує unified memory, де вся пам'ять доступна і CPU,
і GPU одночасно. На звичайному ПК RAM і VRAM — окремі пули,
і для AI-моделей це критично.
Mac M1 з 8 ГБ — це повноцінна робоча станція для локального AI.
Windows-ноутбук з 8 ГБ і Intel HD Graphics — це боротьба за кожен мегабайт.
Apple Silicon (M1/M2/M3/M4) — найкращий сценарій для 8 ГБ
На Apple Silicon вся оперативна пам'ять — unified memory.
Це означає, що GPU-частина чіпа має доступ до тих самих 8 ГБ,
що і CPU. Ollama автоматично використовує Metal для прискорення —
без додаткових налаштувань.
Результат: 7B-модель у Q4_K_M на M1 з 8 ГБ видає 15–20 токенів/сек —
достатньо для комфортного інтерактивного використання.
За даними
SitePoint,
Phi-4 Mini на M1 MacBook Air — це приблизно 15–20 tok/s, що достатньо
для щоденної роботи.
⚠️ Примітка про MLX: У березні 2026 Ollama 0.19 перейшов
на MLX-бекенд від Apple, який дає до 2x приросту швидкості на Apple Silicon.
Однак за даними
RunAIHome,
MLX наразі вимагає мінімум 32 ГБ unified memory — Mac з 8 ГБ і 16 ГБ
залишаються на попередньому Metal-бекенді без змін у швидкості.
Якщо плануєш апгрейд до Mac з 32 ГБ+ — MLX буде відчутним бонусом.
Якщо залишаєшся на 8 ГБ — цифри у таблиці нижче залишаються актуальними.
Windows / Linux з дискретним GPU (RTX 3060, RTX 4060) — хороший сценарій
Якщо є дискретна відеокарта з 6–8 ГБ VRAM — модель повністю
завантажується в GPU-пам'ять, і системна RAM залишається для ОС і софту.
За даними
LocalLLM.in,
на RTX 4060 (8 ГБ VRAM) 7B-модель видає 40+ токенів/сек —
найшвидший варіант із усіх.
Windows / Linux без GPU (Intel HD / AMD Radeon iGPU) — складний сценарій
Без дискретного GPU модель працює повністю на CPU. Ollama все одно
запуститься — але швидкість падає до 3–6 токенів/сек для 7B-моделей.
Для легших 3B-моделей (Phi-4 Mini, Llama 3.2 3B) реальна швидкість
на сучасному CPU складає 10–12 tok/s — цілком прийнятно для щоденних задач.
За даними
LocalLLM.in,
CPU-only inference прийнятний для пакетних задач, але фруструє
при інтерактивному використанні з великими моделями.
Плюс системна RAM ділиться між ОС, софтом і моделлю — на 8 ГБ
це дуже тісно.
Зведена таблиця
| Платформа |
7B модель (Q4) |
3B модель (Q4) |
Швидкість |
Комфорт |
| Mac M1/M2/M3/M4 8 ГБ (Metal) |
✔️ Працює |
✔️ Комфортно |
15–20 tok/s |
⭐⭐⭐⭐ |
| Windows + RTX 4060 8 ГБ VRAM |
✔️ Працює швидко |
✔️ Комфортно |
40+ tok/s |
⭐⭐⭐⭐⭐ |
| Windows/Linux CPU only 8 ГБ (7B) |
⚠️ На межі |
✔️ Працює |
3–6 tok/s |
⭐⭐ |
| Windows/Linux CPU only 8 ГБ (3B) |
— |
✔️ Комфортно |
10–12 tok/s |
⭐⭐⭐ |
Висновок: Якщо у тебе Mac M1+ з 8 ГБ — ти у
найкращій позиції для локального AI на бюджетному залізі. Новий MLX-бекенд
Ollama дає 2x приріст, але поки вимагає 32 ГБ+ — для 8 ГБ Mac швидкість
залишається незмінною. Якщо Windows без GPU — фокусуйся на 3B-моделях:
вони дають 10–12 tok/s на CPU і залишають систему відзивчивою.
Детальніше про встановлення на різних ОС —
у статті Як встановити Ollama на Mac, Windows і Linux.
🎯 Квантизація простими словами: Q4 vs Q8 і що обрати на слабкому залізі
Коротка відповідь:
Квантизація — це стиснення моделі, яке зменшує її розмір у 2–4 рази
з мінімальною втратою якості. На 8 ГБ оптимальний вибір — Q4_K_M:
найкращий баланс між розміром, швидкістю і якістю відповідей.
Квантизація — це як JPEG для фото. Файл менший,
різниця майже непомітна. Але якщо стиснути занадто сильно —
якість помітно впаде.
Коли ти бачиш у назві моделі на Ollama теги типу :7b-q4_0,
:8b-instruct-q8_0 або :3b-q4_k_m — це позначення
рівня квантизації. Число після «q» — кількість біт на один параметр.
Рівні квантизації: що означають теги
- ✔️ Q8 (8-біт): максимальна якість, найбільший розмір. Для 7B-моделі — ~8 ГБ. На 8 ГБ RAM не влізе.
- ✔️ Q5_K_M (5-біт): проміжний варіант між Q4 і Q8. Для 7B — ~5.5 ГБ. На 8 ГБ RAM підходить лише якщо є GPU з 6–8 ГБ VRAM і потрібна вища точність.
- ✔️ Q4_K_M (4-біт, K-quant medium): оптимальний баланс. Для 7B — ~4–5 ГБ. Рекомендований для 8 ГБ систем.
- ✔️ Q4_K_S (4-біт, K-quant small): трохи менший за Q4_K_M, трохи нижча якість.
- ✔️ IQ4_XS (importance matrix, 4-біт): новіший формат 2025–2026 років. За даними
RunAIHome,
дає майже таку саму якість як Q4_K_M, але займає на ~400 МБ менше для 8B-моделі.
Корисний коли Q4_K_M ледь не влазить. Доступний як тег на Hugging Face,
не завжди присутній в Ollama Library.
- ⚠️ Q2_K (2-біт): мінімальний розмір (~2.5 ГБ для 7B), але помітна деградація якості. Крайній варіант.
Суфікс «K» означає новіші методи квантизації (K-quant), які розумніше
розподіляють точність між шарами моделі. K-quant-теги завжди кращі за
legacy-варіанти (q4_0, q4_1) при тому самому розмірі.
Скільки важать моделі різних квантизацій
| Модель |
Q8 |
Q4_K_M |
Q2_K |
| Phi-4 Mini (3.8B) |
4.1 ГБ |
2.3 ГБ |
1.3 ГБ |
| Llama 3.2 (3B) |
~3.3 ГБ |
~2.0 ГБ |
~1.1 ГБ |
| Qwen3:8b |
~9 ГБ |
~4.6 ГБ |
~2.5 ГБ |
| Mistral 7B |
~8 ГБ |
~4.1 ГБ |
~2.8 ГБ |
Дані за
LocalAIMaster
та RunAIHome.
Правило для 8 ГБ: завжди обирай Q4_K_M. Якщо не влазить — знижуй
розмір моделі (3B замість 7B), а не рівень квантизації (Q2 замість Q4).
Менша модель з Q4 дасть кращу якість, ніж більша з Q2.
Виняток: якщо Q4_K_M буквально не влазить на 100–400 МБ — спробуй IQ4_XS,
якщо такий тег є для потрібної моделі на Hugging Face.
Детальніше про техніки стиснення і їхній вплив на якість —
у статті Квантизація моделей: INT4, INT8 — що це і як впливає на якість.
Висновок: Q4_K_M — золотий стандарт для 8 ГБ і у 2026 це
не змінилось. Не піддавайся спокусі завантажити Q8 «для якості» — модель
не влізе в пам'ять і ти отримаєш swap на диск. Єдина нова опція на горизонті —
IQ4_XS: чуть менший розмір при збереженні якості, але поки не для кожної моделі.
🎯 Налаштування Ollama для максимуму на слабкому залізі
П'ять змінних середовища і одна звичка (закривати зайве) — це все,
що потрібно, щоб вичавити максимум із 8 ГБ. Налаштування займає
хвилину, а різниця у стабільності — відчутна.
На потужному залізі Ollama «просто працює».
На слабкому — потрібно допомогти їй не витрачати пам'ять на те,
що тобі не потрібно.
За замовчуванням Ollama може тримати в пам'яті кілька моделей
одночасно і обробляти паралельні запити. На 8 ГБ це зайва розкіш.
Ось мінімальний набір оптимізацій:
Базові змінні середовища
# Тримати в пам'яті лише одну модель (за замовчуванням може бути більше)
export OLLAMA_MAX_LOADED_MODELS=1
# Один паралельний запит (без конкуренції за пам'ять)
export OLLAMA_NUM_PARALLEL=1
# Зменшити вікно контексту — економить 200–800 МБ RAM
export OLLAMA_CTX_SIZE=2048
Нові змінні для GPU / Apple Silicon (Ollama 0.19+)
Якщо запускаєш Ollama на GPU (NVIDIA, AMD) або Apple Silicon (M1+) —
додатково встанови ці дві змінні. Вони зменшують KV-кеш вдвічі
без помітної втрати якості для більшості задач.
# Flash Attention — обов'язкова передумова для KV-кеш квантизації
export OLLAMA_FLASH_ATTENTION=1
# KV-кеш у 8-біт — вдвічі менше RAM на кеш при мінімальній втраті якості
export OLLAMA_KV_CACHE_TYPE=q8_0
⚠️ Важливо: за даними
ModelPiper,
OLLAMA_KV_CACHE_TYPE працює лише якщо увімкнений
OLLAMA_FLASH_ATTENTION=1 — без нього змінна ігнорується.
Для CPU-only систем ці дві змінні не дадуть ефекту.
На Apple Silicon Metal-бекенд (8 ГБ Mac) може давати 5–10% повільнішу
генерацію, але значно кращу стабільність при довгих контекстах.
На macOS / Linux додай усі рядки у ~/.zshrc або
~/.bashrc. На Windows — задай через системні змінні
середовища або PowerShell-профіль.
Перед запуском моделі
Звучить банально, але на 8 ГБ це критично:
- ✔️ Закрий браузер або залиш максимум 2–3 вкладки
- ✔️ Закрий Slack, Discord, Spotify — кожна програма з'їдає 200–500 МБ
- ✔️ Перевір поточне використання:
ollama ps покаже завантажені моделі
- ✔️ Якщо стара модель ще в пам'яті —
ollama stop назва_моделі
Modelfile для тонкого налаштування
Якщо хочеш більше контролю — створи Modelfile з оптимізованими параметрами:
FROM phi4-mini
PARAMETER num_ctx 2048
PARAMETER num_thread 4
PARAMETER temperature 0.7
num_ctx 2048 — зменшує вікно контексту (менше RAM на KV-кеш).
num_thread 4 — обмежує кількість потоків CPU, щоб система
залишалася відзивчивою.
Покроковий гайд по встановленню і першому запуску —
у статті Як встановити Ollama на Mac, Windows і Linux: повний гайд 2026.
Висновок: Три базові змінні + закриті зайві програми =
стабільна робота на 8 ГБ. Якщо є GPU або Apple Silicon — додай
OLLAMA_FLASH_ATTENTION=1 і OLLAMA_KV_CACHE_TYPE=q8_0:
за даними офіційної документації Ollama, це вдвічі зменшує витрати пам'яті
на KV-кеш при мінімальній втраті якості. Без базових налаштувань навіть
легка модель може спричинити swap на диск.
🎯 Що НЕ варто пробувати на 8 ГБ — мій досвід
Коротка відповідь:
Моделі 13B+, будь-які моделі у Q8-квантизації, і спроби запустити
дві моделі одночасно — гарантоване розчарування на 8 ГБ.
Я перевірив це на своєму Mac M1 — щоб вам не довелося.
Кожен, хто працював з Ollama на 8 ГБ, проходив через один
і той самий етап: «А може 13B все-таки влізе?» Ні, не влізе.
Я перевірив.
Працюючи з Ollama на Mac M1 з 8 ГБ unified memory, я тестував
десятки моделей різних розмірів. Ось чесний список того,
що не працює — або працює настільки погано, що краще б не працювало.
❌ Моделі 13B і більше
Llama 3.3 13B, Qwen3 14B, CodeLlama 13B — навіть у Q4-квантизації
вони потребують 8–9 ГБ лише на ваги моделі. Додай KV-кеш, ОС,
і ти отримаєш систему, яка безперервно свопить на диск.
Я спробував запустити Llama 3.1 13B Q4 — перші 5 хвилин вона завантажувалася,
потім видавала 1–2 токени на секунду з постійними паузами.
Це непрацездатно для інтерактивного використання.
❌ Будь-яка 7B-модель у Q8-квантизації
Q8-версія 7B-моделі важить близько 8 ГБ — це вся твоя оперативна
пам'ять. ОС не зникає магічно. Я пробував Mistral 7B Q8 —
система зависла через хвилину після старту. Завжди використовуй Q4_K_M
для 7B-моделей на 8 ГБ.
❌ Дві моделі одночасно
Ollama може тримати кілька моделей у пам'яті. На 16 ГБ це зручно —
переключаєшся між моделями миттєво. На 8 ГБ це рецепт для swap-шторму.
Тримай OLLAMA_MAX_LOADED_MODELS=1 і не забувай
ollama stop перед завантаженням іншої моделі.
❌ Великі контекстні вікна (8K+ токенів)
Кожне подвоєння контекстного вікна — це додаткові сотні мегабайт
на KV-кеш. На 8 ГБ тримай контекст на 2048–4096 токенів максимум.
Передати модель 10-сторінковий документ цілком — не вийде,
потрібно розбивати на частини.
Частково допомагає OLLAMA_FLASH_ATTENTION=1 +
OLLAMA_KV_CACHE_TYPE=q8_0 з секції налаштувань —
вони зменшують KV-кеш вдвічі і дозволяють впевненіше працювати
на рівні 4096 токенів. Але 8K+ на 8 ГБ лишається зоною ризику.
❌ MoE-моделі з великим footprint (Mixtral, Llama 4 Scout, Qwen3.6)
MoE-архітектура (Mixture of Experts) вводить в оману назвами.
Mixtral 8x7B активує лише 2 з 8 «експертів» на кожен токен —
але всі 8 мають бути в пам'яті одночасно, і це 26+ ГБ у Q4.
Те саме стосується нових моделей 2026 року: Llama 4 Scout виглядає
як «17B», але реально потребує ~10 ГБ у Q4 — за межею 8 ГБ.
Qwen3.6 35B-A3B активує лише 3B параметрів на токен, але тримає в
пам'яті усі 35B — це 24 ГБ. Правило просте: дивись на загальний
розмір моделі в Ollama Library, а не на кількість активних параметрів.
❌ Thinking mode без ліміту контексту
Qwen3:8b, Qwen3.5:9b і Phi-4 Mini Reasoning генерують «thinking tokens»
перед фінальною відповіддю — інколи тисячі токенів внутрішніх міркувань.
На складних задачах thinking chain може займати 2000–5000 токенів
ще до того, як модель почне відповідати. Разом із великим контекстом
це переповнює KV-кеш непомітно: модель просто сповільнюється або
починає свопити. Рішення: тримай OLLAMA_CTX_SIZE=2048
і вимикай thinking mode командою /no_think для простих задач,
де покрокове мислення не потрібне.
Загальне правило: якщо ollama run
завантажується довше 30 секунд і перша відповідь приходить через
хвилину — модель занадто велика для твоєї системи. Не чекай, що
«розігріється» — закрий і візьми модель меншого розміру.
Порівняння моделей за розміром, якістю і задачами —
у статті Топ-10 моделей Ollama у 2026: яку вибрати.
Висновок: Я сам пройшов через це — думав, що більша
модель дасть кращий результат, скачав 13B, почекав хвилину на першу
відповідь і видалив. Встановив 3B — і продуктивність одразу зросла.
На 8 ГБ краща стратегія — обрати модель, яка працює швидко і стабільно,
ніж мучитися з тією, що «майже влазить». У 2026 додалась ще одна
пастка — thinking mode: нові моделі думають вголос і тихо з'їдають
твій контекст ще до першого слова відповіді.
🎯 Тести: що очікувати на практиці
Коротка відповідь:
На Mac M1 8 ГБ модель 3B видає 20–30 токенів/сек, модель 7–9B — 10–15 tok/s.
На CPU-only Windows — вдвічі-втричі повільніше для великих моделей,
але 3B-моделі на сучасних CPU дають 10–12 tok/s — вже комфортно.
Нижче — зведена таблиця для орієнтації.
Бенчмарки в інтернеті часто зроблені на чистій системі без
іншого софту. У реальності — з відкритим VS Code і 5 вкладками Chrome —
цифри будуть нижчі. Тому ці тести ближчі до реальності.
Зведена таблиця продуктивності
| Модель |
RAM |
Mac M1 8 ГБ |
CPU-only 8 ГБ |
RTX 4060 8 ГБ VRAM |
| Llama 3.2 3B (Q4) |
~2 ГБ |
~28 tok/s |
~9 tok/s |
~48 tok/s |
| Phi-4 Mini 3.8B (Q4) |
~2.3 ГБ |
~22 tok/s |
~12 tok/s |
~45 tok/s |
| Qwen3.5:4b (Q4) |
~2.5 ГБ |
~21 tok/s |
~8 tok/s |
~42 tok/s |
| Gemma 4 E4B (Q4) |
~3 ГБ |
~22 tok/s |
~7 tok/s |
~42 tok/s |
| Qwen3:8b (Q4) |
~4.6 ГБ |
~11 tok/s |
~4 tok/s |
~38 tok/s |
| DeepSeek R1 8B (Q4) |
~5 ГБ |
~10 tok/s |
~3 tok/s |
~35 tok/s |
Дані орієнтовні, базовані на результатах
LocalLLM.in,
SitePoint
та LocalAIMaster.
Реальна швидкість залежить від навантаження системи, розміру контекстного вікна
та фонових процесів. Для GPU і Apple Silicon ввімкнення
OLLAMA_FLASH_ATTENTION=1 може дати додатковий приріст
на довгих контекстах.
Що означають ці цифри на практиці?
- ✔️ 15+ tok/s: комфортний інтерактивний чат — відповідь з'являється швидше, ніж ти встигаєш прочитати
- ✔️ 8–15 tok/s: працювати можна, але відчувається затримка на довгих відповідях
- ⚠️ 3–6 tok/s: прийнятно для одноразових задач (дебаг, аналіз), фрустрація при активному чаті
- ❌ <3 tok/s: модель занадто велика для цієї системи
Висновок: Для щоденної роботи на 8 ГБ орієнтуйся
на 3–4B-моделі — вони дають 20+ tok/s на Apple Silicon і 8–12 tok/s
на CPU, залишаючи систему відзивчивою. Phi-4 Mini виділяється
найкращим CPU-показником у своєму класі (~12 tok/s) — суттєво краще
за Phi-3 Mini, яку вона замінила. 7–9B-моделі (Qwen3:8b, DeepSeek R1 8B) —
для конкретних задач, коли готовий закрити все зайве і почекати.
❓ Часті питання (FAQ)
Чи можна запустити Ollama на ноутбуці з 8 ГБ RAM?
Так. Моделі 1–4B параметрів (Phi-4 Mini, Llama 3.2 3B, Gemma 4 E4B)
працюють комфортно на будь-якій системі з 8 ГБ. Моделі 7–9B
працюють на межі — потрібно закрити зайві програми.
Детальніше — у
гайді зі встановлення Ollama.
Яка найкраща модель для 8 ГБ RAM?
Залежить від задачі. Для коду — Qwen3.5:4b або Qwen3:4b.
Для тексту і чату — Llama 3.2 3B або Gemma 4 E4B.
Для reasoning і дебагу — DeepSeek R1 8B (на межі 8 ГБ) або
Phi-4 Mini Reasoning (~2.3 ГБ, легший варіант з chain-of-thought).
Один інструмент для всього — Qwen3.5:4b: мультимодальний,
256K контекст, thinking mode.
Повне порівняння моделей —
у статті Топ-10 моделей Ollama у 2026.
Чи потрібен GPU для Ollama?
Ні, Ollama працює і на CPU. Але з GPU (дискретним або Apple Silicon)
швидкість вища у 3–10 разів. На CPU-only системі з 8 ГБ
тримайся моделей 3B і менше для комфортної роботи.
Phi-4 Mini — найкращий вибір для CPU-only: ~12 tok/s на сучасному i7
без жодного GPU.
Що краще: модель 7B у Q2 чи 3B у Q4?
Майже завжди — 3B у Q4. Агресивна квантизація (Q2) суттєво
знижує якість відповідей, особливо на складних задачах.
Менша модель з нормальною квантизацією дасть кращий результат.
Якщо Q4_K_M буквально не влазить на кілька сотень МБ —
спробуй IQ4_XS для тієї самої моделі, якщо такий тег є на Hugging Face.
Чи може Ollama на 8 ГБ замінити ChatGPT?
Для щоденних задач — резюмування, прості питання, генерація коду —
так. Для базової мультимодальності (аналіз зображень, скріншотів) —
теж так: Gemma 4 E4B і Qwen3.5:4b приймають зображення прямо з коробки.
Для складного багатокрокового аналізу, роботи з великим контекстом
і завдань де потрібна максимальна точність — хмарні моделі поки сильніші.
Оптимальний підхід — гібридний:
Ollama для регулярних задач, ChatGPT/Claude для складних.
Детальніше —
у статті Ollama vs ChatGPT vs Claude: коли локальна AI краща.
Скільки місця на диску потрібно?
Одна 3–4B-модель у Q4 — приблизно 2–2.5 ГБ на диску. Три моделі для різних
задач — 6–8 ГБ. Ollama зберігає моделі у ~/.ollama,
завантажені моделі можна видалити командою ollama rm назва_моделі.
Чи варто апгрейдити до 16 ГБ?
Якщо плануєш регулярно працювати з локальним AI — однозначно так.
16 ГБ відкривають доступ до 13–14B моделей, повноцінних 7B у Q8-якості,
комфортної роботи з великими контекстними вікнами і MLX-прискорення
в Ollama 0.19+ на Apple Silicon (поки вимагає 32 ГБ+).
Різниця у можливостях між 8 і 16 ГБ — найбільша у всьому спектрі.
✅ Висновки
8 ГБ оперативної пам'яті — це не вирок для локального AI,
але це межа, яка вимагає усвідомлених рішень. Ось головне:
- ✔️ 3–4B-моделі — зона комфорту: Phi-4 Mini, Llama 3.2 3B, Qwen3.5:4b, Gemma 4 E4B працюють швидко і стабільно, залишаючи місце для IDE та браузера
- ✔️ 7–9B-моделі — робоча зона: DeepSeek R1 8B, Qwen3:8b працюють на межі, але дають відчутно кращу якість для конкретних задач
- ✔️ Q4_K_M — єдиний розумний вибір квантизації на 8 ГБ: менша модель з Q4 завжди краща за більшу з Q2
- ✔️ Apple Silicon з 8 ГБ — найкращий бюджетний варіант: unified memory дає перевагу над CPU-only системами
- ✔️ 13B+ моделі, Q8, дві моделі одночасно, thinking mode без ліміту контексту — не варто: перевірено, не працює або нестабільно
Я сам використовую саме такий підхід: тримаю кілька моделей
під різні задачі — одну для коду, іншу для тексту, окрему для дебагу.
Кожна модель має свою сильну сторону, і замість однієї великої,
яка може не влізти в пам'ять, краще мати 2–3 спеціалізовані легкі.
Перемикатися між ними через ollama run — справа секунд.
Якщо тільки починаєш —
встанови Ollama за
нашим гайдом,
завантаж phi4-mini і спробуй.
Через п'ять хвилин у тебе буде працюючий локальний AI —
без підписок, без інтернету, без передачі даних назовні.
А якщо тобі потрібен сайт, блог або веб-застосунок з інтеграцією
AI-функціональності —
напиши нам у WebsCraft,
допоможемо реалізувати.
📖 Джерела