Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати.
🧩 Що таке MoE і чому 26B звучить краще ніж є насправді
"26B якість за ціною 4B" — це правда. Але тільки половина правди. Друга половина стосується пам'яті — і саме її всі замовчують.
Mixture of Experts (MoE) — це архітектура де модель складається з багатьох спеціалізованих "експертів", але для кожного токену активується лише їх підмножина. У Gemma 4 26B є 128 експертів, і для кожного токену активується лише 2 з них — звідси ~3.8B активних параметрів під час інференсу.
Це реальна перевага: модель обчислює як 4B, але "знає" як 26B. Швидкість генерації токенів порівнянна з E4B, а якість відповідей значно вища. На папері — ідеальне рішення для тих кому потрібна якість великої моделі без повільності великої моделі.
Але є критична деталь яку більшість оглядів не згадує або згадує побіжно: незважаючи на те що активується 3.8B параметрів — завантажити в пам'ять потрібно всі 26B. Причина проста: маршрутизатор (router) не знає заздалегідь які саме експерти знадобляться для наступного токену. Тому всі 128 експертів мають бути доступні в пам'яті одночасно.
Як точно описує це SudoAll у своєму детальному огляді: "MoE saves compute, not memory" — MoE економить обчислення, але не пам'ять. Це фундаментальне обмеження архітектури, а не баг конкретної реалізації.
⚠️ Головне непорозуміння: MoE економить обчислення, не пам'ять
Якщо у вас є 16 GB RAM — 26B MoE не влізе. Якщо є 24 GB — влізе, але буде свопінг. Це не думка, це математика.
Більшість оглядів Gemma 4 26B акцентують на тому що "активується лише 3.8B параметрів" — і читач природно думає що модель потребує пам'яті як 4B модель. Це помилка яка коштує годин розчарування. Давайте розберемо детально.
Чому потрібно завантажувати всі 26B якщо активується лише 3.8B
Уявіть бібліотеку з 128 спеціалістами (експертами). Коли до вас надходить запитання — маршрутизатор вирішує яких 2 спеціалістів викликати. Але щоб зробити це рішення миттєво, всі 128 спеціалістів мають бути присутні в кімнаті — ви не можете чекати поки вони прийдуть з дому.
Так само працює MoE: маршрутизатор не знає заздалегідь які саме експерти знадобляться для наступного токену. Тому всі 128 експертів мають бути завантажені в пам'ять одночасно. Активується 3.8B — але зберігається все 26B.
Це фундаментальне обмеження архітектури, а не баг реалізації. MoE економить обчислення (і відповідно швидкість і енергію), але не пам'ять.
Реальний розрахунок пам'яті
Gemma 4 26B у 4-bit квантизації (Q4_K_M) важить ~17-18 GB. Але це лише вага моделі. До неї треба додати все інше:
Компонент
Пам'ять
Примітка
Вага моделі (Q4_K_M)
~17-18 GB
Фіксована, не залежить від контексту
macOS / системні процеси
4-6 GB
Мінімум для нормальної роботи ОС
KV-кеш при 4K контексті
~0.5 GB
Коротка розмова
KV-кеш при 32K контексті
~3-4 GB
Середній документ
KV-кеш при 128K контексті
~12-15 GB
Великий документ або RAG
KV-кеш при 256K контексті
~25-30 GB
Максимальний контекст
Буфери Ollama
~1-2 GB
Робочі буфери інференсу
Підсумок для різних сценаріїв:
Сценарій
Мінімум RAM
Комфортно
Коротка розмова (4K контекст)
~24 GB
28+ GB
Робота з документами (32K)
~26 GB
32+ GB
RAG з великими документами (128K)
~35 GB
48+ GB
Максимальний контекст (256K)
~48 GB
64+ GB
Що таке свопінг і чому він вбиває продуктивність
Коли моделі не вистачає RAM — операційна система починає використовувати SSD як "повільну оперативну пам'ять". Це і є свопінг (swap). На SSD швидкість читання/запису в 10-100 разів повільніша ніж RAM — тому продуктивність обвалюється катастрофічно.
На практиці це виглядає так: замість нормальних 20-50 токенів/сек ви отримуєте 1-2 токени/сек. Одна відповідь займає кілька хвилин. Якщо одночасно надходить кілька запитів — система може повністю зависнути або вбити процес Ollama.
Саме це трапилось з розробником на Mac mini 24 GB якого ми згадували вище: 26B залишала лише ~7 GB для macOS — і при першому ж навантаженні система йшла в своп.
Порівняння: 26B MoE vs E4B по пам'яті
Щоб краще зрозуміти різницю — ось порівняння двох моделей на Mac з 16 GB unified memory:
Параметр
gemma4 (E4B)
gemma4:26b (MoE)
Вага моделі (4-bit)
~6 GB
~18 GB
Залишається для системи
~10 GB ✅
~-2 GB ❌ (своп)
Швидкість на M1 16 GB
~20-25 токенів/сек
<1 токен/сек (своп)
Стабільність
✅ Стабільна
❌ Зависання, вбивання процесів
Особливий випадок: великий контекст і KV-кеш
26B підтримує 256K контекст — це одна з головних причин чому її рекламують для RAG. Але є підводний камінь: KV-кеш росте лінійно з розміром контексту.
При 256K токенів KV-кеш може займати 25-30 GB — стільки ж скільки сама модель. Тобто для повноцінного використання 256K контексту вам потрібно не 24 GB а 50-60 GB RAM.
Висновок: якщо ви хочете використовувати 26B саме для великого контексту — закладайте мінімум 48 GB RAM у свій бюджет на залізо. Інакше E4B з 128K контекстом буде практичнішим рішенням.
🔴 Проблеми: що повідомляє спільнота
Я особисто не тестував 26B — на M1 16 GB вона просто не влізе. Але зібрав реальні звіти людей які пробували. Картина однозначна.
Mac mini 24 GB — найпоказовіший кейс:
Розробник який налаштовував Ollama на Mac mini з 24 GB описав свій досвід у детальному GitHub gist: 26B зайняла ~17 GB, залишивши лише ~7 GB для macOS і системних процесів. Під навантаженням (кілька паралельних запитів) система починала активно свопінгувати, ставала нереагуючою і іноді вбивала процеси. Висновок: повернувся на E4B як дефолт, бо вона залишає ~14 GB системі і працює стабільно.
MacBook Pro M4 Pro 24 GB — конкретні цифри:
Розробник який протестував всі чотири варіанти Gemma 4 на M4 Pro 24 GB опублікував результати на DEV Community. Результати через Ollama: E2B — 95 токенів/сек, E4B — 57 токенів/сек, 26B — ~2 токени/сек (swap), 31B — не влізла. Висновок: "For 24GB MacBook: ollama run gemma4:e4b is the answer."
16 GB системи — навіть не намагайтесь:
За даними детального гайду на DEV Community: "The 16GB models won't cut it — even with aggressive quantization, you'll be swapping constantly." На 16 GB unified memory 26B технічно може завантажитись але буде свопінгувати на кожен запит — що робить роботу практично неможливою.
Швидкість без свопінгу — інша картина:
Коли 26B запускається на машині з достатньою пам'яттю (32+ GB), картина міняється. Один розробник на HuggingFace discussions повідомляє про 50 токенів/сек на RTX 5070Ti з 16 GB VRAM через llama.cpp з параметром --n-cpu-moe — але це специфічна конфігурація, не стандартний Ollama.
🐛 Баги на Apple Silicon: Flash Attention і не тільки
Окрім проблем з пам'яттю є технічні баги специфічні для Apple Silicon які роблять 26B ще менш привабливою на Mac.
Детальний звіт з GitHub issues Ollama (тестування на M5 Max 128 GB) виявив три окремі баги:
Баг 1 — Flash Attention зависання: При увімкненому OLLAMA_FLASH_ATTENTION=1 і промпті довше ~500 токенів модель зависає нескінченно. CPU/GPU завантаження падає до 0%. Без Flash Attention — модель працює, але значно повільніше (~15 токенів/сек на M5 Max замість очікуваних 75+).
Баг 2 — Streaming через /v1 endpoint: При використанні OpenAI-сумісного API відповідь потрапляє в поле reasoning замість content. Це ламає всі клієнти які використовують стандартні OpenAI SDK wrapper-и. Workaround: використовувати нативний Ollama /api/chat endpoint замість /v1/chat/completions.
Баг 3 — MLX не підтримується: Ollama на Apple Silicon зазвичай використовує MLX для прискорення. Для Gemma 4 MLX підтримка ще не реалізована — модель запускається через llama.cpp що повільніше.
Також на GitHub llama.cpp issues зафіксовано регресію швидкості ~3.8x на M4 Mac mini з 16 GB при запуску 26B: деякі версії llama.cpp показують різку деградацію продуктивності саме на MoE моделях з Apple Silicon.
Висновок: станом на квітень 2026 Gemma 4 26B на Apple Silicon має активно виправлювані баги. Якщо плануєте використовувати в production або для агентних задач — перевіряйте статус issue перед розгортанням.
✅ Коли 26B MoE реально виграє
При правильному залізі 26B MoE — справді вражаюча модель. Проблема не в архітектурі, а в тому що її рекомендують для заліза де вона не може розкритись.
Після всіх підводних каменів — справедливо сказати коли 26B MoE дійсно є правильним вибором. Є чотири сценарії де вона виграє однозначно.
🎯 Сценарій 1: RTX 3090 / RTX 4090 з 24 GB VRAM
Це найкращий сценарій для 26B MoE. Модель (17-18 GB у Q4_K_M) повністю поміщається у VRAM без свопінгу. GPU пам'ять значно швидша за системну RAM — тому інференс отримує максимальну перевагу MoE архітектури.
Що ви отримуєте на RTX 4090:
Швидкість генерації: 40-60 токенів/сек (порівняно з ~20 у 31B Dense)
Якість відповідей: практично ідентична 31B на більшості задач
Залишок VRAM для контексту: ~6 GB — достатньо для 32-64K токенів
Для Windows розробників з RTX картою — це найпрактичніший шлях до якості великої моделі без компромісів по швидкості. 31B Dense на RTX 4090 теж влізе, але буде помітно повільнішою через Dense архітектуру де активуються всі параметри.
🎯 Сценарій 2: Mac M2/M3 Pro або Max з 32+ GB unified memory
На Mac з 32 GB модель завантажується комфортно: ~18 GB для моделі + ~14 GB залишається для macOS і KV-кешу. Без свопінгу, без зависань. Unified memory архітектура Apple Silicon дає додаткову перевагу — GPU і CPU поділяють один пул пам'яті, тому немає обмежень окремого VRAM.
Практичний приклад: розробник на DEV Community протестував 26B на Mac mini з 32 GB і Q4_K_M квантизацією з контекстом 8192 токени — все працювало стабільно протягом повного робочого дня. Рекомендація: закрити зайві вкладки браузера перед завантаженням моделі — Chrome сам по собі може з'їсти 3-5 GB.
На Mac M2/M3 Max з 64+ GB — можна комфортно запускати і 26B MoE і 31B Dense, і навіть порівнювати їх для конкретних задач.
🎯 Сценарій 3: Production API з кількома одночасними користувачами
MoE архітектура має унікальну перевагу при паралельній обробці запитів. Різні токени від різних користувачів можуть активувати різні набори експертів — це природно паралелізується на GPU.
Для серверного розгортання де важлива пропускна здатність (throughput), а не лише затримка одного запиту — 26B MoE може обслуговувати більше одночасних користувачів ніж 31B Dense при тій самій кількості GPU. Це особливо актуально для:
Корпоративних RAG-систем де кілька співробітників одночасно задають питання
API-сервісів де потрібна висока пропускна здатність
Batch-обробки документів де швидкість важливіша за якість кожної окремої відповіді
На Unsloth документації підтверджують перевагу MoE для такого сценарію: модель активує лише ~4B параметрів на токен, що знижує навантаження на пам'ятьний bandwidth і дозволяє обробляти більше запитів паралельно.
🎯 Сценарій 4: Порівняння якості 26B vs 31B при достатній пам'яті
Якщо у вас є 32+ GB і ви вибираєте між 26B MoE і 31B Dense — різниця в якості менша ніж здається з назви. На бенчмарках:
Бенчмарк
26B MoE
31B Dense
Різниця
AIME 2026 (математика)
88.3%
89.2%
-0.9%
MMLU Pro (знання)
82.3%
85.2%
-2.9%
GPQA Diamond (наука)
82.6%
84.3%
-1.7%
Швидкість генерації
✅ Значно вища
Нижча
MoE виграє
Різниця в якості мінімальна — 1-3%. Але різниця у швидкості суттєва: MoE активує ~4B параметрів замість 31B, тому генерує токени значно швидше. Для більшості практичних задач — кодування, аналіз тексту, відповіді на питання — 26B MoE є кращим вибором ніж 31B Dense якщо у вас є 32 GB.
31B Dense виграє у вузьких сценаріях: складна математика де кожен відсоток точності критичний, fine-tuning де стохастичність MoE маршрутизатора ускладнює навчання, і задачі де важлива максимальна детермінованість відповідей.
Загальне правило вибору
Ситуація
Рекомендація
До 24 GB RAM
E4B — без варіантів
24 GB unified memory (Mac)
E4B — 26B буде свопінгувати
24 GB VRAM (RTX 3090/4090)
26B MoE — оптимальний вибір
32 GB unified memory (Mac)
26B MoE — комфортно і швидко
48+ GB / production сервер
26B MoE для throughput, 31B для якості
💻 Яке залізо реально потрібно для 26B
Чесна таблиця без маркетингу. Базується на реальних звітах спільноти, а не на офіційних мінімальних вимогах.
Залізо
Пам'ять
Результат з 26B
Рекомендація
Mac M1/M2 16 GB
16 GB unified
❌ Постійний свопінг, <1 токен/сек
Використовуй E4B
Mac M2/M3 24 GB
24 GB unified
⚠️ ~2 токени/сек при навантаженні, нестабільно
E4B надійніше
Mac M2/M3 Pro 32 GB
32 GB unified
✅ Стабільно, комфортна швидкість
26B підходить
RTX 3090 / 4090 (24 GB VRAM)
24 GB VRAM
✅ Швидко, стабільно
Оптимальний варіант
RTX 4080 (16 GB VRAM)
16 GB VRAM
⚠️ Можливо з агресивною квантизацією
Тестуй обережно
Mac M2/M3 Max 64 GB+
64 GB unified
✅ Відмінно, є запас для контексту
Розглянь і 31B
✅ Висновок: брати чи ні
26B MoE — відмінна модель для правильного заліза. Проблема в тому що більшість людей які хочуть її спробувати мають залізо де вона не розкривається.
Якщо у вас є 32+ GB RAM або RTX 3090/4090 — 26B MoE є чудовим вибором. Швидша за 31B Dense при майже тій самій якості. Особливо підходить для production сценаріїв де важлива швидкість відповіді.
Якщо у вас 24 GB або менше — мій висновок на основі досвіду спільноти: не варто. Технічно запуститься, але досвід буде розчаровуючим. E4B на 8-16 GB дає кращий практичний результат ніж 26B яка свопінгує.
Загальне правило від Unsloth документації: "As a rule of thumb, your total available memory should at least exceed the size of the quantized model you download." Для 26B це означає мінімум 20+ GB вільної пам'яті після завантаження ОС.
Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати.
Що таке MoE і чому 26B...
Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...
Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...
Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...
Розробник налаштував tool use, перевірив на тестових запитах — все працює.
У production модель раптом відповідає без виклику інструменту, впевнено і зв'язно,
але з даними річної давнини. Жодної помилки в логах. Просто неправильна відповідь.
Спойлер: модель не «зламалась»...
Коли розробник вперше бачить як LLM «викликає функцію» — виникає інтуїтивна помилка:
здається що модель сама виконала запит до бази або API.
Це не так, і саме ця помилка породжує цілий клас архітектурних багів.
Спойлер: LLM лише повертає структурований JSON з назвою...