Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається через Ollama однією командою.
🤖 Що таке Gemma 4 і чим вона відрізняється від Gemini
Gemma і Gemini — це два різні продукти Google. Плутати їх — найпоширеніша помилка при першому знайомстві.
Gemini — закрита модель Google, доступна лише через платний API. Ви не можете завантажити її ваги, запустити локально або вбудувати у свій продукт без оплати кожного запиту.
Gemma 4 — відкрита модель (Google DeepMind), побудована на тій самій дослідницькій базі що й Gemini 3, але з відкритими вагами. Ви завантажуєте модель на своє залізо і запускаєте локально — без інтернету, без API-ключів, без оплати за токени.
2 квітня 2026 року Google випустила Gemma 4 — четверте покоління цієї лінійки. З моменту запуску першої Gemma розробники завантажили моделі понад 400 мільйонів разів і створили більше 100 000 варіантів на їх основі.
Gemma 4 — перша модель в лінійці яка одночасно підтримує:
зображення і аудіо як нативний вхід (не через окремий pipeline)
вбудований reasoning mode (покрокове міркування перед відповіддю)
нативний function calling для агентних сценаріїв
комерційно вільну ліцензію Apache 2.0
📄 Ліцензія Apache 2.0: чому це важливо для бізнесу
Попередні версії Gemma можна було використовувати, але з обмеженнями. Gemma 4 — перша без обмежень взагалі.
Gemma 3 виходила під власною ліцензією Google ("Gemma Open") яка дозволяла комерційне використання, але містила обмеження на певні сценарії і вимагала дотримання Google-специфічних умов. Це створювало юридичну невизначеність для бізнесу.
Gemma 4 випущена під Apache 2.0 — однією з найбільш дозвільних ліцензій у відкритому програмному забезпеченні. Та сама ліцензія використовується в Kubernetes, TensorFlow, Android.
Умова
Gemma 3
Gemma 4
Комерційне використання
Обмежено
✅ Без обмежень
Вбудовування у продукт
Обмежено
✅ Вільно
Fine-tuning і розповсюдження
Обмежено
✅ Вільно
Ліміти MAU
Є
❌ Немає
Права на вихідні дані моделі
Google-специфічні умови
✅ Ваші повністю
Для українського бізнесу і розробників це означає: можна вбудовувати Gemma 4 у комерційні продукти, SaaS-сервіси, корпоративні системи — без юридичних ризиків і без оплати Google.
📐 Чотири розміри Gemma 4: E2B, E4B, 26B MoE, 31B Dense
Gemma 4 — не одна модель, а сімейство під різне залізо. Від смартфона до серверного GPU.
Google розбила Gemma 4 на два класи: edge-моделі (E-серія) для пристроїв з обмеженою пам'яттю та великі моделі для десктопів і серверів. Правильний вибір розміру — це не питання "більше = краще", а питання відповідності вашому залізу і задачі.
Модель
Параметри
Архітектура
RAM (4-bit)
Контекст
Аудіо
Ollama команда
E2B
2.3B ефективних
Dense
~5 GB
128K
✅
ollama run gemma4:e2b
E4B
4.5B ефективних
Dense
~6 GB
128K
✅
ollama run gemma4
26B MoE
3.8B активних / 26B всього
Mixture of Experts
~18 GB
256K
❌
ollama run gemma4:26b
31B Dense
30.7B
Dense
~20 GB
256K
❌
ollama run gemma4:31b
🔵 Gemma 4 E2B — для edge і слабкого заліза
Що означає "E" в E2B і E4B? "E" від слова "effective" — ефективні параметри. Реальний розмір моделі більший (5.1B з embeddings), але під час роботи активується лише 2.3B. Це дозволяє запускати модель на пристроях з мінімальними ресурсами.
E2B — найменша модель у сімействі. Розроблена для смартфонів, Raspberry Pi і ноутбуків з 4-6 GB доступної пам'яті. Підтримує зображення і аудіо — що для моделі такого розміру є унікальною характеристикою. Контекст 128K токенів.
Для кого підходить: розробники мобільних застосунків, IoT-проєкти, ноутбуки зі слабким залізом, сценарії де критичний офлайн-режим на пристрої.
Де не підходить: складна генерація коду, довгі структуровані тексти, задачі де потрібна висока якість відповіді. У таких випадках краще E4B.
🟢 Gemma 4 E4B — оптимальний вибір для більшості
E4B — це дефолтний варіант Gemma 4. Коли ви пишете просто ollama run gemma4 — завантажується саме E4B. 4.5B ефективних параметрів, ~6 GB у 4-bit квантизації, 128K контекст, підтримка зображень і аудіо.
Ця модель — головний сюрприз сімейства. На бенчмарку LiveCodeBench v6 E4B набирає 80% — стільки ж скільки Gemma 3 27B набирала на AIME. Тобто маленька edge-модель перевершує попереднє покоління великої моделі по коду. Це наслідок reasoning mode і принципово кращого тренування.
Для кого підходить: більшість розробників на Mac M1/M2 8-16 GB, Windows ноутбуки з 8+ GB RAM, щоденна робота з кодом і текстом, RAG-продукти на слабкому залізі.
Єдиний мінус: reasoning mode увімкнений за замовчуванням і додає 30-75 секунд до кожної відповіді. Для рутинних швидких задач це може бути незручно — тоді Qwen3:8b швидша при схожій якості коду.
🟡 Gemma 4 26B MoE — швидкість великої моделі при меншому споживанні
Що означає MoE? Mixture of Experts — архітектура де модель складається з 128 спеціалізованих "експертів", але для кожного токену активується лише невелика їх частина. У 26B MoE під час інференсу активується ~3.8B параметрів — звідси висока швидкість генерації при якості значно вищій за 4B модель.
Звучить ідеально — але є важливий нюанс: завантажити в пам'ять потрібно всі 26B, тобто ~18 GB. Активується менше, але зберігається все. Це принципова відмінність від E4B де і зберігається і активується мало.
На практиці це означає: 26B MoE комфортно працює на RTX 3090/4090 з 24 GB VRAM або Mac з 24-32 GB unified memory. На Mac M1/M2 16 GB вона не рекомендується — викличе свопінг і зависання. Детальніше про це — в окремій статті про підводні камені Gemma 4 26B MoE.
Для кого підходить: розробники з RTX 3090/4090, Mac M2/M3 Pro з 24+ GB, сценарії де потрібен 256K контекст і висока якість при швидкому інференсі.
🔴 Gemma 4 31B Dense — максимальна якість
31B Dense — флагманська модель сімейства. "Dense" означає що всі 30.7B параметрів активуються для кожного токену — на відміну від MoE де активується лише частина. Це дає максимальну якість, але вимагає більше ресурсів.
На Arena AI (незалежний рейтинг на базі людських порівнянь) Gemma 4 31B займає 3-тє місце серед усіх відкритих моделей у світі станом на квітень 2026. AIME 2026 — 89.2%, LiveCodeBench — 80%, GPQA Diamond — 84.3%.
Для локального запуску потрібно ~20 GB RAM у 4-bit квантизації. Це Mac M2/M3 Max з 32+ GB або RTX 4090. На менших пристроях — тільки з агресивним свопінгом, що робить роботу некомфортною.
Для кого підходить: розробники з топовим залізом, fine-tuning і дослідницькі задачі, production RAG де якість критична і є потужний сервер.
Як обрати між 26B MoE і 31B Dense?
Це найчастіше питання серед тих хто має достатньо RAM для обох. Коротка відповідь:
26B MoE — якщо важлива швидкість інференсу, є 24 GB VRAM але не 32 GB, або потрібен 256K контекст з мінімальною затримкою
31B Dense — якщо важлива максимальна якість і є 32+ GB, особливо для fine-tuning і складних reasoning задач
На бенчмарках різниця між ними невелика: AIME 88.3% vs 89.2%, MMLU Pro 82.3% vs 85.2%. Але на практиці 31B Dense часто відчувається якіснішою для складних multi-step задач — саме через те що всі параметри активні.
📊 Gemma 4 vs Gemma 3: що реально змінилось
Це не еволюція — це зміна категорії. Цифри говорять самі за себе.
Нижче — порівняння на однакових версіях бенчмарків. Gemma 3 тестувалась при виході у березні 2025, Gemma 4 — при виході у квітні 2026 (офіційна model card Gemma 4). Порівнюємо найближчі за розміром варіанти: Gemma 3 27B проти Gemma 4 31B.
Бенчмарк
Що вимірює
Gemma 3 27B
Gemma 4 31B
Зміна
AIME 2026
Змагальна математика
20.8%
89.2%
+68.4%
LiveCodeBench v6
Реальний код
29.1%
80.0%
+50.9%
GPQA Diamond
Знання рівня PhD
42.4%
84.3%
+41.9%
τ2-bench
Агентні задачі / інструменти
6.6%
86.4%
+79.8%
RULER 128K
Реальне використання контексту
13.5%
66.4%
+52.9%
Codeforces ELO
Конкурентне програмування
110
2150
×19
MMLU Pro
Загальні знання
~67%
85.2%
+18%
Що стоїть за цими цифрами
AIME 2026 — найдраматичніший стрибок. AIME (American Invitational Mathematics Examination) — це змагальна математика університетського рівня, де більшість людей не вирішує більше 2-3 задач з 15. Gemma 3 27B набирала 20.8% — це рівень "іноді відгадує". Gemma 4 31B — 89.2%. Причина: вбудований reasoning mode дозволяє моделі будувати покроковий план рішення на 4000+ токенів перед відповіддю. Без цього такий результат неможливий.
LiveCodeBench v6 — реальний код, не шкільні задачі. На відміну від HumanEval де задачі відомі і модель могла їх "запам'ятати" під час тренування, LiveCodeBench використовує свіжі задачі з реальних змагань. Gemma 3 27B — 29.1%, Gemma 4 31B — 80%. Тобто попереднє покоління вирішувало кожну третю задачу, нове — чотири з п'яти.
τ2-bench — найважливіший для продуктових розробників. Цей бенчмарк тестує агентні сценарії: виклик інструментів, виконання послідовності кроків, обробка помилок. Gemma 3 27B — 6.6%, Gemma 4 31B — 86.4%. Це означає що Gemma 3 практично не могла надійно виконувати агентні задачі. Gemma 4 — може. Для тих хто будує RAG-продукти або автоматизацію це принципова різниця.
RULER 128K — найбільш недооцінений результат. Gemma 3 номінально підтримувала 128K токенів контексту. Але score 13.5% на RULER означає що модель майже не використовувала інформацію з середини і кінця контексту — вона "забувала" що було на початку довгого документа. Якщо ви подавали великий PDF і отримували неповні або неточні відповіді — це і була причина. Gemma 4 — 66.4%. Контекст нарешті працює реально, а не тільки на папері. Для RAG-сценаріїв і роботи з корпоративними документами це ключова зміна.
Codeforces ELO — зміна на порядок. ELO 110 у Gemma 3 означав рівень нижче найслабших зареєстрованих учасників платформи — модель не могла вирішити навіть найпростіші конкурсні задачі. ELO 2150 у Gemma 4 — це рівень "Candidate Master", топ-кілька сотень гравців глобально. Причина та сама: reasoning mode + нативний function calling.
Що змінилось у можливостях
Можливість
Gemma 3
Gemma 4
Практичне значення
Ліцензія
Gemma Open (обмежена)
Apache 2.0
Можна вбудовувати в комерційні продукти без обмежень
Зображення
Вибіркові моделі
✅ Всі моделі
Навіть E2B на смартфоні розуміє зображення
Аудіо
❌
✅ E2B і E4B
Нова можливість — транскрипція і розуміння мовлення локально
Reasoning mode
❌
✅ Вбудований
Головна причина стрибку у математиці і коді
Function calling
Через промпт (ненадійно)
✅ Нативний (trained in)
Агентні сценарії нарешті надійні
MoE архітектура
❌
✅ 26B варіант
Якість великої моделі при швидкості малої
Контекст
128K (номінально, ~13% ефективності)
128K / 256K (реально, ~66% ефективності)
Документи нарешті читаються повністю
System prompt
Обмежена підтримка
✅ Нативна підтримка
Стабільніша поведінка в чат-застосунках
Чи варто переходити з Gemma 3 на Gemma 4?
Коротка відповідь — так, якщо немає специфічної причини залишитись. Gemma 4 краща у кожному вимірюваному аспекті.
Три причини залишитись на Gemma 3:
Ви вже файн-тюнили Gemma 3 — ваги не переносяться, потрібно перетренувати
Ваш фреймворк або інструмент ще не підтримує Gemma 4 — деякі нішеві інтеграції відстають від нових релізів
Вам потрібна стабільність а не функції — Gemma 3 має кілька місяців community bug-fixing за плечима, Gemma 4 ще свіжа
В усіх інших випадках — переходьте. Особливо якщо використовуєте Gemma для коду, агентних задач або роботи з довгими документами.
⚔️ Gemma 4 vs Llama 4 vs Qwen3: де виграє, де програє
На ринку відкритих моделей зараз три головних гравці. У кожного є своя сильна сторона.
Критерій
Gemma 4
Llama 4
Qwen3
Ліцензія
✅ Apache 2.0
⚠️ Custom (700M MAU ліміт)
✅ Apache 2.0
Математика (AIME)
✅ 89.2%
~80%
~48%
Аудіо
✅ E2B/E4B
❌
❌
Швидкість на слабкому залізі
⚠️ Повільна (reasoning)
✅ Швидша
✅ Найшвидша
Якість тексту
✅ Найкраща структура
Добра
Добра
Підтримка Ollama
✅ Day-one
✅ Day-one
✅ Day-one
Коротко: Gemma 4 виграє по ліцензії, математиці і якості тексту. Qwen3 виграє по швидкості на слабкому залізі. Llama 4 має найдовший контекст у Scout-варіанті. Для більшості локальних сценаріїв Gemma 4 E4B або Qwen3 8B — найкращий вибір залежно від пріоритету.
⚙️ Як завантажити Gemma 4 через Ollama — перший старт
Ollama — це рушій. Gemma 4 — це модель. Встановлюєте Ollama один раз, потім підключаєте будь-яку модель однією командою.
Важливо: Gemma 4 вимагає Ollama 0.20+. Перевірте версію і оновіть якщо потрібно:
ollama --version
brew upgrade ollama # оновлення на Mac
brew services restart ollama # перезапуск після оновлення
Завантаження і запуск:
# Рекомендований варіант для більшості (6-9 GB RAM)
ollama run gemma4
# Легкий варіант для слабкого заліза
ollama run gemma4:e2b
# MoE варіант — потрібно ~18 GB
ollama run gemma4:26b
# Максимальна якість — потрібно ~20 GB
ollama run gemma4:31b
Після першого запуску модель завантажується в пам'ять (символ ⠇), через кілька секунд з'являється >>> і можна писати промпти. Також модель доступна через будь-який Ollama UI — Open WebUI, Continue.dev та інші.
💾 Яку модель обрати під своє залізо: 8 GB, 16 GB, 32 GB
Найпоширеніша помилка — завантажити модель яка не влізе в пам'ять. Результат: свопінг, зависання, розчарування.
Залізо
Рекомендована модель
Чому
8 GB RAM / VRAM
gemma4:e4b
Займає ~6 GB, залишає місце для системи. Краща за Gemma 3 27B по всіх бенчмарках.
16 GB unified memory (Mac M1/M2)
gemma4 (e4b)
Оптимальний вибір. gemma4:26b на 16 GB викличе свопінг — не рекомендується.
24 GB VRAM (RTX 3090/4090)
gemma4:26b
MoE варіант влізе комфортно, швидкий інференс.
32 GB unified memory (Mac M2/M3 Max)
gemma4:31b
Максимальна якість, 3-тє місце серед відкритих моделей на Arena AI.
✅ Висновок: кому варто спробувати Gemma 4 прямо зараз
Gemma 4 — найкраща відкрита модель для більшості локальних сценаріїв у 2026. Але не для всіх — і я це знаю з власного досвіду.
Я тестував Gemma 4 на MacBook Pro M1 16 GB — поряд з Qwen3:8b і Mistral Nemo які вже стоять у мене локально. Детальні результати — в окремій статті з реальними тестами: Gemma 4 на M1 16 GB — код, текст, швидкість. Тут — мій підсумковий висновок.
Gemma 4 справді здивувала якістю тексту. Коли я давав однаковий промпт трьом моделям — Gemma 4 єдина сама додала структуру і таблицю яку я не просив, але яка реально покращила відповідь. Для генерації контенту, документації і пояснень для бізнесу — вона на голову вища за конкурентів.
З кодом картина складніша. Якість Spring Boot коду у Gemma 4 і Qwen3:8b практично однакова — але Qwen3 видала результат за 67 секунд, а Gemma 4 думала майже 4 хвилини. Для щоденного кодування це відчутна різниця.
Беріть Gemma 4 якщо:
Будуєте комерційний продукт — Apache 2.0 закриває всі юридичні питання
Працюєте з документами і потрібен контекст який реально читається, а не номінально
Будуєте локальний RAG — нативний function calling і 128K/256K контекст
Генеруєте складний текст — статті, документацію, пояснення
Маєте 8+ GB RAM і час відповіді не критичний
Залишайтесь на Qwen3:8b якщо:
Щодня пишете код і потрібна швидкість — Qwen3 у 3-4 рази швидша при схожій якості коду
Використовуєте модель як автодоповнення в IDE — там затримка в 4 хвилини неприйнятна
Вже файн-тюнили Gemma 3 — ваги не перенесуться, потрібно перетренувати
На моєму M1 16 GB зараз стоять обидві моделі одночасно — разом займають ~15 GB і не конфліктують. Я перемикаюсь: Gemma 4 для тексту і складних задач, Qwen3 для швидкого коду. Це і є мій практичний висновок.
Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати.
Що таке MoE і чому 26B...
Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...
Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...
Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...
Розробник налаштував tool use, перевірив на тестових запитах — все працює.
У production модель раптом відповідає без виклику інструменту, впевнено і зв'язно,
але з даними річної давнини. Жодної помилки в логах. Просто неправильна відповідь.
Спойлер: модель не «зламалась»...
Коли розробник вперше бачить як LLM «викликає функцію» — виникає інтуїтивна помилка:
здається що модель сама виконала запит до бази або API.
Це не так, і саме ця помилка породжує цілий клас архітектурних багів.
Спойлер: LLM лише повертає структурований JSON з назвою...