Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Actualizado:
Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3
Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається через Ollama однією командою.

🤖 Що таке Gemma 4 і чим вона відрізняється від Gemini

Gemma і Gemini — це два різні продукти Google. Плутати їх — найпоширеніша помилка при першому знайомстві.

Gemini — закрита модель Google, доступна лише через платний API. Ви не можете завантажити її ваги, запустити локально або вбудувати у свій продукт без оплати кожного запиту.

Gemma 4 — відкрита модель (Google DeepMind), побудована на тій самій дослідницькій базі що й Gemini 3, але з відкритими вагами. Ви завантажуєте модель на своє залізо і запускаєте локально — без інтернету, без API-ключів, без оплати за токени.

2 квітня 2026 року Google випустила Gemma 4 — четверте покоління цієї лінійки. З моменту запуску першої Gemma розробники завантажили моделі понад 400 мільйонів разів і створили більше 100 000 варіантів на їх основі.

Gemma 4 — перша модель в лінійці яка одночасно підтримує:

  • зображення і аудіо як нативний вхід (не через окремий pipeline)
  • вбудований reasoning mode (покрокове міркування перед відповіддю)
  • нативний function calling для агентних сценаріїв
  • комерційно вільну ліцензію Apache 2.0

📄 Ліцензія Apache 2.0: чому це важливо для бізнесу

Попередні версії Gemma можна було використовувати, але з обмеженнями. Gemma 4 — перша без обмежень взагалі.

Gemma 3 виходила під власною ліцензією Google ("Gemma Open") яка дозволяла комерційне використання, але містила обмеження на певні сценарії і вимагала дотримання Google-специфічних умов. Це створювало юридичну невизначеність для бізнесу.

Gemma 4 випущена під Apache 2.0 — однією з найбільш дозвільних ліцензій у відкритому програмному забезпеченні. Та сама ліцензія використовується в Kubernetes, TensorFlow, Android.

Умова Gemma 3 Gemma 4
Комерційне використання Обмежено ✅ Без обмежень
Вбудовування у продукт Обмежено ✅ Вільно
Fine-tuning і розповсюдження Обмежено ✅ Вільно
Ліміти MAU Є ❌ Немає
Права на вихідні дані моделі Google-специфічні умови ✅ Ваші повністю

Для українського бізнесу і розробників це означає: можна вбудовувати Gemma 4 у комерційні продукти, SaaS-сервіси, корпоративні системи — без юридичних ризиків і без оплати Google.

📐 Чотири розміри Gemma 4: E2B, E4B, 26B MoE, 31B Dense

Gemma 4 — не одна модель, а сімейство під різне залізо. Від смартфона до серверного GPU.

Google розбила Gemma 4 на два класи: edge-моделі (E-серія) для пристроїв з обмеженою пам'яттю та великі моделі для десктопів і серверів. Правильний вибір розміру — це не питання "більше = краще", а питання відповідності вашому залізу і задачі.

Модель Параметри Архітектура RAM (4-bit) Контекст Аудіо Ollama команда
E2B 2.3B ефективних Dense ~5 GB 128K ollama run gemma4:e2b
E4B 4.5B ефективних Dense ~6 GB 128K ollama run gemma4
26B MoE 3.8B активних / 26B всього Mixture of Experts ~18 GB 256K ollama run gemma4:26b
31B Dense 30.7B Dense ~20 GB 256K ollama run gemma4:31b

🔵 Gemma 4 E2B — для edge і слабкого заліза

Що означає "E" в E2B і E4B? "E" від слова "effective" — ефективні параметри. Реальний розмір моделі більший (5.1B з embeddings), але під час роботи активується лише 2.3B. Це дозволяє запускати модель на пристроях з мінімальними ресурсами.

E2B — найменша модель у сімействі. Розроблена для смартфонів, Raspberry Pi і ноутбуків з 4-6 GB доступної пам'яті. Підтримує зображення і аудіо — що для моделі такого розміру є унікальною характеристикою. Контекст 128K токенів.

Для кого підходить: розробники мобільних застосунків, IoT-проєкти, ноутбуки зі слабким залізом, сценарії де критичний офлайн-режим на пристрої.

Де не підходить: складна генерація коду, довгі структуровані тексти, задачі де потрібна висока якість відповіді. У таких випадках краще E4B.

🟢 Gemma 4 E4B — оптимальний вибір для більшості

E4B — це дефолтний варіант Gemma 4. Коли ви пишете просто ollama run gemma4 — завантажується саме E4B. 4.5B ефективних параметрів, ~6 GB у 4-bit квантизації, 128K контекст, підтримка зображень і аудіо.

Ця модель — головний сюрприз сімейства. На бенчмарку LiveCodeBench v6 E4B набирає 80% — стільки ж скільки Gemma 3 27B набирала на AIME. Тобто маленька edge-модель перевершує попереднє покоління великої моделі по коду. Це наслідок reasoning mode і принципово кращого тренування.

Для кого підходить: більшість розробників на Mac M1/M2 8-16 GB, Windows ноутбуки з 8+ GB RAM, щоденна робота з кодом і текстом, RAG-продукти на слабкому залізі.

Єдиний мінус: reasoning mode увімкнений за замовчуванням і додає 30-75 секунд до кожної відповіді. Для рутинних швидких задач це може бути незручно — тоді Qwen3:8b швидша при схожій якості коду.

🟡 Gemma 4 26B MoE — швидкість великої моделі при меншому споживанні

Що означає MoE? Mixture of Experts — архітектура де модель складається з 128 спеціалізованих "експертів", але для кожного токену активується лише невелика їх частина. У 26B MoE під час інференсу активується ~3.8B параметрів — звідси висока швидкість генерації при якості значно вищій за 4B модель.

Звучить ідеально — але є важливий нюанс: завантажити в пам'ять потрібно всі 26B, тобто ~18 GB. Активується менше, але зберігається все. Це принципова відмінність від E4B де і зберігається і активується мало.

На практиці це означає: 26B MoE комфортно працює на RTX 3090/4090 з 24 GB VRAM або Mac з 24-32 GB unified memory. На Mac M1/M2 16 GB вона не рекомендується — викличе свопінг і зависання. Детальніше про це — в окремій статті про підводні камені Gemma 4 26B MoE.

Для кого підходить: розробники з RTX 3090/4090, Mac M2/M3 Pro з 24+ GB, сценарії де потрібен 256K контекст і висока якість при швидкому інференсі.

🔴 Gemma 4 31B Dense — максимальна якість

31B Dense — флагманська модель сімейства. "Dense" означає що всі 30.7B параметрів активуються для кожного токену — на відміну від MoE де активується лише частина. Це дає максимальну якість, але вимагає більше ресурсів.

На Arena AI (незалежний рейтинг на базі людських порівнянь) Gemma 4 31B займає 3-тє місце серед усіх відкритих моделей у світі станом на квітень 2026. AIME 2026 — 89.2%, LiveCodeBench — 80%, GPQA Diamond — 84.3%.

Для локального запуску потрібно ~20 GB RAM у 4-bit квантизації. Це Mac M2/M3 Max з 32+ GB або RTX 4090. На менших пристроях — тільки з агресивним свопінгом, що робить роботу некомфортною.

Для кого підходить: розробники з топовим залізом, fine-tuning і дослідницькі задачі, production RAG де якість критична і є потужний сервер.

Як обрати між 26B MoE і 31B Dense?

Це найчастіше питання серед тих хто має достатньо RAM для обох. Коротка відповідь:

  • 26B MoE — якщо важлива швидкість інференсу, є 24 GB VRAM але не 32 GB, або потрібен 256K контекст з мінімальною затримкою
  • 31B Dense — якщо важлива максимальна якість і є 32+ GB, особливо для fine-tuning і складних reasoning задач

На бенчмарках різниця між ними невелика: AIME 88.3% vs 89.2%, MMLU Pro 82.3% vs 85.2%. Але на практиці 31B Dense часто відчувається якіснішою для складних multi-step задач — саме через те що всі параметри активні.

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

📊 Gemma 4 vs Gemma 3: що реально змінилось

Це не еволюція — це зміна категорії. Цифри говорять самі за себе.

Нижче — порівняння на однакових версіях бенчмарків. Gemma 3 тестувалась при виході у березні 2025, Gemma 4 — при виході у квітні 2026 (офіційна model card Gemma 4). Порівнюємо найближчі за розміром варіанти: Gemma 3 27B проти Gemma 4 31B.

Бенчмарк Що вимірює Gemma 3 27B Gemma 4 31B Зміна
AIME 2026 Змагальна математика 20.8% 89.2% +68.4%
LiveCodeBench v6 Реальний код 29.1% 80.0% +50.9%
GPQA Diamond Знання рівня PhD 42.4% 84.3% +41.9%
τ2-bench Агентні задачі / інструменти 6.6% 86.4% +79.8%
RULER 128K Реальне використання контексту 13.5% 66.4% +52.9%
Codeforces ELO Конкурентне програмування 110 2150 ×19
MMLU Pro Загальні знання ~67% 85.2% +18%

Що стоїть за цими цифрами

AIME 2026 — найдраматичніший стрибок. AIME (American Invitational Mathematics Examination) — це змагальна математика університетського рівня, де більшість людей не вирішує більше 2-3 задач з 15. Gemma 3 27B набирала 20.8% — це рівень "іноді відгадує". Gemma 4 31B — 89.2%. Причина: вбудований reasoning mode дозволяє моделі будувати покроковий план рішення на 4000+ токенів перед відповіддю. Без цього такий результат неможливий.

LiveCodeBench v6 — реальний код, не шкільні задачі. На відміну від HumanEval де задачі відомі і модель могла їх "запам'ятати" під час тренування, LiveCodeBench використовує свіжі задачі з реальних змагань. Gemma 3 27B — 29.1%, Gemma 4 31B — 80%. Тобто попереднє покоління вирішувало кожну третю задачу, нове — чотири з п'яти.

τ2-bench — найважливіший для продуктових розробників. Цей бенчмарк тестує агентні сценарії: виклик інструментів, виконання послідовності кроків, обробка помилок. Gemma 3 27B — 6.6%, Gemma 4 31B — 86.4%. Це означає що Gemma 3 практично не могла надійно виконувати агентні задачі. Gemma 4 — може. Для тих хто будує RAG-продукти або автоматизацію це принципова різниця.

RULER 128K — найбільш недооцінений результат. Gemma 3 номінально підтримувала 128K токенів контексту. Але score 13.5% на RULER означає що модель майже не використовувала інформацію з середини і кінця контексту — вона "забувала" що було на початку довгого документа. Якщо ви подавали великий PDF і отримували неповні або неточні відповіді — це і була причина. Gemma 4 — 66.4%. Контекст нарешті працює реально, а не тільки на папері. Для RAG-сценаріїв і роботи з корпоративними документами це ключова зміна.

Codeforces ELO — зміна на порядок. ELO 110 у Gemma 3 означав рівень нижче найслабших зареєстрованих учасників платформи — модель не могла вирішити навіть найпростіші конкурсні задачі. ELO 2150 у Gemma 4 — це рівень "Candidate Master", топ-кілька сотень гравців глобально. Причина та сама: reasoning mode + нативний function calling.

Що змінилось у можливостях

Можливість Gemma 3 Gemma 4 Практичне значення
Ліцензія Gemma Open (обмежена) Apache 2.0 Можна вбудовувати в комерційні продукти без обмежень
Зображення Вибіркові моделі ✅ Всі моделі Навіть E2B на смартфоні розуміє зображення
Аудіо ✅ E2B і E4B Нова можливість — транскрипція і розуміння мовлення локально
Reasoning mode ✅ Вбудований Головна причина стрибку у математиці і коді
Function calling Через промпт (ненадійно) ✅ Нативний (trained in) Агентні сценарії нарешті надійні
MoE архітектура ✅ 26B варіант Якість великої моделі при швидкості малої
Контекст 128K (номінально, ~13% ефективності) 128K / 256K (реально, ~66% ефективності) Документи нарешті читаються повністю
System prompt Обмежена підтримка ✅ Нативна підтримка Стабільніша поведінка в чат-застосунках

Чи варто переходити з Gemma 3 на Gemma 4?

Коротка відповідь — так, якщо немає специфічної причини залишитись. Gemma 4 краща у кожному вимірюваному аспекті.

Три причини залишитись на Gemma 3:

  • Ви вже файн-тюнили Gemma 3 — ваги не переносяться, потрібно перетренувати
  • Ваш фреймворк або інструмент ще не підтримує Gemma 4 — деякі нішеві інтеграції відстають від нових релізів
  • Вам потрібна стабільність а не функції — Gemma 3 має кілька місяців community bug-fixing за плечима, Gemma 4 ще свіжа

В усіх інших випадках — переходьте. Особливо якщо використовуєте Gemma для коду, агентних задач або роботи з довгими документами.

⚔️ Gemma 4 vs Llama 4 vs Qwen3: де виграє, де програє

На ринку відкритих моделей зараз три головних гравці. У кожного є своя сильна сторона.
Критерій Gemma 4 Llama 4 Qwen3
Ліцензія ✅ Apache 2.0 ⚠️ Custom (700M MAU ліміт) ✅ Apache 2.0
Математика (AIME) ✅ 89.2% ~80% ~48%
Аудіо ✅ E2B/E4B
Швидкість на слабкому залізі ⚠️ Повільна (reasoning) ✅ Швидша ✅ Найшвидша
Якість тексту ✅ Найкраща структура Добра Добра
Підтримка Ollama ✅ Day-one ✅ Day-one ✅ Day-one

Коротко: Gemma 4 виграє по ліцензії, математиці і якості тексту. Qwen3 виграє по швидкості на слабкому залізі. Llama 4 має найдовший контекст у Scout-варіанті. Для більшості локальних сценаріїв Gemma 4 E4B або Qwen3 8B — найкращий вибір залежно від пріоритету.

⚙️ Як завантажити Gemma 4 через Ollama — перший старт

Ollama — це рушій. Gemma 4 — це модель. Встановлюєте Ollama один раз, потім підключаєте будь-яку модель однією командою.

Якщо Ollama ще не встановлено — завантажте з офіційного сайту або встановіть через Homebrew на Mac. Детальний гайд: Що таке Ollama і чому розробники масово переходять на локальний AI.

Важливо: Gemma 4 вимагає Ollama 0.20+. Перевірте версію і оновіть якщо потрібно:

ollama --version
brew upgrade ollama          # оновлення на Mac
brew services restart ollama # перезапуск після оновлення

Завантаження і запуск:

# Рекомендований варіант для більшості (6-9 GB RAM)
ollama run gemma4

# Легкий варіант для слабкого заліза
ollama run gemma4:e2b

# MoE варіант — потрібно ~18 GB
ollama run gemma4:26b

# Максимальна якість — потрібно ~20 GB
ollama run gemma4:31b

Після першого запуску модель завантажується в пам'ять (символ ), через кілька секунд з'являється >>> і можна писати промпти. Також модель доступна через будь-який Ollama UI — Open WebUI, Continue.dev та інші.

💾 Яку модель обрати під своє залізо: 8 GB, 16 GB, 32 GB

Найпоширеніша помилка — завантажити модель яка не влізе в пам'ять. Результат: свопінг, зависання, розчарування.
Залізо Рекомендована модель Чому
8 GB RAM / VRAM gemma4:e4b Займає ~6 GB, залишає місце для системи. Краща за Gemma 3 27B по всіх бенчмарках.
16 GB unified memory (Mac M1/M2) gemma4 (e4b) Оптимальний вибір. gemma4:26b на 16 GB викличе свопінг — не рекомендується.
24 GB VRAM (RTX 3090/4090) gemma4:26b MoE варіант влізе комфортно, швидкий інференс.
32 GB unified memory (Mac M2/M3 Max) gemma4:31b Максимальна якість, 3-тє місце серед відкритих моделей на Arena AI.

Детальний огляд моделей під конкретне залізо: Ollama на 8 GB RAM: які моделі працюють у 2026. Реальні тести Gemma 4 на MacBook Pro M1 16 GB: Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість.

✅ Висновок: кому варто спробувати Gemma 4 прямо зараз

Gemma 4 — найкраща відкрита модель для більшості локальних сценаріїв у 2026. Але не для всіх — і я це знаю з власного досвіду.

Я тестував Gemma 4 на MacBook Pro M1 16 GB — поряд з Qwen3:8b і Mistral Nemo які вже стоять у мене локально. Детальні результати — в окремій статті з реальними тестами: Gemma 4 на M1 16 GB — код, текст, швидкість. Тут — мій підсумковий висновок.

Gemma 4 справді здивувала якістю тексту. Коли я давав однаковий промпт трьом моделям — Gemma 4 єдина сама додала структуру і таблицю яку я не просив, але яка реально покращила відповідь. Для генерації контенту, документації і пояснень для бізнесу — вона на голову вища за конкурентів.

З кодом картина складніша. Якість Spring Boot коду у Gemma 4 і Qwen3:8b практично однакова — але Qwen3 видала результат за 67 секунд, а Gemma 4 думала майже 4 хвилини. Для щоденного кодування це відчутна різниця.

Беріть Gemma 4 якщо:

  • Будуєте комерційний продукт — Apache 2.0 закриває всі юридичні питання
  • Працюєте з документами і потрібен контекст який реально читається, а не номінально
  • Будуєте локальний RAG — нативний function calling і 128K/256K контекст
  • Генеруєте складний текст — статті, документацію, пояснення
  • Маєте 8+ GB RAM і час відповіді не критичний

Залишайтесь на Qwen3:8b якщо:

  • Щодня пишете код і потрібна швидкість — Qwen3 у 3-4 рази швидша при схожій якості коду
  • Використовуєте модель як автодоповнення в IDE — там затримка в 4 хвилини неприйнятна
  • Вже файн-тюнили Gemma 3 — ваги не перенесуться, потрібно перетренувати

На моєму M1 16 GB зараз стоять обидві моделі одночасно — разом займають ~15 GB і не конфліктують. Я перемикаюсь: Gemma 4 для тексту і складних задач, Qwen3 для швидкого коду. Це і є мій практичний висновок.

Читайте далі по темі:

Вадим Харовюк — розробник, засновник WebsCraft і AskYourDocs.

Останні статті

Читайте більше цікавих матеріалів

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати. Що таке MoE і чому 26B...

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...

Як модель LLM  вирішує коли шукати — механіка прийняття рішень

Як модель LLM вирішує коли шукати — механіка прийняття рішень

Розробник налаштував tool use, перевірив на тестових запитах — все працює. У production модель раптом відповідає без виклику інструменту, впевнено і зв'язно, але з даними річної давнини. Жодної помилки в логах. Просто неправильна відповідь. Спойлер: модель не «зламалась»...

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG

Коли розробник вперше бачить як LLM «викликає функцію» — виникає інтуїтивна помилка: здається що модель сама виконала запит до бази або API. Це не так, і саме ця помилка породжує цілий клас архітектурних багів. Спойлер: LLM лише повертає структурований JSON з назвою...