Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Оновлено:
Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026
Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли ні.

🧠 Що таке reasoning mode і як він з'явився в Gemma 4

Gemma 4 — перша модель в лінійці Google яка вміє думати перед тим як відповідати. Це не маркетинг — це окремий технічний механізм який реально змінює якість відповідей.

Reasoning mode (або thinking mode) — це здатність моделі генерувати внутрішній монолог міркувань перед фінальною відповіддю. Модель будує план, перевіряє логіку, виправляє себе — і тільки після цього видає результат користувачу. Те що ви бачите у фінальній відповіді — це вже результат після внутрішньої "роботи над помилками".

Звідки це з'явилось

Ідея "думати перед відповіддю" не нова — але у відкритих моделях вона масово з'явилась лише у 2025-2026 роках. Перші хто popularized цей підхід — DeepSeek-R1 (китайська відкрита модель) і OpenAI o1. Обидві показали що модель яка витрачає час на внутрішнє міркування вирішує складні задачі значно краще ніж модель яка відповідає одразу.

Google пішов тим самим шляхом. У Gemma 3 reasoning не було — модель відповідала одразу, що думала те й казала. Gemma 4 отримала вбудований thinking mode як одну з ключових нових можливостей. Саме це пояснює найдраматичніший стрибок у бенчмарках: AIME (змагальна математика) з 20.8% до 89.2%, Codeforces ELO з 110 до 2150. Без thinking такі результати неможливі — математичні задачі вимагають покрокового міркування, а не миттєвої відповіді.

Як це працює технічно

Технічно reasoning у Gemma 4 реалізований через спеціальний токен <|think|> у системному промпті. Коли модель бачить цей токен — вона активує режим міркування і перед фінальною відповіддю генерує внутрішній монолог довжиною до 4000+ токенів.

Ці 4000 токенів — це не просто "додатковий текст". Це окремий прохід через задачу: модель формулює проблему своїми словами, розбиває на підзадачі, будує план, перевіряє чи план логічний, і тільки після цього починає генерувати фінальну відповідь. Якщо під час thinking вона виявляє протиріччя — виправляє себе ще до того як ви побачили хоч слово відповіді.

Важлива деталь: через Ollama токен <|think|> вставляється автоматично — вам нічого не треба налаштовувати. Це відрізняється від деяких інших моделей де thinking треба явно активувати через системний промпт або параметри API.

Чим це відрізняється від звичайної генерації

Звичайна генерація тексту у LLM — це послідовне передбачення наступного токену. Модель не "планує" відповідь — вона просто продовжує текст токен за токеном на основі контексту. Це добре працює для простих запитів, але погано для задач де потрібна логіка, математика або багатокроковий план.

Reasoning mode змінює це: перед генерацією фінальної відповіді модель отримує "простір для думок" де може вільно міркувати, помилятись і виправлятись. Це принципово інший підхід — і саме тому моделі з reasoning показують настільки кращі результати на складних задачах.

Простою аналогією: звичайна модель — це студент який одразу пише відповідь на екзамені. Модель з reasoning — це студент який спочатку робить чернетку, перевіряє логіку, і тільки потім переписує чисто.

Що це означає для вас на практиці

Якщо ви вперше запустили Gemma 4 і здивувались що вона довго "думає" перед відповіддю — тепер ви знаєте чому. Це не баг і не гальмування заліза. Це цілеспрямована поведінка яка покращує якість відповіді.

На MacBook Pro M1 16 GB thinking займає від 15 до 73 секунд залежно від складності задачі. Детальні цифри — у секції про вартість thinking нижче. А поки — подивимось що саме відбувається всередині блоку Thinking.

🔍 Як виглядає блок Thinking — що там насправді відбувається

Блок Thinking — це не прихований технічний лог. Це реальний процес міркування моделі який можна читати і з якого можна навчитись.

Коли ви запускаєте запит до Gemma 4 через Ollama термінал або UI, перед відповіддю з'являється блок:

Thinking...
Thinking Process:

1. Analyze the user's input...
2. Identify the core question...
3. Recall personal identity/nature...
...done thinking.

Що відбувається всередині цього блоку — залежить від задачі. Я спостерігав три патерни:

Для простих запитань (наприклад "скільки у тебе параметрів?") — модель будує короткий план з 4-7 кроків: визначити мову запиту, зрозуміти питання, пригадати релевантні факти, сформулювати відповідь. Займає 20-37 секунд.

Для складного коду (Spring Boot endpoint) — модель аналізує що саме потрібно, перераховує компоненти які треба включити (Entity, Repository, Service, Controller), планує структуру, робить self-correction якщо щось забула. Займає 60-73 секунди.

Для тексту (пояснення RAG для бізнесу) — модель визначає аудиторію, формулює аналогії, планує структуру абзаців, перевіряє чи дотримані обмеження промпту. Займає 37 секунд — і саме завдяки цьому вона сама додала таблицю порівняння яку я не просив, але яка реально покращила відповідь.

Ключовий момент: блок Thinking видно тільки вам — у фінальній відповіді його немає. Це внутрішній процес моделі.

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

⚙️ Як керувати reasoning через Ollama термінал і API

Повністю вимкнути thinking через Ollama неможливо — але можна суттєво скоротити. І це важливо знати перш ніж розчаруватись у швидкості моделі.

Згідно з офіційною документацією Ollama, керування thinking відбувається через токен у системному промпті:

# Thinking увімкнено (за замовчуванням)
# Токен <|think|> вставляється автоматично

# Щоб вимкнути — прибрати токен з системного промпту
# Але через стандартний Ollama CLI це не так просто

Спосіб 1 — /no_think на початку промпту:

Найпростіший спосіб скоротити thinking прямо в запиті:

ollama run gemma4
>>> /no_think Поясни що таке Docker простими словами

За моїми тестами це скорочує thinking з ~37 секунд до ~20 секунд. Повністю не вимикає — модель все одно думає, але коротше.

Спосіб 2 — створити окрему модель без thinking через Modelfile:

# Створюємо Modelfile
echo 'FROM gemma4
SYSTEM ""' > Modelfile

# Будуємо нову модель
ollama create gemma4-fast -f Modelfile

# Запускаємо
ollama run gemma4-fast

Теоретично це має прибрати системний промпт з токеном <|think|>. На практиці — thinking все одно з'являється, але у скороченому вигляді. Це відома поведінка Gemma 4 через Ollama яку обговорюють у GitHub issues.

Спосіб 3 — через Ollama API з параметром think: false:

curl http://localhost:11434/api/chat -d '{
  "model": "gemma4",
  "think": false,
  "messages": [
    {
      "role": "user",
      "content": "Поясни що таке Docker"
    }
  ]
}'

Це найнадійніший спосіб для програмного керування thinking. Параметр think: false підтримується в Ollama 0.20+.

🖥️ Як керувати reasoning в Open WebUI

У графічному інтерфейсі керувати thinking простіше — але можливості залежать від версії вашого UI.

Якщо ви використовуєте Open WebUI або інший Ollama-сумісний інтерфейс — thinking блок відображається як розкривна секція перед відповіддю. Зазвичай він згорнутий і позначений як "Thought for X seconds".

Щоб скоротити thinking в UI — є два підходи:

1. Через поле System Prompt (якщо є в налаштуваннях моделі): залиште порожнім або додайте власний системний промпт без токену <|think|>. Але як показав мій тест — це не гарантує повного вимкнення.

2. Через /no_think на початку повідомлення: працює і в UI так само як у терміналі — просто додайте на початку запиту. Thinking скоротиться але не зникне повністю.

Для більшості користувачів UI — найпрактичніше рішення: просто прийняти що thinking є і оцінювати модель за якістю фінальної відповіді, а не за швидкістю.

🧪Мій тест: з thinking і без — порівняння якості

Я тестував на MacBook Pro M1 16 GB. Один і той самий промпт — два режими. Ось що вийшло.

Промпт для обох тестів:

Поясни що таке RAG (Retrieval-Augmented Generation) простою мовою для бізнесу. Без технічних термінів. 3-4 абзаци.

Тест 1 — звичайний запуск (thinking увімкнено):

Thinking зайняв ~37 секунд. Модель спланувала структуру, визначила аудиторію, вибрала аналогії. Результат: структурована відповідь з підзаголовками, сильна аналогія ("учень з усіма книгами світу vs асистент з довідником вашої компанії") і таблиця порівняння "LLM без RAG vs з RAG" — яку я не просив, але яка реально покращила відповідь. Загальний час: ~1.5 хвилини.

Тест 2 — з /no_think (thinking скорочено):

Thinking зайняв 20.3 секунди. Модель відповіла швидше. Результат: 4 абзаци, є аналогія ("стажер з внутрішньою базою знань"), зрозуміло і чисто. Але — без таблиці, без підзаголовків, менш структуровано. Загальний час: ~50 секунд.

Параметр З thinking (звичайний) З /no_think
Час thinking ~37 сек ~20 сек
Загальний час ~1.5 хв ~50 сек
Структура відповіді Підзаголовки + таблиця 4 абзаци без структури
Аналогії ✅ Сильні ✅ Є, але простіші
Дотримання інструкцій Порушив (додав більше) ✅ Точно 4 абзаци
Загальна якість ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐

Цікавий нюанс: з повним thinking модель порушила обмеження "3-4 абзаци" — додала таблицю і підзаголовки яких я не просив. Але зробила це правильно — відповідь стала кращою. З /no_think — суворо дотрималась інструкцій, але відповідь простіша.

⏱️ Скільки часу з'їдає thinking mode на M1 16 GB

Thinking — це не безкоштовно. Ось цифри з моїх тестів на MacBook Pro M1 16 GB.
Задача Час thinking Час генерації Загалом
Просте питання (параметри моделі) ~15 сек ~20 сек ~35 сек
Текст (RAG для бізнесу) ~37 сек ~1 хв ~1.5 хв
Текст з /no_think ~20 сек ~30 сек ~50 сек
Складний код (Spring Boot) ~73 сек ~3 хв ~4 хв

Що впливає на тривалість thinking:

  • Складність задачі — чим більше кроків потрібно спланувати, тим довше думає
  • Кількість компонентів у відповіді — код з чотирма класами думається довше ніж один абзац тексту
  • Наявність /no_think — скорочує приблизно вдвічі
  • Поточне навантаження на M1 — якщо відкрито багато вкладок браузера, thinking повільніший

Для порівняння: Qwen3:8b на тих самих задачах думає 18-32 секунди і генерує текст за 20-35 секунд. Тобто повний цикл у Qwen3 — 38-67 секунд проти 50-240 секунд у Gemma 4. Різниця суттєва для щоденної роботи.

✅ Коли thinking потрібен, а коли він тільки гальмує

Thinking — інструмент а не обов'язок. Вмикайте коли потрібна якість, вимикайте (наскільки можливо) коли потрібна швидкість.

Thinking однозначно варте часу:

  • Складна математика або логічні задачі — без thinking якість падає драматично
  • Генерація структурованого тексту — статті, документація, пояснення для бізнесу
  • Агентні сценарії з кількома кроками — planning перед виконанням критичний
  • Код з нетривіальною архітектурою — модель сама виловлює помилки в плані до того як їх написати
  • Будь-яка задача де якість важливіша за час

Thinking можна скорочувати через /no_think:

  • Прості питання з однозначною відповіддю
  • Переклад тексту
  • Короткі відповіді де структура не потрібна
  • Чат де важлива реактивність
  • Шаблонний код який ви і так знаєте

Моя порада з мого досвіду: я залишаю thinking увімкненим за замовчуванням і додаю /no_think тільки коли явно хочу швидку відповідь на просте питання. Для складних задач — thinking себе виправдовує навіть на M1 де він повільніший.

Якщо вам потрібна модель де thinking швидший або де його можна надійно вимкнути — розгляньте Qwen3:8b. Детальне порівняння: Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість.

📚 Читайте також

Вадим Харовюк — розробник, засновник WebsCraft і AskYourDocs. Тестую локальні AI-моделі на власному Mac M1 і пишу про те що реально працює.

Останні статті

Читайте більше цікавих матеріалів

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати. Що таке MoE і чому 26B...

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...

Як модель LLM  вирішує коли шукати — механіка прийняття рішень

Як модель LLM вирішує коли шукати — механіка прийняття рішень

Розробник налаштував tool use, перевірив на тестових запитах — все працює. У production модель раптом відповідає без виклику інструменту, впевнено і зв'язно, але з даними річної давнини. Жодної помилки в логах. Просто неправильна відповідь. Спойлер: модель не «зламалась»...

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG

Коли розробник вперше бачить як LLM «викликає функцію» — виникає інтуїтивна помилка: здається що модель сама виконала запит до бази або API. Це не так, і саме ця помилка породжує цілий клас архітектурних багів. Спойлер: LLM лише повертає структурований JSON з назвою...