Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Оновлено:
Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026
Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли ні.

🧠 Що таке reasoning mode і як він з'явився в Gemma 4

Gemma 4 — перша модель в лінійці Google яка вміє думати перед тим як відповідати. Це не маркетинг — це окремий технічний механізм який реально змінює якість відповідей.

Reasoning mode (або thinking mode) — це здатність моделі генерувати внутрішній монолог міркувань перед фінальною відповіддю. Модель будує план, перевіряє логіку, виправляє себе — і тільки після цього видає результат користувачу. Те що ви бачите у фінальній відповіді — це вже результат після внутрішньої "роботи над помилками".

Звідки це з'явилось

Ідея "думати перед відповіддю" не нова — але у відкритих моделях вона масово з'явилась лише у 2025-2026 роках. Перші хто popularized цей підхід — DeepSeek-R1 (китайська відкрита модель) і OpenAI o1. Обидві показали що модель яка витрачає час на внутрішнє міркування вирішує складні задачі значно краще ніж модель яка відповідає одразу.

Google пішов тим самим шляхом. У Gemma 3 reasoning не було — модель відповідала одразу, що думала те й казала. Gemma 4 отримала вбудований thinking mode як одну з ключових нових можливостей. Саме це пояснює найдраматичніший стрибок у бенчмарках: AIME (змагальна математика) з 20.8% до 89.2%, Codeforces ELO з 110 до 2150. Без thinking такі результати неможливі — математичні задачі вимагають покрокового міркування, а не миттєвої відповіді.

Як це працює технічно

Технічно reasoning у Gemma 4 реалізований через спеціальний токен <|think|> у системному промпті. Коли модель бачить цей токен — вона активує режим міркування і перед фінальною відповіддю генерує внутрішній монолог довжиною до 4000+ токенів.

Ці 4000 токенів — це не просто "додатковий текст". Це окремий прохід через задачу: модель формулює проблему своїми словами, розбиває на підзадачі, будує план, перевіряє чи план логічний, і тільки після цього починає генерувати фінальну відповідь. Якщо під час thinking вона виявляє протиріччя — виправляє себе ще до того як ви побачили хоч слово відповіді.

Важлива деталь: через Ollama токен <|think|> вставляється автоматично — вам нічого не треба налаштовувати. Це відрізняється від деяких інших моделей де thinking треба явно активувати через системний промпт або параметри API.

Чим це відрізняється від звичайної генерації

Звичайна генерація тексту у LLM — це послідовне передбачення наступного токену. Модель не "планує" відповідь — вона просто продовжує текст токен за токеном на основі контексту. Це добре працює для простих запитів, але погано для задач де потрібна логіка, математика або багатокроковий план.

Reasoning mode змінює це: перед генерацією фінальної відповіді модель отримує "простір для думок" де може вільно міркувати, помилятись і виправлятись. Це принципово інший підхід — і саме тому моделі з reasoning показують настільки кращі результати на складних задачах.

Простою аналогією: звичайна модель — це студент який одразу пише відповідь на екзамені. Модель з reasoning — це студент який спочатку робить чернетку, перевіряє логіку, і тільки потім переписує чисто.

Що це означає для вас на практиці

Якщо ви вперше запустили Gemma 4 і здивувались що вона довго "думає" перед відповіддю — тепер ви знаєте чому. Це не баг і не гальмування заліза. Це цілеспрямована поведінка яка покращує якість відповіді.

На MacBook Pro M1 16 GB thinking займає від 15 до 73 секунд залежно від складності задачі. Детальні цифри — у секції про вартість thinking нижче. А поки — подивимось що саме відбувається всередині блоку Thinking.

🔍 Як виглядає блок Thinking — що там насправді відбувається

Блок Thinking — це не прихований технічний лог. Це реальний процес міркування моделі який можна читати і з якого можна навчитись.

Коли ви запускаєте запит до Gemma 4 через Ollama термінал або UI, перед відповіддю з'являється блок:

Thinking...
Thinking Process:

1. Analyze the user's input...
2. Identify the core question...
3. Recall personal identity/nature...
...done thinking.

Що відбувається всередині цього блоку — залежить від задачі. Я спостерігав три патерни:

Для простих запитань (наприклад "скільки у тебе параметрів?") — модель будує короткий план з 4-7 кроків: визначити мову запиту, зрозуміти питання, пригадати релевантні факти, сформулювати відповідь. Займає 20-37 секунд.

Для складного коду (Spring Boot endpoint) — модель аналізує що саме потрібно, перераховує компоненти які треба включити (Entity, Repository, Service, Controller), планує структуру, робить self-correction якщо щось забула. Займає 60-73 секунди.

Для тексту (пояснення RAG для бізнесу) — модель визначає аудиторію, формулює аналогії, планує структуру абзаців, перевіряє чи дотримані обмеження промпту. Займає 37 секунд — і саме завдяки цьому вона сама додала таблицю порівняння яку я не просив, але яка реально покращила відповідь.

Ключовий момент: блок Thinking видно тільки вам — у фінальній відповіді його немає. Це внутрішній процес моделі.

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

⚙️ Як керувати reasoning через Ollama термінал і API

Повністю вимкнути thinking через Ollama неможливо — але можна суттєво скоротити. І це важливо знати перш ніж розчаруватись у швидкості моделі.

Згідно з офіційною документацією Ollama, керування thinking відбувається через токен у системному промпті:

# Thinking увімкнено (за замовчуванням)
# Токен <|think|> вставляється автоматично

# Щоб вимкнути — прибрати токен з системного промпту
# Але через стандартний Ollama CLI це не так просто

Спосіб 1 — /no_think на початку промпту:

Найпростіший спосіб скоротити thinking прямо в запиті:

ollama run gemma4
>>> /no_think Поясни що таке Docker простими словами

За моїми тестами це скорочує thinking з ~37 секунд до ~20 секунд. Повністю не вимикає — модель все одно думає, але коротше.

Спосіб 2 — створити окрему модель без thinking через Modelfile:

# Створюємо Modelfile
echo 'FROM gemma4
SYSTEM ""' > Modelfile

# Будуємо нову модель
ollama create gemma4-fast -f Modelfile

# Запускаємо
ollama run gemma4-fast

Теоретично це має прибрати системний промпт з токеном <|think|>. На практиці — thinking все одно з'являється, але у скороченому вигляді. Це відома поведінка Gemma 4 через Ollama яку обговорюють у GitHub issues.

Спосіб 3 — через Ollama API з параметром think: false:

curl http://localhost:11434/api/chat -d '{
  "model": "gemma4",
  "think": false,
  "messages": [
    {
      "role": "user",
      "content": "Поясни що таке Docker"
    }
  ]
}'

Це найнадійніший спосіб для програмного керування thinking. Параметр think: false підтримується в Ollama 0.20+.

🖥️ Як керувати reasoning в Open WebUI

У графічному інтерфейсі керувати thinking простіше — але можливості залежать від версії вашого UI.

Якщо ви використовуєте Open WebUI або інший Ollama-сумісний інтерфейс — thinking блок відображається як розкривна секція перед відповіддю. Зазвичай він згорнутий і позначений як "Thought for X seconds".

Щоб скоротити thinking в UI — є два підходи:

1. Через поле System Prompt (якщо є в налаштуваннях моделі): залиште порожнім або додайте власний системний промпт без токену <|think|>. Але як показав мій тест — це не гарантує повного вимкнення.

2. Через /no_think на початку повідомлення: працює і в UI так само як у терміналі — просто додайте на початку запиту. Thinking скоротиться але не зникне повністю.

Для більшості користувачів UI — найпрактичніше рішення: просто прийняти що thinking є і оцінювати модель за якістю фінальної відповіді, а не за швидкістю.

🧪Мій тест: з thinking і без — порівняння якості

Я тестував на MacBook Pro M1 16 GB. Один і той самий промпт — два режими. Ось що вийшло.

Промпт для обох тестів:

Поясни що таке RAG (Retrieval-Augmented Generation) простою мовою для бізнесу. Без технічних термінів. 3-4 абзаци.

Тест 1 — звичайний запуск (thinking увімкнено):

Thinking зайняв ~37 секунд. Модель спланувала структуру, визначила аудиторію, вибрала аналогії. Результат: структурована відповідь з підзаголовками, сильна аналогія ("учень з усіма книгами світу vs асистент з довідником вашої компанії") і таблиця порівняння "LLM без RAG vs з RAG" — яку я не просив, але яка реально покращила відповідь. Загальний час: ~1.5 хвилини.

Тест 2 — з /no_think (thinking скорочено):

Thinking зайняв 20.3 секунди. Модель відповіла швидше. Результат: 4 абзаци, є аналогія ("стажер з внутрішньою базою знань"), зрозуміло і чисто. Але — без таблиці, без підзаголовків, менш структуровано. Загальний час: ~50 секунд.

Параметр З thinking (звичайний) З /no_think
Час thinking ~37 сек ~20 сек
Загальний час ~1.5 хв ~50 сек
Структура відповіді Підзаголовки + таблиця 4 абзаци без структури
Аналогії ✅ Сильні ✅ Є, але простіші
Дотримання інструкцій Порушив (додав більше) ✅ Точно 4 абзаци
Загальна якість ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐

Цікавий нюанс: з повним thinking модель порушила обмеження "3-4 абзаци" — додала таблицю і підзаголовки яких я не просив. Але зробила це правильно — відповідь стала кращою. З /no_think — суворо дотрималась інструкцій, але відповідь простіша.

⏱️ Скільки часу з'їдає thinking mode на M1 16 GB

Thinking — це не безкоштовно. Ось цифри з моїх тестів на MacBook Pro M1 16 GB.
Задача Час thinking Час генерації Загалом
Просте питання (параметри моделі) ~15 сек ~20 сек ~35 сек
Текст (RAG для бізнесу) ~37 сек ~1 хв ~1.5 хв
Текст з /no_think ~20 сек ~30 сек ~50 сек
Складний код (Spring Boot) ~73 сек ~3 хв ~4 хв

Що впливає на тривалість thinking:

  • Складність задачі — чим більше кроків потрібно спланувати, тим довше думає
  • Кількість компонентів у відповіді — код з чотирма класами думається довше ніж один абзац тексту
  • Наявність /no_think — скорочує приблизно вдвічі
  • Поточне навантаження на M1 — якщо відкрито багато вкладок браузера, thinking повільніший

Для порівняння: Qwen3:8b на тих самих задачах думає 18-32 секунди і генерує текст за 20-35 секунд. Тобто повний цикл у Qwen3 — 38-67 секунд проти 50-240 секунд у Gemma 4. Різниця суттєва для щоденної роботи.

✅ Коли thinking потрібен, а коли він тільки гальмує

Thinking — інструмент а не обов'язок. Вмикайте коли потрібна якість, вимикайте (наскільки можливо) коли потрібна швидкість.

Thinking однозначно варте часу:

  • Складна математика або логічні задачі — без thinking якість падає драматично
  • Генерація структурованого тексту — статті, документація, пояснення для бізнесу
  • Агентні сценарії з кількома кроками — planning перед виконанням критичний
  • Код з нетривіальною архітектурою — модель сама виловлює помилки в плані до того як їх написати
  • Будь-яка задача де якість важливіша за час

Thinking можна скорочувати через /no_think:

  • Прості питання з однозначною відповіддю
  • Переклад тексту
  • Короткі відповіді де структура не потрібна
  • Чат де важлива реактивність
  • Шаблонний код який ви і так знаєте

Моя порада з мого досвіду: я залишаю thinking увімкненим за замовчуванням і додаю /no_think тільки коли явно хочу швидку відповідь на просте питання. Для складних задач — thinking себе виправдовує навіть на M1 де він повільніший.

Якщо вам потрібна модель де thinking швидший або де його можна надійно вимкнути — розгляньте Qwen3:8b. Детальне порівняння: Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість.

📚 Читайте також

Вадим Харовюк — розробник, засновник WebsCraft і AskYourDocs. Тестую локальні AI-моделі на власному Mac M1 і пишу про те що реально працює.

Останні статті

Читайте більше цікавих матеріалів

Google Spam Policy 2026: маніпуляції з AI Overview тепер офіційно спам

Google Spam Policy 2026: маніпуляції з AI Overview тепер офіційно спам

15 травня 2026 року Google тихо оновив одне речення у своїй Spam Policy. Але це речення змінює правила гри для всіх хто займається контентом і SEO. Без гучних анонсів, без великої прес-конференції — просто нове формулювання на сторінці документації. Search Engine Roundtable помітив...

Пам'ять AI агента: in-context, episodic, RAG і semantic — коли що використовувати

Пам'ять AI агента: in-context, episodic, RAG і semantic — коли що використовувати

Агент отримав запит — обробив — відповів. Наступний запит — і він не пам'ятає нічого з попереднього. Не тому що щось зламалось. А тому що так влаштована LLM за замовчуванням: кожен виклик — чистий аркуш. Якщо ви будуєте агента і не думали про пам'ять — ви будуєте амнезика з доступом до...

Grok Build від xAI: детальний технічний огляд

Grok Build від xAI: детальний технічний огляд

Grok Build — новий agentic CLI від xAI (early beta, 14 травня 2026). Головні фішки: Plan Mode з обов’язковим затвердженням плану, паралельні субагенти (до 8), контекстне вікно ~1–2M токенів та сучасний TUI на Rust. Працює на Grok 4.3, підтримує ACP, git worktree та MCP....

Ollama 0.24 + Codex App: як запустити локальний AI coding agent

Ollama 0.24 + Codex App: як запустити локальний AI coding agent

Оновлено: 15 травня 2026 14 травня 2026 вийшла Ollama 0.24 — і це не черговий патч з виправленням багів. Цей реліз додає офіційну підтримку Codex App від OpenAI: тепер десктопний AI coding agent можна запустити на будь-якій локальній або хмарній моделі через Ollama....

Tool RAG: що робити коли у агента забагато інструментів

Tool RAG: що робити коли у агента забагато інструментів

У вас 5 tools — все чудово. У вас 15 tools — починаються проблеми. У вас 50 tools — агент деградує. Але є рішення яке вирішує проблему масштабу елегантно — і ви вже знаєте як воно працює, бо використовуєте його для документів. Ця стаття — частина серії про AI агентів на Spring Boot. Якщо...

Grounding в AI агентах: що робити коли tool call повернув не те

Grounding в AI агентах: що робити коли tool call повернув не те

Уявіть: ваш AI агент отримав запит «яка ціна на Enterprise план?». Він викликав tool. Tool відповів. Агент сформулював відповідь — впевнено, зв'язно, з конкретною цифрою. Клієнт отримав відповідь і пішов задоволений. Проблема в тому що tool повернув порожній результат — документ не...