Коли варто вмикати Reasoning Mode в Gemma 4?

Reasoning Mode варто вмикати для: складної математики, логічних задач, генерації структурованого тексту, написання коду, агентних сценаріїв та задач, де якість важливіша за швидкість. Без thinking якість на таких задачах сильно падає (наприклад, AIME з 89.2% до 20.8%).

На яких моделях Gemma 4 працює Reasoning Mode?

Reasoning Mode підтримується на всіх варіантах Gemma 4: E2B, E4B, 26B MoE та 31B Dense. Ефект присутній у всіх розмірах, але на більших моделях якість reasoning вища.

Чи варто завжди залишати Reasoning Mode увімкненим?

Для більшості користувачів — так, бо якість значно вища. Вмикайте /no_think або \"think\": false тільки коли потрібна максимальна швидкість (прості задачі, чат). Багато хто залишає thinking увімкненим за замовчуванням.

Які альтернативи Gemma 4 з швидшим reasoning?

кщо thinking в Gemma 4 здається надто повільним, можна розглянути Qwen3 8B — вона думає 18–32 секунди і генерує відповіді швидше при схожій якості на багатьох задачах.

Чи можна повністю вимкнути thinking в Gemma 4?

Повністю вимкнути thinking через стандартний Ollama неможливо — він вбудований у модель. Однак його можна суттєво скоротити за допомогою /no_think, параметра \"think\": false в API або кастомного Modelfile. На практиці thinking все одно може частково проявлятися.

Коли можна вимкнути або скоротити thinking в Gemma 4?

Thinking можна скорочувати для простих питань, перекладів, коротких відповідей, шаблонного коду та чатів, де потрібна швидка реакція. У таких випадках /no_think робить відповідь приблизно вдвічі швидшою.

Скільки часу займає Reasoning Mode в Gemma 4?

На Mac M1 16 GB: Просте питання — 15–20 секунд thinking. Звичайний текст RAG — близько 37 секунд. Складний код — до 73 секунд. /no_think час скорочується приблизно вдвічі. Загальний час відповіді може сягати 1–4 хвилин на важких задачах

Як сильно Reasoning Mode впливає на якість відповідей Gemma 4?

Дуже сильно. З reasoning: AIME 2026 — 89.2%, Codeforces ELO — 2150. Без reasoning: AIME — 20.8%, Codeforces ELO — 110. Модель краще структурує відповіді, виявляє помилки та дає повніші результати.

Як ввімкнути або вимкнути Reasoning Mode в Gemma 4 через Ollama?

В Ollama reasoning mode увімкнено за замовчуванням. Щоб скоротити thinking: додайте /no_think на початку запиту. Повністю вимкнути через API (Ollama 0.20+): додайте \"think\": false у запиті. Також можна створити окрему модель через Modelfile з порожнім SYSTEM промптом для швидшої роботи.

AI_TOOLS 11 квітня 2026 9 хв читання 10 501 перегляд

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Оновлено: 03 May 2026

Мова: 🇺🇦 🇺🇸 🇩🇪 🇪🇸

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли ні.

🧠 Що таке reasoning mode і як він з'явився в Gemma 4

Gemma 4 — перша модель в лінійці Google яка вміє думати перед тим як відповідати. Це не маркетинг — це окремий технічний механізм який реально змінює якість відповідей.

Reasoning mode (або thinking mode) — це здатність моделі генерувати внутрішній монолог міркувань перед фінальною відповіддю. Модель будує план, перевіряє логіку, виправляє себе — і тільки після цього видає результат користувачу. Те що ви бачите у фінальній відповіді — це вже результат після внутрішньої "роботи над помилками".

Звідки це з'явилось

Ідея "думати перед відповіддю" не нова — але у відкритих моделях вона масово з'явилась лише у 2025-2026 роках. Перші хто popularized цей підхід — DeepSeek-R1 (китайська відкрита модель) і OpenAI o1. Обидві показали що модель яка витрачає час на внутрішнє міркування вирішує складні задачі значно краще ніж модель яка відповідає одразу.

Google пішов тим самим шляхом. У Gemma 3 reasoning не було — модель відповідала одразу, що думала те й казала. Gemma 4 отримала вбудований thinking mode як одну з ключових нових можливостей. Саме це пояснює найдраматичніший стрибок у бенчмарках: AIME (змагальна математика) з 20.8% до 89.2%, Codeforces ELO з 110 до 2150. Без thinking такі результати неможливі — математичні задачі вимагають покрокового міркування, а не миттєвої відповіді.

Як це працює технічно

Технічно reasoning у Gemma 4 реалізований через спеціальний токен <|think|> у системному промпті. Коли модель бачить цей токен — вона активує режим міркування і перед фінальною відповіддю генерує внутрішній монолог довжиною до 4000+ токенів.

Ці 4000 токенів — це не просто "додатковий текст". Це окремий прохід через задачу: модель формулює проблему своїми словами, розбиває на підзадачі, будує план, перевіряє чи план логічний, і тільки після цього починає генерувати фінальну відповідь. Якщо під час thinking вона виявляє протиріччя — виправляє себе ще до того як ви побачили хоч слово відповіді.

Важлива деталь: через Ollama токен <|think|> вставляється автоматично — вам нічого не треба налаштовувати. Це відрізняється від деяких інших моделей де thinking треба явно активувати через системний промпт або параметри API.

Чим це відрізняється від звичайної генерації

Звичайна генерація тексту у LLM — це послідовне передбачення наступного токену. Модель не "планує" відповідь — вона просто продовжує текст токен за токеном на основі контексту. Це добре працює для простих запитів, але погано для задач де потрібна логіка, математика або багатокроковий план.

Reasoning mode змінює це: перед генерацією фінальної відповіді модель отримує "простір для думок" де може вільно міркувати, помилятись і виправлятись. Це принципово інший підхід — і саме тому моделі з reasoning показують настільки кращі результати на складних задачах.

Простою аналогією: звичайна модель — це студент який одразу пише відповідь на екзамені. Модель з reasoning — це студент який спочатку робить чернетку, перевіряє логіку, і тільки потім переписує чисто.

Що це означає для вас на практиці

Якщо ви вперше запустили Gemma 4 і здивувались що вона довго "думає" перед відповіддю — тепер ви знаєте чому. Це не баг і не гальмування заліза. Це цілеспрямована поведінка яка покращує якість відповіді.

На MacBook Pro M1 16 GB thinking займає від 15 до 73 секунд залежно від складності задачі. Детальні цифри — у секції про вартість thinking нижче. А поки — подивимось що саме відбувається всередині блоку Thinking.

🔍 Як виглядає блок Thinking — що там насправді відбувається

Блок Thinking — це не прихований технічний лог. Це реальний процес міркування моделі який можна читати і з якого можна навчитись.

Коли ви запускаєте запит до Gemma 4 через Ollama термінал або UI, перед відповіддю з'являється блок:

Thinking...
Thinking Process:

1. Analyze the user's input...
2. Identify the core question...
3. Recall personal identity/nature...
...done thinking.

Що відбувається всередині цього блоку — залежить від задачі. Я спостерігав три патерни:

Для простих запитань (наприклад "скільки у тебе параметрів?") — модель будує короткий план з 4-7 кроків: визначити мову запиту, зрозуміти питання, пригадати релевантні факти, сформулювати відповідь. Займає 20-37 секунд.

Для складного коду (Spring Boot endpoint) — модель аналізує що саме потрібно, перераховує компоненти які треба включити (Entity, Repository, Service, Controller), планує структуру, робить self-correction якщо щось забула. Займає 60-73 секунди.

Для тексту (пояснення RAG для бізнесу) — модель визначає аудиторію, формулює аналогії, планує структуру абзаців, перевіряє чи дотримані обмеження промпту. Займає 37 секунд — і саме завдяки цьому вона сама додала таблицю порівняння яку я не просив, але яка реально покращила відповідь.

Ключовий момент: блок Thinking видно тільки вам — у фінальній відповіді його немає. Це внутрішній процес моделі.

⚙️ Як керувати reasoning через Ollama термінал і API

Повністю вимкнути thinking через Ollama неможливо — але можна суттєво скоротити. І це важливо знати перш ніж розчаруватись у швидкості моделі.

Згідно з офіційною документацією Ollama, керування thinking відбувається через токен у системному промпті:

# Thinking увімкнено (за замовчуванням)
# Токен <|think|> вставляється автоматично

# Щоб вимкнути — прибрати токен з системного промпту
# Але через стандартний Ollama CLI це не так просто

Спосіб 1 — /no_think на початку промпту:

Найпростіший спосіб скоротити thinking прямо в запиті:

ollama run gemma4
>>> /no_think Поясни що таке Docker простими словами

За моїми тестами це скорочує thinking з ~37 секунд до ~20 секунд. Повністю не вимикає — модель все одно думає, але коротше.

Спосіб 2 — створити окрему модель без thinking через Modelfile:

# Створюємо Modelfile
echo 'FROM gemma4
SYSTEM ""' > Modelfile

# Будуємо нову модель
ollama create gemma4-fast -f Modelfile

# Запускаємо
ollama run gemma4-fast

Теоретично це має прибрати системний промпт з токеном <|think|>. На практиці — thinking все одно з'являється, але у скороченому вигляді. Це відома поведінка Gemma 4 через Ollama яку обговорюють у GitHub issues.

Спосіб 3 — через Ollama API з параметром think: false:

curl http://localhost:11434/api/chat -d '{
  "model": "gemma4",
  "think": false,
  "messages": [
    {
      "role": "user",
      "content": "Поясни що таке Docker"
    }
  ]
}'

Це найнадійніший спосіб для програмного керування thinking. Параметр think: false підтримується в Ollama 0.20+.

🖥️ Як керувати reasoning в Open WebUI

У графічному інтерфейсі керувати thinking простіше — але можливості залежать від версії вашого UI.

Якщо ви використовуєте Open WebUI або інший Ollama-сумісний інтерфейс — thinking блок відображається як розкривна секція перед відповіддю. Зазвичай він згорнутий і позначений як "Thought for X seconds".

Щоб скоротити thinking в UI — є два підходи:

1. Через поле System Prompt (якщо є в налаштуваннях моделі): залиште порожнім або додайте власний системний промпт без токену <|think|>. Але як показав мій тест — це не гарантує повного вимкнення.

2. Через /no_think на початку повідомлення: працює і в UI так само як у терміналі — просто додайте на початку запиту. Thinking скоротиться але не зникне повністю.

Для більшості користувачів UI — найпрактичніше рішення: просто прийняти що thinking є і оцінювати модель за якістю фінальної відповіді, а не за швидкістю.

🧪Мій тест: з thinking і без — порівняння якості

Я тестував на MacBook Pro M1 16 GB. Один і той самий промпт — два режими. Ось що вийшло.

Промпт для обох тестів:

Поясни що таке RAG (Retrieval-Augmented Generation) простою мовою для бізнесу. Без технічних термінів. 3-4 абзаци.

Тест 1 — звичайний запуск (thinking увімкнено):

Thinking зайняв ~37 секунд. Модель спланувала структуру, визначила аудиторію, вибрала аналогії. Результат: структурована відповідь з підзаголовками, сильна аналогія ("учень з усіма книгами світу vs асистент з довідником вашої компанії") і таблиця порівняння "LLM без RAG vs з RAG" — яку я не просив, але яка реально покращила відповідь. Загальний час: ~1.5 хвилини.

Тест 2 — з /no_think (thinking скорочено):

Thinking зайняв 20.3 секунди. Модель відповіла швидше. Результат: 4 абзаци, є аналогія ("стажер з внутрішньою базою знань"), зрозуміло і чисто. Але — без таблиці, без підзаголовків, менш структуровано. Загальний час: ~50 секунд.

Параметр	З thinking (звичайний)	З /no_think
Час thinking	~37 сек	~20 сек
Загальний час	~1.5 хв	~50 сек
Структура відповіді	Підзаголовки + таблиця	4 абзаци без структури
Аналогії	✅ Сильні	✅ Є, але простіші
Дотримання інструкцій	Порушив (додав більше)	✅ Точно 4 абзаци
Загальна якість	⭐⭐⭐⭐⭐	⭐⭐⭐⭐

Цікавий нюанс: з повним thinking модель порушила обмеження "3-4 абзаци" — додала таблицю і підзаголовки яких я не просив. Але зробила це правильно — відповідь стала кращою. З /no_think — суворо дотрималась інструкцій, але відповідь простіша.

⏱️ Скільки часу з'їдає thinking mode на M1 16 GB

Thinking — це не безкоштовно. Ось цифри з моїх тестів на MacBook Pro M1 16 GB.

Задача	Час thinking	Час генерації	Загалом
Просте питання (параметри моделі)	~15 сек	~20 сек	~35 сек
Текст (RAG для бізнесу)	~37 сек	~1 хв	~1.5 хв
Текст з /no_think	~20 сек	~30 сек	~50 сек
Складний код (Spring Boot)	~73 сек	~3 хв	~4 хв

Що впливає на тривалість thinking:

Складність задачі — чим більше кроків потрібно спланувати, тим довше думає
Кількість компонентів у відповіді — код з чотирма класами думається довше ніж один абзац тексту
Наявність /no_think — скорочує приблизно вдвічі
Поточне навантаження на M1 — якщо відкрито багато вкладок браузера, thinking повільніший

Для порівняння: Qwen3:8b на тих самих задачах думає 18-32 секунди і генерує текст за 20-35 секунд. Тобто повний цикл у Qwen3 — 38-67 секунд проти 50-240 секунд у Gemma 4. Різниця суттєва для щоденної роботи.

✅ Коли thinking потрібен, а коли він тільки гальмує

Thinking — інструмент а не обов'язок. Вмикайте коли потрібна якість, вимикайте (наскільки можливо) коли потрібна швидкість.

Thinking однозначно варте часу:

Складна математика або логічні задачі — без thinking якість падає драматично
Генерація структурованого тексту — статті, документація, пояснення для бізнесу
Агентні сценарії з кількома кроками — planning перед виконанням критичний
Код з нетривіальною архітектурою — модель сама виловлює помилки в плані до того як їх написати
Будь-яка задача де якість важливіша за час

Thinking можна скорочувати через /no_think:

Прості питання з однозначною відповіддю
Переклад тексту
Короткі відповіді де структура не потрібна
Чат де важлива реактивність
Шаблонний код який ви і так знаєте

Моя порада з мого досвіду: я залишаю thinking увімкненим за замовчуванням і додаю /no_think тільки коли явно хочу швидку відповідь на просте питання. Для складних задач — thinking себе виправдовує навіть на M1 де він повільніший.

Якщо вам потрібна модель де thinking швидший або де його можна надійно вимкнути — розгляньте Qwen3:8b. Детальне порівняння: Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість.

📚 Читайте також

Вадим Харовюк — розробник, засновник WebsCraft і AskYourDocs. Тестую локальні AI-моделі на власному Mac M1 і пишу про те що реально працює.

Категорії

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Vadim Kharovyuk

🧠 Що таке reasoning mode і як він з'явився в Gemma 4

Звідки це з'явилось

Як це працює технічно

Чим це відрізняється від звичайної генерації

Що це означає для вас на практиці

🔍 Як виглядає блок Thinking — що там насправді відбувається

⚙️ Як керувати reasoning через Ollama термінал і API

🖥️ Як керувати reasoning в Open WebUI

🧪Мій тест: з thinking і без — порівняння якості

⏱️ Скільки часу з'їдає thinking mode на M1 16 GB

✅ Коли thinking потрібен, а коли він тільки гальмує

📚 Читайте також

📬 Не пропустіть нові статті

Готові створити сайт під ключ?

Останні статті

Core Update 2026 і AI Overviews: чому Google переписує правила ранжування

NVIDIA NIM: яку модель під яке завдання — технічний розбір 2026

NVIDIA NIM: як безкоштовний inference змінює архітектуру AI-систем

Search API для AI агентів: що обирають розробники і де помиляються

Indirect Prompt Injection: атака в документі вашого AI

Prompt Injection: чому AI не розрізняє вашу команду від атаки зловмисника