Коли варто вмикати Reasoning Mode в Gemma 4?

Reasoning Mode варто вмикати для: складної математики, логічних задач, генерації структурованого тексту, написання коду, агентних сценаріїв та задач, де якість важливіша за швидкість. Без thinking якість на таких задачах сильно падає (наприклад, AIME з 89.2% до 20.8%).

На яких моделях Gemma 4 працює Reasoning Mode?

Reasoning Mode підтримується на всіх варіантах Gemma 4: E2B, E4B, 26B MoE та 31B Dense. Ефект присутній у всіх розмірах, але на більших моделях якість reasoning вища.

Чи варто завжди залишати Reasoning Mode увімкненим?

Для більшості користувачів — так, бо якість значно вища. Вмикайте /no_think або \"think\": false тільки коли потрібна максимальна швидкість (прості задачі, чат). Багато хто залишає thinking увімкненим за замовчуванням.

Які альтернативи Gemma 4 з швидшим reasoning?

кщо thinking в Gemma 4 здається надто повільним, можна розглянути Qwen3 8B — вона думає 18–32 секунди і генерує відповіді швидше при схожій якості на багатьох задачах.

Що таке Reasoning Mode (thinking) в Gemma 4?

Reasoning Mode — це вбудована функція Gemma 4, яка змушує модель генерувати внутрішній монолог міркувань перед фінальною відповіддю. Модель будує план, перевіряє логіку, виправляє помилки і тільки потім видає результат. Використовується спеціальний токен . Це значно підвищує якість на складних задачах.

Чи можна повністю вимкнути thinking в Gemma 4?

Повністю вимкнути thinking через стандартний Ollama неможливо — він вбудований у модель. Однак його можна суттєво скоротити за допомогою /no_think, параметра \"think\": false в API або кастомного Modelfile. На практиці thinking все одно може частково проявлятися.

Коли можна вимкнути або скоротити thinking в Gemma 4?

Thinking можна скорочувати для простих питань, перекладів, коротких відповідей, шаблонного коду та чатів, де потрібна швидка реакція. У таких випадках /no_think робить відповідь приблизно вдвічі швидшою.

Скільки часу займає Reasoning Mode в Gemma 4?

На Mac M1 16 GB: Просте питання — 15–20 секунд thinking. Звичайний текст RAG — близько 37 секунд. Складний код — до 73 секунд. /no_think час скорочується приблизно вдвічі. Загальний час відповіді може сягати 1–4 хвилин на важких задачах

Як сильно Reasoning Mode впливає на якість відповідей Gemma 4?

Дуже сильно. З reasoning: AIME 2026 — 89.2%, Codeforces ELO — 2150. Без reasoning: AIME — 20.8%, Codeforces ELO — 110. Модель краще структурує відповіді, виявляє помилки та дає повніші результати.

Як ввімкнути або вимкнути Reasoning Mode в Gemma 4 через Ollama?

В Ollama reasoning mode увімкнено за замовчуванням. Щоб скоротити thinking: додайте /no_think на початку запиту. Повністю вимкнути через API (Ollama 0.20+): додайте \"think\": false у запиті. Також можна створити окрему модель через Modelfile з порожнім SYSTEM промптом для швидшої роботи.

AI_TOOLS 11 April 2026 9 Min. Lesezeit 82 Aufruf

Reasoning mode in Gemma 4: how to enable, when needed, and how much it costs — 2026

Aktualisiert: 11 April 2026

Sprache: 🇺🇦 🇺🇸 🇩🇪 🇪🇸

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

Reasoning mode in Gemma 4: how to enable, when needed, and how much it costs — 2026

Kurz gesagt: Der Reasoning-Modus ist die eingebaute Fähigkeit von Gemma 4, vor der Antwort zu "denken". Er ist standardmäßig aktiviert. Auf einem M1 mit 16 GB dauert er je nach Aufgabe zwischen 20 und 73 Sekunden. Vollständig deaktivieren kann man ihn über Ollama nicht – aber man kann ihn über /no_think verkürzen. Lesen Sie, wann Sie ihn nutzen sollten und wann nicht.

🧠 Was ist der Reasoning-Modus und wie kam er in Gemma 4?

Gemma 4 ist das erste Modell in Googles Reihe, das vor der Antwort denken kann. Das ist kein Marketing – es ist ein eigenständiger technischer Mechanismus, der die Qualität der Antworten wirklich verändert.

Der Reasoning-Modus (oder Thinking-Modus) ist die Fähigkeit des Modells, einen internen Dialog der Überlegungen zu generieren, bevor es eine endgültige Antwort gibt. Das Modell erstellt einen Plan, überprüft die Logik, korrigiert sich selbst – und gibt erst dann das Ergebnis an den Benutzer aus. Was Sie in der endgültigen Antwort sehen, ist bereits das Ergebnis nach interner "Fehlerkorrektur".

Woher kommt das?

Die Idee, "vor der Antwort nachzudenken", ist nicht neu – aber in offenen Modellen tauchte sie erst in den Jahren 2025-2026 massenhaft auf. Die ersten, die diesen Ansatz populär machten, waren DeepSeek-R1 (ein chinesisches Open-Source-Modell) und OpenAI o1. Beide zeigten, dass ein Modell, das Zeit für interne Überlegungen aufwendet, komplexe Aufgaben deutlich besser löst als ein Modell, das sofort antwortet.

Google ging denselben Weg. In Gemma 3 gab es keinen Reasoning-Modus – das Modell antwortete sofort, sagte, was es dachte. Gemma 4 erhielt den integrierten Thinking-Modus als eine der wichtigsten neuen Funktionen. Das erklärt den dramatischsten Sprung in den Benchmarks: AIME (wettbewerbsorientierte Mathematik) von 20,8 % auf 89,2 %, Codeforces ELO von 110 auf 2150. Ohne Thinking wären solche Ergebnisse nicht möglich – mathematische Aufgaben erfordern schrittweise Überlegungen, keine sofortige Antwort.

Wie funktioniert das technisch?

Technisch wird das Reasoning in Gemma 4 über ein spezielles Token <|think|> im System-Prompt realisiert. Wenn das Modell dieses Token sieht, aktiviert es den Überlegungsmodus und generiert vor der endgültigen Antwort einen internen Dialog von bis zu 4000+ Tokens Länge.

Diese 4000 Tokens sind nicht nur "zusätzlicher Text". Es ist ein separater Durchlauf durch die Aufgabe: Das Modell formuliert das Problem in eigenen Worten, zerlegt es in Teilaufgaben, erstellt einen Plan, prüft, ob der Plan logisch ist, und erst dann beginnt es mit der Generierung der endgültigen Antwort. Wenn es während des Denkens Widersprüche feststellt – korrigiert es sich selbst, noch bevor Sie ein einziges Wort der Antwort sehen.

Wichtiger Hinweis: Über Ollama wird das Token <|think|> automatisch eingefügt – Sie müssen nichts konfigurieren. Das unterscheidet es von einigen anderen Modellen, bei denen Thinking explizit über den System-Prompt oder API-Parameter aktiviert werden muss.

Was unterscheidet das von normaler Generierung?

Die normale Textgenerierung in LLMs ist die sequentielle Vorhersage des nächsten Tokens. Das Modell "plant" die Antwort nicht – es setzt den Text einfach Token für Token basierend auf dem Kontext fort. Das funktioniert gut für einfache Anfragen, aber schlecht für Aufgaben, die Logik, Mathematik oder einen mehrstufigen Plan erfordern.

Der Reasoning-Modus ändert das: Vor der Generierung der endgültigen Antwort erhält das Modell einen "Denkraum", in dem es frei überlegen, Fehler machen und sich korrigieren kann. Das ist ein grundlegend anderer Ansatz – und genau deshalb zeigen Modelle mit Reasoning so viel bessere Ergebnisse bei komplexen Aufgaben.

Eine einfache Analogie: Ein normales Modell ist ein Student, der sofort die Antwort auf eine Prüfung schreibt. Ein Modell mit Reasoning ist ein Student, der zuerst eine Skizze anfertigt, die Logik überprüft und erst dann sauber abschreibt.

Was bedeutet das für Sie in der Praxis?

Wenn Sie Gemma 4 zum ersten Mal gestartet haben und überrascht waren, dass sie lange "nachdenkt", bevor sie antwortet – jetzt wissen Sie warum. Das ist kein Bug und keine Verlangsamung der Hardware. Es ist ein gezieltes Verhalten, das die Qualität der Antwort verbessert.

Auf einem MacBook Pro M1 mit 16 GB dauert das Denken je nach Komplexität der Aufgabe zwischen 15 und 73 Sekunden. Detaillierte Zahlen finden Sie im Abschnitt über die Kosten des Denkens weiter unten. Schauen wir uns aber erst einmal an, was genau im Thinking-Block passiert.

🔍 Wie sieht der Thinking-Block aus – was passiert dort wirklich?

Der Thinking-Block ist kein versteckter technischer Log. Es ist der tatsächliche Denkprozess des Modells, den man lesen und aus dem man lernen kann.

Wenn Sie eine Anfrage an Gemma 4 über das Ollama-Terminal oder die Benutzeroberfläche starten, erscheint vor der Antwort ein Block:

Thinking...
Thinking Process:

1. Analyze the user's input...
2. Identify the core question...
3. Recall personal identity/nature...
...done thinking.

Was in diesem Block passiert, hängt von der Aufgabe ab. Ich habe drei Muster beobachtet:

Für einfache Fragen (z. B. "Wie viele Parameter hast du?") – das Modell erstellt einen kurzen Plan mit 4-7 Schritten: Sprache der Anfrage bestimmen, Frage verstehen, relevante Fakten abrufen, Antwort formulieren. Dauert 20-37 Sekunden.

Für komplexen Code (Spring Boot Endpoint) – das Modell analysiert, was genau benötigt wird, listet die zu berücksichtigenden Komponenten auf (Entity, Repository, Service, Controller), plant die Struktur, führt eine Selbstkorrektur durch, wenn etwas vergessen wurde. Dauert 60-73 Sekunden.

Für Text (Erklärung von RAG für Unternehmen) – das Modell bestimmt die Zielgruppe, formuliert Analogien, plant die Struktur der Absätze, prüft, ob die Einschränkungen des Prompts eingehalten wurden. Dauert 37 Sekunden – und gerade deshalb hat es selbst eine Vergleichstabelle hinzugefügt, die ich nicht angefordert hatte, die die Antwort aber wirklich verbessert hat.

Der entscheidende Punkt: Der Thinking-Block ist nur für Sie sichtbar – in der endgültigen Antwort ist er nicht enthalten. Das ist ein interner Prozess des Modells.

⚙️ Wie man Reasoning über das Ollama-Terminal und die API steuert

Es ist nicht möglich, das Denken über Ollama vollständig zu deaktivieren – aber es kann erheblich reduziert werden. Und das ist wichtig zu wissen, bevor man von der Geschwindigkeit des Modells enttäuscht ist.

Laut der offiziellen Ollama-Dokumentation wird das Denken über ein Token im System-Prompt gesteuert:

# Denken ist aktiviert (Standard)
# Das Token <|think|> wird automatisch eingefügt

# Um es zu deaktivieren – entfernen Sie das Token aus dem System-Prompt
# Aber über die Standard-Ollama-CLI ist das nicht so einfach

Methode 1 – /no_think am Anfang des Prompts:

Der einfachste Weg, das Denken direkt in der Anfrage zu reduzieren:

ollama run gemma4
>>> /no_think Erkläre Docker in einfachen Worten

Nach meinen Tests reduziert dies das Denken von ca. 37 Sekunden auf ca. 20 Sekunden. Es deaktiviert es nicht vollständig – das Modell denkt immer noch, aber kürzer.

Methode 2 – Erstellen Sie ein separates Modell ohne Denken über Modelfile:

# Erstellen Sie eine Modelfile
echo 'FROM gemma4
SYSTEM ""' > Modelfile

# Bauen Sie ein neues Modell
ollama create gemma4-fast -f Modelfile

# Starten Sie
ollama run gemma4-fast

Theoretisch sollte dies den System-Prompt mit dem Token <|think|> entfernen. In der Praxis erscheint das Denken immer noch, aber in verkürzter Form. Dies ist ein bekanntes Verhalten von Gemma 4 über Ollama, das in den GitHub-Diskussionen besprochen wird.

Methode 3 – Über die Ollama API mit dem Parameter think: false:

curl http://localhost:11434/api/chat -d '{
  "model": "gemma4",
  "think": false,
  "messages": [
    {
      "role": "user",
      "content": "Erkläre Docker"
    }
  ]
}'

Dies ist die zuverlässigste Methode zur programmatischen Steuerung des Denkens. Der Parameter think: false wird in Ollama 0.20+ unterstützt.

🖥️ Wie man Reasoning in Open WebUI steuert

In der grafischen Benutzeroberfläche ist die Steuerung des Denkens einfacher – aber die Möglichkeiten hängen von der Version Ihrer Benutzeroberfläche ab.

Wenn Sie Open WebUI oder eine andere Ollama-kompatible Benutzeroberfläche verwenden – wird der Denkblock als aufklappbare Sektion vor der Antwort angezeigt. Normalerweise ist er zusammengeklappt und als "Thought for X seconds" gekennzeichnet.

Um das Denken in der Benutzeroberfläche zu reduzieren – gibt es zwei Ansätze:

1. Über das Feld System Prompt (falls in den Modelleinstellungen vorhanden): lassen Sie es leer oder fügen Sie Ihren eigenen System-Prompt ohne das Token <|think|> hinzu. Aber wie mein Test gezeigt hat – das garantiert keine vollständige Deaktivierung.

2. Über /no_think am Anfang der Nachricht: funktioniert auch in der Benutzeroberfläche wie im Terminal – fügen Sie es einfach am Anfang der Anfrage hinzu. Das Denken wird reduziert, aber nicht vollständig verschwinden.

Für die meisten Benutzeroberflächen-Benutzer ist die praktischste Lösung: Akzeptieren Sie einfach, dass Denken existiert und bewerten Sie das Modell nach der Qualität der endgültigen Antwort, nicht nach der Geschwindigkeit.

🧪Mein Test: mit und ohne Denken – Qualitätsvergleich

Ich habe auf einem MacBook Pro M1 16 GB getestet. Derselbe Prompt – zwei Modi. Hier ist, was herauskam.

Prompt für beide Tests:

Erkläre RAG (Retrieval-Augmented Generation) in einfacher Sprache für Unternehmen. Ohne technische Begriffe. 3-4 Absätze.

Test 1 – normaler Start (Denken aktiviert):

Das Denken dauerte ca. 37 Sekunden. Das Modell plante die Struktur, definierte die Zielgruppe, wählte Analogien. Ergebnis: eine strukturierte Antwort mit Unterüberschriften, eine starke Analogie ("Schüler mit allen Büchern der Welt vs. Assistent mit dem Handbuch Ihres Unternehmens") und eine Vergleichstabelle "LLM ohne RAG vs. mit RAG" – die ich nicht angefordert hatte, die aber die Antwort wirklich verbesserte. Gesamtzeit: ca. 1,5 Minuten.

Test 2 – mit /no_think (Denken reduziert):

Das Denken dauerte 20,3 Sekunden. Das Modell antwortete schneller. Ergebnis: 4 Absätze, es gibt eine Analogie ("Praktikant mit interner Wissensdatenbank"), verständlich und sauber. Aber – ohne Tabelle, ohne Unterüberschriften, weniger strukturiert. Gesamtzeit: ca. 50 Sekunden.

Parameter	Mit Denken (normal)	Mit /no_think
Denkzeit	~37 Sek	~20 Sek
Gesamtzeit	~1,5 Min	~50 Sek
Antwortstruktur	Unterüberschriften + Tabelle	4 Absätze ohne Struktur
Analogien	✅ Stark	✅ Vorhanden, aber einfacher
Einhaltung der Anweisungen	Verletzt (mehr hinzugefügt)	✅ Genau 4 Absätze
Gesamtqualität	⭐⭐⭐⭐⭐	⭐⭐⭐⭐

Interessanter Hinweis: Mit vollem Denken hat das Modell die Einschränkung "3-4 Absätze" verletzt – es fügte eine Tabelle und Unterüberschriften hinzu, die ich nicht angefordert hatte. Aber es tat es richtig – die Antwort wurde besser. Mit /no_think – es hielt sich strikt an die Anweisungen, aber die Antwort ist einfacher.

⏱️ Wie viel Zeit frisst der Denkmodus auf M1 16 GB

Denken ist nicht kostenlos. Hier sind die Zahlen aus meinen Tests auf einem MacBook Pro M1 16 GB.

Aufgabe	Denkzeit	Generierungszeit	Gesamt
Einfache Frage (Modellparameter)	~15 Sek.	~20 Sek.	~35 Sek.
Text (RAG für Unternehmen)	~37 Sek.	~1 Min.	~1,5 Min.
Text mit /no_think	~20 Sek.	~30 Sek.	~50 Sek.
Komplexer Code (Spring Boot)	~73 Sek.	~3 Min.	~4 Min.

Was die Dauer des Denkens beeinflusst:

Schwierigkeit der Aufgabe — je mehr Schritte geplant werden müssen, desto länger denkt es.
Anzahl der Komponenten in der Antwort — Code mit vier Klassen dauert länger zum Denken als ein Textabsatz.
Vorhandensein von /no_think — reduziert die Zeit etwa um die Hälfte.
Aktuelle Auslastung des M1 — wenn viele Browser-Tabs geöffnet sind, ist das Denken langsamer.

Zum Vergleich: Qwen3:8b denkt bei denselben Aufgaben 18-32 Sekunden und generiert Text in 20-35 Sekunden. Das bedeutet, der vollständige Zyklus bei Qwen3 beträgt 38-67 Sekunden gegenüber 50-240 Sekunden bei Gemma 4. Der Unterschied ist für die tägliche Arbeit erheblich.

✅ Wann Denken benötigt wird und wann es nur bremst

Denken ist ein Werkzeug, keine Verpflichtung. Schalten Sie es ein, wenn Qualität benötigt wird, und schalten Sie es aus (soweit möglich), wenn Geschwindigkeit benötigt wird.

Denken lohnt sich definitiv:

Komplexe Mathematik oder logische Aufgaben — ohne Denken sinkt die Qualität dramatisch.
Generierung von strukturiertem Text — Artikel, Dokumentation, Erklärungen für Unternehmen.
Agentenszenarien mit mehreren Schritten — Planung vor der Ausführung ist entscheidend.
Code mit nicht-trivialer Architektur — das Modell erkennt selbst Fehler im Plan, bevor es sie schreibt.
Jede Aufgabe, bei der Qualität wichtiger ist als Zeit.

Denken kann mit /no_think verkürzt werden:

Einfache Fragen mit eindeutiger Antwort.
Textübersetzung.
Kurze Antworten, bei denen keine Struktur benötigt wird.
Chat, bei dem Reaktionsfähigkeit wichtig ist.
Vorlagenhafter Code, den Sie bereits kennen.

Mein Rat aus meiner Erfahrung: Ich lasse das Denken standardmäßig aktiviert und füge /no_think nur hinzu, wenn ich explizit eine schnelle Antwort auf eine einfache Frage wünsche. Für komplexe Aufgaben lohnt sich das Denken auch auf dem M1, wo es langsamer ist.

Wenn Sie ein Modell benötigen, bei dem das Denken schneller ist oder das zuverlässig ausgeschaltet werden kann, sollten Sie Qwen3:8b in Betracht ziehen. Detaillierter Vergleich: Gemma 4 auf M1 16 GB — reale Tests: Code, Text, Geschwindigkeit.

📚 Lesen Sie auch

Vadym Kharovyk — Entwickler, Gründer von WebsCraft und AskYourDocs. Ich teste lokale KI-Modelle auf meinem eigenen Mac M1 und schreibe darüber, was wirklich funktioniert.

Kategorien

Reasoning mode in Gemma 4: how to enable, when needed, and how much it costs — 2026

Vadim Kharovyuk

🧠 Was ist der Reasoning-Modus und wie kam er in Gemma 4?

Woher kommt das?

Wie funktioniert das technisch?

Was unterscheidet das von normaler Generierung?

Was bedeutet das für Sie in der Praxis?

🔍 Wie sieht der Thinking-Block aus – was passiert dort wirklich?

⚙️ Wie man Reasoning über das Ollama-Terminal und die API steuert

🖥️ Wie man Reasoning in Open WebUI steuert

🧪Mein Test: mit und ohne Denken – Qualitätsvergleich

⏱️ Wie viel Zeit frisst der Denkmodus auf M1 16 GB

✅ Wann Denken benötigt wird und wann es nur bremst

📚 Lesen Sie auch

📬 Verpassen Sie keine neuen Artikel

Bereit für eine schlüsselfertige Website?

Останні статті

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Як модель LLM вирішує коли шукати — механіка прийняття рішень

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG