Kurz gesagt: Der Reasoning-Modus ist die eingebaute Fähigkeit von Gemma 4, vor der Antwort zu "denken". Er ist standardmäßig aktiviert. Auf einem M1 mit 16 GB dauert er je nach Aufgabe zwischen 20 und 73 Sekunden. Vollständig deaktivieren kann man ihn über Ollama nicht – aber man kann ihn über /no_think verkürzen. Lesen Sie, wann Sie ihn nutzen sollten und wann nicht.
🧠 Was ist der Reasoning-Modus und wie kam er in Gemma 4?
Gemma 4 ist das erste Modell in Googles Reihe, das vor der Antwort denken kann. Das ist kein Marketing – es ist ein eigenständiger technischer Mechanismus, der die Qualität der Antworten wirklich verändert.
Der Reasoning-Modus (oder Thinking-Modus) ist die Fähigkeit des Modells, einen internen Dialog der Überlegungen zu generieren, bevor es eine endgültige Antwort gibt. Das Modell erstellt einen Plan, überprüft die Logik, korrigiert sich selbst – und gibt erst dann das Ergebnis an den Benutzer aus. Was Sie in der endgültigen Antwort sehen, ist bereits das Ergebnis nach interner "Fehlerkorrektur".
Woher kommt das?
Die Idee, "vor der Antwort nachzudenken", ist nicht neu – aber in offenen Modellen tauchte sie erst in den Jahren 2025-2026 massenhaft auf. Die ersten, die diesen Ansatz populär machten, waren DeepSeek-R1 (ein chinesisches Open-Source-Modell) und OpenAI o1. Beide zeigten, dass ein Modell, das Zeit für interne Überlegungen aufwendet, komplexe Aufgaben deutlich besser löst als ein Modell, das sofort antwortet.
Google ging denselben Weg. In Gemma 3 gab es keinen Reasoning-Modus – das Modell antwortete sofort, sagte, was es dachte. Gemma 4 erhielt den integrierten Thinking-Modus als eine der wichtigsten neuen Funktionen. Das erklärt den dramatischsten Sprung in den Benchmarks: AIME (wettbewerbsorientierte Mathematik) von 20,8 % auf 89,2 %, Codeforces ELO von 110 auf 2150. Ohne Thinking wären solche Ergebnisse nicht möglich – mathematische Aufgaben erfordern schrittweise Überlegungen, keine sofortige Antwort.
Wie funktioniert das technisch?
Technisch wird das Reasoning in Gemma 4 über ein spezielles Token <|think|> im System-Prompt realisiert. Wenn das Modell dieses Token sieht, aktiviert es den Überlegungsmodus und generiert vor der endgültigen Antwort einen internen Dialog von bis zu 4000+ Tokens Länge.
Diese 4000 Tokens sind nicht nur "zusätzlicher Text". Es ist ein separater Durchlauf durch die Aufgabe: Das Modell formuliert das Problem in eigenen Worten, zerlegt es in Teilaufgaben, erstellt einen Plan, prüft, ob der Plan logisch ist, und erst dann beginnt es mit der Generierung der endgültigen Antwort. Wenn es während des Denkens Widersprüche feststellt – korrigiert es sich selbst, noch bevor Sie ein einziges Wort der Antwort sehen.
Wichtiger Hinweis: Über Ollama wird das Token <|think|>automatisch eingefügt – Sie müssen nichts konfigurieren. Das unterscheidet es von einigen anderen Modellen, bei denen Thinking explizit über den System-Prompt oder API-Parameter aktiviert werden muss.
Was unterscheidet das von normaler Generierung?
Die normale Textgenerierung in LLMs ist die sequentielle Vorhersage des nächsten Tokens. Das Modell "plant" die Antwort nicht – es setzt den Text einfach Token für Token basierend auf dem Kontext fort. Das funktioniert gut für einfache Anfragen, aber schlecht für Aufgaben, die Logik, Mathematik oder einen mehrstufigen Plan erfordern.
Der Reasoning-Modus ändert das: Vor der Generierung der endgültigen Antwort erhält das Modell einen "Denkraum", in dem es frei überlegen, Fehler machen und sich korrigieren kann. Das ist ein grundlegend anderer Ansatz – und genau deshalb zeigen Modelle mit Reasoning so viel bessere Ergebnisse bei komplexen Aufgaben.
Eine einfache Analogie: Ein normales Modell ist ein Student, der sofort die Antwort auf eine Prüfung schreibt. Ein Modell mit Reasoning ist ein Student, der zuerst eine Skizze anfertigt, die Logik überprüft und erst dann sauber abschreibt.
Was bedeutet das für Sie in der Praxis?
Wenn Sie Gemma 4 zum ersten Mal gestartet haben und überrascht waren, dass sie lange "nachdenkt", bevor sie antwortet – jetzt wissen Sie warum. Das ist kein Bug und keine Verlangsamung der Hardware. Es ist ein gezieltes Verhalten, das die Qualität der Antwort verbessert.
Auf einem MacBook Pro M1 mit 16 GB dauert das Denken je nach Komplexität der Aufgabe zwischen 15 und 73 Sekunden. Detaillierte Zahlen finden Sie im Abschnitt über die Kosten des Denkens weiter unten. Schauen wir uns aber erst einmal an, was genau im Thinking-Block passiert.
🔍 Wie sieht der Thinking-Block aus – was passiert dort wirklich?
Der Thinking-Block ist kein versteckter technischer Log. Es ist der tatsächliche Denkprozess des Modells, den man lesen und aus dem man lernen kann.
Wenn Sie eine Anfrage an Gemma 4 über das Ollama-Terminal oder die Benutzeroberfläche starten, erscheint vor der Antwort ein Block:
Thinking...
Thinking Process:
1. Analyze the user's input...
2. Identify the core question...
3. Recall personal identity/nature...
...done thinking.
Was in diesem Block passiert, hängt von der Aufgabe ab. Ich habe drei Muster beobachtet:
Für einfache Fragen (z. B. "Wie viele Parameter hast du?") – das Modell erstellt einen kurzen Plan mit 4-7 Schritten: Sprache der Anfrage bestimmen, Frage verstehen, relevante Fakten abrufen, Antwort formulieren. Dauert 20-37 Sekunden.
Für komplexen Code (Spring Boot Endpoint) – das Modell analysiert, was genau benötigt wird, listet die zu berücksichtigenden Komponenten auf (Entity, Repository, Service, Controller), plant die Struktur, führt eine Selbstkorrektur durch, wenn etwas vergessen wurde. Dauert 60-73 Sekunden.
Für Text (Erklärung von RAG für Unternehmen) – das Modell bestimmt die Zielgruppe, formuliert Analogien, plant die Struktur der Absätze, prüft, ob die Einschränkungen des Prompts eingehalten wurden. Dauert 37 Sekunden – und gerade deshalb hat es selbst eine Vergleichstabelle hinzugefügt, die ich nicht angefordert hatte, die die Antwort aber wirklich verbessert hat.
Der entscheidende Punkt: Der Thinking-Block ist nur für Sie sichtbar – in der endgültigen Antwort ist er nicht enthalten. Das ist ein interner Prozess des Modells.
⚙️ Wie man Reasoning über das Ollama-Terminal und die API steuert
Es ist nicht möglich, das Denken über Ollama vollständig zu deaktivieren – aber es kann erheblich reduziert werden. Und das ist wichtig zu wissen, bevor man von der Geschwindigkeit des Modells enttäuscht ist.
# Denken ist aktiviert (Standard)
# Das Token <|think|> wird automatisch eingefügt
# Um es zu deaktivieren – entfernen Sie das Token aus dem System-Prompt
# Aber über die Standard-Ollama-CLI ist das nicht so einfach
Methode 1 – /no_think am Anfang des Prompts:
Der einfachste Weg, das Denken direkt in der Anfrage zu reduzieren:
ollama run gemma4
>>> /no_think Erkläre Docker in einfachen Worten
Nach meinen Tests reduziert dies das Denken von ca. 37 Sekunden auf ca. 20 Sekunden. Es deaktiviert es nicht vollständig – das Modell denkt immer noch, aber kürzer.
Methode 2 – Erstellen Sie ein separates Modell ohne Denken über Modelfile:
# Erstellen Sie eine Modelfile
echo 'FROM gemma4
SYSTEM ""' > Modelfile
# Bauen Sie ein neues Modell
ollama create gemma4-fast -f Modelfile
# Starten Sie
ollama run gemma4-fast
Theoretisch sollte dies den System-Prompt mit dem Token <|think|> entfernen. In der Praxis erscheint das Denken immer noch, aber in verkürzter Form. Dies ist ein bekanntes Verhalten von Gemma 4 über Ollama, das in den GitHub-Diskussionen besprochen wird.
Methode 3 – Über die Ollama API mit dem Parameter think: false:
Dies ist die zuverlässigste Methode zur programmatischen Steuerung des Denkens. Der Parameter think: false wird in Ollama 0.20+ unterstützt.
🖥️ Wie man Reasoning in Open WebUI steuert
In der grafischen Benutzeroberfläche ist die Steuerung des Denkens einfacher – aber die Möglichkeiten hängen von der Version Ihrer Benutzeroberfläche ab.
Wenn Sie Open WebUI oder eine andere Ollama-kompatible Benutzeroberfläche verwenden – wird der Denkblock als aufklappbare Sektion vor der Antwort angezeigt. Normalerweise ist er zusammengeklappt und als "Thought for X seconds" gekennzeichnet.
Um das Denken in der Benutzeroberfläche zu reduzieren – gibt es zwei Ansätze:
1. Über das Feld System Prompt (falls in den Modelleinstellungen vorhanden): lassen Sie es leer oder fügen Sie Ihren eigenen System-Prompt ohne das Token <|think|> hinzu. Aber wie mein Test gezeigt hat – das garantiert keine vollständige Deaktivierung.
2. Über /no_think am Anfang der Nachricht: funktioniert auch in der Benutzeroberfläche wie im Terminal – fügen Sie es einfach am Anfang der Anfrage hinzu. Das Denken wird reduziert, aber nicht vollständig verschwinden.
Für die meisten Benutzeroberflächen-Benutzer ist die praktischste Lösung: Akzeptieren Sie einfach, dass Denken existiert und bewerten Sie das Modell nach der Qualität der endgültigen Antwort, nicht nach der Geschwindigkeit.
🧪Mein Test: mit und ohne Denken – Qualitätsvergleich
Ich habe auf einem MacBook Pro M1 16 GB getestet. Derselbe Prompt – zwei Modi. Hier ist, was herauskam.
Prompt für beide Tests:
Erkläre RAG (Retrieval-Augmented Generation) in einfacher Sprache für Unternehmen. Ohne technische Begriffe. 3-4 Absätze.
Test 1 – normaler Start (Denken aktiviert):
Das Denken dauerte ca. 37 Sekunden. Das Modell plante die Struktur, definierte die Zielgruppe, wählte Analogien. Ergebnis: eine strukturierte Antwort mit Unterüberschriften, eine starke Analogie ("Schüler mit allen Büchern der Welt vs. Assistent mit dem Handbuch Ihres Unternehmens") und eine Vergleichstabelle "LLM ohne RAG vs. mit RAG" – die ich nicht angefordert hatte, die aber die Antwort wirklich verbesserte. Gesamtzeit: ca. 1,5 Minuten.
Test 2 – mit /no_think (Denken reduziert):
Das Denken dauerte 20,3 Sekunden. Das Modell antwortete schneller. Ergebnis: 4 Absätze, es gibt eine Analogie ("Praktikant mit interner Wissensdatenbank"), verständlich und sauber. Aber – ohne Tabelle, ohne Unterüberschriften, weniger strukturiert. Gesamtzeit: ca. 50 Sekunden.
Parameter
Mit Denken (normal)
Mit /no_think
Denkzeit
~37 Sek
~20 Sek
Gesamtzeit
~1,5 Min
~50 Sek
Antwortstruktur
Unterüberschriften + Tabelle
4 Absätze ohne Struktur
Analogien
✅ Stark
✅ Vorhanden, aber einfacher
Einhaltung der Anweisungen
Verletzt (mehr hinzugefügt)
✅ Genau 4 Absätze
Gesamtqualität
⭐⭐⭐⭐⭐
⭐⭐⭐⭐
Interessanter Hinweis: Mit vollem Denken hat das Modell die Einschränkung "3-4 Absätze" verletzt – es fügte eine Tabelle und Unterüberschriften hinzu, die ich nicht angefordert hatte. Aber es tat es richtig – die Antwort wurde besser. Mit /no_think – es hielt sich strikt an die Anweisungen, aber die Antwort ist einfacher.
⏱️ Wie viel Zeit frisst der Denkmodus auf M1 16 GB
Denken ist nicht kostenlos. Hier sind die Zahlen aus meinen Tests auf einem MacBook Pro M1 16 GB.
Aufgabe
Denkzeit
Generierungszeit
Gesamt
Einfache Frage (Modellparameter)
~15 Sek.
~20 Sek.
~35 Sek.
Text (RAG für Unternehmen)
~37 Sek.
~1 Min.
~1,5 Min.
Text mit /no_think
~20 Sek.
~30 Sek.
~50 Sek.
Komplexer Code (Spring Boot)
~73 Sek.
~3 Min.
~4 Min.
Was die Dauer des Denkens beeinflusst:
Schwierigkeit der Aufgabe — je mehr Schritte geplant werden müssen, desto länger denkt es.
Anzahl der Komponenten in der Antwort — Code mit vier Klassen dauert länger zum Denken als ein Textabsatz.
Vorhandensein von /no_think — reduziert die Zeit etwa um die Hälfte.
Aktuelle Auslastung des M1 — wenn viele Browser-Tabs geöffnet sind, ist das Denken langsamer.
Zum Vergleich: Qwen3:8b denkt bei denselben Aufgaben 18-32 Sekunden und generiert Text in 20-35 Sekunden. Das bedeutet, der vollständige Zyklus bei Qwen3 beträgt 38-67 Sekunden gegenüber 50-240 Sekunden bei Gemma 4. Der Unterschied ist für die tägliche Arbeit erheblich.
✅ Wann Denken benötigt wird und wann es nur bremst
Denken ist ein Werkzeug, keine Verpflichtung. Schalten Sie es ein, wenn Qualität benötigt wird, und schalten Sie es aus (soweit möglich), wenn Geschwindigkeit benötigt wird.
Denken lohnt sich definitiv:
Komplexe Mathematik oder logische Aufgaben — ohne Denken sinkt die Qualität dramatisch.
Generierung von strukturiertem Text — Artikel, Dokumentation, Erklärungen für Unternehmen.
Agentenszenarien mit mehreren Schritten — Planung vor der Ausführung ist entscheidend.
Code mit nicht-trivialer Architektur — das Modell erkennt selbst Fehler im Plan, bevor es sie schreibt.
Jede Aufgabe, bei der Qualität wichtiger ist als Zeit.
Denken kann mit /no_think verkürzt werden:
Einfache Fragen mit eindeutiger Antwort.
Textübersetzung.
Kurze Antworten, bei denen keine Struktur benötigt wird.
Chat, bei dem Reaktionsfähigkeit wichtig ist.
Vorlagenhafter Code, den Sie bereits kennen.
Mein Rat aus meiner Erfahrung: Ich lasse das Denken standardmäßig aktiviert und füge /no_think nur hinzu, wenn ich explizit eine schnelle Antwort auf eine einfache Frage wünsche. Für komplexe Aufgaben lohnt sich das Denken auch auf dem M1, wo es langsamer ist.
Vadym Kharovyk — Entwickler, Gründer von WebsCraft und AskYourDocs. Ich teste lokale KI-Modelle auf meinem eigenen Mac M1 und schreibe darüber, was wirklich funktioniert.
Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати.
Що таке MoE і чому 26B...
Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...
Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...
Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...
Розробник налаштував tool use, перевірив на тестових запитах — все працює.
У production модель раптом відповідає без виклику інструменту, впевнено і зв'язно,
але з даними річної давнини. Жодної помилки в логах. Просто неправильна відповідь.
Спойлер: модель не «зламалась»...
Коли розробник вперше бачить як LLM «викликає функцію» — виникає інтуїтивна помилка:
здається що модель сама виконала запит до бази або API.
Це не так, і саме ця помилка породжує цілий клас архітектурних багів.
Спойлер: LLM лише повертає структурований JSON з назвою...