Kurz gesagt: Ich habe Gemma 4 auf einem MacBook Pro M1 mit 16 GB installiert und auf zwei realen Aufgaben getestet – die Generierung von Spring Boot Code und einen Text über RAG. Ich habe sie mit Qwen3:8b und Mistral Nemo verglichen. Ergebnis: Gemma 4 liefert die beste Qualität, ist aber am langsamsten. Qwen3:8b liefert fast die gleiche Codequalität in 1/4 der Zeit. Lies weiter, wenn du wissen willst, ob sich ein Wechsel lohnt.
⚠️ Wie ich Gemma 4 auf M1 installiert habe: Ein echter Fehler mit der Ollama-Version
Das Erste, was ich sah, war nicht das Modell, sondern ein Fehler. Und das ist die erste nützliche Information für diejenigen, die es nachmachen wollen.
Ich benutze Ollama für lokales KI schon seit langem – also habe ich nach der Veröffentlichung von Gemma 4 als Erstes einfach im Terminal eingegeben:
ollama run gemma4
Und sofort erhalten:
Error: pull model manifest: 412:
The model you are attempting to pull requires a newer version of Ollama.
Please download the latest version at: https://ollama.com/download
Der Grund ist einfach: Ich hatte Version 0.17.0 installiert, und Gemma 4 benötigt mindestens 0.20+. Überprüfe deine Version: ollama --version. Du kannst entweder über die offizielle Download-Seite aktualisieren oder über Homebrew – was ich getan habe (offizielle Ollama-Dokumentation):
brew upgrade ollama
brew services restart ollama
Danach wurde Version 0.20.5 installiert und das Modell problemlos heruntergeladen. Wenn du Ollama schon länger installiert hast – überprüfe die Version, bevor du Gemma 4 ausprobierst. Das spart dir 10 Minuten Fehlersuche.
Modell herunterladen:
ollama run gemma4
Größe: 9.6 GB. Auf meinem Internetanschluss hat das etwa 2 Stunden gedauert. Nach dem Download startete das Modell sofort im Terminal – das Symbol ⠇ bedeutet, dass es in den Speicher geladen wird, nach einigen Sekunden erscheint >>>.
💾 Welche Gemma 4-Variante passt für M1 16 GB und warum nicht 26B
Gemma 4 ist nicht ein Modell, sondern vier. Und auf M1 16 GB passt nur eines davon.
Über gemma4:26b im Besonderen – im Internet wird es aktiv beworben als "MoE-Magie: 26B-Qualität zum Preis von 8B". Das ist nicht ganz wahr. Die tatsächliche Dateigröße beträgt 18 GB, und auf einem M1 mit 16 GB Unified Memory passt das einfach nicht ohne aggressives Swapping. Selbst auf einem Mac mini mit 24 GB berichten Leute von Abstürzen unter Last und kehren zu e4b zurück. Mehr dazu – in einem separaten Artikel über die Fallstricke von Gemma 4 26B MoE.
Meine Wahl: gemma4 (e4b) – die Standardvariante, nichts muss zusätzlich angegeben werden.
💻 Test 1 – Code-Generierung: Spring Boot Endpoint mit Paginierung
Der gleiche Prompt – drei Modelle. Schauen wir uns die Ergebnisse an.
Der Prompt, den ich verwendet habe:
Schreibe einen Spring Boot REST Endpoint, um eine Liste von Benutzern mit Paginierung abzurufen. Verwende JPA Repository.
Ich habe diese Aufgabe bewusst gewählt – ich kenne Spring Boot gut, daher kann ich die Qualität ohne Googeln beurteilen.
Gemma 4 – Ergebnis:
Vollständige Struktur: Entity → Repository → Service → Controller + Abhängigkeiten in pom.xml + Beispiele für URL-Anfragen. Korrektes DI über den Konstruktor, ResponseEntity<Page<User>>, Kommentare zu jedem Schritt. Das ist produktionsreifer Code, den man nehmen und verwenden kann. Der einzige Nachteil – die Zeit. Zuerst hat es 73 Sekunden "gedacht" (Thinking-Block), dann noch etwa 3 Minuten Text generiert. Insgesamt fast 4 Minuten.
Qwen3:8b – Ergebnis:
Die gleiche vollständige Struktur: Entity + Repository + Service + Controller. Zusätzlich – Abhängigkeiten für Maven und Gradle (was Gemma nicht gemacht hat). Die Codequalität ist praktisch identisch. Zeit: ~32 Sekunden Denken + ~35 Sekunden Generierung = insgesamt 67 Sekunden. 3,5-mal schneller.
Mistral Nemo – Ergebnis:
Minimaler Code – nur Controller, ohne separaten Service Layer. Der gleiche Codeblock wurde zweimal wiederholt (sieht nach einem Generierungsfehler aus). Zeit ~30 Sekunden – die schnellste, aber die schwächste Antwort.
📝 Test 2 — Texterzeugung: RAG-Erklärung für Unternehmen
Hier änderte sich das Bild – Gemma 4 schnitt deutlich besser ab als die Konkurrenz.
Prompt:
Erkläre RAG (Retrieval-Augmented Generation) in einfachen Worten für Unternehmen. Ohne Fachbegriffe. 3-4 Absätze.
Die Einschränkungen "3-4 Absätze" und "ohne Fachbegriffe" dienen speziell dazu, zu prüfen, ob das Modell Anweisungen befolgt.
Gemma 4 — Ergebnis:
Die Einschränkung bezüglich der Absatzanzahl wurde verletzt – aber zu Recht. Anstelle von 3-4 Absätzen wurde ein strukturierter Artikel mit Unterüberschriften, einer Analogie ("ein Schüler mit allen Büchern der Welt vs. ein Assistent mit dem Handbuch Ihres Unternehmens") und einer Vergleichstabelle "LLM ohne RAG vs. mit RAG" erstellt. Das ist genau das, was Unternehmen brauchen – das weiß ich aus eigener Erfahrung mit AskYourDocs. Zeit: ca. 37 Sekunden Denken + ca. 1 Minute Text.
Qwen3:8b — Ergebnis:
Die Einschränkung wurde eingehalten – genau 3 Absätze. Sauber, prägnant, verständlich. Es gibt eine Analogie ("zusätzliche Wissensquelle"). Aber im Vergleich zu Gemma 4 ist es deutlich einfacher, ohne Struktur und ohne Tabelle. Zeit: ca. 18 Sekunden Denken + ca. 20 Sekunden Text = 38 Sekunden insgesamt.
Mistral Nemo — Ergebnis:
6 Absätze statt 3-4 – die Einschränkung wurde nicht eingehalten. Der Inhalt ist wässrig, es gibt Wiederholungen derselben Gedanken mit anderen Worten. Zeit ca. 30 Sekunden, aber die Qualität ist die niedrigste der drei.
📊 Vergleich mit Qwen3:8b und Mistral Nemo: Ergebnistabelle
Die Zahlen wurden auf einem MacBook Pro M1 16 GB gesammelt. Keine Labor-Benchmarks – meine eigenen Tests.
Modell
Größe
Code: Zeit
Code: Qualität
Text: Zeit
Text: Qualität
gemma4
9.6 GB
~4 Min.
⭐⭐⭐⭐⭐
~1.5 Min.
⭐⭐⭐⭐⭐
qwen3:8b
5.2 GB
~67 Sek.
⭐⭐⭐⭐⭐
~38 Sek.
⭐⭐⭐⭐
mistral-nemo
7.1 GB
~30 Sek.
⭐⭐
~30 Sek.
⭐⭐⭐
Fazit aus der Tabelle: Für Code sind Qwen3:8b und Gemma 4 qualitativ gleichwertig, aber Qwen3 ist 3,5-mal schneller. Für Text ist Gemma 4 merklich besser – Struktur, Analogien, Tabellen. Mistral Nemo verliert in beiden Tests, außer bei der Geschwindigkeit.
🧠 Reasoning-Modus in der Praxis: Wie viel Zeit er frisst und ob es sich lohnt
Gemma 4 "denkt" standardmäßig vor jeder Antwort nach. Das ist ihr Hauptvorteil – und der Hauptgrund für ihre Langsamkeit.
Sofort nach der ersten Anfrage sah ich etwas Ungewöhnliches:
Thinking...
Thinking Process:
1. Analyze the user's input...
2. Identify the core question...
...done thinking.
Das ist der Reasoning-Modus – das Modell erstellt einen Plan für die Antwort, bevor es den Text generiert. Bei Gemma 4 ist er standardmäßig über das Token <|think|> im System-Prompt aktiviert. Mehr darüber, wie man ihn manuell ein- und ausschaltet, erfahren Sie in einem separaten Artikel über den Reasoning-Modus in Gemma 4.
Was das in der Praxis bringt, zeigen die Tests:
Code: 73 Sekunden Denken → Antwort mit vollständiger Struktur und Erklärungen
Text: 37 Sekunden Denken → Antwort mit einer Struktur, die nicht angefordert wurde, aber das Ergebnis tatsächlich verbesserte
Lohnt es sich? Das hängt von der Aufgabe ab. Für einmalige komplexe Anfragen – ja, die Qualität ist merklich höher. Für Routineaufgaben, bei denen Geschwindigkeit gefragt ist (Autovervollständigung, kurze Antworten, Chat) – bremst der Reasoning-Modus nur aus. In solchen Fällen ist Qwen3:8b besser.
✅ Fazit: Wann man Gemma 4 auf M1 nehmen sollte und wann bei Qwen3 bleiben sollte
Gemma 4 ersetzt nicht alle Modelle. Sie besetzt ihre Nische – und in dieser Nische ist sie wirklich die Beste.
Nimm Gemma 4, wenn:
Du komplexen Text schreibst – Artikel, Dokumentationen, Erklärungen für Unternehmen
Du maximale Codequalität benötigst und die Zeit nicht kritisch ist
Du ein Modell möchtest, das die Antwort selbst strukturiert, ohne detaillierte Anweisungen
Du planst, es in einem RAG-Produkt zu verwenden – 128K Kontext und natives Function Calling
Bleibe bei Qwen3:8b, wenn:
Du täglich Code generierst und Geschwindigkeit benötigst
Du es als Autovervollständigung in der IDE verwendest
Die Reaktionsfähigkeit im Chat wichtig ist
Auf meinem M1 16 GB laufen beide Modelle derzeit gleichzeitig – sie belegen zusammen etwa 15 GB und stören sich nicht. Ich wechsle je nach Aufgabe.
Wenn du tiefer eintauchen möchtest – lies weiter zum Thema:
Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати.
Що таке MoE і чому 26B...
Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...
Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...
Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...
Розробник налаштував tool use, перевірив на тестових запитах — все працює.
У production модель раптом відповідає без виклику інструменту, впевнено і зв'язно,
але з даними річної давнини. Жодної помилки в логах. Просто неправильна відповідь.
Спойлер: модель не «зламалась»...
Коли розробник вперше бачить як LLM «викликає функцію» — виникає інтуїтивна помилка:
здається що модель сама виконала запит до бази або API.
Це не так, і саме ця помилка породжує цілий клас архітектурних багів.
Спойлер: LLM лише повертає структурований JSON з назвою...