Gemma 4 auf M1 16 GB — reale Tests: Code, Text, Geschwindigkeit

Aktualisiert:
Gemma 4 auf M1 16 GB — reale Tests: Code, Text, Geschwindigkeit
Kurz gesagt: Ich habe Gemma 4 auf einem MacBook Pro M1 mit 16 GB installiert und auf zwei realen Aufgaben getestet – die Generierung von Spring Boot Code und einen Text über RAG. Ich habe sie mit Qwen3:8b und Mistral Nemo verglichen. Ergebnis: Gemma 4 liefert die beste Qualität, ist aber am langsamsten. Qwen3:8b liefert fast die gleiche Codequalität in 1/4 der Zeit. Lies weiter, wenn du wissen willst, ob sich ein Wechsel lohnt.

⚠️ Wie ich Gemma 4 auf M1 installiert habe: Ein echter Fehler mit der Ollama-Version

Das Erste, was ich sah, war nicht das Modell, sondern ein Fehler. Und das ist die erste nützliche Information für diejenigen, die es nachmachen wollen.

Ich benutze Ollama für lokales KI schon seit langem – also habe ich nach der Veröffentlichung von Gemma 4 als Erstes einfach im Terminal eingegeben:

ollama run gemma4

Und sofort erhalten:

Error: pull model manifest: 412:
The model you are attempting to pull requires a newer version of Ollama.
Please download the latest version at: https://ollama.com/download

Der Grund ist einfach: Ich hatte Version 0.17.0 installiert, und Gemma 4 benötigt mindestens 0.20+. Überprüfe deine Version: ollama --version. Du kannst entweder über die offizielle Download-Seite aktualisieren oder über Homebrew – was ich getan habe (offizielle Ollama-Dokumentation):

brew upgrade ollama
brew services restart ollama

Danach wurde Version 0.20.5 installiert und das Modell problemlos heruntergeladen. Wenn du Ollama schon länger installiert hast – überprüfe die Version, bevor du Gemma 4 ausprobierst. Das spart dir 10 Minuten Fehlersuche.

Modell herunterladen:

ollama run gemma4

Größe: 9.6 GB. Auf meinem Internetanschluss hat das etwa 2 Stunden gedauert. Nach dem Download startete das Modell sofort im Terminal – das Symbol bedeutet, dass es in den Speicher geladen wird, nach einigen Sekunden erscheint >>>.

💾 Welche Gemma 4-Variante passt für M1 16 GB und warum nicht 26B

Gemma 4 ist nicht ein Modell, sondern vier. Und auf M1 16 GB passt nur eines davon.

Eine detaillierte Übersicht aller Varianten findest du im Artikel über Modelle für 8 GB RAM. Kurz zu Gemma 4:

Modell Dateigröße RAM (4-bit) Geeignet für M1 16 GB
gemma4:e2b ~5 GB 5 GB ✅ Ja, aber schwache Qualität
gemma4 (e4b) 9.6 GB ~6 GB ✅ Ja – optimale Wahl
gemma4:26b ~18 GB ~18 GB ❌ Nein – Swapping, Abstürze
gemma4:31b ~20 GB ~20 GB ❌ Nein – passt nicht

Über gemma4:26b im Besonderen – im Internet wird es aktiv beworben als "MoE-Magie: 26B-Qualität zum Preis von 8B". Das ist nicht ganz wahr. Die tatsächliche Dateigröße beträgt 18 GB, und auf einem M1 mit 16 GB Unified Memory passt das einfach nicht ohne aggressives Swapping. Selbst auf einem Mac mini mit 24 GB berichten Leute von Abstürzen unter Last und kehren zu e4b zurück. Mehr dazu – in einem separaten Artikel über die Fallstricke von Gemma 4 26B MoE.

Meine Wahl: gemma4 (e4b) – die Standardvariante, nichts muss zusätzlich angegeben werden.

💻 Test 1 – Code-Generierung: Spring Boot Endpoint mit Paginierung

Der gleiche Prompt – drei Modelle. Schauen wir uns die Ergebnisse an.

Der Prompt, den ich verwendet habe:

Schreibe einen Spring Boot REST Endpoint, um eine Liste von Benutzern mit Paginierung abzurufen. Verwende JPA Repository.

Ich habe diese Aufgabe bewusst gewählt – ich kenne Spring Boot gut, daher kann ich die Qualität ohne Googeln beurteilen.

Gemma 4 – Ergebnis:

Vollständige Struktur: Entity → Repository → Service → Controller + Abhängigkeiten in pom.xml + Beispiele für URL-Anfragen. Korrektes DI über den Konstruktor, ResponseEntity<Page<User>>, Kommentare zu jedem Schritt. Das ist produktionsreifer Code, den man nehmen und verwenden kann. Der einzige Nachteil – die Zeit. Zuerst hat es 73 Sekunden "gedacht" (Thinking-Block), dann noch etwa 3 Minuten Text generiert. Insgesamt fast 4 Minuten.

Qwen3:8b – Ergebnis:

Die gleiche vollständige Struktur: Entity + Repository + Service + Controller. Zusätzlich – Abhängigkeiten für Maven und Gradle (was Gemma nicht gemacht hat). Die Codequalität ist praktisch identisch. Zeit: ~32 Sekunden Denken + ~35 Sekunden Generierung = insgesamt 67 Sekunden. 3,5-mal schneller.

Mistral Nemo – Ergebnis:

Minimaler Code – nur Controller, ohne separaten Service Layer. Der gleiche Codeblock wurde zweimal wiederholt (sieht nach einem Generierungsfehler aus). Zeit ~30 Sekunden – die schnellste, aber die schwächste Antwort.

Gemma 4 auf M1 16 GB — reale Tests: Code, Text, Geschwindigkeit

📝 Test 2 — Texterzeugung: RAG-Erklärung für Unternehmen

Hier änderte sich das Bild – Gemma 4 schnitt deutlich besser ab als die Konkurrenz.

Prompt:

Erkläre RAG (Retrieval-Augmented Generation) in einfachen Worten für Unternehmen. Ohne Fachbegriffe. 3-4 Absätze.

Die Einschränkungen "3-4 Absätze" und "ohne Fachbegriffe" dienen speziell dazu, zu prüfen, ob das Modell Anweisungen befolgt.

Gemma 4 — Ergebnis:

Die Einschränkung bezüglich der Absatzanzahl wurde verletzt – aber zu Recht. Anstelle von 3-4 Absätzen wurde ein strukturierter Artikel mit Unterüberschriften, einer Analogie ("ein Schüler mit allen Büchern der Welt vs. ein Assistent mit dem Handbuch Ihres Unternehmens") und einer Vergleichstabelle "LLM ohne RAG vs. mit RAG" erstellt. Das ist genau das, was Unternehmen brauchen – das weiß ich aus eigener Erfahrung mit AskYourDocs. Zeit: ca. 37 Sekunden Denken + ca. 1 Minute Text.

Qwen3:8b — Ergebnis:

Die Einschränkung wurde eingehalten – genau 3 Absätze. Sauber, prägnant, verständlich. Es gibt eine Analogie ("zusätzliche Wissensquelle"). Aber im Vergleich zu Gemma 4 ist es deutlich einfacher, ohne Struktur und ohne Tabelle. Zeit: ca. 18 Sekunden Denken + ca. 20 Sekunden Text = 38 Sekunden insgesamt.

Mistral Nemo — Ergebnis:

6 Absätze statt 3-4 – die Einschränkung wurde nicht eingehalten. Der Inhalt ist wässrig, es gibt Wiederholungen derselben Gedanken mit anderen Worten. Zeit ca. 30 Sekunden, aber die Qualität ist die niedrigste der drei.

📊 Vergleich mit Qwen3:8b und Mistral Nemo: Ergebnistabelle

Die Zahlen wurden auf einem MacBook Pro M1 16 GB gesammelt. Keine Labor-Benchmarks – meine eigenen Tests.
Modell Größe Code: Zeit Code: Qualität Text: Zeit Text: Qualität
gemma4 9.6 GB ~4 Min. ⭐⭐⭐⭐⭐ ~1.5 Min. ⭐⭐⭐⭐⭐
qwen3:8b 5.2 GB ~67 Sek. ⭐⭐⭐⭐⭐ ~38 Sek. ⭐⭐⭐⭐
mistral-nemo 7.1 GB ~30 Sek. ⭐⭐ ~30 Sek. ⭐⭐⭐

Fazit aus der Tabelle: Für Code sind Qwen3:8b und Gemma 4 qualitativ gleichwertig, aber Qwen3 ist 3,5-mal schneller. Für Text ist Gemma 4 merklich besser – Struktur, Analogien, Tabellen. Mistral Nemo verliert in beiden Tests, außer bei der Geschwindigkeit.

🧠 Reasoning-Modus in der Praxis: Wie viel Zeit er frisst und ob es sich lohnt

Gemma 4 "denkt" standardmäßig vor jeder Antwort nach. Das ist ihr Hauptvorteil – und der Hauptgrund für ihre Langsamkeit.

Sofort nach der ersten Anfrage sah ich etwas Ungewöhnliches:

Thinking...
Thinking Process:
1. Analyze the user's input...
2. Identify the core question...
...done thinking.

Das ist der Reasoning-Modus – das Modell erstellt einen Plan für die Antwort, bevor es den Text generiert. Bei Gemma 4 ist er standardmäßig über das Token <|think|> im System-Prompt aktiviert. Mehr darüber, wie man ihn manuell ein- und ausschaltet, erfahren Sie in einem separaten Artikel über den Reasoning-Modus in Gemma 4.

Was das in der Praxis bringt, zeigen die Tests:

  • Code: 73 Sekunden Denken → Antwort mit vollständiger Struktur und Erklärungen
  • Text: 37 Sekunden Denken → Antwort mit einer Struktur, die nicht angefordert wurde, aber das Ergebnis tatsächlich verbesserte

Lohnt es sich? Das hängt von der Aufgabe ab. Für einmalige komplexe Anfragen – ja, die Qualität ist merklich höher. Für Routineaufgaben, bei denen Geschwindigkeit gefragt ist (Autovervollständigung, kurze Antworten, Chat) – bremst der Reasoning-Modus nur aus. In solchen Fällen ist Qwen3:8b besser.

✅ Fazit: Wann man Gemma 4 auf M1 nehmen sollte und wann bei Qwen3 bleiben sollte

Gemma 4 ersetzt nicht alle Modelle. Sie besetzt ihre Nische – und in dieser Nische ist sie wirklich die Beste.

Nimm Gemma 4, wenn:

  • Du komplexen Text schreibst – Artikel, Dokumentationen, Erklärungen für Unternehmen
  • Du maximale Codequalität benötigst und die Zeit nicht kritisch ist
  • Du ein Modell möchtest, das die Antwort selbst strukturiert, ohne detaillierte Anweisungen
  • Du planst, es in einem RAG-Produkt zu verwenden – 128K Kontext und natives Function Calling

Bleibe bei Qwen3:8b, wenn:

  • Du täglich Code generierst und Geschwindigkeit benötigst
  • Du es als Autovervollständigung in der IDE verwendest
  • Die Reaktionsfähigkeit im Chat wichtig ist

Auf meinem M1 16 GB laufen beide Modelle derzeit gleichzeitig – sie belegen zusammen etwa 15 GB und stören sich nicht. Ich wechsle je nach Aufgabe.

Wenn du tiefer eintauchen möchtest – lies weiter zum Thema:

Vadym Kharovuk – Entwickler, Gründer von WebsCraft und AskYourDocs.

Останні статті

Читайте більше цікавих матеріалів

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати. Що таке MoE і чому 26B...

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...

Як модель LLM  вирішує коли шукати — механіка прийняття рішень

Як модель LLM вирішує коли шукати — механіка прийняття рішень

Розробник налаштував tool use, перевірив на тестових запитах — все працює. У production модель раптом відповідає без виклику інструменту, впевнено і зв'язно, але з даними річної давнини. Жодної помилки в логах. Просто неправильна відповідь. Спойлер: модель не «зламалась»...

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG

Коли розробник вперше бачить як LLM «викликає функцію» — виникає інтуїтивна помилка: здається що модель сама виконала запит до бази або API. Це не так, і саме ця помилка породжує цілий клас архітектурних багів. Спойлер: LLM лише повертає структурований JSON з назвою...