Gemma 4 auf M1 16 GB — reale Tests: Code, Text, Geschwindigkeit

Aktualisiert:
Gemma 4 auf M1 16 GB — reale Tests: Code, Text, Geschwindigkeit
Kurz gesagt: Ich habe Gemma 4 auf einem MacBook Pro M1 mit 16 GB installiert und auf zwei realen Aufgaben getestet – die Generierung von Spring Boot Code und einen Text über RAG. Ich habe sie mit Qwen3:8b und Mistral Nemo verglichen. Ergebnis: Gemma 4 liefert die beste Qualität, ist aber am langsamsten. Qwen3:8b liefert fast die gleiche Codequalität in 1/4 der Zeit. Lies weiter, wenn du wissen willst, ob sich ein Wechsel lohnt.

⚠️ Wie ich Gemma 4 auf M1 installiert habe: Ein echter Fehler mit der Ollama-Version

Das Erste, was ich sah, war nicht das Modell, sondern ein Fehler. Und das ist die erste nützliche Information für diejenigen, die es nachmachen wollen.

Ich benutze Ollama für lokales KI schon seit langem – also habe ich nach der Veröffentlichung von Gemma 4 als Erstes einfach im Terminal eingegeben:

ollama run gemma4

Und sofort erhalten:

Error: pull model manifest: 412:
The model you are attempting to pull requires a newer version of Ollama.
Please download the latest version at: https://ollama.com/download

Der Grund ist einfach: Ich hatte Version 0.17.0 installiert, und Gemma 4 benötigt mindestens 0.20+. Überprüfe deine Version: ollama --version. Du kannst entweder über die offizielle Download-Seite aktualisieren oder über Homebrew – was ich getan habe (offizielle Ollama-Dokumentation):

brew upgrade ollama
brew services restart ollama

Danach wurde Version 0.20.5 installiert und das Modell problemlos heruntergeladen. Wenn du Ollama schon länger installiert hast – überprüfe die Version, bevor du Gemma 4 ausprobierst. Das spart dir 10 Minuten Fehlersuche.

Modell herunterladen:

ollama run gemma4

Größe: 9.6 GB. Auf meinem Internetanschluss hat das etwa 2 Stunden gedauert. Nach dem Download startete das Modell sofort im Terminal – das Symbol bedeutet, dass es in den Speicher geladen wird, nach einigen Sekunden erscheint >>>.

💾 Welche Gemma 4-Variante passt für M1 16 GB und warum nicht 26B

Gemma 4 ist nicht ein Modell, sondern vier. Und auf M1 16 GB passt nur eines davon.

Eine detaillierte Übersicht aller Varianten findest du im Artikel über Modelle für 8 GB RAM. Kurz zu Gemma 4:

Modell Dateigröße RAM (4-bit) Geeignet für M1 16 GB
gemma4:e2b ~5 GB 5 GB ✅ Ja, aber schwache Qualität
gemma4 (e4b) 9.6 GB ~6 GB ✅ Ja – optimale Wahl
gemma4:26b ~18 GB ~18 GB ❌ Nein – Swapping, Abstürze
gemma4:31b ~20 GB ~20 GB ❌ Nein – passt nicht

Über gemma4:26b im Besonderen – im Internet wird es aktiv beworben als "MoE-Magie: 26B-Qualität zum Preis von 8B". Das ist nicht ganz wahr. Die tatsächliche Dateigröße beträgt 18 GB, und auf einem M1 mit 16 GB Unified Memory passt das einfach nicht ohne aggressives Swapping. Selbst auf einem Mac mini mit 24 GB berichten Leute von Abstürzen unter Last und kehren zu e4b zurück. Mehr dazu – in einem separaten Artikel über die Fallstricke von Gemma 4 26B MoE.

Meine Wahl: gemma4 (e4b) – die Standardvariante, nichts muss zusätzlich angegeben werden.

💻 Test 1 – Code-Generierung: Spring Boot Endpoint mit Paginierung

Der gleiche Prompt – drei Modelle. Schauen wir uns die Ergebnisse an.

Der Prompt, den ich verwendet habe:

Schreibe einen Spring Boot REST Endpoint, um eine Liste von Benutzern mit Paginierung abzurufen. Verwende JPA Repository.

Ich habe diese Aufgabe bewusst gewählt – ich kenne Spring Boot gut, daher kann ich die Qualität ohne Googeln beurteilen.

Gemma 4 – Ergebnis:

Vollständige Struktur: Entity → Repository → Service → Controller + Abhängigkeiten in pom.xml + Beispiele für URL-Anfragen. Korrektes DI über den Konstruktor, ResponseEntity<Page<User>>, Kommentare zu jedem Schritt. Das ist produktionsreifer Code, den man nehmen und verwenden kann. Der einzige Nachteil – die Zeit. Zuerst hat es 73 Sekunden "gedacht" (Thinking-Block), dann noch etwa 3 Minuten Text generiert. Insgesamt fast 4 Minuten.

Qwen3:8b – Ergebnis:

Die gleiche vollständige Struktur: Entity + Repository + Service + Controller. Zusätzlich – Abhängigkeiten für Maven und Gradle (was Gemma nicht gemacht hat). Die Codequalität ist praktisch identisch. Zeit: ~32 Sekunden Denken + ~35 Sekunden Generierung = insgesamt 67 Sekunden. 3,5-mal schneller.

Mistral Nemo – Ergebnis:

Minimaler Code – nur Controller, ohne separaten Service Layer. Der gleiche Codeblock wurde zweimal wiederholt (sieht nach einem Generierungsfehler aus). Zeit ~30 Sekunden – die schnellste, aber die schwächste Antwort.

Gemma 4 auf M1 16 GB — reale Tests: Code, Text, Geschwindigkeit

📝 Test 2 — Texterzeugung: RAG-Erklärung für Unternehmen

Hier änderte sich das Bild – Gemma 4 schnitt deutlich besser ab als die Konkurrenz.

Prompt:

Erkläre RAG (Retrieval-Augmented Generation) in einfachen Worten für Unternehmen. Ohne Fachbegriffe. 3-4 Absätze.

Die Einschränkungen "3-4 Absätze" und "ohne Fachbegriffe" dienen speziell dazu, zu prüfen, ob das Modell Anweisungen befolgt.

Gemma 4 — Ergebnis:

Die Einschränkung bezüglich der Absatzanzahl wurde verletzt – aber zu Recht. Anstelle von 3-4 Absätzen wurde ein strukturierter Artikel mit Unterüberschriften, einer Analogie ("ein Schüler mit allen Büchern der Welt vs. ein Assistent mit dem Handbuch Ihres Unternehmens") und einer Vergleichstabelle "LLM ohne RAG vs. mit RAG" erstellt. Das ist genau das, was Unternehmen brauchen – das weiß ich aus eigener Erfahrung mit AskYourDocs. Zeit: ca. 37 Sekunden Denken + ca. 1 Minute Text.

Qwen3:8b — Ergebnis:

Die Einschränkung wurde eingehalten – genau 3 Absätze. Sauber, prägnant, verständlich. Es gibt eine Analogie ("zusätzliche Wissensquelle"). Aber im Vergleich zu Gemma 4 ist es deutlich einfacher, ohne Struktur und ohne Tabelle. Zeit: ca. 18 Sekunden Denken + ca. 20 Sekunden Text = 38 Sekunden insgesamt.

Mistral Nemo — Ergebnis:

6 Absätze statt 3-4 – die Einschränkung wurde nicht eingehalten. Der Inhalt ist wässrig, es gibt Wiederholungen derselben Gedanken mit anderen Worten. Zeit ca. 30 Sekunden, aber die Qualität ist die niedrigste der drei.

📊 Vergleich mit Qwen3:8b und Mistral Nemo: Ergebnistabelle

Die Zahlen wurden auf einem MacBook Pro M1 16 GB gesammelt. Keine Labor-Benchmarks – meine eigenen Tests.
Modell Größe Code: Zeit Code: Qualität Text: Zeit Text: Qualität
gemma4 9.6 GB ~4 Min. ⭐⭐⭐⭐⭐ ~1.5 Min. ⭐⭐⭐⭐⭐
qwen3:8b 5.2 GB ~67 Sek. ⭐⭐⭐⭐⭐ ~38 Sek. ⭐⭐⭐⭐
mistral-nemo 7.1 GB ~30 Sek. ⭐⭐ ~30 Sek. ⭐⭐⭐

Fazit aus der Tabelle: Für Code sind Qwen3:8b und Gemma 4 qualitativ gleichwertig, aber Qwen3 ist 3,5-mal schneller. Für Text ist Gemma 4 merklich besser – Struktur, Analogien, Tabellen. Mistral Nemo verliert in beiden Tests, außer bei der Geschwindigkeit.

🧠 Reasoning-Modus in der Praxis: Wie viel Zeit er frisst und ob es sich lohnt

Gemma 4 "denkt" standardmäßig vor jeder Antwort nach. Das ist ihr Hauptvorteil – und der Hauptgrund für ihre Langsamkeit.

Sofort nach der ersten Anfrage sah ich etwas Ungewöhnliches:

Thinking...
Thinking Process:
1. Analyze the user's input...
2. Identify the core question...
...done thinking.

Das ist der Reasoning-Modus – das Modell erstellt einen Plan für die Antwort, bevor es den Text generiert. Bei Gemma 4 ist er standardmäßig über das Token <|think|> im System-Prompt aktiviert. Mehr darüber, wie man ihn manuell ein- und ausschaltet, erfahren Sie in einem separaten Artikel über den Reasoning-Modus in Gemma 4.

Was das in der Praxis bringt, zeigen die Tests:

  • Code: 73 Sekunden Denken → Antwort mit vollständiger Struktur und Erklärungen
  • Text: 37 Sekunden Denken → Antwort mit einer Struktur, die nicht angefordert wurde, aber das Ergebnis tatsächlich verbesserte

Lohnt es sich? Das hängt von der Aufgabe ab. Für einmalige komplexe Anfragen – ja, die Qualität ist merklich höher. Für Routineaufgaben, bei denen Geschwindigkeit gefragt ist (Autovervollständigung, kurze Antworten, Chat) – bremst der Reasoning-Modus nur aus. In solchen Fällen ist Qwen3:8b besser.

✅ Fazit: Wann man Gemma 4 auf M1 nehmen sollte und wann bei Qwen3 bleiben sollte

Gemma 4 ersetzt nicht alle Modelle. Sie besetzt ihre Nische – und in dieser Nische ist sie wirklich die Beste.

Nimm Gemma 4, wenn:

  • Du komplexen Text schreibst – Artikel, Dokumentationen, Erklärungen für Unternehmen
  • Du maximale Codequalität benötigst und die Zeit nicht kritisch ist
  • Du ein Modell möchtest, das die Antwort selbst strukturiert, ohne detaillierte Anweisungen
  • Du planst, es in einem RAG-Produkt zu verwenden – 128K Kontext und natives Function Calling

Bleibe bei Qwen3:8b, wenn:

  • Du täglich Code generierst und Geschwindigkeit benötigst
  • Du es als Autovervollständigung in der IDE verwendest
  • Die Reaktionsfähigkeit im Chat wichtig ist

Auf meinem M1 16 GB laufen beide Modelle derzeit gleichzeitig – sie belegen zusammen etwa 15 GB und stören sich nicht. Ich wechsle je nach Aufgabe.

Wenn du tiefer eintauchen möchtest – lies weiter zum Thema:

Vadym Kharovuk – Entwickler, Gründer von WebsCraft und AskYourDocs.

Останні статті

Читайте більше цікавих матеріалів

Google Spam Policy 2026: маніпуляції з AI Overview тепер офіційно спам

Google Spam Policy 2026: маніпуляції з AI Overview тепер офіційно спам

15 травня 2026 року Google тихо оновив одне речення у своїй Spam Policy. Але це речення змінює правила гри для всіх хто займається контентом і SEO. Без гучних анонсів, без великої прес-конференції — просто нове формулювання на сторінці документації. Search Engine Roundtable помітив...

Пам'ять AI агента: in-context, episodic, RAG і semantic — коли що використовувати

Пам'ять AI агента: in-context, episodic, RAG і semantic — коли що використовувати

Агент отримав запит — обробив — відповів. Наступний запит — і він не пам'ятає нічого з попереднього. Не тому що щось зламалось. А тому що так влаштована LLM за замовчуванням: кожен виклик — чистий аркуш. Якщо ви будуєте агента і не думали про пам'ять — ви будуєте амнезика з доступом до...

Grok Build від xAI: детальний технічний огляд

Grok Build від xAI: детальний технічний огляд

Grok Build — новий agentic CLI від xAI (early beta, 14 травня 2026). Головні фішки: Plan Mode з обов’язковим затвердженням плану, паралельні субагенти (до 8), контекстне вікно ~1–2M токенів та сучасний TUI на Rust. Працює на Grok 4.3, підтримує ACP, git worktree та MCP....

Ollama 0.24 + Codex App: як запустити локальний AI coding agent

Ollama 0.24 + Codex App: як запустити локальний AI coding agent

Оновлено: 15 травня 2026 14 травня 2026 вийшла Ollama 0.24 — і це не черговий патч з виправленням багів. Цей реліз додає офіційну підтримку Codex App від OpenAI: тепер десктопний AI coding agent можна запустити на будь-якій локальній або хмарній моделі через Ollama....

Tool RAG: що робити коли у агента забагато інструментів

Tool RAG: що робити коли у агента забагато інструментів

У вас 5 tools — все чудово. У вас 15 tools — починаються проблеми. У вас 50 tools — агент деградує. Але є рішення яке вирішує проблему масштабу елегантно — і ви вже знаєте як воно працює, бо використовуєте його для документів. Ця стаття — частина серії про AI агентів на Spring Boot. Якщо...

Grounding в AI агентах: що робити коли tool call повернув не те

Grounding в AI агентах: що робити коли tool call повернув не те

Уявіть: ваш AI агент отримав запит «яка ціна на Enterprise план?». Він викликав tool. Tool відповів. Агент сформулював відповідь — впевнено, зв'язно, з конкретною цифрою. Клієнт отримав відповідь і пішов задоволений. Проблема в тому що tool повернув порожній результат — документ не...