Kurz gesagt: Gemma 4 ist die neue Generation offener Modelle von Google DeepMind, veröffentlicht am 2. April 2026. Vier Größen: E2B, E4B, 26B MoE und 31B Dense. Apache 2.0 Lizenz – kann kommerziell und uneingeschränkt genutzt werden. Unterstützt Bilder, Audio, Reasoning Mode und 256K Kontext. Startet mit einem einzigen Befehl über Ollama.
🤖 Was ist Gemma 4 und wie unterscheidet sie sich von Gemini
Gemma und Gemini sind zwei verschiedene Produkte von Google. Sie zu verwechseln ist der häufigste Fehler bei der ersten Begegnung.
Gemini ist ein geschlossenes Modell von Google, das nur über eine kostenpflichtige API zugänglich ist. Sie können seine Gewichte nicht herunterladen, es nicht lokal ausführen oder es in Ihr Produkt integrieren, ohne für jede Anfrage zu bezahlen.
Gemma 4 ist ein offenes Modell (Google DeepMind), das auf derselben Forschungsbasis wie Gemini 3 aufgebaut ist, aber mit offenen Gewichten. Sie laden das Modell auf Ihre Hardware herunter und führen es lokal aus – ohne Internet, ohne API-Schlüssel, ohne Bezahlung pro Token.
Am 2. April 2026 veröffentlichte Google Gemma 4 – die vierte Generation dieser Reihe. Seit dem Start des ersten Gemma haben Entwickler die Modelle über 400 Millionen Mal heruntergeladen und mehr als 100.000 darauf basierende Varianten erstellt.
Gemma 4 ist das erste Modell in der Reihe, das gleichzeitig unterstützt:
Bilder und Audio als nativen Input (nicht über eine separate Pipeline)
integrierten Reasoning Mode (schrittweises Nachdenken vor der Antwort)
natives Function Calling für Agenten-Szenarien
eine kommerziell freie Apache 2.0 Lizenz
📄 Apache 2.0 Lizenz: Warum sie für Unternehmen wichtig ist
Frühere Versionen von Gemma konnten zwar genutzt werden, aber mit Einschränkungen. Gemma 4 ist die erste, die keinerlei Einschränkungen hat.
Gemma 3 wurde unter Googles eigener Lizenz ("Gemma Open") veröffentlicht, die die kommerzielle Nutzung erlaubte, aber Einschränkungen für bestimmte Szenarien enthielt und die Einhaltung Google-spezifischer Bedingungen erforderte. Dies schuf rechtliche Unsicherheit für Unternehmen.
Gemma 4 wird unter Apache 2.0 veröffentlicht – einer der freizügigsten Lizenzen für Open-Source-Software. Dieselbe Lizenz wird in Kubernetes, TensorFlow, Android verwendet.
Bedingung
Gemma 3
Gemma 4
Kommerzielle Nutzung
Eingeschränkt
✅ Ohne Einschränkungen
Integration in Produkte
Eingeschränkt
✅ Frei
Fine-tuning und Verbreitung
Eingeschränkt
✅ Frei
MAU-Limits
Vorhanden
❌ Nicht vorhanden
Rechte an den Ausgaben des Modells
Google-spezifische Bedingungen
✅ Vollständig Ihre
Für ukrainische Unternehmen und Entwickler bedeutet dies: Gemma 4 kann in kommerzielle Produkte, SaaS-Dienste, Unternehmenssysteme integriert werden – ohne rechtliche Risiken und ohne Bezahlung an Google.
📐 Vier Größen von Gemma 4: E2B, E4B, 26B MoE, 31B Dense
Gemma 4 ist nicht ein einziges Modell, sondern eine Familie für verschiedene Hardware. Vom Smartphone bis zum Server-GPU.
Google hat Gemma 4 in zwei Klassen unterteilt: Edge-Modelle (E-Serie) für Geräte mit begrenztem Speicher und große Modelle für Desktops und Server. Die richtige Wahl der Größe ist keine Frage von "größer = besser", sondern eine Frage der Eignung für Ihre Hardware und Aufgabe.
Modell
Parameter
Architektur
RAM (4-bit)
Kontext
Audio
Ollama Befehl
E2B
2.3B effektiv
Dense
~5 GB
128K
✅
ollama run gemma4:e2b
E4B
4.5B effektiv
Dense
~6 GB
128K
✅
ollama run gemma4
26B MoE
3.8B aktiv / 26B gesamt
Mixture of Experts
~18 GB
256K
❌
ollama run gemma4:26b
31B Dense
30.7B
Dense
~20 GB
256K
❌
ollama run gemma4:31b
🔵 Gemma 4 E2B – für Edge und schwache Hardware
Was bedeutet "E" in E2B und E4B? "E" steht für "effective" – effektive Parameter. Die tatsächliche Größe des Modells ist größer (5.1B mit Embeddings), aber während der Ausführung werden nur 2.3B aktiviert. Dies ermöglicht die Ausführung des Modells auf Geräten mit minimalen Ressourcen.
E2B ist das kleinste Modell der Familie. Entwickelt für Smartphones, Raspberry Pi und Laptops mit 4-6 GB verfügbarem Speicher. Unterstützt Bilder und Audio – was für ein Modell dieser Größe eine einzigartige Eigenschaft ist. Kontext von 128K Tokens.
Für wen geeignet: Entwickler mobiler Anwendungen, IoT-Projekte, Laptops mit schwacher Hardware, Szenarien, in denen der Offline-Modus auf dem Gerät kritisch ist.
Wo nicht geeignet: komplexe Code-Generierung, lange strukturierte Texte, Aufgaben, bei denen eine hohe Antwortqualität erforderlich ist. In solchen Fällen ist E4B besser.
🟢 Gemma 4 E4B – die optimale Wahl für die meisten
E4B ist die Standardvariante von Gemma 4. Wenn Sie einfach ollama run gemma4 eingeben, wird genau E4B heruntergeladen. 4.5B effektive Parameter, ~6 GB in 4-bit Quantisierung, 128K Kontext, Unterstützung für Bilder und Audio.
Dieses Modell ist die Hauptüberraschung der Familie. Im LiveCodeBench v6 Benchmark erzielt E4B 80% – so viel wie Gemma 3 27B auf AIME erzielte. Das bedeutet, ein kleines Edge-Modell übertrifft die vorherige Generation eines großen Modells beim Code. Dies ist eine Folge des Reasoning Mode und eines prinzipiell besseren Trainings.
Für wen geeignet: die meisten Entwickler auf Mac M1/M2 8-16 GB, Windows-Laptops mit 8+ GB RAM, tägliche Arbeit mit Code und Text, RAG-Produkte auf schwacher Hardware.
Einziger Nachteil: Der Reasoning Mode ist standardmäßig aktiviert und fügt jeder Antwort 30-75 Sekunden hinzu. Für routinemäßige schnelle Aufgaben kann dies unpraktisch sein – dann ist Qwen3:8b bei ähnlicher Codequalität schneller.
🟡 Gemma 4 26B MoE – Geschwindigkeit eines großen Modells bei geringerem Verbrauch
Was bedeutet MoE? Mixture of Experts – eine Architektur, bei der das Modell aus 128 spezialisierten "Experten" besteht, aber für jeden Token wird nur ein kleiner Teil davon aktiviert. Bei 26B MoE werden während der Inferenz ~3.8B Parameter aktiviert – daher die hohe Generierungsgeschwindigkeit bei einer Qualität, die deutlich über der eines 4B-Modells liegt.
Das klingt perfekt – aber es gibt einen wichtigen Punkt: alle 26B müssen in den Speicher geladen werden, also ~18 GB. Weniger wird aktiviert, aber alles wird gespeichert. Das ist ein prinzipieller Unterschied zu E4B, wo sowohl wenig gespeichert als auch wenig aktiviert wird.
In der Praxis bedeutet dies: 26B MoE läuft komfortabel auf RTX 3090/4090 mit 24 GB VRAM oder Mac mit 24-32 GB Unified Memory. Auf Mac M1/M2 16 GB wird es nicht empfohlen – es führt zu Swapping und Abstürzen. Mehr dazu – in einem separaten Artikel über die Fallstricke von Gemma 4 26B MoE.
Für wen geeignet: Entwickler mit RTX 3090/4090, Mac M2/M3 Pro mit 24+ GB, Szenarien, bei denen 256K Kontext und hohe Qualität bei schneller Inferenz benötigt werden.
🔴 Gemma 4 31B Dense – maximale Qualität
31B Dense ist das Flaggschiffmodell der Familie. "Dense" bedeutet, dass alle 30.7B Parameter für jeden Token aktiviert werden – im Gegensatz zu MoE, wo nur ein Teil aktiviert wird. Dies bietet maximale Qualität, erfordert aber mehr Ressourcen.
Auf Arena AI (eine unabhängige Rangliste basierend auf menschlichen Vergleichen) belegt Gemma 4 31B im April 2026 den 3. Platz unter allen offenen Modellen weltweit. AIME 2026 – 89.2%, LiveCodeBench – 80%, GPQA Diamond – 84.3%.
Für den lokalen Start werden ~20 GB RAM in 4-bit Quantisierung benötigt. Das ist ein Mac M2/M3 Max mit 32+ GB oder eine RTX 4090. Auf kleineren Geräten – nur mit aggressivem Swapping, was die Arbeit unangenehm macht.
Für wen geeignet: Entwickler mit Top-Hardware, Fine-Tuning und Forschungsaufgaben, Production RAG, bei dem Qualität entscheidend ist und ein leistungsstarker Server vorhanden ist.
Wie wählt man zwischen 26B MoE und 31B Dense?
Dies ist die häufigste Frage unter denen, die genügend RAM für beide haben. Kurze Antwort:
26B MoE – wenn die Inferenzgeschwindigkeit wichtig ist, 24 GB VRAM, aber nicht 32 GB vorhanden sind, oder 256K Kontext mit minimaler Latenz benötigt wird
31B Dense – wenn maximale Qualität wichtig ist und 32+ GB vorhanden sind, insbesondere für Fine-Tuning und komplexe Reasoning-Aufgaben
Auf Benchmarks ist der Unterschied zwischen ihnen gering: AIME 88.3% vs. 89.2%, MMLU Pro 82.3% vs. 85.2%. Aber in der Praxis fühlt sich 31B Dense bei komplexen Multi-Step-Aufgaben oft qualitativ besser an – gerade weil alle Parameter aktiv sind.
📊 Gemma 4 vs Gemma 3: Was hat sich wirklich geändert
Das ist keine Evolution – das ist eine Änderung der Kategorie. Die Zahlen sprechen für sich.
Unten finden Sie einen Vergleich auf identischen Benchmark-Versionen. Gemma 3 wurde im März 2025 bei der Veröffentlichung getestet, Gemma 4 im April 2026 (offizielle Model Card Gemma 4). Wir vergleichen die nächstgelegenen Größenvarianten: Gemma 3 27B gegen Gemma 4 31B.
Benchmark
Was wird gemessen
Gemma 3 27B
Gemma 4 31B
Änderung
AIME 2026
Mathematik-Wettbewerb
20,8 %
89,2 %
+68,4 %
LiveCodeBench v6
Echter Code
29,1 %
80,0 %
+50,9 %
GPQA Diamond
Wissen auf PhD-Niveau
42,4 %
84,3 %
+41,9 %
τ2-bench
Agentenaufgaben / Werkzeuge
6,6 %
86,4 %
+79,8 %
RULER 128K
Reale Nutzung des Kontexts
13,5 %
66,4 %
+52,9 %
Codeforces ELO
Wettbewerbsorientiertes Programmieren
110
2150
×19
MMLU Pro
Allgemeines Wissen
~67 %
85,2 %
+18 %
Was steckt hinter diesen Zahlen
AIME 2026 – der dramatischste Sprung. AIME (American Invitational Mathematics Examination) ist ein Mathematik-Wettbewerb auf Universitätsniveau, bei dem die meisten Leute nicht mehr als 2-3 Aufgaben von 15 lösen. Gemma 3 27B erreichte 20,8 % – das ist das Niveau von "manchmal geraten". Gemma 4 31B – 89,2 %. Der Grund: Der integrierte Reasoning-Modus ermöglicht es dem Modell, einen schrittweisen Lösungsplan von über 4000 Tokens zu erstellen, bevor es eine Antwort gibt. Ohne diesen wäre ein solches Ergebnis nicht möglich.
LiveCodeBench v6 – echter Code, keine Schulaufgaben. Im Gegensatz zu HumanEval, wo die Aufgaben bekannt sind und das Modell sie während des Trainings "auswendig lernen" konnte, verwendet LiveCodeBench aktuelle Aufgaben aus echten Wettbewerben. Gemma 3 27B – 29,1 %, Gemma 4 31B – 80 %. Das bedeutet, dass die vorherige Generation jede dritte Aufgabe löste, die neue – vier von fünf.
τ2-bench – am wichtigsten für Produktentwickler. Dieser Benchmark testet Agentenszenarien: Aufrufen von Werkzeugen, Ausführen einer Abfolge von Schritten, Fehlerbehandlung. Gemma 3 27B – 6,6 %, Gemma 4 31B – 86,4 %. Das bedeutet, dass Gemma 3 Agentenaufgaben praktisch nicht zuverlässig ausführen konnte. Gemma 4 – kann es. Für diejenigen, die RAG-Produkte oder Automatisierung entwickeln, ist dies ein prinzipieller Unterschied.
RULER 128K – das am meisten unterschätzte Ergebnis. Gemma 3 unterstützte nominell 128K Kontext-Tokens. Aber ein Score von 13,5 % bei RULER bedeutet, dass das Modell Informationen aus der Mitte und dem Ende des Kontexts kaum nutzte – es "vergaß", was am Anfang eines langen Dokuments stand. Wenn Sie ein großes PDF eingereicht und unvollständige oder ungenaue Antworten erhalten haben, war dies der Grund. Gemma 4 – 66,4 %. Der Kontext funktioniert endlich wirklich und nicht nur auf dem Papier. Für RAG-Szenarien und die Arbeit mit Unternehmensdokumenten ist dies eine entscheidende Änderung.
Codeforces ELO – eine Änderung um eine Größenordnung. Ein ELO von 110 bei Gemma 3 bedeutete ein Niveau unter den schwächsten registrierten Teilnehmern der Plattform – das Modell konnte nicht einmal die einfachsten Wettbewerbsaufgaben lösen. Ein ELO von 2150 bei Gemma 4 ist das Niveau eines "Candidate Master", der Top-Hunderte von Spielern weltweit. Der Grund ist derselbe: Reasoning-Modus + natives Function Calling.
Was hat sich an den Fähigkeiten geändert
Fähigkeit
Gemma 3
Gemma 4
Praktische Bedeutung
Lizenz
Gemma Open (eingeschränkt)
Apache 2.0
Kann ohne Einschränkungen in kommerzielle Produkte integriert werden
Bilder
Ausgewählte Modelle
✅ Alle Modelle
Selbst E2B auf dem Smartphone versteht Bilder
Audio
❌
✅ E2B und E4B
Neue Möglichkeit – Transkription und Sprachverständnis lokal
Reasoning mode
❌
✅ Integriert
Hauptgrund für den Sprung in Mathematik und Code
Function calling
Über Prompt (unzuverlässig)
✅ Nativ (trainiert)
Agentenszenarien sind endlich zuverlässig
MoE-Architektur
❌
✅ 26B Variante
Qualität eines großen Modells bei Geschwindigkeit eines kleinen
Kontext
128K (nominell, ~13 % Effizienz)
128K / 256K (real, ~66 % Effizienz)
Dokumente werden endlich vollständig gelesen
System-Prompt
Eingeschränkte Unterstützung
✅ Native Unterstützung
Stabilere Leistung in Chat-Anwendungen
Lohnt sich der Umstieg von Gemma 3 auf Gemma 4?
Kurze Antwort – ja, wenn es keinen spezifischen Grund gibt, zu bleiben. Gemma 4 ist in jedem gemessenen Aspekt besser.
Drei Gründe, bei Gemma 3 zu bleiben:
Sie haben Gemma 3 bereits feinabgestimmt – die Gewichte werden nicht übertragen, Sie müssen neu trainieren
Ihr Framework oder Werkzeug unterstützt Gemma 4 noch nicht – einige Nischenintegrationen hinken neuen Veröffentlichungen hinterher
Sie benötigen Stabilität statt Funktionen – Gemma 3 hat mehrere Monate Community-Bugfixing hinter sich, Gemma 4 ist noch neu
In allen anderen Fällen – wechseln Sie. Besonders wenn Sie Gemma für Code, Agentenaufgaben oder die Arbeit mit langen Dokumenten verwenden.
⚔️ Gemma 4 vs Llama 4 vs Qwen3: wo sie gewinnt, wo sie verliert
Auf dem Markt der Open-Source-Modelle gibt es derzeit drei Hauptakteure. Jeder hat seine eigene Stärke.
Kriterium
Gemma 4
Llama 4
Qwen3
Lizenz
✅ Apache 2.0
⚠️ Benutzerdefiniert (700M MAU Limit)
✅ Apache 2.0
Mathematik (AIME)
✅ 89,2 %
~80 %
~48 %
Audio
✅ E2B/E4B
❌
❌
Geschwindigkeit auf schwacher Hardware
⚠️ Langsam (Reasoning)
✅ Schneller
✅ Am schnellsten
Textqualität
✅ Beste Struktur
Gut
Gut
Ollama-Unterstützung
✅ Tag eins
✅ Tag eins
✅ Tag eins
Kurz gesagt: Gemma 4 gewinnt bei Lizenz, Mathematik und Textqualität. Qwen3 gewinnt bei der Geschwindigkeit auf schwacher Hardware. Llama 4 hat den längsten Kontext in der Scout-Variante. Für die meisten lokalen Szenarien sind Gemma 4 E4B oder Qwen3 8B die beste Wahl, je nach Priorität.
⚙️ So laden Sie Gemma 4 über Ollama herunter – erster Start
Ollama ist die Engine. Gemma 4 ist das Modell. Sie installieren Ollama einmal und verbinden dann jedes Modell mit einem einzigen Befehl.
Wichtig: Gemma 4 benötigt Ollama 0.20+. Überprüfen Sie die Version und aktualisieren Sie sie bei Bedarf:
ollama --version
brew upgrade ollama # Update auf Mac
brew services restart ollama # Neustart nach Update
Herunterladen und starten:
# Empfohlene Option für die meisten (6-9 GB RAM)
ollama run gemma4
# Leichte Option für schwache Hardware
ollama run gemma4:e2b
# MoE-Option – benötigt ~18 GB
ollama run gemma4:26b
# Maximale Qualität – benötigt ~20 GB
ollama run gemma4:31b
Nach dem ersten Start wird das Modell in den Speicher geladen (Symbol ⠇), nach einigen Sekunden erscheint >>> und Sie können Prompts eingeben. Das Modell ist auch über jede Ollama UI verfügbar – Open WebUI, Continue.dev und andere.
💾 Welches Modell soll ich für meine Hardware wählen: 8 GB, 16 GB, 32 GB
Der häufigste Fehler ist das Herunterladen eines Modells, das nicht in den Speicher passt. Ergebnis: Swapping, Abstürze, Enttäuschung.
Hardware
Empfohlenes Modell
Warum
8 GB RAM / VRAM
gemma4:e4b
Benötigt ~6 GB, lässt Platz für das System. Besser als Gemma 3 27B in allen Benchmarks.
16 GB einheitlicher Speicher (Mac M1/M2)
gemma4 (e4b)
Optimale Wahl. gemma4:26b auf 16 GB verursacht Swapping – nicht empfohlen.
24 GB VRAM (RTX 3090/4090)
gemma4:26b
MoE-Option passt bequem, schnelle Inferenz.
32 GB einheitlicher Speicher (Mac M2/M3 Max)
gemma4:31b
Maximale Qualität, 3. Platz unter den Open-Source-Modellen auf Arena AI.
Gemma 4 ist die beste Open-Source-Modell für die meisten lokalen Szenarien im Jahr 2026. Aber nicht für alle – und das weiß ich aus eigener Erfahrung.
Ich habe Gemma 4 auf einem MacBook Pro M1 16 GB getestet – neben Qwen3:8b und Mistral Nemo, die bereits lokal bei mir installiert sind. Detaillierte Ergebnisse – in einem separaten Artikel mit realen Tests: Gemma 4 auf M1 16 GB – Code, Text, Geschwindigkeit. Hier – mein abschließendes Fazit.
Gemma 4 hat wirklich mit der Textqualität überrascht. Als ich den gleichen Prompt an drei Modelle gab – Gemma 4 fügte als einzige selbst eine Struktur und eine Tabelle hinzu, die ich nicht angefordert hatte, die aber die Antwort wirklich verbesserte. Für die Generierung von Inhalten, Dokumentationen und Erklärungen für Unternehmen ist sie den Konkurrenten um Längen voraus.
Mit Code ist die Situation komplizierter. Die Qualität des Spring Boot-Codes bei Gemma 4 und Qwen3:8b ist praktisch gleich – aber Qwen3 lieferte das Ergebnis in 67 Sekunden, während Gemma 4 fast 4 Minuten brauchte. Für das tägliche Coden ist das ein spürbarer Unterschied.
Nehmen Sie Gemma 4, wenn:
Sie ein kommerzielles Produkt entwickeln – Apache 2.0 deckt alle rechtlichen Fragen ab
Sie mit Dokumenten arbeiten und einen Kontext benötigen, der tatsächlich lesbar ist, nicht nur nominell
Sie ein lokales RAG aufbauen – natives Function Calling und 128K/256K Kontext
Sie komplexen Text generieren – Artikel, Dokumentationen, Erklärungen
Sie 8+ GB RAM haben und die Antwortzeit nicht kritisch ist
Bleiben Sie bei Qwen3:8b, wenn:
Sie täglich Code schreiben und Geschwindigkeit benötigen – Qwen3 ist 3-4 Mal schneller bei ähnlicher Codequalität
Sie das Modell als Autovervollständigung in der IDE verwenden – eine Verzögerung von 4 Minuten ist dort inakzeptabel
Sie bereits Gemma 3 feinabgestimmt haben – die Gewichte werden nicht übertragen, Sie müssen neu trainieren
Auf meinem M1 16 GB sind jetzt beide Modelle gleichzeitig installiert – sie belegen zusammen ~15 GB und kollidieren nicht. Ich wechsle: Gemma 4 für Text und komplexe Aufgaben, Qwen3 für schnellen Code. Das ist mein praktisches Fazit.
Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати.
Що таке MoE і чому 26B...
Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...
Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...
Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...
Розробник налаштував tool use, перевірив на тестових запитах — все працює.
У production модель раптом відповідає без виклику інструменту, впевнено і зв'язно,
але з даними річної давнини. Жодної помилки в логах. Просто неправильна відповідь.
Спойлер: модель не «зламалась»...
Коли розробник вперше бачить як LLM «викликає функцію» — виникає інтуїтивна помилка:
здається що модель сама виконала запит до бази або API.
Це не так, і саме ця помилка породжує цілий клас архітектурних багів.
Спойлер: LLM лише повертає структурований JSON з назвою...