Ollama auf 8 GB RAM: Welche Modelle laufen 2026

Aktualisiert:
KI zu diesem Artikel befragen
Ollama auf 8 GB RAM: Welche Modelle laufen 2026

Hast du einen Laptop mit 8 GB RAM und möchtest KI lokal ausführen? Dieser Artikel ist eine Analyse: Was funktioniert, was kaum läuft, und was es nicht einmal wert ist, herunterzuladen. Ohne Illusionen, mit konkreten Modellen und Befehlen für jede Aufgabe. Wenn du Ollama noch nicht kennst – beginne mit dem Einführungsartikel darüber, was Ollama ist und wozu es benötigt wird.

📚 Inhalt des Artikels

🎯 Wie viel RAM bleibt tatsächlich für das Modell übrig

Kurze Antwort: Von 8 GB RAM stehen für KI-Modelle realistisch 4–5 GB zur Verfügung. Den Rest beanspruchen das Betriebssystem, der Browser und grundlegende Prozesse. Das bestimmt die Hauptregel: Auf 8 GB laufen Modelle bis zu 3–7B Parametern in 4-Bit-Quantisierung komfortabel.

8 GB RAM sind nicht 8 GB für das Modell. Es sind 8 GB minus OS, minus Chrome, minus allem, was du vergessen hast zu schließen.

Bevor du ein Modell auswählst, musst du das reale Speicherbudget verstehen. Hier ist eine typische Aufteilung auf einem System mit 8 GB RAM:

  • ✔️ Betriebssystem: 1.5–2.5 GB (macOS näher an 2.5, Windows – 2, Linux – 1.5)
  • ✔️ Browser (5–10 Tabs): 1–2 GB
  • ✔️ IDE (VS Code / IntelliJ): 0.5–1.5 GB
  • ✔️ Hintergrundprozesse: 0.3–0.5 GB

Rest für das Modell: 3–5 GB.

Laut LocalLLM.in benötigt ein Modell mit 7B Parametern in Q4_K_M-Quantisierung etwa 4–5 GB, plus 1–2 GB für den KV-Cache und System-Overhead. Das bedeutet: Ein 7B-Modell auf 8 GB ist möglich, aber grenzwertig, und es ist besser, alles Überflüssige zu schließen.

Faustregel für 8 GB:

  • ✔️ Komfortzone: Modelle 1–3B Parameter (Q4_K_M) – es bleibt Platz für IDE und Browser
  • ✔️ Arbeitszone: Modelle 7–8B Parameter (Q4_K_M) – alles Überflüssige muss geschlossen werden
  • Rote Zone: Modelle 13B+ – garantierte Abstürze oder Swap auf die Festplatte

Fazit: Schließe den Browser, bevor du ein Modell auswählst, überprüfe ollama ps und sieh dir den realen verbleibenden Speicher an. Auf 8 GB ist jedes Gigabyte Gold wert.

🎯 Für Code: Welches Modell ersetzt Copilot auf 8 GB

Code-Vervollständigung Für die Code-Vervollständigung ist auf 8 GB die beste Wahl im Jahr 2026 Qwen3.5:4b oder Phi-4 Mini (3.8B) in Q4_K_M-Quantisierung. Qwen3.5:4b wurde im März 2026 veröffentlicht und hat Qwen 2.5 Coder als Hauptempfehlung abgelöst: nativ multimodal, Thinking Mode und 256K Kontext – bei gleichem Speicherbedarf von ~2.5 GB.

GitHub Copilot kostet 10 $/Monat. Ein lokales Modell für Code – 0 $/Monat und funktioniert offline. Die einzige Frage ist, welches Modell auf deiner Hardware läuft.

Coding ist eine Aufgabe, bei der selbst kleine Modelle nützlich sein können. Autovervollständigung, Generierung von Funktionen, Erklärung von Code, Schreiben von Tests – dafür brauchst du kein GPT-4, sondern ein schnelles und präzises Modell, das die Syntax versteht.

Top-Modelle für Code auf 8 GB

1. Qwen3.5:4b (Q4_K_M) – ~2.5 GB RAM

Veröffentlicht am 2. März 2026 als Teil der kleinen Qwen3.5-Serie (0.8B, 2B, 4B, 9B). Im Vergleich zum Vorgänger Qwen 2.5 Coder 3B ist dies ein qualitativer Sprung bei gleichem Speicherbedarf. Das Modell ist nativ multimodal (Text, Bild, Video), unterstützt Thinking Mode und natives Tool Calling, und das 256K Token-Kontextfenster deckt die meisten realen Codebasen ab. Die Apache 2.0 Lizenz erlaubt die kostenlose kommerzielle Nutzung. Wenn Multimodalität nicht benötigt wird und du das Maximum an Code-Benchmarks herausholen möchtest – erwäge qwen3:4b (April 2026): Laut Ollama Library erreicht Qwen3-4B bei der Antwortqualität fast Qwen2.5-72B-Instruct bei einer Größe von 2.5 GB.

ollama pull qwen3.5:4b
ollama run qwen3.5:4b "Schreibe eine Funktion zum Sortieren eines Arrays in Python"

# Alternative – reiner Code, ohne Multimodalität
ollama pull qwen3:4b
ollama run qwen3:4b "Finde den Fehler in diesem Java-Code: ..."

⚠️ Hinweis zu Thinking Mode: Bei Qwen3.5:4b ist der Thinking Mode über den Befehl /think im Ollama-Chat verfügbar. Für Autovervollständigung und schnelle Antworten verwende /no_think – das Modell antwortet doppelt so schnell, ohne Qualitätsverlust bei einfachen Aufgaben.

2. Phi-4 Mini (3.8B) – ~2.3 GB RAM

Laut SitePoint ist Phi-4 Mini eines der wenigen Modelle, das auf Systemen mit 8 GB komfortabel läuft und 15–20 Tokens/Sekunde auf einem M1 MacBook Air oder einem günstigen Linux-Laptop liefert. Es eignet sich gut für Autovervollständigung, einfache Erklärungen und leichte Chat-Aufgaben.

ollama pull phi4-mini
ollama run phi4-mini "Erkläre den Unterschied zwischen HashMap und TreeMap in Java"

3. DeepSeek Coder 1.3B (Q4_K_M) – ~1 GB RAM

Das leichteste Modell für Code. Ideal für Autovervollständigung in der IDE – schnell, belastet das System nicht, kann im Hintergrund zusammen mit VS Code, Browser und Terminal laufen. Wenn die Hauptaufgabe Inline-Autocomplete ist und kein vollwertiger Chat, ist dieses Modell immer noch relevant.

ollama pull deepseek-coder:1.3b
ollama run deepseek-coder:1.3b

Was wählen?

  • DeepSeek Coder 1.3B – Autovervollständigung im Hintergrund, Arbeit mit offenem Browser
  • Qwen3.5:4b – Generierung von Funktionen, Erklärung von Code, Analyse von UI-Screenshots
  • Qwen3:4b – Maximum bei Code-Aufgaben ohne Multimodalität
  • Phi-4 Mini – universelles Modell für Code und Textaufgaben

Fazit: Auf 8 GB kann man mit lokaler KI coden. Qwen3.5:4b ist das größte Upgrade in dieser Kategorie in den letzten Monaten: gleicher Speicherbedarf wie Qwen 2.5 Coder 3B, aber Thinking Mode, 256K Kontext und native Multimodalität inklusive. Erwarte keine GPT-4-Qualität – aber für tägliche Autovervollständigung, Generierung von Boilerplate und Code-Erklärungen ist das mehr als ausreichend.

🎯 Für Text und Kommunikation: Chat, Übersetzung

Für Textaufgaben Für Textaufgaben sind auf 8 GB Llama 3.2 3B für allgemeinen Chat, Gemma 4 E4B für ein Gleichgewicht zwischen Qualität und Multimodalität oder Phi-4 Mini, wenn Analyse und CPU-Arbeit benötigt werden, die optimale Wahl. Alle drei lassen Platz für andere Software und laufen stabil ohne Hardware-Upgrade.

Nicht jede Aufgabe erfordert GPT-4. Text zusammenfassen, Fragen beantworten, einen Artikel wiedergeben – das bewältigt ein Modell, das weniger wiegt als ein einziger 4K-Film.

Textaufgaben sind die breiteste Kategorie: vom einfachen Chat bis zur Analyse von Dokumenten und Übersetzung. Auf 8 GB gibt es hier eine gute Auswahl. Wenn du bereits qwen3.5:4b aus dem vorherigen Abschnitt heruntergeladen hast – es bewältigt dank nativer Multimodalität und 256K Kontext auch Textaufgaben hervorragend. Aber wenn du eine spezialisierte Empfehlung speziell für Text suchst, hier ist die aktuelle Liste.

Top-Modelle für Text auf 8 GB

1. Llama 3.2 3B (Q4_K_M) – ~2 GB RAM

Laut StudyHUB ist Llama 3.1/3.2 das beliebteste Modell auf Ollama mit über 111 Millionen Downloads. Die 3B-Version ist eine leichtere Variante, behält aber die Qualität in allgemeinen Gesprächen, Zusammenfassungen und Beantwortung von Fragen. Unterstützt 8 Sprachen. Das kleine Llama 4 Scout, das 2026 veröffentlicht wurde, ist ein MoE-Modell ab 17B aktiven Parametern – für 8 GB ist es nicht geeignet, daher bleibt Llama 3.2 3B die beste Wahl in der Familie.

ollama pull llama3.2:3b
ollama run llama3.2:3b "Fasse die Hauptaussage dieses Textes zusammen: ..."

2. Gemma 4 E4B (Q4_K_M) – ~3 GB RAM

Ein Modell von Google DeepMind, veröffentlicht im April 2026. Im Gegensatz zum alten Gemma 2B ist es ein vollwertiges multimodales Modell: es nimmt Text und Bilder entgegen, verfügt über einen Thinking Mode für komplexere Aufgaben und ein 128K Kontextfenster. Dabei passt es komfortabel in 8 GB und lässt Platz für IDE und Browser. Wenn du zuvor gemma:2b verwendet hast – E4B ist ein direkter Ersatz mit deutlich besserer Qualität. Mehr über die Architektur und Modellgrößen – im Artikel Gemma 4: Vollständiger Überblick – Größen, Lizenz, Vergleich mit Gemma 3.

ollama pull gemma4:e4b
ollama run gemma4:e4b "Erstelle eine kurze Beschreibung für dieses Produkt: ..."

⚠️ Hinweis: Wenn du ein absolutes Minimum an RAM benötigst und das alte gemma:2b (~1.6 GB) für dich ausreichend war – es ist immer noch verfügbar. Aber für neue Installationen empfehle ich sofort E4B. Der Thinking Mode in Gemma 4 kann ein- und ausgeschaltet werden – wie das funktioniert und wann es sich lohnt, ihn auszuschalten, liest du im Artikel Reasoning Mode in Gemma 4: Wie man ihn einschaltet, wann er benötigt wird und was er kostet.

3. Phi-4 Mini (3.8B) – ~2.3 GB RAM

Laut LocalAIMaster ist Phi-4 Mini eines der wenigen 3–4B Modelle, das bei MMLU-Ergebnissen an Llama 3.1 8B herankommt und dabei 40 % weniger Speicher verbraucht. Das 128K Token-Kontextfenster ermöglicht die Analyse langer Dokumente – ein wesentliches Upgrade im Vergleich zu Phi-3 Mini. Laut PromptQuorum liefert es auf einer i7-12700 CPU ohne GPU 12 Tokens/Sekunde – die beste Leistung unter CPU-only-Szenarien seiner Klasse. Geeignet für Raspberry Pi 4/5 und jeden Laptop ohne dedizierte Grafikkarte.

ollama pull phi4-mini
ollama run phi4-mini "Übersetze ins Ukrainische: The quick brown fox jumps over the lazy dog"

Was wählen?

  • ✔️ Allgemeiner Chat und Fragen/Antworten → Llama 3.2 3B
  • ✔️ Multimodalität (Text + Bild) und bessere Qualität → Gemma 4 E4B
  • ✔️ Analyse, lange Dokumente und CPU-only → Phi-4 Mini
  • ✔️ Ein Werkzeug für Code und Text → Qwen3.5:4b (siehe vorheriger Abschnitt)

Fazit: Für Textaufgaben sind 8 GB ein komfortables Territorium. Modelle 2–4B laufen schnell, lassen Platz für andere Programme und liefern eine Qualität, die für die meisten täglichen Bedürfnisse ausreicht. Phi-4 Mini hat Phi-3 Mini als Standard für CPU-only-Szenarien abgelöst: bessere Qualität, 128K Kontext, gleicher Speicherbedarf.

🎯 Für Reasoning, Logik, Code-Debugging

Für Aufgaben, die schrittweises Denken erfordern – Mathematik, logische Probleme, Debugging von komplexem Code – gibt es auf 8 GB drei realistische Optionen: DeepSeek R1 8B als klassisches "denkendes" Modell, Qwen3:8b für mehrsprachiges Reasoning und Phi-4 Mini Reasoning als leichtere Variante mit vollwertigem Chain-of-Thought für nur ~2.3 GB RAM.

Ein normales Modell antwortet sofort. Ein Reasoning-Modell denkt zuerst – Schritt für Schritt – und antwortet dann. Wie der Unterschied zwischen "zufällig antworten" und "auf Papier rechnen".

Reasoning-Modelle sind eine relativ neue Kategorie. Sie arbeiten nach dem Prinzip Chain-of-Thought: Sie zerlegen eine Aufgabe in Schritte, überprüfen Zwischenergebnisse und formulieren erst dann die endgültige Antwort. Im Jahr 2026 hat sich diese Kategorie erheblich erweitert: Der Reasoning-Modus ist jetzt nicht nur bei schweren 8B-Modellen, sondern auch bei kompakten 3–4B-Varianten verfügbar.

Was auf 8 GB funktioniert

1. DeepSeek R1 8B (Q4_K_M) – ~5 GB RAM

Laut StudyHUB ist DeepSeek R1 ein "denkendes" Modell, ein Analogon zu OpenAI o1. Bei Aufgaben mit Mathematik, logischen Rätseln und technischem Reasoning liefert es bessere Ergebnisse als Llama 3.1 derselben Größe. Vor der endgültigen Antwort generiert es sichtbare Denkschritte in Tags <think> – nützlich für das Debugging, um zu verstehen, warum das Modell zu diesem Schluss gekommen ist. Kompromiss: Es antwortet langsamer und benötigt fast den gesamten verfügbaren Speicher auf einem 8 GB System.

ollama pull deepseek-r1:8b
ollama run deepseek-r1:8b "Finde den Fehler in dieser SQL-Abfrage: SELECT * FROM users WHERE id = '5' AND active = true GROUP HAVING count > 1"

⚠️ Wichtig: DeepSeek R1 8B belegt ~5 GB RAM. Auf einem System mit 8 GB ist das grenzwertig – der Browser, die IDE und alles Überflüssige müssen geschlossen werden. Auf macOS mit Unified Memory läuft es stabiler als unter Windows mit integrierter Grafik.

2. Qwen3:8b (Q4_K_M) – ~4.6 GB RAM

Laut LocalLLM.in ist Qwen3:8b eine starke Alternative für Reasoning-Aufgaben, insbesondere in Mathematik und mehrsprachigen Szenarien. Unterstützt Thinking Mode in Ollama: kann über /think ein- und über /no_think direkt im Chat ausgeschaltet werden – ohne Neustart des Modells. Wenn du ein Upgrade planst – qwen3.5:9b (März 2026) basiert auf derselben Architektur, aber mit verbessertem RL und nativer Multimodalität, bei ähnlichem RAM-Bedarf.

ollama pull qwen3:8b
ollama run qwen3:8b "Löse: Wenn 3x + 7 = 22, was ist x?"

# Aktuellere Alternative mit Multimodalität
ollama pull qwen3.5:9b

3. Phi-4 Mini Reasoning (3.8B) – ~2.3 GB RAM

Eine spezialisierte Reasoning-Variante von Microsoft, in Ollama als phi4-mini-reasoning verfügbar. Laut Morph ist dies das einzige vollwertige Reasoning-Modell für 8 GB, das Platz für parallele Arbeit von IDE und Browser lässt. Speziell entwickelt für die mehrschrittige Lösung mathematischer Probleme in speicherbeschränkten Umgebungen: symbolische Berechnungen, formale Beweise, komplexe Textbedingungen. Im Gegensatz zu DeepSeek R1 8B belegt es halb so viel Speicher und lässt das System reaktionsfähig. Bei komplexen Aufgaben ist es den 8B-Modellen unterlegen, aber für tägliches Debugging und Analyse reicht es aus.

ollama pull phi4-mini-reasoning
ollama run phi4-mini-reasoning "Finde die Komplexität des Algorithmus und erkläre Schritt für Schritt: ..."

Was wählen?

  • ✔️ Code-Debugging und logische Aufgaben → DeepSeek R1 8B
  • ✔️ Mathematik und mehrsprachiges Reasoning → Qwen3:8b oder Qwen3.5:9b
  • ✔️ Reasoning mit geöffneter IDE und Browser → Phi-4 Mini Reasoning (~2.3 GB, vollwertiger Chain-of-Thought)

Fazit: Reasoning auf 8 GB ist im Jahr 2026 – nicht mehr nur "am Rande des Komforts". Phi-4 Mini Reasoning ermöglicht schrittweises Denken bei ~2.3 GB RAM – ohne Notwendigkeit, alles Überflüssige zu schließen. Für komplexere Aufgaben bleiben DeepSeek R1 8B und Qwen3:8b der Standard, erfordern aber fast den gesamten verfügbaren Speicher. Wenn du regelmäßig mit schweren Reasoning-Aufgaben arbeiten möchtest – ein Upgrade auf 16 GB eröffnet Zugang zur 14B-Klasse, wo der Qualitätsunterschied bereits signifikant ist.

Ollama auf 8 GB RAM: Welche Modelle laufen 2026

🎯 CPU vs GPU vs Apple Silicon — wo 8 GB unterschiedliche 8 GB sind

8 GB auf einem Mac M1 und 8 GB auf einem Windows-Laptop mit Intel sind zwei unterschiedliche Erfahrungen. Apple Silicon verwendet Unified Memory, bei dem der gesamte Speicher gleichzeitig für CPU und GPU verfügbar ist. Auf einem herkömmlichen PC sind RAM und VRAM separate Pools, und für KI-Modelle ist dies entscheidend.

Ein Mac M1 mit 8 GB ist eine vollwertige Workstation für lokales KI. Ein Windows-Laptop mit 8 GB und Intel HD Graphics ist ein Kampf um jedes Megabyte.

Apple Silicon (M1/M2/M3/M4) — das beste Szenario für 8 GB

Auf Apple Silicon ist der gesamte Arbeitsspeicher Unified Memory. Das bedeutet, dass der GPU-Teil des Chips auf dieselben 8 GB zugreifen kann wie die CPU. Ollama verwendet automatisch Metal zur Beschleunigung — ohne zusätzliche Konfiguration.

Ergebnis: Ein 7B-Modell in Q4_K_M auf einem M1 mit 8 GB liefert 15–20 Tokens/Sekunde — genug für eine komfortable interaktive Nutzung. Laut SitePoint ist Phi-4 Mini auf einem M1 MacBook Air etwa 15–20 tok/s, was für die tägliche Arbeit ausreicht.

⚠️ Hinweis zu MLX: Im März 2026 wechselte Ollama 0.19 zum MLX-Backend von Apple, das auf Apple Silicon bis zu 2x Geschwindigkeitssteigerung bietet. Laut RunAIHome benötigt MLX derzeit mindestens 32 GB Unified Memory — Macs mit 8 GB und 16 GB bleiben beim vorherigen Metal-Backend ohne Geschwindigkeitsänderungen. Wenn Sie ein Upgrade auf einen Mac mit 32 GB+ planen, wird MLX ein spürbarer Bonus sein. Wenn Sie bei 8 GB bleiben, bleiben die Zahlen in der folgenden Tabelle relevant.

Windows / Linux mit dedizierter GPU (RTX 3060, RTX 4060) — gutes Szenario

Wenn Sie eine dedizierte Grafikkarte mit 6–8 GB VRAM haben, wird das Modell vollständig in den GPU-Speicher geladen, und der System-RAM bleibt für das Betriebssystem und die Software übrig. Laut LocalLLM.in liefert eine RTX 4060 (8 GB VRAM) ein 7B-Modell mit 40+ Tokens/Sekunde — die schnellste Option von allen.

Windows / Linux ohne GPU (Intel HD / AMD Radeon iGPU) — schwieriges Szenario

Ohne dedizierte GPU läuft das Modell vollständig auf der CPU. Ollama startet trotzdem — aber die Geschwindigkeit sinkt auf 3–6 Tokens/Sekunde für 7B-Modelle. Für leichtere 3B-Modelle (Phi-4 Mini, Llama 3.2 3B) beträgt die reale Geschwindigkeit auf einer modernen CPU 10–12 tok/s — durchaus akzeptabel für alltägliche Aufgaben. Laut LocalLLM.in ist CPU-only-Inferenz für Batch-Aufgaben akzeptabel, aber frustrierend bei interaktiver Nutzung mit großen Modellen.

Zusätzlich wird der System-RAM zwischen Betriebssystem, Software und Modell geteilt — bei 8 GB ist das sehr eng.

Zusammenfassende Tabelle

Plattform 7B Modell (Q4) 3B Modell (Q4) Geschwindigkeit Komfort
Mac M1/M2/M3/M4 8 GB (Metal) ✔️ Funktioniert ✔️ Komfortabel 15–20 tok/s ⭐⭐⭐⭐
Windows + RTX 4060 8 GB VRAM ✔️ Funktioniert schnell ✔️ Komfortabel 40+ tok/s ⭐⭐⭐⭐⭐
Windows/Linux CPU only 8 GB (7B) ⚠️ Am Limit ✔️ Funktioniert 3–6 tok/s ⭐⭐
Windows/Linux CPU only 8 GB (3B) ✔️ Komfortabel 10–12 tok/s ⭐⭐⭐

Fazit: Wenn Sie einen Mac M1+ mit 8 GB haben, sind Sie in der besten Position für lokales KI auf Budget-Hardware. Das neue MLX-Backend von Ollama bietet einen 2-fachen Leistungsschub, erfordert aber derzeit 32 GB+ — für 8 GB Macs bleibt die Geschwindigkeit unverändert. Wenn Sie Windows ohne GPU haben, konzentrieren Sie sich auf 3B-Modelle: Sie liefern 10–12 tok/s auf der CPU und halten das System reaktionsfähig. Mehr Details zur Installation auf verschiedenen Betriebssystemen finden Sie im Artikel Wie man Ollama auf Mac, Windows und Linux installiert.

🎯 Quantisierung einfach erklärt: Q4 vs Q8 und was man bei schwacher Hardware wählen sollte

Kurze Antwort: Quantisierung ist die Komprimierung eines Modells, die seine Größe um das 2- bis 4-fache bei minimalem Qualitätsverlust reduziert. Bei 8 GB ist die optimale Wahl Q4_K_M: der beste Kompromiss zwischen Größe, Geschwindigkeit und Antwortqualität.

Quantisierung ist wie JPEG für Fotos. Die Datei ist kleiner, der Unterschied kaum merklich. Aber wenn man zu stark komprimiert, sinkt die Qualität merklich.

Wenn Sie in der Modellbezeichnung auf Ollama Tags wie :7b-q4_0, :8b-instruct-q8_0 oder :3b-q4_k_m sehen, handelt es sich um die Angabe des Quantisierungsgrads. Die Zahl nach „q“ ist die Anzahl der Bits pro Parameter.

Quantisierungsgrade: Was die Tags bedeuten

  • ✔️ Q8 (8-Bit): maximale Qualität, größte Größe. Für ein 7B-Modell — ca. 8 GB. Passt nicht auf 8 GB RAM.
  • ✔️ Q5_K_M (5-Bit): Zwischenoption zwischen Q4 und Q8. Für 7B — ca. 5,5 GB. Auf 8 GB RAM nur geeignet, wenn eine GPU mit 6–8 GB VRAM vorhanden ist und höhere Genauigkeit benötigt wird.
  • ✔️ Q4_K_M (4-Bit, K-Quant Medium): optimaler Kompromiss. Für 7B — ca. 4–5 GB. Empfohlen für 8 GB Systeme.
  • ✔️ Q4_K_S (4-Bit, K-Quant Small): etwas kleiner als Q4_K_M, etwas geringere Qualität.
  • ✔️ IQ4_XS (Importance Matrix, 4-Bit): neueres Format von 2025–2026. Laut RunAIHome liefert es fast die gleiche Qualität wie Q4_K_M, benötigt aber ca. 400 MB weniger für ein 8B-Modell. Nützlich, wenn Q4_K_M gerade nicht passt. Verfügbar als Tag auf Hugging Face, nicht immer in der Ollama Library vorhanden.
  • ⚠️ Q2_K (2-Bit): minimale Größe (ca. 2,5 GB für 7B), aber spürbare Qualitätsverschlechterung. Extremfall.

Das Suffix „K“ bedeutet neuere Quantisierungsmethoden (K-Quant), die die Genauigkeit zwischen den Modellschichten intelligenter verteilen. K-Quant-Tags sind immer besser als Legacy-Varianten (q4_0, q4_1) bei gleicher Größe.

Größe von Modellen mit verschiedenen Quantisierungen

Modell Q8 Q4_K_M Q2_K
Phi-4 Mini (3.8B) 4.1 GB 2.3 GB 1.3 GB
Llama 3.2 (3B) ~3.3 GB ~2.0 GB ~1.1 GB
Qwen3:8b ~9 GB ~4.6 GB ~2.5 GB
Mistral 7B ~8 GB ~4.1 GB ~2.8 GB

Daten laut LocalAIMaster und RunAIHome.

Regel für 8 GB: Wählen Sie immer Q4_K_M. Wenn es nicht passt, reduzieren Sie die Modellgröße (3B statt 7B), nicht den Quantisierungsgrad (Q2 statt Q4). Ein kleineres Modell mit Q4 liefert eine bessere Qualität als ein größeres mit Q2. Ausnahme: Wenn Q4_K_M buchstäblich um 100–400 MB nicht passt, versuchen Sie IQ4_XS, wenn ein solches Tag für das gewünschte Modell auf Hugging Face verfügbar ist.

Mehr über Komprimierungstechniken und deren Auswirkungen auf die Qualität finden Sie im Artikel Modellquantisierung: INT4, INT8 — Was ist das und wie wirkt es sich auf die Qualität aus.

Fazit: Q4_K_M ist der Goldstandard für 8 GB und hat sich auch 2026 nicht geändert. Lassen Sie sich nicht verführen, Q8 „für die Qualität“ herunterzuladen — das Modell passt nicht in den Speicher und Sie erhalten Swap auf die Festplatte. Die einzige neue Option am Horizont ist IQ4_XS: etwas kleiner bei gleicher Qualität, aber noch nicht für jedes Modell.

🎯 Ollama-Einstellungen für maximale Leistung auf schwacher Hardware

Fünf Umgebungsvariablen und eine Gewohnheit (unnötiges schließen) — das ist alles, was Sie brauchen, um das Maximum aus 8 GB herauszuholen. Die Einrichtung dauert eine Minute, und der Unterschied in der Stabilität ist spürbar.

Auf leistungsstarker Hardware funktioniert Ollama „einfach“. Auf schwacher muss man ihr helfen, keinen Speicher für Dinge zu verschwenden, die man nicht braucht.

Standardmäßig kann Ollama mehrere Modelle gleichzeitig im Speicher halten und parallele Anfragen verarbeiten. Bei 8 GB ist das ein überflüssiger Luxus. Hier ist die minimale Optimierung:

Grundlegende Umgebungsvariablen

# Nur ein Modell im Speicher halten (standardmäßig können es mehr sein)
export OLLAMA_MAX_LOADED_MODELS=1

# Eine parallele Anfrage (keine Speicherkonkurrenz)
export OLLAMA_NUM_PARALLEL=1

# Kontextfenster verkleinern — spart 200–800 MB RAM
export OLLAMA_CTX_SIZE=2048

Neue Variablen für GPU / Apple Silicon (Ollama 0.19+)

Wenn Sie Ollama auf einer GPU (NVIDIA, AMD) oder Apple Silicon (M1+) ausführen, stellen Sie zusätzlich diese beiden Variablen ein. Sie reduzieren den KV-Cache halbiert, ohne spürbaren Qualitätsverlust für die meisten Aufgaben.

# Flash Attention — eine zwingende Voraussetzung für KV-Cache-Quantisierung
export OLLAMA_FLASH_ATTENTION=1

# KV-Cache in 8-Bit — halbiert den RAM für den Cache bei minimalem Qualitätsverlust
export OLLAMA_KV_CACHE_TYPE=q8_0

⚠️ Wichtig: Laut ModelPiper funktioniert OLLAMA_KV_CACHE_TYPE nur, wenn OLLAMA_FLASH_ATTENTION=1 aktiviert ist — ohne diese Variable wird sie ignoriert. Für CPU-only-Systeme bringen diese beiden Variablen keinen Effekt. Auf Apple Silicon kann das Metal-Backend (8 GB Mac) die Generierung um 5–10 % verlangsamen, aber die Stabilität bei langen Kontexten erheblich verbessern.

Unter macOS / Linux fügen Sie alle Zeilen zu ~/.zshrc oder ~/.bashrc hinzu. Unter Windows — stellen Sie sie über die systemweiten Umgebungsvariablen oder das PowerShell-Profil ein.

Vor dem Starten des Modells

Klingt banal, ist aber bei 8 GB entscheidend:

  • ✔️ Browser schließen oder maximal 2–3 Tabs offen lassen
  • ✔️ Slack, Discord, Spotify schließen — jedes Programm verbraucht 200–500 MB
  • ✔️ Aktuelle Nutzung prüfen: ollama ps zeigt geladene Modelle an
  • ✔️ Wenn ein altes Modell noch im Speicher ist — ollama stop modellname

Modelfile für Feinabstimmung

Wenn Sie mehr Kontrolle wünschen — erstellen Sie eine Modelfile mit optimierten Parametern:

FROM phi4-mini
PARAMETER num_ctx 2048
PARAMETER num_thread 4
PARAMETER temperature 0.7

num_ctx 2048 — verringert das Kontextfenster (weniger RAM für KV-Cache). num_thread 4 — begrenzt die Anzahl der CPU-Threads, damit das System reaktionsfähig bleibt.

Eine Schritt-für-Schritt-Anleitung zur Installation und zum ersten Start finden Sie im Artikel Wie man Ollama auf Mac, Windows und Linux installiert: Vollständige Anleitung 2026.

Fazit: Drei grundlegende Variablen + geschlossene unnötige Programme = stabiles Arbeiten auf 8 GB. Wenn Sie eine GPU oder Apple Silicon haben, fügen Sie OLLAMA_FLASH_ATTENTION=1 und OLLAMA_KV_CACHE_TYPE=q8_0 hinzu: Laut offizieller Ollama-Dokumentation halbiert dies den Speicherverbrauch für den KV-Cache bei minimalem Qualitätsverlust. Ohne grundlegende Einstellungen kann selbst ein leichtes Modell Swap auf die Festplatte verursachen.

🎯 Was Sie auf 8 GB NICHT ausprobieren sollten — meine Erfahrung

Kurze Antwort: Modelle ab 13B, beliebige Modelle in Q8-Quantisierung und der Versuch, zwei Modelle gleichzeitig zu starten — eine garantierte Enttäuschung auf 8 GB. Ich habe das auf meinem Mac M1 getestet — damit Sie es nicht tun müssen.

Jeder, der mit Ollama auf 8 GB gearbeitet hat, hat die gleiche Phase durchgemacht: „Vielleicht passt 13B doch noch rein?“ Nein, passt nicht. Ich habe es getestet.

Beim Arbeiten mit Ollama auf einem Mac M1 mit 8 GB Unified Memory habe ich Dutzende von Modellen unterschiedlicher Größe getestet. Hier ist eine ehrliche Liste dessen, was nicht funktioniert — oder so schlecht funktioniert, dass es besser wäre, es würde nicht funktionieren.

❌ Modelle ab 13B

Llama 3.3 13B, Qwen3 14B, CodeLlama 13B — selbst in Q4-Quantisierung benötigen sie 8–9 GB nur für die Modellgewichte. Fügen Sie KV-Cache, Betriebssystem hinzu, und Sie erhalten ein System, das ständig auf die Festplatte swappt. Ich habe versucht, Llama 3.1 13B Q4 zu starten — die ersten 5 Minuten lud es, dann lieferte es 1–2 Tokens pro Sekunde mit ständigen Pausen. Das ist für die interaktive Nutzung nicht praktikabel.

❌ Jedes 7B-Modell in Q8-Quantisierung

Die Q8-Version eines 7B-Modells wiegt etwa 8 GB — das ist Ihr gesamter Arbeitsspeicher. Das Betriebssystem verschwindet nicht magisch. Ich habe Mistral 7B Q8 ausprobiert — das System hing eine Minute nach dem Start. Verwenden Sie immer Q4_K_M für 7B-Modelle auf 8 GB.

❌ Zwei Modelle gleichzeitig

Ollama kann mehrere Modelle im Speicher halten. Auf 16 GB ist das praktisch — Sie wechseln sofort zwischen den Modellen. Auf 8 GB ist das ein Rezept für einen Swap-Sturm. Behalten Sie OLLAMA_MAX_LOADED_MODELS=1 bei und vergessen Sie nicht ollama stop, bevor Sie ein anderes Modell laden.

❌ Große Kontextfenster (8K+ Tokens)

Jede Verdoppelung des Kontextfensters bedeutet zusätzliche Hunderte von Megabyte für den KV-Cache. Auf 8 GB halten Sie den Kontext maximal auf 2048–4096 Tokens. Ein 10-seitiges Dokument vollständig an das Modell zu übergeben — wird nicht funktionieren, es muss in Teile zerlegt werden. Teilweise hilft OLLAMA_FLASH_ATTENTION=1 + OLLAMA_KV_CACHE_TYPE=q8_0 aus dem Einstellungsbereich — sie reduzieren den KV-Cache um die Hälfte und ermöglichen eine sicherere Arbeit auf dem Niveau von 4096 Tokens. Aber 8K+ auf 8 GB bleibt eine Risikozone.

❌ MoE-Modelle mit großem Footprint (Mixtral, Llama 4 Scout, Qwen3.6)

Die MoE-Architektur (Mixture of Experts) ist irreführend mit ihren Namen. Mixtral 8x7B aktiviert nur 2 von 8 „Experten“ pro Token — aber alle 8 müssen gleichzeitig im Speicher sein, und das sind 26+ GB in Q4. Dasselbe gilt für neue Modelle von 2026: Llama 4 Scout sieht aus wie „17B“, benötigt aber tatsächlich ca. 10 GB in Q4 — über die 8 GB hinaus. Qwen3.6 35B-A3B aktiviert nur 3B Parameter pro Token, hält aber alle 35B im Speicher — das sind 24 GB. Die Regel ist einfach: Achten Sie auf die Gesamtgröße des Modells in der Ollama Library, nicht auf die Anzahl der aktiven Parameter.

❌ Denkmodus ohne Kontextlimit

Qwen3:8b, Qwen3.5:9b und Phi-4 Mini Reasoning generieren „Denk-Tokens“ vor der endgültigen Antwort — manchmal Tausende von internen Überlegungen. Bei komplexen Aufgaben kann die Denk-Kette 2000–5000 Tokens beanspruchen, noch bevor das Modell zu antworten beginnt. Zusammen mit einem großen Kontext füllt dies den KV-Cache unbemerkt: Das Modell wird einfach langsamer oder beginnt zu swappen. Lösung: Halten Sie OLLAMA_CTX_SIZE=2048 und schalten Sie den Denkmodus mit dem Befehl /no_think für einfache Aufgaben aus, bei denen schrittweises Denken nicht erforderlich ist.

Allgemeine Regel: Wenn ollama run länger als 30 Sekunden lädt und die erste Antwort nach einer Minute kommt — das Modell ist zu groß für Ihr System. Warten Sie nicht, bis es „aufgewärmt“ ist — schließen Sie es und wählen Sie ein kleineres Modell.

Vergleich von Modellen nach Größe, Qualität und Aufgaben — im Artikel Top-10 Ollama-Modelle 2026: Welches wählen.

Fazit: Ich habe das selbst durchgemacht — ich dachte, ein größeres Modell würde bessere Ergebnisse liefern, lud 13B herunter, wartete eine Minute auf die erste Antwort und löschte es. Ich installierte 3B — und die Leistung stieg sofort. Auf 8 GB ist die bessere Strategie, ein Modell zu wählen, das schnell und stabil läuft, als sich mit einem zu quälen, das „fast passt“. Im Jahr 2026 kam eine weitere Falle hinzu — der Denkmodus: Neue Modelle denken laut und verbrauchen leise Ihren Kontext noch vor dem ersten Wort der Antwort.

🎯 Tests: Was ist in der Praxis zu erwarten

Kurze Antwort: Auf einem Mac M1 mit 8 GB liefert das 3B-Modell 20–30 Tokens/Sek., das 7–9B-Modell 10–15 tok/s. Auf einem reinen CPU-Windows-System sind große Modelle zwei- bis dreimal langsamer, aber 3B-Modelle liefern auf modernen CPUs 10–12 tok/s – das ist bereits komfortabel. Unten finden Sie eine zusammenfassende Tabelle zur Orientierung.

Benchmarks im Internet werden oft auf einem sauberen System ohne andere Software durchgeführt. In der Realität – mit geöffnetem VS Code und 5 Chrome-Tabs – werden die Zahlen niedriger sein. Daher sind diese Tests realistischer.

Zusammenfassende Leistungstabelle

Modell RAM Mac M1 8 GB Nur CPU 8 GB RTX 4060 8 GB VRAM
Llama 3.2 3B (Q4) ~2 GB ~28 tok/s ~9 tok/s ~48 tok/s
Phi-4 Mini 3.8B (Q4) ~2.3 GB ~22 tok/s ~12 tok/s ~45 tok/s
Qwen3.5:4b (Q4) ~2.5 GB ~21 tok/s ~8 tok/s ~42 tok/s
Gemma 4 E4B (Q4) ~3 GB ~22 tok/s ~7 tok/s ~42 tok/s
Qwen3:8b (Q4) ~4.6 GB ~11 tok/s ~4 tok/s ~38 tok/s
DeepSeek R1 8B (Q4) ~5 GB ~10 tok/s ~3 tok/s ~35 tok/s

Die Daten sind Schätzungen, basierend auf den Ergebnissen von LocalLLM.in, SitePoint und LocalAIMaster. Die tatsächliche Geschwindigkeit hängt von der Systemauslastung, der Größe des Kontextfensters und Hintergrundprozessen ab. Für GPU und Apple Silicon kann die Aktivierung von OLLAMA_FLASH_ATTENTION=1 bei langen Kontexten einen zusätzlichen Schub bringen.

Was bedeuten diese Zahlen in der Praxis?

  • ✔️ 15+ tok/s: komfortabler interaktiver Chat – die Antwort erscheint schneller, als Sie sie lesen können
  • ✔️ 8–15 tok/s: man kann damit arbeiten, aber bei langen Antworten spürt man eine Verzögerung
  • ⚠️ 3–6 tok/s: akzeptabel für einmalige Aufgaben (Debugging, Analyse), frustrierend bei aktivem Chat
  • <3 tok/s: das Modell ist zu groß für dieses System

Fazit: Für die tägliche Arbeit auf einem 8-GB-System sollten Sie sich an 3–4B-Modelle halten – sie liefern 20+ tok/s auf Apple Silicon und 8–12 tok/s auf der CPU und lassen das System reaktionsfähig. Phi-4 Mini sticht mit dem besten CPU-Wert seiner Klasse (~12 tok/s) hervor – deutlich besser als Phi-3 Mini, das es ersetzt hat. 7–9B-Modelle (Qwen3:8b, DeepSeek R1 8B) – für spezifische Aufgaben, wenn Sie bereit sind, alles Überflüssige zu schließen und zu warten.

❓ Häufig gestellte Fragen (FAQ)

Kann ich Ollama auf einem Laptop mit 8 GB RAM ausführen?

Ja. Modelle mit 1–4 Milliarden Parametern (Phi-4 Mini, Llama 3.2 3B, Gemma 4 E4B) laufen komfortabel auf jedem System mit 8 GB. Modelle mit 7–9 Milliarden Parametern laufen am Limit – Sie müssen überflüssige Programme schließen. Mehr Details finden Sie im Leitfaden zur Installation von Ollama.

Welches ist das beste Modell für 8 GB RAM?

Das hängt von der Aufgabe ab. Für Code – Qwen3.5:4b oder Qwen3:4b. Für Text und Chat – Llama 3.2 3B oder Gemma 4 E4B. Für Reasoning und Debugging – DeepSeek R1 8B (am Limit von 8 GB) oder Phi-4 Mini Reasoning (~2.3 GB, eine leichtere Variante mit Chain-of-Thought). Ein Werkzeug für alles – Qwen3.5:4b: multimodal, 256K Kontext, Denkmodus. Ein vollständiger Vergleich der Modelle finden Sie im Artikel Top-10 Ollama-Modelle 2026.

Benötige ich eine GPU für Ollama?

Nein, Ollama funktioniert auch auf der CPU. Mit einer GPU (dediziert oder Apple Silicon) ist die Geschwindigkeit jedoch 3- bis 10-mal höher. Auf einem reinen CPU-System mit 8 GB sollten Sie sich für Modelle mit 3B oder kleiner entscheiden, um komfortabel arbeiten zu können. Phi-4 Mini ist die beste Wahl für reine CPU-Systeme: ~12 tok/s auf einem modernen i7 ohne jegliche GPU.

Was ist besser: ein 7B-Modell in Q2 oder ein 3B-Modell in Q4?

Fast immer – 3B in Q4. Aggressive Quantisierung (Q2) reduziert die Qualität der Antworten erheblich, insbesondere bei komplexen Aufgaben. Ein kleineres Modell mit normaler Quantisierung liefert ein besseres Ergebnis. Wenn Q4_K_M buchstäblich nur wenige hundert MB zu viel Platz benötigt – versuchen Sie IQ4_XS für dasselbe Modell, wenn ein solcher Tag auf Hugging Face verfügbar ist.

Kann Ollama auf 8 GB ChatGPT ersetzen?

Für alltägliche Aufgaben – Zusammenfassungen, einfache Fragen, Code-Generierung – ja. Für grundlegende Multimodalität (Analyse von Bildern, Screenshots) – ebenfalls ja: Gemma 4 E4B und Qwen3.5:4b akzeptieren Bilder direkt nach der Installation. Für komplexe mehrstufige Analysen, Arbeit mit großem Kontext und Aufgaben, die maximale Genauigkeit erfordern – sind Cloud-Modelle derzeit noch überlegen. Der optimale Ansatz ist ein hybrider: Ollama für regelmäßige Aufgaben, ChatGPT/Claude für komplexe. Mehr Details finden Sie im Artikel Ollama vs ChatGPT vs Claude: Wann lokale KI besser ist.

Wie viel Speicherplatz wird benötigt?

Ein 3–4B-Modell in Q4 benötigt etwa 2–2,5 GB Speicherplatz. Drei Modelle für verschiedene Aufgaben – 6–8 GB. Ollama speichert Modelle in ~/.ollama. Heruntergeladene Modelle können mit dem Befehl ollama rm modellname gelöscht werden.

Lohnt sich ein Upgrade auf 16 GB?

Wenn Sie regelmäßig mit lokaler KI arbeiten möchten – definitiv ja. 16 GB ermöglichen den Zugriff auf 13–14B-Modelle, vollwertige 7B-Modelle in Q8-Qualität, komfortable Arbeit mit großen Kontextfenstern und MLX-Beschleunigung in Ollama 0.19+ auf Apple Silicon (erfordert derzeit 32 GB+). Der Unterschied in den Möglichkeiten zwischen 8 und 16 GB ist der größte im gesamten Spektrum.

✅ Schlussfolgerungen

8 GB Arbeitsspeicher sind kein Urteil für lokale KI, aber es ist eine Grenze, die bewusste Entscheidungen erfordert. Hier sind die wichtigsten Punkte:

  • ✔️ 3–4B-Modelle – Komfortzone: Phi-4 Mini, Llama 3.2 3B, Qwen3.5:4b, Gemma 4 E4B laufen schnell und stabil und lassen noch Platz für IDE und Browser
  • ✔️ 7–9B-Modelle – Arbeitszone: DeepSeek R1 8B, Qwen3:8b laufen am Limit, liefern aber spürbar bessere Qualität für spezifische Aufgaben
  • ✔️ Q4_K_M – die einzig sinnvolle Quantisierungsoption auf 8 GB: ein kleineres Modell mit Q4 ist immer besser als ein größeres mit Q2
  • ✔️ Apple Silicon mit 8 GB – die beste Budget-Option: Unified Memory bietet einen Vorteil gegenüber reinen CPU-Systemen
  • ✔️ 13B+ Modelle, Q8, zwei Modelle gleichzeitig, Denkmodus ohne Kontextlimit – nicht empfehlenswert: getestet, funktioniert nicht oder instabil

Ich selbst nutze genau diesen Ansatz: Ich halte mehrere Modelle für verschiedene Aufgaben – eines für Code, ein anderes für Text, ein separates für Debugging. Jedes Modell hat seine Stärke, und anstelle eines großen Modells, das möglicherweise nicht in den Speicher passt, ist es besser, 2–3 spezialisierte leichte Modelle zu haben. Das Umschalten zwischen ihnen über ollama run dauert nur Sekunden.

Wenn Sie gerade erst anfangen – installieren Sie Ollama gemäß unserem Leitfaden, laden Sie phi4-mini herunter und probieren Sie es aus. In fünf Minuten haben Sie eine funktionierende lokale KI – ohne Abonnements, ohne Internet, ohne Datenübertragung nach außen.

Und wenn Sie eine Website, einen Blog oder eine Webanwendung mit integrierter KI-Funktionalität benötigen – kontaktieren Sie uns bei WebsCraft, wir helfen Ihnen bei der Umsetzung.

📖 Quellen