Чи можна запустити Ollama на ноутбуці з 8 ГБ RAM?

Так. Моделі 1–3B параметрів (Phi-3 Mini, Llama 3.2 3B, Gemma 2B) працюють комфортно на будь-якій системі з 8 ГБ. Моделі 7–8B працюють на межі — потрібно закрити зайві програми.

Яка найкраща модель Ollama для 8 ГБ RAM?

Залежить від задачі. Для коду — Qwen 2.5 Coder 3B. Для тексту і чату — Llama 3.2 3B або Phi-3 Mini. Для reasoning і дебагу — DeepSeek R1 8B (на межі 8 ГБ).

Чи потрібен GPU для Ollama?

Ні, Ollama працює і на CPU. Але з GPU (дискретним або Apple Silicon) швидкість вища у 3–10 разів. На CPU-only системі з 8 ГБ тримайся моделей 3B і менше для комфортної роботи.

Що краще: модель 7B у Q2 чи 3B у Q4?

Майже завжди — 3B у Q4. Агресивна квантизація (Q2) суттєво знижує якість відповідей, особливо на складних задачах. Менша модель з нормальною квантизацією дасть кращий результат.

Чи може Ollama на 8 ГБ замінити ChatGPT?

Для щоденних задач — резюмування, прості питання, генерація коду — так. Для складного аналізу, мультимодальних задач і роботи з великим контекстом — хмарні моделі поки сильніші. Оптимальний підхід — гібридний.

Скільки місця на диску потрібно для моделей Ollama?

Одна 3B-модель у Q4 — приблизно 2 ГБ на диску. Три моделі для різних задач — 6–8 ГБ. Ollama зберігає моделі у ~/.ollama, завантажені моделі можна видалити командою ollama rm.

Чи варто апгрейдити з 8 ГБ до 16 ГБ RAM для Ollama?

Якщо плануєш регулярно працювати з локальним AI — однозначно так. 16 ГБ відкривають доступ до 13–14B моделей, повноцінних 7B у Q8-якості і комфортної роботи з великими контекстними вікнами.

BEST_PRACTICES 19 März 2026 18 Min. Lesezeit 22.263 Aufruf

Ollama auf 8 GB RAM 2026: Die besten Modelle, die wirklich funktionieren

Aktualisiert: 21 March 2026

Sprache: 🇺🇦 🇺🇸 🇩🇪 🇪🇸

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

Ollama auf 8 GB RAM 2026: Die besten Modelle, die wirklich funktionieren

Hast du einen Laptop mit 8 GB RAM und möchtest KI lokal ausführen? Dieser Artikel ist eine Analyse: Was funktioniert, was kaum läuft, und was sich nicht einmal lohnt herunterzuladen. Ohne Illusionen, mit konkreten Modellen und Befehlen für jede Aufgabe. Wenn du mit Ollama noch nicht vertraut bist – beginne mit dem Einführungsartikel darüber, was Ollama ist und wozu es benötigt wird.

📚 Inhalt des Artikels

📌 Abschnitt 1. Ehrliche Arithmetik: Wie viel RAM bleibt für das Modell übrig
📌 Abschnitt 2. Für Code: Welches Modell ersetzt Copilot auf 8 GB
📌 Abschnitt 3. Für Text und Kommunikation: Chat, Zusammenfassung, Übersetzung
📌 Abschnitt 4. Für Reasoning: Mathematik, Logik, Debugging
📌 Abschnitt 5. CPU vs GPU vs Apple Silicon – wo 8 GB unterschiedliche 8 GB sind
📌 Abschnitt 6. Quantisierung in einfachen Worten: Q4 vs Q8
📌 Abschnitt 7. Ollama-Einstellungen für das Maximum auf schwacher Hardware
📌 Abschnitt 8. Was man auf 8 GB NICHT ausprobieren sollte
📌 Abschnitt 9. Reale Tests: Antwortzeit bei konkreten Aufgaben
❓ Häufig gestellte Fragen (FAQ)
✅ Schlussfolgerungen

🎯 Ehrliche Arithmetik: Wie viel RAM bleibt tatsächlich für das Modell übrig

Kurze Antwort: Von 8 GB Arbeitsspeicher stehen für ein KI-Modell real 4–5 GB zur Verfügung. Den Rest nehmen das Betriebssystem, der Browser und grundlegende Prozesse ein. Dies bestimmt die Hauptregel: Auf 8 GB laufen Modelle bis zu 3–7B Parametern in 4-Bit-Quantisierung komfortabel.

8 GB RAM sind nicht 8 GB für das Modell. Es sind 8 GB minus OS, minus Chrome, minus alles, was du vergessen hast zu schließen.

Bevor du ein Modell auswählst, musst du das reale Speicherbudget verstehen. Hier ist eine typische Aufteilung auf einem System mit 8 GB RAM:

✔️ Betriebssystem: 1.5–2.5 GB (macOS näher an 2.5, Windows – 2, Linux – 1.5)
✔️ Browser (5–10 Tabs): 1–2 GB
✔️ IDE (VS Code / IntelliJ): 0.5–1.5 GB
✔️ Hintergrundprozesse: 0.3–0.5 GB

Rest für das Modell: 3–5 GB.

Laut LocalLLM.in benötigt ein Modell mit 7B Parametern in Q4_K_M-Quantisierung etwa 4–5 GB, plus 1–2 GB für KV-Cache und System-Overhead. Das bedeutet: Ein 7B-Modell auf 8 GB ist möglich, aber grenzwertig, und es ist besser, alles Überflüssige zu schließen.

Praktische Regel für 8 GB:

✔️ Komfortzone: Modelle mit 1–3B Parametern (Q4_K_M) – es bleibt Platz für IDE und Browser
✔️ Arbeitszone: Modelle mit 7–8B Parametern (Q4_K_M) – alles Überflüssige muss geschlossen werden
❌ Rote Zone: Modelle mit 13B+ – garantierte Abstürze oder Swap auf die Festplatte

Fazit: Schließe den Browser, bevor du ein Modell auswählst, überprüfe ollama ps und sieh dir den realen verbleibenden Speicher an. Auf 8 GB ist jedes Gigabyte Gold wert.

🎯 Für Code: Welches Modell ersetzt Copilot auf 8 GB

Code-Autovervollständigung Für die Code-Autovervollständigung auf 8 GB ist die beste Wahl Qwen 2.5 Coder 3B oder Phi-4 Mini (3.8B) in Q4_K_M-Quantisierung. Beide Modelle lassen genügend Speicher für VS Code übrig und liefern eine akzeptable Generierungsqualität.

GitHub Copilot kostet 10 $/Monat. Ein lokales Modell für Code – 0 $/Monat und funktioniert offline. Die einzige Frage ist, welches Modell auf deiner Hardware läuft.

Codierung ist eine Aufgabe, bei der selbst kleine Modelle nützlich sein können. Autovervollständigung, Generierung von Funktionen, Erklärung von Code, Schreiben von Tests – dafür braucht man kein GPT-4, sondern ein schnelles und präzises Modell, das die Syntax versteht.

Top-Modelle für Code auf 8 GB

1. Qwen 2.5 Coder 3B (Q4_K_M) – ~2.2 GB RAM

Laut SitePoint führt Qwen den HumanEval-Benchmark unter den Modellen der 7–8B-Klasse an. Die 3B-Version ist eine leichtere Variante, behält aber ihre starke Spezialisierung auf Code. Trainiert auf einer großen Menge an Programmcode und technischer Dokumentation.

ollama pull qwen2.5-coder:3b
ollama run qwen2.5-coder:3b "Schreibe eine Funktion zum Sortieren eines Arrays in Python"

2. Phi-4 Mini (3.8B) – ~2.3 GB RAM

Laut SitePoint ist Phi-4 Mini das einzige Modell, das auf Systemen mit 8 GB komfortabel läuft und 15–20 Tokens/Sekunde auf einem M1 MacBook Air oder einem günstigen Linux-Laptop liefert. Es eignet sich gut für Autovervollständigung, einfache Erklärungen und leichte Chat-Aufgaben.

ollama pull phi4-mini
ollama run phi4-mini "Erkläre den Unterschied zwischen HashMap und TreeMap in Java"

3. DeepSeek Coder 1.3B (Q4_K_M) – ~1 GB RAM

Das leichteste Modell für Code. Ideal für Autovervollständigung in der IDE – schnell, belastet das System nicht, kann im Hintergrund zusammen mit VS Code, Browser und Terminal laufen.

ollama pull deepseek-coder:1.3b
ollama run deepseek-coder:1.3b

Was wählen?

✔️ Benötigst Autovervollständigung im Hintergrund + offener Browser → DeepSeek Coder 1.3B
✔️ Benötigst Generierung von Funktionen und Code-Erklärungen → Qwen 2.5 Coder 3B
✔️ Benötigst ein universelles Modell für Code und Text → Phi-4 Mini

Mehr über die Einrichtung der Autovervollständigung – im Artikel Ollama + VS Code: Kostenlose Alternative zu GitHub Copilot.

Fazit: Auf 8 GB kann man mit lokaler KI coden. Erwarte keine GPT-4-Qualität – aber für die tägliche Autovervollständigung, die Generierung von Boilerplate-Code und Code-Erklärungen reicht es aus.

🎯 Für Text und Kommunikation: Chat, Zusammenfassung, Übersetzung

Für Textaufgaben Für Textaufgaben auf 8 GB ist die optimale Wahl Llama 3.2 3B für allgemeine Chats, Gemma 2B für maximale Geschwindigkeit oder Phi-3 Mini für ein Gleichgewicht zwischen Qualität und Größe. Alle drei lassen Platz für andere Software.

Nicht jede Aufgabe erfordert GPT-4. Texte zusammenfassen, Fragen beantworten, einen Artikel wiedergeben – das bewältigt ein Modell, das weniger wiegt als ein 4K-Film.

Textaufgaben sind die breiteste Kategorie: vom einfachen Chat bis zur Analyse von Dokumenten und Übersetzung. Auf 8 GB gibt es hier eine Auswahl.

Top-Modelle für Text auf 8 GB

1. Llama 3.2 3B (Q4_K_M) – ~2 GB RAM

Laut StudyHUB ist Llama 3.1/3.2 das beliebteste Modell auf Ollama mit über 111 Millionen Downloads. Die 3B-Version ist eine leichtere Variante, behält aber die Qualität in allgemeinen Gesprächen, Zusammenfassungen und Beantwortung von Fragen. Unterstützt 8 Sprachen.

ollama pull llama3.2:3b
ollama run llama3.2:3b "Fasse die Hauptidee dieses Textes zusammen: ..."

2. Gemma 2B (Q4_K_M) – ~1.6 GB RAM

Ein Modell von Google DeepMind. Das schnellste in dieser Kategorie – ideal, wenn eine sofortige Antwort und minimale Systembelastung benötigt werden. Die Qualität ist niedriger als bei Llama 3B, aber für einfache Fragen und Textklassifizierung mehr als ausreichend.

ollama pull gemma:2b
ollama run gemma:2b "Erstelle eine kurze Beschreibung für dieses Produkt: ..."

3. Phi-3 Mini (3.8B) – ~2.3 GB RAM

Laut StudyHUB deckt Phi-3 Mini bei einer Größe von 2.3 GB 90% der täglichen Aufgaben ab. Es läuft schnell auch auf der CPU und eignet sich für Raspberry Pi 4/5.

ollama pull phi3:mini
ollama run phi3:mini "Übersetze ins Ukrainische: The quick brown fox jumps over the lazy dog"

Was wählen?

✔️ Allgemeiner Chat und Fragen-Antworten → Llama 3.2 3B
✔️ Maximale Geschwindigkeit, minimaler RAM → Gemma 2B
✔️ Gleichgewicht zwischen Qualität und Größe, tägliche Nutzung → Phi-3 Mini

Wenn du eine schöne grafische Oberfläche anstelle des Terminals möchtest – sieh dir den Artikel Ollama + Open WebUI: Lokales ChatGPT im Browser an.

Fazit: Für Textaufgaben sind 8 GB ein komfortabler Bereich. Modelle mit 2–3B laufen schnell, lassen Platz für andere Programme und liefern eine Qualität, die für die meisten täglichen Bedürfnisse ausreicht.

🎯 Für Reasoning: Mathematik, Logik, Code-Debugging

Für Aufgaben, die schrittweises Denken erfordern – Mathematik, logische Aufgaben, Debugging von komplexem Code – läuft auf 8 GB DeepSeek R1 8B in Q4-Quantisierung. Dies ist ein "denkendes" Modell: Es ist langsamer, aber präziser bei komplexen Fragen.

Ein normales Modell antwortet sofort. Ein Reasoning-Modell denkt zuerst – Schritt für Schritt – und antwortet dann. Wie der Unterschied zwischen "zufällig antworten" und "auf Papier rechnen".

Reasoning-Modelle sind eine relativ neue Kategorie. Sie arbeiten nach dem Prinzip Chain-of-Thought: Sie zerlegen die Aufgabe in Schritte, überprüfen Zwischenergebnisse und formulieren erst dann die endgültige Antwort.

Was funktioniert auf 8 GB

1. DeepSeek R1 8B (Q4_K_M) – ~5 GB RAM

Laut StudyHUB ist DeepSeek R1 ein "denkendes" Modell, ein Analogon zu OpenAI o1. Bei Aufgaben mit Mathematik, logischen Rätseln und technischem Reasoning liefert es bessere Ergebnisse als Llama 3.1 derselben Größe. Kompromiss: Es antwortet langsamer, weil es vor der Antwort "denkt".

ollama pull deepseek-r1:8b
ollama run deepseek-r1:8b "Finde den Fehler in dieser SQL-Abfrage: SELECT * FROM users WHERE id = '5' AND active = true GROUP HAVING count > 1"

⚠️ Wichtig: DeepSeek R1 8B belegt ~5 GB RAM. Auf einem System mit 8 GB ist das grenzwertig – der Browser, die IDE und alles Überflüssige müssen geschlossen werden. Auf macOS mit Unified Memory läuft es stabiler als unter Windows mit integrierter Grafik.

2. Qwen 3 8B (Q4_K_M) – ~5 GB RAM

Laut LocalLLM.in ist Qwen 3 8B eine starke Alternative für Reasoning-Aufgaben, insbesondere in Mathematik und mehrsprachigen Szenarien. Unterstützt den Thinking-Modus in Ollama standardmäßig.

ollama pull qwen3:8b
ollama run qwen3:8b "Löse: Wenn 3x + 7 = 22, was ist x?"

Was wählen?

✔️ Code-Debugging und logische Aufgaben → DeepSeek R1 8B
✔️ Mathematik und mehrsprachiges Reasoning → Qwen 3 8B
✔️ Wenn 8B nicht passt – Phi-4 Mini als Kompromiss (kleiner, aber ohne Chain-of-Thought)

Fazit: Reasoning auf 8 GB ist möglich, aber es ist die Grenze des Komforts. 8B-Modelle benötigen fast den gesamten verfügbaren Speicher. Für regelmäßige Arbeit mit solchen Aufgaben sollte ein Upgrade auf 16 GB in Betracht gezogen werden – der Unterschied in den Möglichkeiten wird erheblich sein.

🎯 CPU vs GPU vs Apple Silicon — wo 8 GB unterschiedliche 8 GB sind

8 GB auf einem Mac M1 und 8 GB auf einem Windows-Laptop mit Intel sind zwei unterschiedliche Erfahrungen. Apple Silicon verwendet Unified Memory, bei dem der gesamte Speicher gleichzeitig für CPU und GPU zugänglich ist. Auf einem herkömmlichen PC sind RAM und VRAM separate Pools, und das ist entscheidend für KI-Modelle.

Ein Mac M1 mit 8 GB ist eine vollwertige Workstation für lokales KI. Ein Windows-Laptop mit 8 GB und Intel HD Graphics ist ein Kampf um jedes Megabyte.

Apple Silicon (M1/M2/M3) — das beste Szenario für 8 GB

Auf Apple Silicon ist der gesamte Arbeitsspeicher Unified Memory. Das bedeutet, dass der GPU-Teil des Chips auf dieselben 8 GB zugreifen kann wie die CPU. Ollama verwendet automatisch Metal zur Beschleunigung — ohne zusätzliche Konfiguration.

Ergebnis: Ein 7B-Modell in Q4_K_M auf einem M1 mit 8 GB liefert 15–20 Token/Sek — genug für eine komfortable interaktive Nutzung. Laut SitePoint ist Phi-4 Mini auf einem M1 MacBook Air etwa 15–20 tok/s, was für die tägliche Arbeit ausreicht.

Windows / Linux mit dedizierter GPU (RTX 3060, RTX 4060) — ein gutes Szenario

Wenn eine dedizierte Grafikkarte mit 6–8 GB VRAM vorhanden ist, wird das Modell vollständig in den GPU-Speicher geladen, und der System-RAM bleibt für das Betriebssystem und die Software übrig. Laut LocalLLM.in liefert eine RTX 4060 (8 GB VRAM) ein 7B-Modell mit 40+ Token/Sek — die schnellste Option von allen.

Windows / Linux ohne GPU (Intel HD / AMD Radeon iGPU) — ein schwieriges Szenario

Ohne dedizierte GPU läuft das Modell vollständig auf der CPU. Ollama wird trotzdem starten — aber die Geschwindigkeit sinkt auf 3–6 Token/Sek. Laut LocalLLM.in ist CPU-only-Inferenz für Batch-Aufgaben akzeptabel, aber frustrierend bei interaktiver Nutzung.

Zusätzlich wird der System-RAM zwischen Betriebssystem, Software und Modell geteilt — bei 8 GB ist das sehr eng.

Zusammenfassungstabelle

Plattform	7B Modell (Q4)	3B Modell (Q4)	Geschwindigkeit	Komfort
Mac M1/M2 8 GB	✔️ Funktioniert	✔️ Komfortabel	15–20 tok/s	⭐⭐⭐⭐
Windows + RTX 4060 8 GB VRAM	✔️ Funktioniert schnell	✔️ Komfortabel	40+ tok/s	⭐⭐⭐⭐⭐
Windows/Linux CPU only 8 GB	⚠️ Am Limit	✔️ Funktioniert	3–6 tok/s	⭐⭐

Fazit: Wenn du einen Mac M1+ mit 8 GB hast — bist du in der besten Position für lokales KI auf preiswerter Hardware. Wenn du Windows ohne GPU hast — konzentriere dich auf 3B-Modelle und schließe alles Überflüssige. Mehr über die Installation auf verschiedenen Betriebssystemen — im Artikel Wie man Ollama auf Mac, Windows und Linux installiert.

🎯 Quantisierung einfach erklärt: Q4 vs Q8 und was man auf schwacher Hardware wählen sollte

Kurze Antwort: Quantisierung ist die Komprimierung eines Modells, die seine Größe um das 2- bis 4-fache reduziert mit minimalem Qualitätsverlust. Bei 8 GB ist die optimale Wahl Q4_K_M: der beste Kompromiss zwischen Größe, Geschwindigkeit und Antwortqualität.

Quantisierung ist wie JPEG für Fotos. Die Datei ist kleiner, der Unterschied kaum merklich. Aber wenn man zu stark komprimiert — fällt die Qualität merklich ab.

Wenn du in der Modellbezeichnung auf Ollama Tags wie :7b-q4_0, :8b-instruct-q8_0 oder :3b-q4_k_m siehst — das ist die Angabe des Quantisierungsgrades. Die Zahl nach „q“ ist die Anzahl der Bits pro Parameter.

Quantisierungsgrade: was die Tags bedeuten

✔️ Q8 (8-Bit): maximale Qualität, größte Größe. Für ein 7B-Modell — ~8 GB. Passt nicht in 8 GB RAM.
✔️ Q4_K_M (4-Bit, K-Quant Medium): optimaler Kompromiss. Für 7B — ~4–5 GB. Empfohlen für 8 GB Systeme.
✔️ Q4_K_S (4-Bit, K-Quant Small): etwas kleiner als Q4_K_M, etwas geringere Qualität.
⚠️ Q2_K (2-Bit): minimale Größe (~2,5 GB für 7B), aber spürbare Qualitätsverschlechterung. Extremste Option.

Das Suffix „K“ steht für neuere Quantisierungsmethoden (K-Quant), die die Genauigkeit intelligenter zwischen den Schichten des Modells verteilen. K-Quant-Tags sind immer besser als Legacy-Varianten (q4_0, q4_1) bei gleicher Größe.

Wie viel wiegen Modelle mit verschiedenen Quantisierungen

Modell	Q8	Q4_K_M	Q2_K
Phi-3 Mini (3.8B)	4.0 GB	2.3 GB	1.2 GB
Llama 3.2 (7B)	~8 GB	~4.5 GB	~2.6 GB
Mistral 7B	~8 GB	~4.1 GB	~2.8 GB

Daten von LocalAIMaster.

Regel für 8 GB: wähle immer Q4_K_M. Wenn es nicht passt — reduziere die Modellgröße (3B statt 7B), nicht den Quantisierungsgrad (Q2 statt Q4). Ein kleineres Modell mit Q4 liefert bessere Qualität als ein größeres mit Q2.

Mehr über Komprimierungstechniken und deren Einfluss auf die Qualität — im Artikel Modellquantisierung: INT4, INT8 — was ist das und wie beeinflusst es die Qualität.

Fazit: Q4_K_M ist der Goldstandard für 8 GB. Lass dich nicht verführen, Q8 „für die Qualität“ herunterzuladen — das Modell passt nicht in den Speicher, und du erhältst Swap auf die Festplatte statt schneller Antworten.

🎯 Ollama-Einstellungen für das Maximum auf schwacher Hardware

Drei Umgebungsvariablen und eine Gewohnheit (das Schließen von Überflüssigem) — das ist alles, was nötig ist, um das Maximum aus 8 GB herauszuholen. Die Einrichtung dauert eine Minute, und der Unterschied in der Stabilität ist spürbar.

Auf leistungsstarker Hardware funktioniert Ollama „einfach“. Auf schwacher — muss man ihm helfen, keinen Speicher für Dinge zu verschwenden, die man nicht braucht.

Standardmäßig kann Ollama mehrere Modelle gleichzeitig im Speicher halten und parallele Anfragen verarbeiten. Bei 8 GB ist das ein überflüssiger Luxus. Hier ist die minimale Optimierungssammlung:

Umgebungsvariablen

# Nur ein Modell im Speicher halten (standardmäßig können es mehr sein)
export OLLAMA_MAX_LOADED_MODELS=1

# Eine parallele Anfrage (kein Speicherwettbewerb)
export OLLAMA_NUM_PARALLEL=1

# Kontextfenster verkleinern — spart 200–800 MB RAM
export OLLAMA_CTX_SIZE=2048

Unter macOS / Linux füge diese Zeilen zu ~/.zshrc oder ~/.bashrc hinzu. Unter Windows — setze sie über die systemweiten Umgebungsvariablen oder das PowerShell-Profil.

Vor dem Starten eines Modells

Klingt banal, ist aber bei 8 GB entscheidend:

✔️ Browser schließen oder maximal 2–3 Tabs offen lassen
✔️ Slack, Discord, Spotify schließen — jedes Programm frisst 200–500 MB
✔️ Aktuelle Auslastung prüfen: ollama ps zeigt geladene Modelle
✔️ Wenn ein altes Modell noch im Speicher ist — ollama stop modellname

Modelfile für Feinabstimmung

Wenn du mehr Kontrolle möchtest — erstelle eine Modelfile mit optimierten Parametern:

FROM phi3:mini
PARAMETER num_ctx 2048
PARAMETER num_thread 4
PARAMETER temperature 0.7

num_ctx 2048 — verkleinert das Kontextfenster (weniger RAM für KV-Cache). num_thread 4 — begrenzt die Anzahl der CPU-Threads, damit das System reaktionsfähig bleibt.

Schritt-für-Schritt-Anleitung zur Installation und zum ersten Start — im Artikel Wie man Ollama auf Mac, Windows und Linux installiert: Vollständiger Leitfaden 2026. Und über die Erstellung benutzerdefinierter Modelle über Modelfile — im Artikel Modelfile in Ollama: Erstelle deine eigene benutzerdefinierte KI.

Fazit: Drei Umgebungsvariablen + geschlossene überflüssige Programme = stabiler Betrieb auf 8 GB. Ohne diese Einstellungen kann selbst ein leichtes Modell Swap auf die Festplatte verursachen.

🎯 Was man auf 8 GB NICHT ausprobieren sollte — meine Erfahrung

Kurze Antwort: Modelle ab 13B, alle Modelle in Q8-Quantisierung und Versuche, zwei Modelle gleichzeitig zu starten — garantierte Enttäuschung auf 8 GB. Ich habe das auf meinem Mac M1 getestet — damit du es nicht tun musst.

Jeder, der mit Ollama auf 8 GB gearbeitet hat, hat eine Phase durchgemacht: „Vielleicht passt 13B doch noch rein?“ Nein, tut es nicht. Ich habe es getestet.

Beim Arbeiten mit Ollama auf einem Mac M1 mit 8 GB Unified Memory habe ich Dutzende von Modellen unterschiedlicher Größe getestet. Hier ist eine ehrliche Liste dessen, was nicht funktioniert — oder so schlecht funktioniert, dass es besser wäre, es würde nicht funktionieren.

❌ Modelle ab 13B

Llama 2 13B, Qwen 14B, CodeLlama 13B — selbst in Q4-Quantisierung benötigen sie 8–9 GB allein für die Modellgewichte. Füge den KV-Cache, das Betriebssystem hinzu, und du erhältst ein System, das ständig auf die Festplatte swappt. Ich habe versucht, Llama 2 13B Q4 zu starten — die ersten 5 Minuten lud es, dann lieferte es 1–2 Token pro Sekunde mit ständigen Pausen. Das ist für die interaktive Nutzung nicht praktikabel.

❌ Jedes 7B-Modell in Q8-Quantisierung

Die Q8-Version eines 7B-Modells wiegt etwa 8 GB — das ist dein gesamter Arbeitsspeicher. Das Betriebssystem verschwindet nicht magisch. Ich habe Mistral 7B Q8 ausprobiert — das System hing eine Minute nach dem Start. Verwende immer Q4_K_M für 7B-Modelle auf 8 GB.

❌ Zwei Modelle gleichzeitig

Ollama kann mehrere Modelle im Speicher halten. Auf 16 GB ist das praktisch — man wechselt sofort zwischen den Modellen. Auf 8 GB ist das ein Rezept für einen Swap-Sturm. Halte OLLAMA_MAX_LOADED_MODELS=1 und vergiss nicht ollama stop, bevor du ein anderes Modell lädst.

❌ Große Kontextfenster (8K+ Token)

Jede Verdoppelung des Kontextfensters bedeutet zusätzliche Hunderte von Megabyte für den KV-Cache. Bei 8 GB halte den Kontext auf maximal 2048–4096 Token. Ein 10-seitiges Dokument vollständig an das Modell zu übergeben — geht nicht, es muss in Teile zerlegt werden.

❌ Mixtral 8x7B (MoE-Architektur)

Mixtral aktiviert nur 2 von 8 „Experten“ pro Token, daher verwendet es theoretisch weniger Berechnungen. Aber alle 8 Experten müssen im Speicher sein — und das sind 26+ GB selbst in Q4. Der Name „8x7B“ ist irreführend: das ist kein Modell der Größe 7B.

Allgemeine Regel: Wenn ollama run länger als 30 Sekunden lädt und die erste Antwort nach einer Minute kommt — ist das Modell zu groß für dein System. Erwarte nicht, dass es sich „aufwärmt“ — schließe es und wähle ein kleineres Modell.

Vergleich von Modellen nach Größe, Qualität und Aufgaben — im Artikel Top 10 Ollama-Modelle 2026: Welches soll man wählen.

Fazit: Ich habe das selbst durchgemacht — ich dachte, ein größeres Modell würde bessere Ergebnisse liefern, habe 13B heruntergeladen, eine Minute auf die erste Antwort gewartet und es gelöscht. Habe 3B installiert — und die Leistung stieg sofort. Auf 8 GB ist die bessere Strategie, ein Modell zu wählen, das schnell und stabil läuft, als sich mit einem zu quälen, das „fast passt“.

🎯 Tests: Was ist in der Praxis zu erwarten

Kurze Antwort: Auf einem Mac M1 mit 8 GB liefert das 3B-Modell 20–30 Token/Sek., das 7B-Modell 10–15 tok/s. Auf einem reinen CPU-Windows-System ist es zwei- bis dreimal langsamer. Unten finden Sie eine zusammenfassende Tabelle zur Orientierung.

Benchmarks im Internet werden oft auf einem sauberen System ohne andere Software durchgeführt. In der Realität – mit geöffnetem VS Code und 5 Chrome-Tabs – werden die Zahlen niedriger sein. Daher sind diese Tests näher an der Realität.

Zusammenfassende Leistungstabelle

Modell	RAM	Mac M1 8 GB	Nur CPU 8 GB	RTX 4060 8 GB VRAM
Gemma 2B (Q4)	~1.6 GB	~30 tok/s	~10 tok/s	~50+ tok/s
Phi-3 Mini 3.8B (Q4)	~2.3 GB	~25 tok/s	~8 tok/s	~45 tok/s
Llama 3.2 3B (Q4)	~2 GB	~28 tok/s	~9 tok/s	~48 tok/s
Qwen 2.5 Coder 3B (Q4)	~2.2 GB	~25 tok/s	~8 tok/s	~45 tok/s
Llama 3.1 8B (Q4)	~4.5 GB	~12 tok/s	~4 tok/s	~40 tok/s
DeepSeek R1 8B (Q4)	~5 GB	~10 tok/s	~3 tok/s	~35 tok/s

Daten sind Richtwerte, basierend auf den Ergebnissen von LocalLLM.in, SitePoint und LocalAIMaster. Die tatsächliche Geschwindigkeit hängt von der Systemauslastung, der Größe des Kontextfensters und Hintergrundprozessen ab.

Was bedeuten diese Zahlen in der Praxis?

✔️ 15+ tok/s: komfortabler interaktiver Chat – die Antwort erscheint schneller, als Sie sie lesen können
✔️ 8–15 tok/s: man kann damit arbeiten, aber bei langen Antworten spürt man eine Verzögerung
⚠️ 3–6 tok/s: akzeptabel für einmalige Aufgaben (Debugging, Analyse), frustrierend bei aktivem Chatten
❌ <3 tok/s: das Modell ist zu groß für dieses System

Fazit: Für die tägliche Arbeit auf einem 8-GB-System orientieren Sie sich an 3B-Modellen – sie liefern 20+ tok/s auf Apple Silicon und lassen das System reaktionsfähig. 7–8B-Modelle sind für spezifische Aufgaben, wenn Sie bereit sind, alles Überflüssige zu schließen und zu warten.

❓ Häufig gestellte Fragen (FAQ)

Kann ich Ollama auf einem Laptop mit 8 GB RAM ausführen?

Ja. Modelle mit 1–3 Milliarden Parametern (Phi-3 Mini, Llama 3.2 3B, Gemma 2B) laufen komfortabel auf jedem System mit 8 GB. Modelle mit 7–8 Milliarden Parametern laufen am Limit – Sie müssen unnötige Programme schließen. Mehr Details finden Sie im Leitfaden zur Installation von Ollama.

Welches ist das beste Modell für 8 GB RAM?

Das hängt von der Aufgabe ab. Für Code – Qwen 2.5 Coder 3B. Für Text und Chat – Llama 3.2 3B oder Phi-3 Mini. Für Reasoning und Debugging – DeepSeek R1 8B (am Limit von 8 GB). Ein vollständiger Vergleich der Modelle finden Sie im Artikel Top-10 Ollama-Modelle im Jahr 2026.

Benötige ich eine GPU für Ollama?

Nein, Ollama läuft auch auf der CPU. Aber mit einer GPU (dediziert oder Apple Silicon) ist die Geschwindigkeit 3- bis 10-mal höher. Auf einem reinen CPU-System mit 8 GB halten Sie sich an Modelle mit 3B und kleiner für komfortables Arbeiten.

Was ist besser: ein 7B-Modell in Q2 oder ein 3B-Modell in Q4?

Fast immer – 3B in Q4. Aggressive Quantisierung (Q2) reduziert die Qualität der Antworten erheblich, insbesondere bei komplexen Aufgaben. Ein kleineres Modell mit normaler Quantisierung liefert ein besseres Ergebnis.

Kann Ollama auf 8 GB ChatGPT ersetzen?

Für alltägliche Aufgaben – Zusammenfassungen, einfache Fragen, Code-Generierung – ja. Für komplexe Analysen, multimodale Aufgaben und die Arbeit mit großem Kontext – Cloud-Modelle sind bisher stärker. Der optimale Ansatz ist ein hybrider: Ollama für regelmäßige Aufgaben, ChatGPT/Claude für komplexe. Mehr Details finden Sie im Artikel Ollama vs ChatGPT vs Claude: Wann lokales KI besser ist.

Wie viel Speicherplatz wird benötigt?

Ein 3B-Modell in Q4 benötigt etwa 2 GB Speicherplatz. Drei Modelle für verschiedene Aufgaben – 6–8 GB. Ollama speichert Modelle in ~/.ollama. Heruntergeladene Modelle können mit dem Befehl ollama rm modellname gelöscht werden.

Lohnt sich ein Upgrade auf 16 GB?

Wenn Sie planen, regelmäßig mit lokaler KI zu arbeiten – definitiv ja. 16 GB ermöglichen den Zugriff auf 13–14B-Modelle, vollwertige 7B in Q8-Qualität und komfortables Arbeiten mit großen Kontextfenstern. Der Unterschied in den Möglichkeiten zwischen 8 und 16 GB ist der größte im gesamten Spektrum.

✅ Schlussfolgerungen

8 GB Arbeitsspeicher sind kein Urteil für lokales KI, aber es ist eine Grenze, die bewusste Entscheidungen erfordert. Hier sind die wichtigsten Punkte:

✔️ 3B-Modelle – Komfortzone: Phi-3 Mini, Llama 3.2 3B, Gemma 2B laufen schnell und stabil und lassen Platz für IDE und Browser
✔️ 7–8B-Modelle – Arbeitszone: DeepSeek R1 8B, Qwen 3 8B laufen am Limit, liefern aber spürbar bessere Qualität für spezifische Aufgaben
✔️ Q4_K_M – die einzig sinnvolle Quantisierungswahl auf 8 GB: ein kleineres Modell mit Q4 ist immer besser als ein größeres mit Q2
✔️ Apple Silicon mit 8 GB – die beste Budget-Option: Unified Memory bietet einen Vorteil gegenüber reinen CPU-Systemen
✔️ 13B+ Modelle, Q8, zwei Modelle gleichzeitig – nicht empfehlenswert: getestet, funktioniert nicht

Ich selbst nutze genau diesen Ansatz: Ich halte mehrere Modelle für verschiedene Aufgaben – eines für Code, ein anderes für Text, ein separates für Debugging. Jedes Modell hat seine Stärke, und anstelle eines großen, das nicht in den Speicher passt, ist es besser, 2–3 spezialisierte leichte Modelle zu haben. Das Umschalten zwischen ihnen über ollama run ist eine Sache von Sekunden.

Wenn Sie gerade erst anfangen – installieren Sie Ollama mit unserem Leitfaden, laden Sie phi3:mini herunter und probieren Sie es aus. In fünf Minuten haben Sie ein funktionierendes lokales KI – ohne Abonnements, ohne Internet, ohne Datenübertragung nach außen.

Und wenn Sie eine Website, einen Blog oder eine Webanwendung mit integrierter KI-Funktionalität benötigen – kontaktieren Sie uns bei WebsCraft, wir helfen Ihnen bei der Umsetzung.

Kategorien

📚 Inhalt des Artikels

🎯 Ehrliche Arithmetik: Wie viel RAM bleibt tatsächlich für das Modell übrig

🎯 Für Code: Welches Modell ersetzt Copilot auf 8 GB

Top-Modelle für Code auf 8 GB

🎯 Für Text und Kommunikation: Chat, Zusammenfassung, Übersetzung

Top-Modelle für Text auf 8 GB

🎯 Für Reasoning: Mathematik, Logik, Code-Debugging

Was funktioniert auf 8 GB

🎯 CPU vs GPU vs Apple Silicon — wo 8 GB unterschiedliche 8 GB sind

Apple Silicon (M1/M2/M3) — das beste Szenario für 8 GB

Windows / Linux mit dedizierter GPU (RTX 3060, RTX 4060) — ein gutes Szenario

Windows / Linux ohne GPU (Intel HD / AMD Radeon iGPU) — ein schwieriges Szenario

Zusammenfassungstabelle

🎯 Quantisierung einfach erklärt: Q4 vs Q8 und was man auf schwacher Hardware wählen sollte

Quantisierungsgrade: was die Tags bedeuten

Wie viel wiegen Modelle mit verschiedenen Quantisierungen

🎯 Ollama-Einstellungen für das Maximum auf schwacher Hardware

Umgebungsvariablen

Vor dem Starten eines Modells

Modelfile für Feinabstimmung

🎯 Was man auf 8 GB NICHT ausprobieren sollte — meine Erfahrung

❌ Modelle ab 13B

❌ Jedes 7B-Modell in Q8-Quantisierung

❌ Zwei Modelle gleichzeitig

❌ Große Kontextfenster (8K+ Token)

❌ Mixtral 8x7B (MoE-Architektur)

🎯 Tests: Was ist in der Praxis zu erwarten

Zusammenfassende Leistungstabelle

❓ Häufig gestellte Fragen (FAQ)

Kann ich Ollama auf einem Laptop mit 8 GB RAM ausführen?

Welches ist das beste Modell für 8 GB RAM?

Benötige ich eine GPU für Ollama?

Was ist besser: ein 7B-Modell in Q2 oder ein 3B-Modell in Q4?

Kann Ollama auf 8 GB ChatGPT ersetzen?

Wie viel Speicherplatz wird benötigt?

Lohnt sich ein Upgrade auf 16 GB?

✅ Schlussfolgerungen

📖 Quellen

📬 Verpassen Sie keine neuen Artikel

Bereit für eine schlüsselfertige Website?

Останні статті

DeepSeek V4 Pro у 2026: повний розбір — архітектура, бенчмарки і коли переходити вигідно

Міграція з deepseek-chat на DeepSeek V4: що зламається до 24 липня

Що означає GPT-5.5 для ринку AI у 2026 році

GPT-5.5 vs GPT-5.4: що змінилося у 2026 році

DeepSeek V4 Flash у 2026: що це, скільки коштує і як запустити без GPU

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах