Im offiziellen Ollama-Register gibt es bereits über 200 Modelle – und ihre Zahl wächst wöchentlich.
Das Problem ist nicht, ein Modell zu finden, sondern das richtige auszuwählen:
für eine bestimmte Aufgabe und eine bestimmte Hardware. Eine falsche Wahl – und du wartest entweder 30 Sekunden auf eine Antwort
oder erhältst ein schwaches Ergebnis, wo Qualität gefragt ist.
In diesem Artikel – zehn Modelle, die es im Jahr 2026 zu berücksichtigen gilt.
Mit Benchmarks, Download-Befehlen und klaren Empfehlungen:
für wen, wofür und auf welcher Hardware.
📚 Inhalt des Artikels
🎯 Wie man die Modelleigenschaften liest: Parameter, Quantisierung, RAM
Kurze Antwort:
Zwei Parameter bestimmen alles: die Anzahl der Parameter (B = Milliarden) und der Grad der Quantisierung (Q4, Q8).
Mehr Parameter – bessere Qualität, aber mehr RAM. Weniger Quantisierung – weniger RAM,
geringer Qualitätsverlust. Faustregel: Dateigröße des Modells auf der Festplatte ≈ RAM zum Ausführen.
Die richtige Strategie zur Auswahl: Bestimme zuerst, wie viel RAM verfügbar ist – wähle dann das beste Modell, das hineinpasst, und nicht umgekehrt.
Parameter (B – Milliarden)
7B, 8B, 13B, 14B, 70B – die Anzahl der Milliarden Parameter. Mehr bedeutet bessere Antwortqualität,
aber langsamere Generierung und mehr RAM. Für alltägliche Aufgaben decken Modelle mit 7–14B
die meisten Szenarien ab, ohne spürbare Qualitätseinbußen.
Quantisierung (Q4_K_M, Q5_K_M, Q8)
Quantisierung – Komprimierung der Modellgewichte auf geringere Genauigkeit.
CodeGPT erklärt:
Q4_K_M benötigt halb so viel Speicher wie Q8, verliert aber nur minimal an Qualität.
K-Quantisierung (K_M, K_S) – modernere Methoden, genauer als das alte Q4_0.
Ollama lädt standardmäßig Q4_K_M – ein optimaler Kompromiss für die meisten.
| Quantisierung |
Relative Größe |
Qualität |
Wann verwenden |
| Q4_K_M |
~50% von Q8 |
Sehr gut |
Standardauswahl, begrenzter RAM |
| Q5_K_M |
~60% von Q8 |
Ausgezeichnet |
Wenn etwas RAM-Spielraum vorhanden ist |
| Q8 |
100% |
Maximal |
Genug RAM, Genauigkeit erforderlich |
RAM: Faustregel
Dateigröße des Modells ≈ minimaler RAM zum Ausführen plus ~2 GB für System und Ollama.
Zum Beispiel: Llama 3.3 8B in Q4_K_M wiegt ~4,7 GB – benötigt etwa 7 GB RAM.
Onyx AI präzisiert:
der tatsächliche Verbrauch ist aufgrund des KV-Caches und der Framework-Overheads um 10–20 % höher.
Fazit: Die Wahl des Modells beginnt mit der Hardware. Kennst du dein RAM-Budget – kennst du deinen Auswahlspielraum.
🎯 Modelle für Code: Qwen 2.5 Coder, DeepSeek Coder, Phi-4
Qwen 2.5 Coder 14B – das beste lokale Modell für Code im Jahr 2026.
HumanEval Score 72,5 % – höher als bei Llama 3.3 8B (68,1 %) und deutlich höher als bei Mistral 7B (43,6 %).
Für 8 GB RAM – Qwen 2.5 Coder 7B. Für Mathematik und strukturierte Aufgaben – Phi-4.
Qwen 2.5 Coder 32B ist im Benchmark Aider code repair konkurrenzfähig mit GPT-4o – für ein lokales Modell ist dies ein gleichwertiges Werkzeug, keine Alternative.
1. Qwen 2.5 Coder – das Beste für Code
Laut SitePoint,
zeigt Qwen 2.5 Coder 14B einen HumanEval Score von 72,5 % – das höchste Ergebnis unter lokalen Modellen
dieser Größenklasse. Unterstützt über 92 Programmiersprachen.
CodeGPT bemerkt:
Entwickler loben die Fähigkeit, die Logik über lange, mehrstufige Bearbeitungs- und Debugging-Sitzungen hinweg aufrechtzuerhalten.
- ✔️ RAM: 7B – 8 GB / 14B – 16 GB / 32B – 24+ GB
- ✔️ Befehl:
ollama pull qwen2.5-coder:14b
- ✔️ Am besten für: Code-Generierung, Debugging, Code-Review, Refactoring
- ✔️ Lizenz: Apache 2.0
- ✔️ Kontext: 128K Token
2. DeepSeek Coder V2 – Spezialist für Debugging
DeepSeek Coder V2 unterstützt über 300 Programmiersprachen.
Entwickler beschreiben
es als „Debugging-Partner“: Antworten sind oft ohne weitere Bearbeitung einsatzbereit.
Für Aufgaben, die eine detaillierte Fehleranalyse erfordern – eine starke Alternative zu Qwen in der Praxis.
- ✔️ RAM: ab 16 GB
- ✔️ Befehl:
ollama pull deepseek-coder-v2
- ✔️ Am besten für: Debugging, Analyse komplexen Codes, 300+ Sprachen
3. Phi-4 – kompaktes Modell für strukturierte Aufgaben
SitePoint hat getestet:
Phi-4 14B erreichte 80,4 % im MATH-Benchmark – höher als Llama 3.3 8B (68,0 %) und Qwen 2.5 14B (75,6 %).
Für logische Aufgaben und Mathematik – die beste Qualität auf 16 GB RAM.
Wichtige Einschränkung: Kontextfenster von 16K – nicht geeignet für lange Dokumente.
- ✔️ RAM: 16 GB
- ✔️ Befehl:
ollama pull phi4
- ✔️ Am besten für: Mathematik, logische Aufgaben, strukturierter Code
- ⚠️ Einschränkung: 16K Kontext – nicht für lange Dokumente
Fazit: Für Code – Qwen 2.5 Coder als Basis, DeepSeek Coder für schweres Debugging, Phi-4 für Mathematik und algorithmische Aufgaben.
🎯 Modelle für Text: Llama 3.3, Mistral, Gemma 4
Llama 3.3 8B – die beste allgemeine Wahl für 8 GB RAM: gute Textqualität,
128K Kontext, größtes Ökosystem. Mistral 7B – wenn maximale
Geschwindigkeit oder lokales API-Testing benötigt wird. Gemma 4 E4B – Balance aus Größe und Qualität
mit nativer Multimodalität und Denkmodus auf 8 GB RAM.
Mistral 7B – das „Arbeitspferd“ der lokalen KI: klein,
schnell, stabil. Für Textregeneration und API-Tests – die optimale Wahl.
4. Llama 3.3 – Standard für allgemeine Nutzung
Blue Headline bemerkt:
Llama 3.3 – die Standardempfehlung für die meisten Szenarien:
RAG-Systeme, Chatbots, Code-Hilfe, Fine-Tuning.
Das größte Ökosystem unter den Open-Source-Modellen – mehr Integrationen,
mehr Tutorials, mehr fertige Lösungen.
Das Kontextfenster von 128K Token ermöglicht die Verarbeitung langer Dokumente in einer einzigen Anfrage.
- ✔️ RAM: 8B – 6–8 GB / 70B – 40+ GB
- ✔️ Befehl:
ollama pull llama3.3
- ✔️ Am besten für: allgemeiner Chat, RAG, Textschreiben, Code
- ✔️ Kontext: 128K Token
- ✔️ Lizenz: Llama 3 Community License
5. Mistral 7B – das schnellste Modell und ideal für API-Tests
Mistral 7B belegt dank zweier architektonischer Lösungen nur 4,1 GB Speicherplatz:
Grouped-Query Attention (GQA) für schnellere Inferenz und Sliding Window Attention (SWA)
für die Verarbeitung längerer Sequenzen mit geringeren Kosten.
DataCamp bestätigt:
beide Mechanismen ermöglichen es Mistral 7B, eine deutlich höhere Geschwindigkeit zu erzielen
als Modelle mit vergleichbarer Parameteranzahl.
Laut Elephas-Vergleich:
Mistral zeichnet sich durch die schnellste Antwortzeit aus – ein Vorteil, der besonders
bei Streaming-Anfragen und bei Aufgaben mit geringer Latenz spürbar ist.
Warum Mistral die optimale Wahl für API-Tests ist
Mistral 7B über Ollama – das ist praktisch die ideale Plattform für die Entwicklung und das Testen von APIs.
Die Gründe sind einfach:
- ✔️ Schneller Start: 4,1 GB – das Modell wird in Minuten heruntergeladen,
statt auf das Herunterladen von 15–20 GB zu warten
- ✔️ OpenAI-kompatibles API: Ollama stellt einen Endpunkt unter
localhost:11434 im OpenAI-Format bereit –
Code, der für die ChatGPT API geschrieben wurde, funktioniert ohne Änderungen
- ✔️ Null Testkosten: beliebig viele Anfragen
ohne Token-Gebühren – praktisch für automatisierte Tests
- ✔️ Stabiles Verhalten: Antworten sind vorhersehbar,
ohne „Überraschungen“ durch Updates des Cloud-Modells
- ✔️ Apache 2.0 Lizenz: kann ohne Einschränkungen
in kommerziellen Projekten verwendet werden
Beispiel: API-Tests mit Mistral über Ollama
Ollama bietet eine mit OpenAI kompatible REST-API. Eine grundlegende Anfrage zum Testen
der Textregeneration:
# Grundlegende Anfrage über curl
curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "mistral",
"messages": [
{
"role": "system",
"content": "Du bist ein Texteditor. Formuliere den Text neu und behalte den Inhalt bei."
},
{
"role": "user",
"content": "Formuliere neu: Das Unternehmen erzielte im Berichtszeitraum hohe Ergebnisse."
}
]
}'
Die gleiche Anfrage über Python – vollständig kompatibel mit dem OpenAI SDK,
es muss nur die base_url geändert werden:
from openai import OpenAI
# Verbindung zum lokalen Ollama anstelle von OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # beliebiger String, Ollama prüft nicht
)
response = client.chat.completions.create(
model="mistral",
messages=[
{
"role": "system",
"content": "Du bist ein Texteditor. Formuliere neu und behalte den Inhalt bei."
},
{
"role": "user",
"content": "Das Unternehmen erzielte im Berichtszeitraum hohe Ergebnisse."
}
]
)
print(response.choices[0].message.content)
Das bedeutet: Wenn du bereits Code hast, der die ChatGPT API aufruft –
um auf lokales Mistral umzuschalten, reicht es, eine Variable zu ändern.
Der restliche Code bleibt unverändert.
Parameter für die Textregeneration
Zwei Parameter, die die Qualität der Umformulierung am stärksten beeinflussen:
- ✔️ temperature: 0,3–0,5 – genauere Umformulierung,
nah am Original. 0,7–0,9 – kreativer, mit Variationen
- ✔️ top_p: 0,9 – Standardbalance zwischen Vielfalt
und Antwortgenauigkeit
response = client.chat.completions.create(
model="mistral",
temperature=0.4, # niedrig für präzise Umformulierung
top_p=0.9,
messages=[...]
)
Einschränkungen von Mistral 7B
- ⚠️ Kontext 32K – nicht geeignet für sehr lange Dokumente
(Llama 3.3 bietet 128K)
- ⚠️ Unterliegt Llama 3.3 bei komplexen analytischen Aufgaben
– HumanEval 43,6 % gegenüber 68,1 %
- ⚠️ Keine Multimodalität – nur Text
- ✔️ RAM: 6 GB
- ✔️ Befehl:
ollama pull mistral
- ✔️ Am besten für: Textregeneration, API-Tests,
Automatisierung, schnelle Antworten
- ✔️ Lizenz: Apache 2.0
6. Gemma 4 E4B – Googles Next-Gen-Modell mit Multimodalität
Gemma 4 wurde im April 2026 veröffentlicht und unterscheidet sich grundlegend von Gemma 3.
Laut
dem offiziellen Ollama-Register sind alle Modelle der Gemma 4-Familie nativ multimodal:
sie akzeptieren Text und Bilder, verfügen über einen konfigurierbaren Denkmodus und ein erweitertes
Kontextfenster von 128K Token für kleine Varianten.
Die Variante E4B (~4B Parameter, ~3 GB in Q4) läuft komfortabel auf 8 GB RAM,
wobei noch Platz für IDE und Browser bleibt.
Im Vergleich zu Gemma 3 hat das Modell erhebliche Verbesserungen erhalten:
Reasoning mit Denkmodus, native Bildverarbeitung in allen Größen,
verbesserte Coding-Benchmarks und native Unterstützung für Function Calling für Agentenaufgaben.
Die Lizenz wurde auf Apache 2.0 geändert – vollständig kostenlos für kommerzielle Nutzung.
- ✔️ RAM: E2B – ~2 GB / E4B – ~3 GB / 26B – 18+ GB
- ✔️ Befehl:
ollama pull gemma4:e4b
- ✔️ Am besten für: allgemeiner Chat, Analyse von Bildern und Screenshots,
Denkmodus für komplexere Aufgaben, 8 GB RAM
- ✔️ Kontext: 128K Token
- ✔️ Lizenz: Apache 2.0
⚠️ Wichtig: Wenn du zuvor gemma3:9b verwendet hast –
E4B ist ein direkter Ersatz mit besserer Qualität bei geringerer Größe.
Mehr über Gemma 4 in Ollama –
im Artikel Gemma 4: Vollständiger Überblick – Größen, Lizenz, Vergleich mit Gemma 3.
Fazit: Llama 3.3 – die Standardwahl für Text und RAG.
Mistral 7B – wenn Geschwindigkeit, API-Tests oder begrenzter RAM wichtig sind.
Gemma 4 E4B – wenn Multimodalität und Denkmodus auf 8 GB RAM benötigt werden.
🎯 Reasoning-моделі для складних задач: DeepSeek R1, QwQ
Reasoning-моделі — це окремий клас LLM, який думає покроково перед
відповіддю. DeepSeek R1 і QwQ значно сильніші за стандартні моделі
на математиці, логічних задачах і складному дебагінгу. Повільніші на
простих запитах — не варто використовувати для щоденного чату.
Для щоденного використання — Llama 3.3. Для задач де важлива точність
міркування — DeepSeek R1. Якщо потрібна ще потужніша reasoning-модель
через API — DeepSeek V4 Pro.
Hugging Face підтверджує:
DeepSeek R1 досягає результатів порівнянних з OpenAI o1 на задачах
математики, коду і reasoning — при повністю відкритому коді і
ліцензії MIT.
Що таке reasoning-модель — і чим вона відрізняється від звичайної
Звичайна мовна модель — Llama, Mistral, Gemma — отримує запит і одразу
генерує відповідь. Вона не «перевіряє» себе в процесі — просто передбачає
наступний токен на основі попередніх.
Reasoning-модель працює інакше. Chris McCormick пояснює:
в основі — ідея «думати перед відповіддю» (Chain-of-Thought).
Модель спочатку генерує ланцюжок міркувань між тегами
<think>...</think>, перевіряє себе,
може повернутися назад і виправити помилку — і лише потім видає
фінальну відповідь.
Sean Goedecke описує
ключову відмінність у навчанні: стандартні моделі навчаються
на прикладах правильних відповідей. DeepSeek R1 навчається через
reinforcement learning — модель сама генерує ланцюжки міркувань,
і отримує винагороду тільки якщо фінальна відповідь правильна.
Це означає, що модель може знаходити способи міркування, яких не було
у навчальних даних.
Як виглядає відповідь DeepSeek R1 на практиці
Надсилаєш запит — і бачиш два блоки у відповіді:
<think>
Потрібно знайти всі прості числа до 50.
Починаю з 2 — ділиться тільки на 1 і на себе, просте.
3 — просте. 4 — ділиться на 2, не просте...
...перевіряю кожне число...
Отже список: 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47
</think>
Прості числа до 50: 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47.
Блок <think> — це процес міркування. Це не помилка
і не службовий текст — це те, що робить модель точнішою.
Trend Micro зазначає:
при використанні в продакшн-застосунках теги <think>
варто фільтрувати у постобробці — показувати кінцевому користувачеві
тільки фінальну відповідь.
7. DeepSeek R1 — найкраща reasoning-модель для локального запуску
IBM описує
DeepSeek R1 як модель що поєднує chain-of-thought reasoning з
reinforcement learning — де автономний агент навчається вирішувати
задачі методом спроб і помилок, без інструкцій від людини.
Результат: на математичних і кодових бенчмарках — рівень OpenAI o1,
але з відкритим кодом і ліцензією MIT.
Офіційні рекомендації DeepSeek
по налаштуванню для найкращого результату:
- ✔️ Temperature: 0.5–0.7 (рекомендовано 0.6) —
занадто низька дає повтори, занадто висока — нерелевантні відповіді
- ✔️ System prompt: не додавати — всі інструкції
мають бути у user prompt
- ✔️ Для математики: додати в промпт
«Please reason step by step, and put your final answer within \boxed{}»
- ✔️ Тестування: запускати кілька разів і усереднювати
результат — модель має певну варіативність
Приклад: як правильно запитати DeepSeek R1
ollama run deepseek-r1:8b
# Для математики — з директивою
"Знайди всі простi числа від 1 до 100. Please reason step by step."
# Для дебагінгу — з повним контекстом помилки
"Ось функція на Python і traceback помилки. Знайди причину і виправ:
[код]
[traceback]"
# Для логічного аналізу
"Проаналізуй переваги і недоліки цього архітектурного рішення
покроково, враховуючи масштабованість і підтримку:
[опис архітектури]"
Коли використовувати DeepSeek R1, а коли — ні
| Задача |
DeepSeek R1 |
Llama 3.3 |
| Математичні задачі |
✔️ Краще |
Прийнятно |
| Складний дебагінг |
✔️ Краще |
Прийнятно |
| Логічний аналіз |
✔️ Краще |
Прийнятно |
| Щоденний чат |
⚠️ Повільно |
✔️ Краще |
| Регенерація тексту |
⚠️ Надлишково |
✔️ Краще |
| Швидкі відповіді |
⚠️ Повільно |
✔️ Краще |
| Продакшн API без фільтрації think-тегів |
⚠️ Потребує постобробки |
✔️ Готово одразу |
- ✔️ RAM: 8B — 8 ГБ / 14B — 16 ГБ / 70B — 40+ ГБ
- ✔️ Команда:
ollama pull deepseek-r1:8b
- ✔️ Ліцензія: MIT — комерційне використання дозволено
- ✔️ Контекст: 128K токенів
- ⚠️ Обмеження: повільна на простих задачах,
теги
<think> потребують фільтрації в продакшні
Якщо R1 8B замало: для задач де потрібна потужність frontier-рівня —
DeepSeek V4 Pro (1.6T параметрів, MIT-ліцензія) доступний через API.
Він не запускається локально на споживацькому залізі, але коштує суттєво дешевше
за GPT-5 і Claude Opus при порівнянній якості reasoning.
Детальніше —
у статті DeepSeek V4 Pro у 2026: повний розбір.
8. QwQ — reasoning від Alibaba
QwQ — reasoning-варіант серії Qwen від Alibaba, побудований на тій
самій ідеї chain-of-thought що і DeepSeek R1. Порівнянний результат
на математичних бенчмарках.
Till Freitag зазначає:
Qwen3-серія загалом — одне з найсильніших сімейств відкритих моделей
у 2026 році.
Практична перевага QwQ: якщо ти вже використовуєш Qwen 2.5 Coder для коду
і Llama 3.3 для тексту — QwQ дозволяє додати reasoning в ту саму
екосистему без додаткових налаштувань. Поведінка з тегами
<think> аналогічна DeepSeek R1.
- ✔️ RAM: від 16 ГБ
- ✔️ Команда:
ollama pull qwq
- ✔️ Краще для: математика, структурований аналіз,
якщо вже в Qwen-екосистемі
- ⚠️ Обмеження: менша спільнота і менше туторіалів
порівняно з DeepSeek R1
Як фільтрувати теги <think> в Python
Якщо використовуєш DeepSeek R1 або QwQ через API і хочеш показувати
користувачам тільки фінальну відповідь:
import re
def extract_answer(response: str) -> str:
"""Прибирає блок <think>...</think> з відповіді моделі."""
clean = re.sub(r'<think>.*?</think>', '', response, flags=re.DOTALL)
return clean.strip()
raw_response = """
<think>
Потрібно знайти помилку в коді...
Бачу що змінна не ініціалізована...
</think>
Помилка на рядку 15: змінна `counter` використовується до ініціалізації.
Додай `counter = 0` перед циклом.
"""
print(extract_answer(raw_response))
# Виведе: Помилка на рядку 15: змінна `counter` використовується до ініціалізації.
# Додай `counter = 0` перед циклом.
Висновок: Reasoning-моделі — окремий інструмент
для конкретних задач. DeepSeek R1 виправданий там де потрібна точність
міркування: математика, складний дебагінг, структурований аналіз.
Для щоденного використання — Llama 3.3 або Mistral залишаються кращим вибором.
Для задач frontier-рівня через API — DeepSeek V4 Pro.
🎯 Моделі для RAG і роботи з документами
RAG потребує двох моделей: одна генерує відповіді, друга створює ембединги для пошуку.
Для ембедингів в Ollama — nomic-embed-text або mxbai-embed-large.
Для генерації по документах — Llama 3.3 або Qwen 2.5 з контекстом 128K.
RAG — це не одна модель, а пайплайн. Правильний вибір ембединг-моделі так само важливий, як вибір генеративної.
Що таке RAG і навіщо потрібні дві моделі
Retrieval-Augmented Generation (RAG) — підхід, де модель відповідає не з пам'яті,
а по твоїх документах. Пайплайн: документ → розбивка на чанки → ембединги →
векторна база → пошук релевантних чанків → генерація відповіді.
Ембединги — числові вектори смислового змісту тексту. Для їх створення потрібна
окрема легка і швидка модель.
Ембединг-моделі для Ollama
- ✔️ nomic-embed-text — найпопулярніша ембединг-модель в Ollama.
Висока якість, підтримка великого контексту, 2 ГБ RAM.
ollama pull nomic-embed-text
- ✔️ mxbai-embed-large — сильні результати на MTEB benchmark.
ollama pull mxbai-embed-large
Генеративні моделі для RAG
- ✔️ Llama 3.3 8B — 128K контекст, добре тримає довгий документний контекст
- ✔️ Qwen 2.5 14B — 128K контекст, краща якість на аналітичних задачах по документах
- ⚠️ Mistral 7B — швидша, але 32K контекст обмежує для великих документів
Детальніше про побудову RAG-пайплайну —
у статті RAG з Ollama: навчи AI відповідати по твоїх документах.
Висновок розділу: Для RAG — nomic-embed-text для ембедингів + Llama 3.3 або Qwen 2.5 для генерації. Контекст 128K — обов'язкова вимога для роботи з довгими документами.
🎯 Моделі для слабкого заліза: що запустити на 8 ГБ RAM
Коротка відповідь:
На 8 ГБ RAM реально запустити якісні моделі для більшості задач.
Llama 3.3 8B — найкращий загальний вибір. Qwen 2.5 Coder 7B — для коду.
Mistral 7B — якщо потрібна швидкість. Phi-4 Mini і Gemma 4 E2B — якщо RAM ще менше.
На 8 ГБ RAM у 2026 вже немає причин жертвувати якістю — правильна модель вирішує більшість реальних задач.
Рекомендації по задачах для 8 ГБ RAM
- ✔️ Загальний чат і текст: Llama 3.3 8B —
ollama pull llama3.3:8b
- ✔️ Код і програмування: Qwen 2.5 Coder 7B —
ollama pull qwen2.5-coder:7b
- ✔️ Швидкі відповіді: Mistral 7B —
ollama pull mistral
- ✔️ Математика і логіка: Phi-4 Mini —
ollama pull phi4-mini
- ✔️ Мультимодальність і текст на 8 ГБ: Gemma 4 E4B —
ollama pull gemma4:e4b
- ✔️ Менше 4 ГБ RAM: Gemma 4 E2B —
ollama pull gemma4:e2b
- ✔️ Reasoning на 8 ГБ: DeepSeek R1 8B —
ollama pull deepseek-r1:8b
Що не варто запускати на 8 ГБ RAM
- ⚠️ Моделі 13B+ у Q4 — будуть повільними або не запустяться
- ⚠️ Qwen 2.5 Coder 14B — потребує 16 ГБ
- ⚠️ Phi-4 14B — потребує 16 ГБ
- ⚠️ Llama 3.3 70B — потребує 40+ ГБ
Детальніше — у статті Ollama на слабкому залізі: повний гайд для 8 ГБ RAM.
Висновок: 8 ГБ RAM — достатній мінімум для якісної роботи з Ollama. Llama 3.3 8B і Qwen 2.5 Coder 7B закривають більшість практичних задач.
📊 Порівняльна таблиця: якість / швидкість / RAM / задача
Зведена таблиця всіх моделей з бенчмарками і рекомендаціями.
Джерела: SitePoint,
Onyx AI Leaderboard,
CodeGPT.
| Модель |
RAM |
HumanEval |
Швидкість |
Контекст |
Краще для |
Команда |
| Llama 3.3 8B |
8 ГБ |
68.1% |
Висока |
128K |
Загальний чат, RAG, текст |
ollama pull llama3.3:8b |
| Qwen 2.5 Coder 14B |
16 ГБ |
72.5% |
Середня |
128K |
Код, дебагінг, review |
ollama pull qwen2.5-coder:14b |
| Qwen 2.5 Coder 7B |
8 ГБ |
~65% |
Висока |
128K |
Код на 8 ГБ RAM |
ollama pull qwen2.5-coder:7b |
| Mistral 7B |
6 ГБ |
43.6% |
Найвища |
32K |
Швидкі відповіді, автоматизація |
ollama pull mistral |
| Phi-4 14B |
16 ГБ |
— |
Середня |
16K |
Математика, логіка, структурований код |
ollama pull phi4 |
| DeepSeek R1 8B |
8 ГБ |
— |
Низька |
128K |
Reasoning, складний аналіз |
ollama pull deepseek-r1:8b |
| Gemma 4 E4B |
~3 ГБ |
— |
Висока |
128K |
Чат, аналіз зображень, thinking mode |
ollama pull gemma4:e4b |
| nomic-embed-text |
2 ГБ |
— |
Дуже висока |
8K |
Ембединги для RAG |
ollama pull nomic-embed-text |
| Llama 3.2 Vision |
8 ГБ |
— |
Середня |
128K |
Аналіз зображень локально |
ollama pull llama3.2-vision |
| QwQ |
16 ГБ |
— |
Низька |
128K |
Математика, reasoning |
ollama pull qwq |
🎯 Як протестувати модель за 5 хвилин — чеклист
Коли я вибирав модель для регенерації тексту і тестування API,
я запустив Mistral 7B і Llama 3.3 8B паралельно з одним і тим самим промптом.
Mistral відповіла швидше — і для моєї задачі це виявилося важливішим ніж
різниця в HumanEval score. Три реальні промпти з твого робочого процесу
дадуть більше інформації ніж будь-який синтетичний бенчмарк.
Якщо ти тільки починаєш з Ollama і ще не розібрався з базовими концепціями —
перед тестуванням моделей рекомендуємо прочитати огляд:
Що таке Ollama і навіщо запускати AI локально у 2026 —
там пояснено як влаштована платформа, які задачі вона вирішує
і кому підходить.
Найкращий спосіб вибрати модель — завантажити двох кандидатів і дати їм однаковий промпт. Результат очевидний за 10 хвилин.
Крок 1. Завантажити і запустити
ollama pull llama3.3:8b
ollama run llama3.3:8b
Крок 2. Перевірити якість на своїй задачі
- ✔️ Для коду: «Напиши функцію на Python яка [твоя задача]» — перевір чи код запускається без помилок
- ✔️ Для тексту: «Перефразуй цей абзац у діловому стилі» — порівняй результат з оригіналом
- ✔️ Для аналізу: «Підсумуй цей документ у 5 пунктах» — вставь реальний текст з роботи
- ✔️ Для reasoning: «Вирішни задачу покроково: [математична або логічна задача]»
Крок 3. Перевірити швидкість
Після відповіді Ollama показує tokens/sec. Для комфортної роботи —
мінімум 10–15 tokens/sec. Якщо менше — розглянь меншу модель або Q4_K_M замість Q8.
Крок 4. Порівняти двох кандидатів на одному промпті
# Термінал 1
ollama run llama3.3:8b "Напиши функцію для парсингу JSON у Python"
# Термінал 2
ollama run qwen2.5-coder:7b "Напиши функцію для парсингу JSON у Python"
Крок 5. Вибрати і видалити зайве
Та модель, що дає кращий результат на твоїй задачі — твоя основна.
Решту можна видалити і звільнити місце на диску:
ollama rm model-name
Висновок: Тестування займає 10–15 хвилин і дає точнішу відповідь ніж будь-який огляд. Починай з Llama 3.3 8B як базової точки порівняння.
❓ Häufig gestellte Fragen (FAQ)
Welches Modell soll ich zuerst herunterladen?
Beginnen Sie mit Llama 3.3 8B – wenn Sie 8 GB RAM haben. Die ausgewogenste Option:
gute Qualität, großer Kontext, aktive Community-Unterstützung.
Befehl: ollama pull llama3.3:8b
Kann ich mehrere Modelle gleichzeitig ausführen?
Technisch ja, aber jedes Modell belegt RAM. Zwei 8B-Modelle benötigen gleichzeitig 12–16 GB.
Ollama entlädt inaktive Modelle nach 5 Minuten automatisch – das hilft, Speicher zu sparen.
Warum lädt Ollama standardmäßig Q4_K_M herunter?
Q4_K_M ist ein optimaler Kompromiss zwischen Größe und Qualität. Für die meisten Aufgaben ist der Unterschied zwischen
Q4_K_M und Q8 unerheblich, aber Q4_K_M ist halb so groß. Wenn Sie maximale Qualität benötigen:
ollama pull llama3.3:8b-instruct-q8_0
Wie überprüfe ich, welche Modelle installiert sind?
ollama list – zeigt alle heruntergeladenen Modelle, ihre Größe und das Download-Datum an.
ollama rm model-name – löscht ein Modell und gibt Speicherplatz auf der Festplatte frei.
Wo finde ich alle verfügbaren Modelle?
Der vollständige Katalog – ollama.com/search.
Gefiltert nach Aufgabe, Größe und Programmiersprache.
Was bedeuten die <think>-Tags in den Antworten von DeepSeek R1?
Dies ist eine Denkweise – ein schrittweiser Prozess des „Nachdenkens“ des Modells vor der endgültigen Antwort.
Dies ist das erwartete Verhalten von Reasoning-Modellen und kein Fehler. Wenn Sie es über die API verwenden –
Sie können die Tags <think>...</think> in der Nachbearbeitung filtern.
Welche Gemma 4-Version soll ich für 8 GB RAM wählen?
Für 8 GB RAM – Gemma 4 E4B (~3 GB in Q4). Unterstützt Text und Bilder,
verfügt über einen Denkmodus und einen 128K-Kontext. Befehl: ollama pull gemma4:e4b.
Wenn Sie weniger als 4 GB RAM haben – E2B (~2 GB): ollama pull gemma4:e2b.
Die große 26B MoE-Variante benötigt 18+ GB und hat ihre eigenen Besonderheiten –
mehr dazu im Artikel
Warum Gemma 4 26B langsam ist und wann sie gewinnt.
Wie aktiviere und deaktiviere ich den Denkmodus in Gemma 4?
Der Denkmodus in Gemma 4 wird über den System-Prompt gesteuert: fügen Sie das Token
<|think|> am Anfang des System-Prompts hinzu, um ihn zu aktivieren,
oder entfernen Sie ihn, um ihn zu deaktivieren. Für einfache Aufgaben verlangsamt der Denkmodus die Antwort
ohne Qualitätssteigerung – es lohnt sich, ihn nur für komplexes Reasoning zu aktivieren.
Details zur Konfiguration –
im Artikel Denkmodus in Gemma 4: wie man ihn aktiviert, wann er benötigt wird.
✅ Schlussfolgerungen
Die Wahl des Ollama-Modells hängt von drei Dingen ab: Hardware, Aufgabe und Geschwindigkeitsanforderungen. Kurze Empfehlungen:
- ✔️ Allgemeiner Start, 8 GB RAM → Llama 3.3 8B
- ✔️ Code, 16 GB RAM → Qwen 2.5 Coder 14B
- ✔️ Code, 8 GB RAM → Qwen 2.5 Coder 7B
- ✔️ Maximale Geschwindigkeit → Mistral 7B
- ✔️ Mathematik und Logik → Phi-4 oder DeepSeek R1
- ✔️ Komplexe Analyse → DeepSeek R1 oder QwQ
- ✔️ RAG und Dokumente → Llama 3.3 + nomic-embed-text
- ✔️ Bilder und Multimodalität → Gemma 4 E4B oder Llama 3.2 Vision
- ✔️ Weniger als 4 GB RAM → Gemma 4 E2B oder Phi-4 Mini
Der beste Weg, um zu wählen, ist, zwei Kandidaten herunterzuladen und sie in 15 Minuten mit echten Aufgaben zu testen.
📎 Quellen
- Ollama Library – offizielles Modellregister
- AI Tool Discovery: Best Local LLM Models 2026 – HumanEval und MATH Benchmarks
- Onyx AI: Self-Hosted LLM Leaderboard 2026 – MMLU-Pro, GPQA Diamond, SWE-bench
- CodeGPT: Choosing the Best Ollama Model – Quantisierung und Modelle für Code
- Blue Headline: Llama vs Mistral vs DeepSeek vs Qwen 2026
- O-Mega AI: Top 10 Open Source LLMs 2026 – Gemma 3, Mistral Small, Phi-3
- Till Freitag: Open-Source LLMs Compared 2026 – 20+ Modelle, Hardware-Anforderungen
- Sebastian Raschka: The Big LLM Architecture Comparison – Qwen3, DeepSeek, Mistral
- WebsCraft – DeepSeek V4 Pro im Jahr 2026: Vollständige Analyse
- WebsCraft – Warum Gemma 4 26B langsam ist und wann sie gewinnt
- WebsCraft – Denkmodus in Gemma 4: wie man ihn aktiviert, wann er benötigt wird