TL;DR in 30 Sekunden: DeepSeek V4 Flash ist ein MoE-Modell mit 284B Parametern (13B aktiv), 1M Token Kontext und MIT-Lizenz. Veröffentlicht am 24. April 2026. Kosten: 0,14 $/0,28 $ pro Million Token – günstiger als Claude Haiku 4.5, Gemini 3.1 Flash und GPT-5.4 Nano. Verfügbar über Ollama Cloud auf NVIDIA Blackwell ohne Download von 160 GB Gewichten. Details unten.
Wie ich von dieser Veröffentlichung erfahren habe
Am Morgen des 25. April erhielt ich eine E-Mail von Ollama: "DeepSeek-V4-Flash ist jetzt auf Ollamas Cloud mit der neuesten NVIDIA Blackwell-Hardware verfügbar." Genau so – ohne große Ankündigungen, nur eine E-Mail von einem Dienst, den ich täglich für den lokalen Modellbetrieb nutze.
Ich verfolge DeepSeek seit R1 – damals hat das Modell buchstäblich die Aktien von NVIDIA abstürzen lassen und alle Vorstellungen davon, wie viel das Training von Frontier-Klasse-Modellen kostet, neu geschrieben. V4 wurde lange erwartet, mehrmals verschoben. Und nun ist es da.
Dieser Artikel ist keine Nacherzählung einer Pressemitteilung. Ich werde versuchen zu analysieren, was für einen Entwickler, der Produkte auf LLMs aufbaut – so wie ich mein RAG-System aufbaue – wirklich wichtig ist.
Kontext: Was vor V4 geschah
Wenn Sie DeepSeek nur oberflächlich verfolgt haben, hier eine kurze Chronologie:
- Dezember 2024: DeepSeek V3 – das erste Open-Source-Modell, das mit offenen Gewichten wirklich mit GPT-4o in Bezug auf die Qualität konkurriert.
- Januar 2025: R1 – ein Reasoning-Modell auf dem Niveau von OpenAI's o1, das im Vergleich zu den Konkurrenten für einen Bruchteil der Kosten trainiert wurde. NVIDIA-Aktien fielen um Hunderte von Milliarden.
- Dezember 2025: V3.2 – ein evolutionäres Update mit 671B Parametern.
- 24. April 2026: V4 Flash und V4 Pro – eine neue Architektur, nicht nur "mehr Parameter".
Es ist wichtig zu verstehen: V4 ist nicht V3.2+. Es ist eine neue Architektur mit einem grundlegend anderen Ansatz für langen Kontext. Details unten.
Flash vs. Pro: Zwei verschiedene Produkte
DeepSeek hat zwei Modelle gleichzeitig veröffentlicht, und sie werden oft verwechselt. Hier sind die Hauptunterschiede:
| Parameter | V4 Flash | V4 Pro |
|---|---|---|
| Parameter (gesamt) | 284B | 1.6T |
| Aktiv pro Token | 13B | 49B |
| Kontext | 1M Token | 1M Token |
| Maximaler Output | 384K Token | 384K Token |
| Gewicht (HuggingFace) | 160 GB | 865 GB |
| Input (Cache-Fehler) | 0,14 $/M | 1,74 $/M |
| Input (Cache-Treffer) | 0,028 $/M | 0,145 $/M |
| Output | 0,28 $/M | 3,48 $/M |
| Lizenz | MIT | MIT |
Die Kernbotschaft, die sich hinter diesen Zahlen verbirgt: Die Input-Kosten für Flash und Pro sind bei Cache-Treffern fast gleich (0,028 $ vs. 0,145 $), aber der Output ist bei Flash 12-mal günstiger (0,28 $ vs. 3,48 $). Für die meisten Produktionsaufgaben machen die Output-Kosten den Hauptteil der Ausgaben aus. Das bedeutet, Flash ist keine "billige Version", sondern ein eigenständiges Produkt für eine andere Klasse von Aufgaben.
Die Preise sind durch die offizielle Dokumentation bestätigt: api-docs.deepseek.com/quick_start/pricing
Eine wichtige Anmerkung aus der offiziellen Dokumentation: Die alten Namen deepseek-chat und deepseek-reasoner werden deprecated. Sie entsprechen nun deepseek-v4-flash in den Modi Non-Thinking und Thinking. Wenn Sie alten Code haben, planen Sie die Migration bis zum 24. Juli 2026.
Architektur: Was ist wirklich neu
Die meisten Übersichten kopieren an dieser Stelle einfach Absätze aus dem Tech-Report. Ich werde versuchen zu erklären, was das praktisch bedeutet.
Architektur: Was ist wirklich neu
Die meisten Übersichten kopieren an dieser Stelle drei Zeilen aus dem Tech-Report und gehen weiter. Ich werde versuchen zu erklären, was diese Änderungen praktisch bedeuten – für einen Entwickler, dem es wichtig ist zu verstehen, nicht "welche Architektur das Modell hat", sondern "warum es sich genau so verhält und was ich damit machen soll".
DeepSeek V4 hat drei wichtige architektonische Neuerungen: Hybrid Attention (CSA + HCA), Manifold-Constrained Hyper-Connections und den Muon Optimizer. Lassen Sie uns jedes einzeln betrachten.
Hybrid Attention: CSA + HCA
Um zu verstehen, wozu das dient, zuerst das Problem, das gelöst wird.
Im Standard-Transformer wächst der Self-Attention-Mechanismus quadratisch mit zunehmendem Kontext. Das bedeutet: Wenn Sie die Kontextlänge verdoppeln, vervierfachen sich die Berechnungen. Bei 1 Mio. Token wird die Standard-Attention praktisch unmöglich – sowohl wegen der Inferenzkosten als auch wegen des Speichers für den KV-Cache.
DeepSeek V4 löst dies durch zwei komplementäre Mechanismen:
CSA (Compressed Sparse Attention) – Anstatt dass jedes Token auf alle anderen Token im Kontext "schaut", konzentriert sich CSA selektiv auf die relevantesten Teile. Das ist ähnlich wie ein erfahrener Leser ein langes Dokument durchsieht: Er liest nicht jedes Wort, sondern weiß, wo er Wichtiges finden kann. Für die meisten Token in einem langen Kontext ist volle Aufmerksamkeit überflüssig, CSA schneidet diese Überflüssigkeit ab.
HCA (Heavily Compressed Attention) – geht noch weiter und komprimiert den KV-Cache aggressiv, indem es eine komprimierte Darstellung anstelle der vollständigen speichert. Weniger KV-Cache bedeutet weniger GPU-Speicher und schnellere Inferenz bei langen Kontexten.
Zusammen ergibt sich folgender Effekt: Bei einem Kontext von 1 Mio. Token verwendet DeepSeek V4 Pro nur 27 % der FLOPs und 10 % des KV-Caches im Vergleich zu V3.2. Flash mit 13B aktiven Parametern ist sogar noch effizienter als Pro.
Was das praktisch für Sie bedeutet:
- RAG mit großen Chunks: Anstatt aggressiv in Chunks von 512–1024 Token zu zerlegen, können größere Dokumentenabschnitte übergeben werden. Weniger Kontextverlust an den Chunk-Grenzen – potenziell bessere Antwortqualität.
- Analyse großer Codebasen: 1 Mio. Token – das ist wirklich ein ganzes Repository. Früher war das eine Marketingzahl, jetzt ist es bei 0,028 $/M bei Cache-Treffern eine reale Option.
- Lange Dialoge: Das Modell kann den gesamten Gesprächskontext speichern, ohne die Historie zwangsweise abzuschneiden.
Wichtige Einschränkung: CSA und HCA sind Annäherungen. Theoretisch kann das Modell bei einem sehr langen Kontext, in dem relevante Details über das gesamte Dokument verstreut sind, etwas Wichtiges übersehen. Praktisch berichtet DeepSeek 83,5 % bei MRCR 1M (Needle-in-a-Haystack bei 1 Mio. Token) – das ist ein starkes Ergebnis, aber keine 100 %. Für kritische Aufgaben, bei denen es wichtig ist, "nichts zu übersehen", testen Sie mit Ihren eigenen Daten.
Quelle: huggingface.co/deepseek-ai/DeepSeek-V4-Flash
mHC: Manifold-Constrained Hyper-Connections
Im Standard-Transformer fügt jede Schicht ihre eigene Darstellung zur vorherigen über eine Residual Connection hinzu – eine einfache Addition. Diese einfache Operation erwies sich sowohl als Stärke als auch als Schwäche: Sie ermöglicht es den Gradienten, während des Trainings zurückzufließen (löst das Problem des verschwindenden Gradienten), erlaubt aber den Schichten nicht, untereinander zu "vereinbaren", wie ihre Darstellungen kombiniert werden sollen.
mHC ersetzt die einfache Addition durch einen ausdrucksstärkeren Mechanismus, bei dem jede Verbindung zwischen den Schichten eigene Gewichtsparameter haben kann. Dabei ist die "Manifold Constraint" eine mathematische Bedingung, die verhindert, dass diese Gewichte während des Trainings auseinanderlaufen und die Stabilität erhalten.
Der praktische Effekt für den Endbenutzer ist zweigeteilt:
- Stabilere Qualität bei komplexen Aufgaben: Standardmäßige Residual Connections führen manchmal zu "Einbrüchen" – eine Anfrage ähnelt der vorherigen, aber die Antwort ist plötzlich schlechter. mHC reduziert diese Variabilität durch eine bessere Signalstabilisierung zwischen den Schichten.
- Bessere Qualität bei großem Reasoning-Budget: Wenn das Modell lange nachdenkt (Think Max-Modus), ist es wichtig, dass das Signal in tieferen Schichten nicht degradiert. mHC löst dieses Problem direkt.
Für die normale API-Nutzung werden Sie mHC nicht direkt "sehen" – aber genau dieses Detail erklärt, warum Flash-Max im Think Max-Modus bei Reasoning-Aufgaben trotz seiner deutlich geringeren Größe an die Qualität von Pro heranreichen kann.
Muon Optimizer
Diese dritte Neuerung betrifft den Trainingsprozess und nicht die Modellarchitektur. Muon ist ein Optimierer der nächsten Generation, eine Alternative zu AdamW, das von den meisten modernen LLMs verwendet wird.
Technisch wendet Muon die Orthogonalisierung von Gradienten mittels der Nesterov-Methode an, was zwei Effekte hat: schnellere Konvergenz während des Trainings und geringere Empfindlichkeit gegenüber der Lernrate. Für Sie als Benutzer bedeutet das eines: Das Modell wurde für die gleiche Anzahl von Token besser trainiert. DeepSeek hat beide Modelle auf 32T Token trainiert – deutlich mehr als V3.2.
Drei Reasoning-Modi: Ein praktischer Leitfaden
Beide Modelle unterstützen drei Modi, aber die Namen in der DeepSeek-Dokumentation unterscheiden sich leicht von dem, was in Übersichten geschrieben wird. Offiziell:
- Non-Thinking – Inferenz ohne interne Chain-of-Thought. Die Antwort wird sofort generiert, ohne "Thinking"-Token. Am schnellsten und günstigsten in Bezug auf die Anzahl der Output-Token.
- Thinking (High) – Das Modell generiert interne Überlegungen vor der Antwort. Thinking-Token werden verbraucht, aber sie sind nicht in den Output-Kosten enthalten, da sie technisch gesehen Reasoning-Token sind und separat abgerechnet werden. Für die meisten komplexen Aufgaben – der optimale Kompromiss.
- Think Max – Maximales Budget für interne Überlegungen. DeepSeek empfiehlt mindestens 384K Kontext für diesen Modus – das ist ein wichtiges Detail: Wenn Ihr Kontext kleiner ist, wird das Modell das Reasoning kürzen und die Qualität sinkt.
So wird es über die API aktiviert (standardmäßig ist im deepseek-v4-flash der Thinking-Modus aktiviert):
# Non-Thinking – am günstigsten
{
"model": "deepseek-v4-flash",
"messages": [...],
"thinking": {"type": "disabled"}
}
# Thinking (High) – Standard
{
"model": "deepseek-v4-flash",
"messages": [...],
"thinking": {"type": "enabled", "budget_tokens": 8000}
}
# Think Max – für komplexe Aufgaben
{
"model": "deepseek-v4-flash",
"messages": [...],
"thinking": {"type": "enabled", "budget_tokens": 32000}
}
Mein praktischer Leitfaden für die Modi:
| Aufgabe | Modus | Warum |
|---|---|---|
| RAG-Chat, FAQ-Antworten | Non-Thinking | Der Kontext wird bereits vom Retrieval-Layer bereitgestellt, Reasoning ist überflüssig. |
| Code-Generierung, Refactoring | Thinking (High) | Es ist notwendig zu "denken", aber nicht übermäßig. |
| Komplexe Fehler, Architektur-Entscheidungen | Think Max | Die Aufgabe erfordert eine tiefgehende Analyse, die Token sind gerechtfertigt. |
| Mathematik, Beweise | Think Max | Hier nähert sich Flash-Max in Bezug auf die Qualität Pro an. |
| Klassifizierung, strukturierter Output | Non-Thinking | Einfache Aufgabe – Reasoning macht es nur teurer. |
In meinem RAG-System verwende ich Non-Thinking als Standard: Der Retrieval-Layer leistet bereits die "schwere Arbeit" der Suche nach relevantem Kontext, und zusätzliches Reasoning des Modells verbessert die Antwortqualität nicht, erhöht aber die Latenz und die Kosten. Think Max halte ich für manuelle Tests und Qualitätsvergleiche – nicht für die Produktion.
Dokumentation zum Thinking-Modus: api-docs.deepseek.com/guides/thinking_mode
Benchmarks: Was ernst zu nehmen ist und was nicht
Ich bin es gewohnt, selbstberichteten Benchmarks skeptisch gegenüberzustehen – besonders wenn ein Modell gerade erst veröffentlicht wurde und noch niemand unabhängige Tests durchgeführt hat. Lassen Sie uns also die Daten im Kontext betrachten: Was messen sie, wo ist Flash wirklich gut, wo unterlegen, und was an diesen Zahlen ist überhaupt zu ignorieren.
Was diese Benchmarks wirklich bedeuten
Vor den Zahlen – wichtiger Kontext, wie die Tabellen von DeepSeek zu lesen sind.
Erstens, fast alle Zahlen von DeepSeek sind selbstberichtete. Unabhängige Bestätigungen zum Zeitpunkt der Veröffentlichung dieses Artikels liegen noch nicht vor. Das bedeutet nicht, dass sie gelogen sind – DeepSeek hat einen Ruf für V3 und R1, wo ihre Benchmarks bestätigt wurden. Aber "vertraue, aber überprüfe".
Zweitens, fast alle starken Zahlen von Flash stammen aus dem Flash-Max-Modus, d.h. mit maximalem Reasoning-Token-Budget. Im normalen Thinking-Modus werden die Zahlen niedriger sein. Im Non-Thinking-Modus noch niedriger. Für API-Aufgaben, bei denen Geschwindigkeit und Preis wichtig sind, werden Sie den Max-Modus wahrscheinlich nicht ständig nutzen.
Coding: Wo Flash am stärksten ist
Bei Coding-Aufgaben zeigt Flash die besten Ergebnisse im Verhältnis zu seinem Preis. Wichtige Zahlen aus der offiziellen Model Card und dem Tech-Report:
| Benchmark | Flash-Max | Pro-Max | Claude Opus 4.6 | Was gemessen wird |
|---|---|---|---|---|
| SWE-bench Verified | 79% | 80,6% | 80,8% | Reale GitHub-Issues |
| LiveCodeBench | ~91% | 93,5% | 88,8% | Wettbewerbsorientiertes Programmieren |
| Terminal Bench 2.0 | 56,9% | 67,9% | 65,4% | Agentenaufgaben im Terminal |
| SWE-bench Pro | ~48% | 55,4% | — | Komplexere reale Issues |
SWE-bench Verified ist der wichtigste dieser Benchmarks, da er reale Aufgaben aus echten Repositories (django, scikit-learn, matplotlib usw.) verwendet. Keine Synthetik, keine Aufgaben aus Olympiaden. Flash-Max bei 79 % ist nur 1,6 Punkte hinter Pro-Max und 1,8 hinter Claude Opus 4.6. Bei einem Preisunterschied von 12x für den Output ist das eine sehr geringe Lücke.
LiveCodeBench – Aufgaben von Codeforces, LeetCode, AtCoder. Flash ist etwas schwächer als Pro, aber beide übertreffen Claude Opus 4.6. Wichtig: Das ist Wettbewerbsorientiertes Programmieren, und diese Aufgaben kommen in der realen Entwicklung selten vor. Aber zur Einschätzung, "ob das Modell algorithmisch denken kann" – ein relevanter Benchmark.
Wo Flash Pro merklich unterlegen ist
Hier ist es wichtig, ehrlich zu sein – und die Zahlen sprechen für sich.
Terminal Bench 2.0: 56,9 % vs. 67,9 % bei Pro – das ist die größte Lücke zwischen Flash und Pro unter den Coding-Benchmarks. Terminal Bench misst die Fähigkeit eines Agenten, eigenständig langwierige Aufgaben im Terminal auszuführen: Abhängigkeiten installieren, Tests ausführen, Fehler beheben, mit dem Dateisystem interagieren. Der Unterschied von 11 Punkten hier ist erheblich. Das bedeutet, dass ein Flash-Agent bei langen autonomen Aufgaben, bei denen kein Mensch in der Nähe ist, häufiger "stecken bleibt".
MCPAtlas: Flash-Max ist schwächer. MCPAtlas bewertet die Arbeit mit einer großen Anzahl externer Tools über MCP (Model Context Protocol). Pro-Max erzielt 73,6 %, Flash-Max – merklich weniger. Wenn Ihr Agent in einer Sitzung Dutzende von Tools jonglieren muss – Flash ist nicht die beste Wahl.
Wissen und Reasoning: HLE, SimpleQA, MMLU-Pro. Hier macht sich die Modellgröße bemerkbar. Flash erzielt bei MMLU-Pro 86,4 %, Pro – 87,5 %. Der Unterschied ist gering, aber bei HLE (Humanity's Last Exam – die schwierigsten Cross-Domain-Fragen) liegt Flash merklich zurück. Für Aufgaben, die eine breite Faktenbasis erfordern – Pro ist besser.
| Benchmark | Flash-Max | Pro-Max | Was gemessen wird |
|---|---|---|---|
| HLE (Humanity's Last Exam) | 34,8 | 37,7 | Die schwierigsten Fragen auf Expertenniveau |
| MMLU-Pro | 86,4% | 87,5% | Breite akademische Wissensbasis |
| GPQA Diamond | 88,1 | 90,1 | PhD-Level-Fragen aus der Wissenschaft |
| Terminal Bench 2.0 | 56,9% | 67,9% | Autonome Agentenaufgaben |
Quelle der Zahlen: huggingface.co/deepseek-ai/DeepSeek-V4-Flash und felloai.com/deepseek-v4/
Eine Nuance bei Flash, die in Übersichten fehlt
Die meisten Materialien vergleichen Flash und Pro anhand allgemeiner Zahlen. Aber es gibt ein wichtiges technisches Detail aus dem Tech-Report: Flash verwendet bei einem Kontext von 1 Mio. Token nur 10 % der FLOPs und 7 % des KV-Caches von V3.2. Bei Pro sind es 27 % bzw. 10 %.
Das bedeutet, Flash ist sogar im relativen Sinne effizienter als Pro bei langen Kontexten – und genau deshalb kann es qualitativ bei deutlich geringerer Größe konkurrieren. Ein kleines Modell, das keine Ressourcen für "unnötige" Aufmerksamkeit in langem Kontext verschwendet, kann ein größeres Modell mit Standardarchitektur bei Aufgaben schlagen, bei denen der Kontext wichtig ist, nicht die Anzahl der Parameter.
Mathematik: Wo Flash unerwartet stark ist
Das ist eine weniger bekannte Tatsache, aber bei formaler Mathematik zeigt Flash-Max Ergebnisse nahe Pro. Bei Putnam-200 Pass@8 erzielt Flash-Max 81,0 – deutlich höher als Seed-2.0-Pro (35,5) und Gemini-3-Pro (26,5). Das ist ein unkonventioneller Benchmark und es gibt Fragen zur Methodik, aber das Ergebnis ist beeindruckend.
Bei IMOAnswerBench ist Flash-Max ebenfalls nahe an Pro. Für Aufgaben, die mathematisches Denken mit einem großen Thinking-Budget erfordern – Flash-Max kann kosteneffizienter sein, sogar im Vergleich zu teureren geschlossenen Modellen.
Gesamte ehrliche Einschätzung: Was V4 wirklich für den Markt bedeutet
DeepSeek selbst schrieb im Tech-Report, dass V4 "state-of-the-art Frontier-Modellen um etwa 3 bis 6 Monate hinterherhinkt." Das ist eine seltene Ehrlichkeit von einem KI-Labor – die meisten Hersteller veröffentlichen solche Formulierungen nicht in offiziellen Materialien.
GPT-5.4 und Gemini 3.1 Pro sind bei Wissen und den schwierigsten Reasoning-Aufgaben voraus. Claude Opus 4.6 ist bei HLE und SWE-bench Verified voraus (minimal, aber voraus). Das sind Fakten.
Aber es gibt eine andere Seite dieses Vergleichs. Hier ist der tatsächliche Unterschied in den Output-Kosten zwischen Flash und führenden geschlossenen Modellen:
| Modell | Output $/M | Teurer als Flash um das X-fache |
|---|---|---|
| DeepSeek V4 Flash | 0,28 $ | — |
| GPT-5.4 Nano | ~$1,20 | 4,3× |
| Gemini 3.1 Flash | ~$1,05 | 3,75× |
| Claude Haiku 4.5 | ~$4,00 | 14,3× |
| Claude Opus 4.7 | ~$25,00 | 89× |
| GPT-5.5 | ~$30,00 | 107× |
Ein Open-Source-Modell mit MIT-Lizenz, das 3-6 Monate hinter geschlossenen Frontier-Modellen zurückliegt und dabei 14-mal günstiger ist als Claude Haiku – das ist das Hauptargument. Nicht "DeepSeek ist das Beste", sondern "DeepSeek verändert die de facto Kosten/Qualitäts-Berechnung für die meisten Produktaufgaben".
Für mein RAG ist die praktische Frage nicht "welcher Benchmark ist höher", sondern "wo ist die Qualität ausreichend für meine Benutzer bei akzeptablen Kosten". Genau für eine solche Wahl sind diese Zahlen wichtig – nicht als Rangliste der Gewinner, sondern als Eingabedaten für die Entscheidung.