DeepSeek V4 Flash im Jahr 2026: Was es ist, was es kostet und wie man es ohne GPU startet

Aktualisiert:
DeepSeek V4 Flash im Jahr 2026: Was es ist, was es kostet und wie man es ohne GPU startet

TL;DR in 30 Sekunden: DeepSeek V4 Flash ist ein MoE-Modell mit 284B Parametern (13B aktiv), 1M Token Kontext und MIT-Lizenz. Veröffentlicht am 24. April 2026. Kosten: 0,14 $/0,28 $ pro Million Token – günstiger als Claude Haiku 4.5, Gemini 3.1 Flash und GPT-5.4 Nano. Verfügbar über Ollama Cloud auf NVIDIA Blackwell ohne Download von 160 GB Gewichten. Details unten.

Wie ich von dieser Veröffentlichung erfahren habe

Am Morgen des 25. April erhielt ich eine E-Mail von Ollama: "DeepSeek-V4-Flash ist jetzt auf Ollamas Cloud mit der neuesten NVIDIA Blackwell-Hardware verfügbar." Genau so – ohne große Ankündigungen, nur eine E-Mail von einem Dienst, den ich täglich für den lokalen Modellbetrieb nutze.

Ich verfolge DeepSeek seit R1 – damals hat das Modell buchstäblich die Aktien von NVIDIA abstürzen lassen und alle Vorstellungen davon, wie viel das Training von Frontier-Klasse-Modellen kostet, neu geschrieben. V4 wurde lange erwartet, mehrmals verschoben. Und nun ist es da.

Dieser Artikel ist keine Nacherzählung einer Pressemitteilung. Ich werde versuchen zu analysieren, was für einen Entwickler, der Produkte auf LLMs aufbaut – so wie ich mein RAG-System aufbaue – wirklich wichtig ist.

Kontext: Was vor V4 geschah

Wenn Sie DeepSeek nur oberflächlich verfolgt haben, hier eine kurze Chronologie:

  • Dezember 2024: DeepSeek V3 – das erste Open-Source-Modell, das mit offenen Gewichten wirklich mit GPT-4o in Bezug auf die Qualität konkurriert.
  • Januar 2025: R1 – ein Reasoning-Modell auf dem Niveau von OpenAI's o1, das im Vergleich zu den Konkurrenten für einen Bruchteil der Kosten trainiert wurde. NVIDIA-Aktien fielen um Hunderte von Milliarden.
  • Dezember 2025: V3.2 – ein evolutionäres Update mit 671B Parametern.
  • 24. April 2026: V4 Flash und V4 Pro – eine neue Architektur, nicht nur "mehr Parameter".

Es ist wichtig zu verstehen: V4 ist nicht V3.2+. Es ist eine neue Architektur mit einem grundlegend anderen Ansatz für langen Kontext. Details unten.

Flash vs. Pro: Zwei verschiedene Produkte

DeepSeek hat zwei Modelle gleichzeitig veröffentlicht, und sie werden oft verwechselt. Hier sind die Hauptunterschiede:

Parameter V4 Flash V4 Pro
Parameter (gesamt) 284B 1.6T
Aktiv pro Token 13B 49B
Kontext 1M Token 1M Token
Maximaler Output 384K Token 384K Token
Gewicht (HuggingFace) 160 GB 865 GB
Input (Cache-Fehler) 0,14 $/M 1,74 $/M
Input (Cache-Treffer) 0,028 $/M 0,145 $/M
Output 0,28 $/M 3,48 $/M
Lizenz MIT MIT

Die Kernbotschaft, die sich hinter diesen Zahlen verbirgt: Die Input-Kosten für Flash und Pro sind bei Cache-Treffern fast gleich (0,028 $ vs. 0,145 $), aber der Output ist bei Flash 12-mal günstiger (0,28 $ vs. 3,48 $). Für die meisten Produktionsaufgaben machen die Output-Kosten den Hauptteil der Ausgaben aus. Das bedeutet, Flash ist keine "billige Version", sondern ein eigenständiges Produkt für eine andere Klasse von Aufgaben.

Die Preise sind durch die offizielle Dokumentation bestätigt: api-docs.deepseek.com/quick_start/pricing

Eine wichtige Anmerkung aus der offiziellen Dokumentation: Die alten Namen deepseek-chat und deepseek-reasoner werden deprecated. Sie entsprechen nun deepseek-v4-flash in den Modi Non-Thinking und Thinking. Wenn Sie alten Code haben, planen Sie die Migration bis zum 24. Juli 2026.

Architektur: Was ist wirklich neu

Die meisten Übersichten kopieren an dieser Stelle einfach Absätze aus dem Tech-Report. Ich werde versuchen zu erklären, was das praktisch bedeutet.

Architektur: Was ist wirklich neu

Die meisten Übersichten kopieren an dieser Stelle drei Zeilen aus dem Tech-Report und gehen weiter. Ich werde versuchen zu erklären, was diese Änderungen praktisch bedeuten – für einen Entwickler, dem es wichtig ist zu verstehen, nicht "welche Architektur das Modell hat", sondern "warum es sich genau so verhält und was ich damit machen soll".

DeepSeek V4 hat drei wichtige architektonische Neuerungen: Hybrid Attention (CSA + HCA), Manifold-Constrained Hyper-Connections und den Muon Optimizer. Lassen Sie uns jedes einzeln betrachten.

Hybrid Attention: CSA + HCA

Um zu verstehen, wozu das dient, zuerst das Problem, das gelöst wird.

Im Standard-Transformer wächst der Self-Attention-Mechanismus quadratisch mit zunehmendem Kontext. Das bedeutet: Wenn Sie die Kontextlänge verdoppeln, vervierfachen sich die Berechnungen. Bei 1 Mio. Token wird die Standard-Attention praktisch unmöglich – sowohl wegen der Inferenzkosten als auch wegen des Speichers für den KV-Cache.

DeepSeek V4 löst dies durch zwei komplementäre Mechanismen:

CSA (Compressed Sparse Attention) – Anstatt dass jedes Token auf alle anderen Token im Kontext "schaut", konzentriert sich CSA selektiv auf die relevantesten Teile. Das ist ähnlich wie ein erfahrener Leser ein langes Dokument durchsieht: Er liest nicht jedes Wort, sondern weiß, wo er Wichtiges finden kann. Für die meisten Token in einem langen Kontext ist volle Aufmerksamkeit überflüssig, CSA schneidet diese Überflüssigkeit ab.

HCA (Heavily Compressed Attention) – geht noch weiter und komprimiert den KV-Cache aggressiv, indem es eine komprimierte Darstellung anstelle der vollständigen speichert. Weniger KV-Cache bedeutet weniger GPU-Speicher und schnellere Inferenz bei langen Kontexten.

Zusammen ergibt sich folgender Effekt: Bei einem Kontext von 1 Mio. Token verwendet DeepSeek V4 Pro nur 27 % der FLOPs und 10 % des KV-Caches im Vergleich zu V3.2. Flash mit 13B aktiven Parametern ist sogar noch effizienter als Pro.

Was das praktisch für Sie bedeutet:

  • RAG mit großen Chunks: Anstatt aggressiv in Chunks von 512–1024 Token zu zerlegen, können größere Dokumentenabschnitte übergeben werden. Weniger Kontextverlust an den Chunk-Grenzen – potenziell bessere Antwortqualität.
  • Analyse großer Codebasen: 1 Mio. Token – das ist wirklich ein ganzes Repository. Früher war das eine Marketingzahl, jetzt ist es bei 0,028 $/M bei Cache-Treffern eine reale Option.
  • Lange Dialoge: Das Modell kann den gesamten Gesprächskontext speichern, ohne die Historie zwangsweise abzuschneiden.

Wichtige Einschränkung: CSA und HCA sind Annäherungen. Theoretisch kann das Modell bei einem sehr langen Kontext, in dem relevante Details über das gesamte Dokument verstreut sind, etwas Wichtiges übersehen. Praktisch berichtet DeepSeek 83,5 % bei MRCR 1M (Needle-in-a-Haystack bei 1 Mio. Token) – das ist ein starkes Ergebnis, aber keine 100 %. Für kritische Aufgaben, bei denen es wichtig ist, "nichts zu übersehen", testen Sie mit Ihren eigenen Daten.

Quelle: huggingface.co/deepseek-ai/DeepSeek-V4-Flash

mHC: Manifold-Constrained Hyper-Connections

Im Standard-Transformer fügt jede Schicht ihre eigene Darstellung zur vorherigen über eine Residual Connection hinzu – eine einfache Addition. Diese einfache Operation erwies sich sowohl als Stärke als auch als Schwäche: Sie ermöglicht es den Gradienten, während des Trainings zurückzufließen (löst das Problem des verschwindenden Gradienten), erlaubt aber den Schichten nicht, untereinander zu "vereinbaren", wie ihre Darstellungen kombiniert werden sollen.

mHC ersetzt die einfache Addition durch einen ausdrucksstärkeren Mechanismus, bei dem jede Verbindung zwischen den Schichten eigene Gewichtsparameter haben kann. Dabei ist die "Manifold Constraint" eine mathematische Bedingung, die verhindert, dass diese Gewichte während des Trainings auseinanderlaufen und die Stabilität erhalten.

Der praktische Effekt für den Endbenutzer ist zweigeteilt:

  • Stabilere Qualität bei komplexen Aufgaben: Standardmäßige Residual Connections führen manchmal zu "Einbrüchen" – eine Anfrage ähnelt der vorherigen, aber die Antwort ist plötzlich schlechter. mHC reduziert diese Variabilität durch eine bessere Signalstabilisierung zwischen den Schichten.
  • Bessere Qualität bei großem Reasoning-Budget: Wenn das Modell lange nachdenkt (Think Max-Modus), ist es wichtig, dass das Signal in tieferen Schichten nicht degradiert. mHC löst dieses Problem direkt.

Für die normale API-Nutzung werden Sie mHC nicht direkt "sehen" – aber genau dieses Detail erklärt, warum Flash-Max im Think Max-Modus bei Reasoning-Aufgaben trotz seiner deutlich geringeren Größe an die Qualität von Pro heranreichen kann.

Muon Optimizer

Diese dritte Neuerung betrifft den Trainingsprozess und nicht die Modellarchitektur. Muon ist ein Optimierer der nächsten Generation, eine Alternative zu AdamW, das von den meisten modernen LLMs verwendet wird.

Technisch wendet Muon die Orthogonalisierung von Gradienten mittels der Nesterov-Methode an, was zwei Effekte hat: schnellere Konvergenz während des Trainings und geringere Empfindlichkeit gegenüber der Lernrate. Für Sie als Benutzer bedeutet das eines: Das Modell wurde für die gleiche Anzahl von Token besser trainiert. DeepSeek hat beide Modelle auf 32T Token trainiert – deutlich mehr als V3.2.

Drei Reasoning-Modi: Ein praktischer Leitfaden

Beide Modelle unterstützen drei Modi, aber die Namen in der DeepSeek-Dokumentation unterscheiden sich leicht von dem, was in Übersichten geschrieben wird. Offiziell:

  • Non-Thinking – Inferenz ohne interne Chain-of-Thought. Die Antwort wird sofort generiert, ohne "Thinking"-Token. Am schnellsten und günstigsten in Bezug auf die Anzahl der Output-Token.
  • Thinking (High) – Das Modell generiert interne Überlegungen vor der Antwort. Thinking-Token werden verbraucht, aber sie sind nicht in den Output-Kosten enthalten, da sie technisch gesehen Reasoning-Token sind und separat abgerechnet werden. Für die meisten komplexen Aufgaben – der optimale Kompromiss.
  • Think Max – Maximales Budget für interne Überlegungen. DeepSeek empfiehlt mindestens 384K Kontext für diesen Modus – das ist ein wichtiges Detail: Wenn Ihr Kontext kleiner ist, wird das Modell das Reasoning kürzen und die Qualität sinkt.

So wird es über die API aktiviert (standardmäßig ist im deepseek-v4-flash der Thinking-Modus aktiviert):

# Non-Thinking – am günstigsten
{
  "model": "deepseek-v4-flash",
  "messages": [...],
  "thinking": {"type": "disabled"}
}

# Thinking (High) – Standard
{
  "model": "deepseek-v4-flash",
  "messages": [...],
  "thinking": {"type": "enabled", "budget_tokens": 8000}
}

# Think Max – für komplexe Aufgaben
{
  "model": "deepseek-v4-flash",
  "messages": [...],
  "thinking": {"type": "enabled", "budget_tokens": 32000}
}

Mein praktischer Leitfaden für die Modi:

Aufgabe Modus Warum
RAG-Chat, FAQ-Antworten Non-Thinking Der Kontext wird bereits vom Retrieval-Layer bereitgestellt, Reasoning ist überflüssig.
Code-Generierung, Refactoring Thinking (High) Es ist notwendig zu "denken", aber nicht übermäßig.
Komplexe Fehler, Architektur-Entscheidungen Think Max Die Aufgabe erfordert eine tiefgehende Analyse, die Token sind gerechtfertigt.
Mathematik, Beweise Think Max Hier nähert sich Flash-Max in Bezug auf die Qualität Pro an.
Klassifizierung, strukturierter Output Non-Thinking Einfache Aufgabe – Reasoning macht es nur teurer.

In meinem RAG-System verwende ich Non-Thinking als Standard: Der Retrieval-Layer leistet bereits die "schwere Arbeit" der Suche nach relevantem Kontext, und zusätzliches Reasoning des Modells verbessert die Antwortqualität nicht, erhöht aber die Latenz und die Kosten. Think Max halte ich für manuelle Tests und Qualitätsvergleiche – nicht für die Produktion.

Dokumentation zum Thinking-Modus: api-docs.deepseek.com/guides/thinking_mode

Benchmarks: Was ernst zu nehmen ist und was nicht

Ich bin es gewohnt, selbstberichteten Benchmarks skeptisch gegenüberzustehen – besonders wenn ein Modell gerade erst veröffentlicht wurde und noch niemand unabhängige Tests durchgeführt hat. Lassen Sie uns also die Daten im Kontext betrachten: Was messen sie, wo ist Flash wirklich gut, wo unterlegen, und was an diesen Zahlen ist überhaupt zu ignorieren.

Was diese Benchmarks wirklich bedeuten

Vor den Zahlen – wichtiger Kontext, wie die Tabellen von DeepSeek zu lesen sind.

Erstens, fast alle Zahlen von DeepSeek sind selbstberichtete. Unabhängige Bestätigungen zum Zeitpunkt der Veröffentlichung dieses Artikels liegen noch nicht vor. Das bedeutet nicht, dass sie gelogen sind – DeepSeek hat einen Ruf für V3 und R1, wo ihre Benchmarks bestätigt wurden. Aber "vertraue, aber überprüfe".

Zweitens, fast alle starken Zahlen von Flash stammen aus dem Flash-Max-Modus, d.h. mit maximalem Reasoning-Token-Budget. Im normalen Thinking-Modus werden die Zahlen niedriger sein. Im Non-Thinking-Modus noch niedriger. Für API-Aufgaben, bei denen Geschwindigkeit und Preis wichtig sind, werden Sie den Max-Modus wahrscheinlich nicht ständig nutzen.

Coding: Wo Flash am stärksten ist

Bei Coding-Aufgaben zeigt Flash die besten Ergebnisse im Verhältnis zu seinem Preis. Wichtige Zahlen aus der offiziellen Model Card und dem Tech-Report:

Benchmark Flash-Max Pro-Max Claude Opus 4.6 Was gemessen wird
SWE-bench Verified 79% 80,6% 80,8% Reale GitHub-Issues
LiveCodeBench ~91% 93,5% 88,8% Wettbewerbsorientiertes Programmieren
Terminal Bench 2.0 56,9% 67,9% 65,4% Agentenaufgaben im Terminal
SWE-bench Pro ~48% 55,4% Komplexere reale Issues

SWE-bench Verified ist der wichtigste dieser Benchmarks, da er reale Aufgaben aus echten Repositories (django, scikit-learn, matplotlib usw.) verwendet. Keine Synthetik, keine Aufgaben aus Olympiaden. Flash-Max bei 79 % ist nur 1,6 Punkte hinter Pro-Max und 1,8 hinter Claude Opus 4.6. Bei einem Preisunterschied von 12x für den Output ist das eine sehr geringe Lücke.

LiveCodeBench – Aufgaben von Codeforces, LeetCode, AtCoder. Flash ist etwas schwächer als Pro, aber beide übertreffen Claude Opus 4.6. Wichtig: Das ist Wettbewerbsorientiertes Programmieren, und diese Aufgaben kommen in der realen Entwicklung selten vor. Aber zur Einschätzung, "ob das Modell algorithmisch denken kann" – ein relevanter Benchmark.

Wo Flash Pro merklich unterlegen ist

Hier ist es wichtig, ehrlich zu sein – und die Zahlen sprechen für sich.

Terminal Bench 2.0: 56,9 % vs. 67,9 % bei Pro – das ist die größte Lücke zwischen Flash und Pro unter den Coding-Benchmarks. Terminal Bench misst die Fähigkeit eines Agenten, eigenständig langwierige Aufgaben im Terminal auszuführen: Abhängigkeiten installieren, Tests ausführen, Fehler beheben, mit dem Dateisystem interagieren. Der Unterschied von 11 Punkten hier ist erheblich. Das bedeutet, dass ein Flash-Agent bei langen autonomen Aufgaben, bei denen kein Mensch in der Nähe ist, häufiger "stecken bleibt".

MCPAtlas: Flash-Max ist schwächer. MCPAtlas bewertet die Arbeit mit einer großen Anzahl externer Tools über MCP (Model Context Protocol). Pro-Max erzielt 73,6 %, Flash-Max – merklich weniger. Wenn Ihr Agent in einer Sitzung Dutzende von Tools jonglieren muss – Flash ist nicht die beste Wahl.

Wissen und Reasoning: HLE, SimpleQA, MMLU-Pro. Hier macht sich die Modellgröße bemerkbar. Flash erzielt bei MMLU-Pro 86,4 %, Pro – 87,5 %. Der Unterschied ist gering, aber bei HLE (Humanity's Last Exam – die schwierigsten Cross-Domain-Fragen) liegt Flash merklich zurück. Für Aufgaben, die eine breite Faktenbasis erfordern – Pro ist besser.

Benchmark Flash-Max Pro-Max Was gemessen wird
HLE (Humanity's Last Exam) 34,8 37,7 Die schwierigsten Fragen auf Expertenniveau
MMLU-Pro 86,4% 87,5% Breite akademische Wissensbasis
GPQA Diamond 88,1 90,1 PhD-Level-Fragen aus der Wissenschaft
Terminal Bench 2.0 56,9% 67,9% Autonome Agentenaufgaben

Quelle der Zahlen: huggingface.co/deepseek-ai/DeepSeek-V4-Flash und felloai.com/deepseek-v4/

Eine Nuance bei Flash, die in Übersichten fehlt

Die meisten Materialien vergleichen Flash und Pro anhand allgemeiner Zahlen. Aber es gibt ein wichtiges technisches Detail aus dem Tech-Report: Flash verwendet bei einem Kontext von 1 Mio. Token nur 10 % der FLOPs und 7 % des KV-Caches von V3.2. Bei Pro sind es 27 % bzw. 10 %.

Das bedeutet, Flash ist sogar im relativen Sinne effizienter als Pro bei langen Kontexten – und genau deshalb kann es qualitativ bei deutlich geringerer Größe konkurrieren. Ein kleines Modell, das keine Ressourcen für "unnötige" Aufmerksamkeit in langem Kontext verschwendet, kann ein größeres Modell mit Standardarchitektur bei Aufgaben schlagen, bei denen der Kontext wichtig ist, nicht die Anzahl der Parameter.

Mathematik: Wo Flash unerwartet stark ist

Das ist eine weniger bekannte Tatsache, aber bei formaler Mathematik zeigt Flash-Max Ergebnisse nahe Pro. Bei Putnam-200 Pass@8 erzielt Flash-Max 81,0 – deutlich höher als Seed-2.0-Pro (35,5) und Gemini-3-Pro (26,5). Das ist ein unkonventioneller Benchmark und es gibt Fragen zur Methodik, aber das Ergebnis ist beeindruckend.

Bei IMOAnswerBench ist Flash-Max ebenfalls nahe an Pro. Für Aufgaben, die mathematisches Denken mit einem großen Thinking-Budget erfordern – Flash-Max kann kosteneffizienter sein, sogar im Vergleich zu teureren geschlossenen Modellen.

Gesamte ehrliche Einschätzung: Was V4 wirklich für den Markt bedeutet

DeepSeek selbst schrieb im Tech-Report, dass V4 "state-of-the-art Frontier-Modellen um etwa 3 bis 6 Monate hinterherhinkt." Das ist eine seltene Ehrlichkeit von einem KI-Labor – die meisten Hersteller veröffentlichen solche Formulierungen nicht in offiziellen Materialien.

GPT-5.4 und Gemini 3.1 Pro sind bei Wissen und den schwierigsten Reasoning-Aufgaben voraus. Claude Opus 4.6 ist bei HLE und SWE-bench Verified voraus (minimal, aber voraus). Das sind Fakten.

Aber es gibt eine andere Seite dieses Vergleichs. Hier ist der tatsächliche Unterschied in den Output-Kosten zwischen Flash und führenden geschlossenen Modellen:

Modell Output $/M Teurer als Flash um das X-fache
DeepSeek V4 Flash 0,28 $
GPT-5.4 Nano ~$1,20 4,3×
Gemini 3.1 Flash ~$1,05 3,75×
Claude Haiku 4.5 ~$4,00 14,3×
Claude Opus 4.7 ~$25,00 89×
GPT-5.5 ~$30,00 107×

Ein Open-Source-Modell mit MIT-Lizenz, das 3-6 Monate hinter geschlossenen Frontier-Modellen zurückliegt und dabei 14-mal günstiger ist als Claude Haiku – das ist das Hauptargument. Nicht "DeepSeek ist das Beste", sondern "DeepSeek verändert die de facto Kosten/Qualitäts-Berechnung für die meisten Produktaufgaben".

Für mein RAG ist die praktische Frage nicht "welcher Benchmark ist höher", sondern "wo ist die Qualität ausreichend für meine Benutzer bei akzeptablen Kosten". Genau für eine solche Wahl sind diese Zahlen wichtig – nicht als Rangliste der Gewinner, sondern als Eingabedaten für die Entscheidung.

DeepSeek V4 Flash im Jahr 2026: Was es ist, was es kostet und wie man es ohne GPU startet

Wie man DeepSeek V4 Flash ohne GPU startet

Flash wiegt 160 GB auf HuggingFace. Für den lokalen Betrieb wird ein Multi-GPU-Server mit Dutzenden Gigabyte Videospeicher benötigt – kein Mac, kein Laptop, nicht einmal eine mittelmäßige Workstation. Aber es gibt drei Möglichkeiten, das Modell sofort ohne spezielle Hardware zu nutzen.

Option 1: Ollama Cloud – der einfachste Start

Am 25. April verschickte Ollama eine offizielle E-Mail an Abonnenten: Flash ist in ihrem Cloud verfügbar, gehostet auf NVIDIA Blackwell. Die folgenden Befehle sind verifiziert aus der Quelle, keine theoretischen Beispiele.

Schritt 1: Installieren oder aktualisieren Sie Ollama auf die aktuelle Version. Der Befehl ollama launch erschien im Januar 2026 – wenn Ihre Version älter ist, funktioniert er nicht.

# Empfohlen: Offizieller Installer – immer die neueste Version
curl -fsSL https://ollama.com/install.sh | sh

# oder laden Sie .dmg / .exe direkt von ollama.com/download herunter
# (Homebrew kann 1-2 Wochen hinter dem aktuellen Release zurückliegen)

Schritt 2: Melden Sie sich an – Cloud-Modelle erfordern ein Ollama-Konto:

ollama signin

Ein Browser öffnet sich auf der Seite ollama.com/connect – dort wird Ihre Maschine über einen öffentlichen SSH-Schlüssel registriert. Nach der Bestätigung werden die Anmeldeinformationen lokal gespeichert und automatisch für alle nachfolgenden Cloud-Anfragen verwendet. Ohne diesen Schritt funktionieren :cloud-Modelle nicht.

Für CI/CD oder Headless-Umgebungen, in denen kein Browser verfügbar ist – eine Alternative über einen API-Schlüssel von der Kontoeinstellungsseite:

export OLLAMA_API_KEY=ollama_...  # anstelle von ollama signin

Schritt 3: Starten Sie – je nachdem, was Sie benötigen:

# Einfach mit dem Modell im Terminal chatten
ollama run deepseek-v4-flash:cloud

# Mit Claude Code – agentisches Coding in Ihrem Repository
ollama launch claude --model deepseek-v4-flash:cloud

# Mit OpenClaw – alternativer Coding-Agent
ollama launch openclaw --model deepseek-v4-flash:cloud

# Mit Hermes Agent – für Research- und Automatisierungsaufgaben
ollama launch hermes --model deepseek-v4-flash:cloud

Wichtiger Hinweis: Im Gegensatz zu lokalen Modellen müssen Sie ollama pull nicht ausführen – das :cloud-Modell startet sofort, ohne auf Ihre Festplatte heruntergeladen zu werden. Keine Umgebungsvariablen, keine Konfigurationsdateien – das ist genau das "Killer-Feature" von ollama launch, das im Januar 2026 erschien. Zuvor musste man manuell den API-Endpunkt angeben, das Modell auswählen, die Konfigurationen jedes Agenten einzeln bearbeiten.

Was passiert unter der Haube bei :cloud

Wenn Sie deepseek-v4-flash:cloud starten, fungiert der lokale Ollama-Server als autorisierter Proxy: Ihre Anfrage geht an die Ollama-Server, wird dort auf der Blackwell GPU verarbeitet, das Ergebnis wird an Sie zurückgegeben. Lokal wird nichts heruntergeladen, außer Ollama selbst.

Technisch sieht das so aus: Der lokale Daemon empfängt eine Anfrage, erkennt das Suffix :cloud, normalisiert den Modellnamen für den Remote-Endpunkt, fügt die Auth-Header Ihres SSH-Schlüssels hinzu und leitet die Anfrage an die Cloud-Infrastruktur von Ollama weiter. Die Antwort wird in Echtzeit zurückgestreamt – genau wie bei einem lokalen Modell. Aus Sicht Ihres Codes oder Agenten ändert sich nichts, alles greift weiterhin auf localhost:11434 zu.

Laut Ollama werden die Modelle über NVIDIA Cloud Providers (NCPs) gehostet, mit der Bedingung von Null-Logging und Null-Datenspeicherung. Prompts werden nicht gespeichert und nicht zum Training verwendet – dies wird in der offiziellen Dokumentation bestätigt. Ollama gibt auch an, dass Daten je nach Auslastung in den USA, Europa und Singapur verarbeitet werden können.

Limits und Tarife von Ollama Cloud

Wichtig zu verstehen vor dem Start: Ollama Cloud ist kein unbegrenzter Dienst. Hier ist die aktuelle Tabelle von ollama.com/pricing:

Tarif Preis Parallele Modelle Volumen
Free $0 1 Leichte Nutzung, Modellbewertung
Pro $20/Monat 3 50× mehr als Free
Max $100/Monat 10 5× mehr als Pro

Limits werden in GPU-Zeit (nicht Tokens) gemessen und setzen sich alle 5 Stunden und wöchentlich zurück. Free reicht für Tests und Modellbewertungen. Für Produktionsagenten oder lange Coding-Sessions – Pro oder Max ist erforderlich.

Wichtige Warnung aus dem offiziellen Ollama-Brief: "Please bear with us as we continue to add GPU capacity." Das Modell wurde gestern veröffentlicht, die Infrastruktur ist noch nicht stabilisiert. In den ersten Wochen sind Warteschlangen und erhöhte Latenz möglich. Für produktionskritische Aufgaben würde ich im ersten Monat direkt DeepSeek API empfehlen – dort ist die Kapazität stabiler.

Dokumentation ollama launch: ollama.com/blog/launch
Claude Code mit Ollama: docs.ollama.com/integrations/claude-code

Option 2: DeepSeek API direkt

Der direkteste Weg zum Modell ohne Vermittler. Geeignet, wenn Sie bereits Code mit dem OpenAI SDK haben – die Änderung ist minimal.

Holen Sie sich einen API-Schlüssel auf platform.deepseek.com – die Registrierung ist kostenlos, es gibt ein Startguthaben zum Testen.

Python (OpenAI-kompatibles Format):

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "Hallo"}]
)

print(response.choices[0].message.content)

Mit aktiviertem Denkmodus (standardmäßig High, kann gesteuert werden):

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "Erkläre diesen Algorithmus..."}],
    # thinking ist standardmäßig aktiviert
    # zum Deaktivieren: fügen Sie extra_body={"thinking": {"type": "disabled"}} hinzu
    max_tokens=8000
)

Anthropic-kompatibles Format – wenn Ihr Code für das Anthropic SDK geschrieben ist, unterstützt DeepSeek dasselbe API-Format über einen separaten Endpunkt:

import anthropic

client = anthropic.Anthropic(
    api_key="your-deepseek-key",
    base_url="https://api.deepseek.com/anthropic"
)

message = client.messages.create(
    model="deepseek-v4-flash",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hallo"}]
)

Für mein RAG-System auf WebsCraft (Spring Boot + OpenRouter) ist dies die interessanteste Option: Ich kann Flash mit meinen echten Anfragen testen, mit dem aktuellen llama-3.3-70b vergleichen und konkrete Zahlen zu Qualität und Kosten erhalten. Tests – im nächsten Artikel.

API-Dokumentation: api-docs.deepseek.com

Option 3: OpenRouter – wenn Sie eine einzige API für mehrere Modelle benötigen

OpenRouter hat Flash bereits hinzugefügt. Das ist praktisch, wenn Sie Code haben, bei dem Sie zwischen mehreren Anbietern wechseln oder Flash gegen andere Modelle A/B testen möchten, ohne den Code zu ändern.

from openai import OpenAI

client = OpenAI(
    api_key="your-openrouter-key",
    base_url="https://openrouter.ai/api/v1"
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",  # Modell-String auf OpenRouter
    messages=[{"role": "user", "content": "Hallo"}]
)

Der Preis auf OpenRouter ist derselbe: $0.14/M Input, $0.28/M Output. OpenRouter fügt eine kleine Marge hinzu, aber sie ist minimal und wird durch die Bequemlichkeit einer einzigen Abrechnung und die Möglichkeit, auf ein anderes Modell zurückzufallen, wenn eines nicht verfügbar ist, ausgeglichen.

Modellseite: openrouter.ai/deepseek/deepseek-v4-flash

Welche Option wählen: Schneller Vergleich

Kriterium Ollama Cloud DeepSeek API OpenRouter
Einfachheit des Starts ⭐⭐⭐ ⭐⭐ ⭐⭐
Coding Agents ⭐⭐⭐ (native Unterstützung) ⭐ (Konfiguration erforderlich) ⭐ (Konfiguration erforderlich)
Aktuelle Stabilität ⭐ (neu, Kapazität wird ausgebaut) ⭐⭐⭐ ⭐⭐⭐
Multi-Modell-Routing ⭐ (nur Ollama-Modelle) ⭐ (nur DeepSeek) ⭐⭐⭐
Preis Kostenlose Stufe vorhanden / $20 Pro Pay-per-Use Pay-per-Use + Marge
Datenschutz Keine Speicherung (über NCPs) DeepSeek-Richtlinie OpenRouter-Richtlinie

Mein praktischer Plan: Ollama Cloud zum Testen von Agenten und für einen schnellen Start, DeepSeek API direkt für die Produktionsintegration in RAG. OpenRouter – als Fallback und für A/B-Tests neben anderen Modellen.

Preis im Marktkontext

Hier glänzt Flash wirklich. Vergleich mit Modellen ähnlicher Klasse ("fast/efficient" Tier):

Modell Input $/M Output $/M
DeepSeek V4 Flash $0.14 $0.28
GPT-5.4 Nano ~$0.30 ~$1.20
Gemini 3.1 Flash ~$0.35 ~$1.05
Claude Haiku 4.5 ~$0.80 ~$4.00
DeepSeek V4 Pro $1.74 $3.48

Flash ist 2x günstiger als der nächstgelegene Konkurrent (GPT-5.4 Nano) für Input und 4x günstiger für Output. Gleichzeitig hat es eine MIT-Lizenz und offene Gewichte für Self-Hosting.

DeepSeek V4 Flash im Jahr 2026: Was es ist, was es kostet und wie man es ohne GPU startet

Geopolitische Ironie, die nur wenige bemerken

Dieser Abschnitt handelt nicht von Politik um der Politik willen. Es geht darum, wie der Kontext rund um V4 direkt beeinflusst, wie sehr Sie sich langfristig auf dieses Modell verlassen können – und warum die MIT-Lizenz hier wichtiger ist, als sie scheint.

V3 und Vorwürfe der Sanktionsverletzung

Um V4 zu verstehen, muss man die Vorgeschichte kennen. DeepSeek V3 (Dezember 2024) und R1 (Januar 2025) wurden auf Nvidia-Chips trainiert – und genau das wurde zum Problem. Nach der Veröffentlichung beschuldigte Washington DeepSeek, verbotene Nvidia H100/H800-Chips unter Umgehung amerikanischer Exportbeschränkungen erworben zu haben. Es wurden keine direkten Beweise öffentlich vorgelegt, DeepSeek bestätigte nichts, aber das Thema blieb offen.

V4 ist die direkte Antwort auf diese Situation.

V4 und Huawei Ascend: Eine strategische Wende

DeepSeek hat öffentlich nicht bekannt gegeben, auf welcher Hardware V4 trainiert wurde. Aber am Tag der Veröffentlichung, dem 24. April, gab Huawei offiziell bekannt, dass seine gesamte Ascend Supernode-Linie DeepSeek V4 vollständig unterstützt – und das ist kein Zufall. Laut The Information und Reuters hat DeepSeek Huawei und Cambricon frühen Zugang zu V4 zur Optimierung gewährt und Nvidia absichtlich keinen solchen Zugang gewährt.

Darüber hinaus: Laut The Information hätte V4 sogar früher erscheinen können, aber das Team verzögerte die Veröffentlichung um mehrere Monate – gerade wegen der Arbeit mit Huawei und Cambricon an der Neufassung von Architekturkomponenten des Modells für deren Chips.

Dies ist das erste große Modell von DeepSeek, das von Grund auf für Nicht-Nvidia-Hardware konzipiert wurde.

Was ist Ascend 950PR und wie leistungsfähig ist er?

Ehrlich über die Fähigkeiten: Huawei Ascend 950PR ist kein Nvidia H100, geschweige denn Blackwell. Laut Schätzungen von Analysten von Counterpoint Research bietet Ascend 910C (der Vorgänger von 950PR) etwa 60 % der Inferenzleistung von H100. Und H100 ist bereits zwei Generationen hinter dem aktuellen Nvidia Blackwell zurück. Das bedeutet, dass amerikanische Chips derzeit etwa fünfmal leistungsfähiger sind als chinesische Analoga, und es wird prognostiziert, dass diese Lücke bis 2027 auf das 17-fache anwachsen wird.

Aber es gibt einen Nuance, auf den Analyst Wei Sun von Counterpoint Research hinweist: Wenn ein KI-System auf deutlich schwächerer Hardware Ergebnisse auf Frontier-Niveau erzielen kann, bedeutet dies, dass Hardware-Sanktionen zu einem weniger wirksamen Instrument werden. DeepSeek demonstriert diese These praktisch.

Zeitplan eine Woche vor der Veröffentlichung: Alles geschah gleichzeitig

Der Zeitpunkt der Veröffentlichung ist wichtig. Hier ist, was parallel geschah:

  • 23. April – White House OSTP Direktor Michael Kratsios beschuldigte chinesische Organisationen offiziell des "industriellen Diebstahls von geistigem Eigentum" aus amerikanischen KI-Laboren. DeepSeek wurde separat als Unternehmen erwähnt, das Modelle von OpenAI und Anthropic destilliert hat.
  • 23. April – Jensen Huang (CEO von Nvidia) erklärte in einem Dwarkesh-Podcast, dass es "ein schreckliches Ergebnis für Amerika" wäre, wenn DeepSeek seine Modelle stattdessen für Huawei statt für Nvidia optimieren würde.
  • 24. April – V4 wird veröffentlicht, offensichtlich optimiert für Huawei Ascend. Die Aktien von SMIC (einem Chiphersteller für Huawei) stiegen in Hongkong um 10 %.
  • 24. April – Chinesisches MFA: Die Anschuldigungen der USA sind "unbegründet" und stellen eine "Verleumdung der Errungenschaften der chinesischen KI-Industrie" dar.

Die Veröffentlichung von V4 zu diesem spezifischen Zeitpunkt ist kein Zufall. Es ist eine Demonstration: "Wir können ohne eure Hardware auskommen".

Das Paradoxon von Ollama: Training auf Huawei, Hosting auf Blackwell

Und hier ist die reinste geopolitische Ironie.

Offizielles Schreiben von Ollama vom 25. April: "DeepSeek-V4-Flash ist jetzt auf Ollamas Cloud mit der neuesten NVIDIA Blackwell-Hardware verfügbar."

Das bedeutet: Das Modell wurde auf Huawei Ascend trainiert (oder zumindest optimiert) – und wird von einem amerikanischen Unternehmen auf amerikanischen Nvidia Blackwell gehostet. Das gleiche Modell, zwei verschiedene Chip-Stacks, zwei verschiedene Gerichtsbarkeiten, eine offene MIT-lizenzierte Gewichtsdatei.

Dies wurde gerade durch die MIT-Lizenz und die offenen Gewichte ermöglicht. Ein geschlossenes Modell wie GPT-5.x oder Gemini 3.1 Pro kann dies nicht tun: Es ist an die Infrastruktur und die Nutzungsbedingungen des Anbieters gebunden. DeepSeek V4 Flash kann es.

Praktische Bedeutung für Entwickler

Geopolitik ist der Hintergrund. Aber sie hat direkte praktische Auswirkungen auf diejenigen, die Produkte auf LLMs aufbauen:

Risiko der Verfügbarkeit. Wenn sich die Spannungen zwischen den USA und China verschärfen, kann die US-Regierung theoretisch Druck auf Hosting-Anbieter ausüben, um die Wartung von DeepSeek-Modellen einzustellen. Die MIT-Lizenz und die offenen Gewichte sind eine Versicherung: Das Modell kann auf die eigene Infrastruktur oder einen anderen Cloud-Anbieter migriert werden. Mit GPT oder Claude ist das nicht möglich.

Lieferkette für Inferenz. DeepSeek baut eindeutig einen unabhängigen chinesischen Chip-Stack auf. Das bedeutet, dass Sie in Zukunft die Wahl haben könnten: Flash über westliche Anbieter (Ollama, OpenRouter, AWS Bedrock) oder über chinesische Clouds (Alibaba Cloud, Tencent Cloud) hosten. Der Wettbewerb zwischen ihnen ist für den Entwickler von Vorteil – er drückt die Preise nach unten.

Fragen zu Trainingsdaten und Destillation. Anthropic und OpenAI haben DeepSeek öffentlich beschuldigt, ihre Modelle zu destillieren – die Ausgabe von GPT/Claude zum Trainieren von DeepSeek zu verwenden. DeepSeek hat dies offiziell nicht zugegeben. Für den Entwickler ist die praktische Frage anders: Wenn Sie ein Produkt aufbauen, bei dem die Verantwortung für die Trainingsdaten wichtig ist (regulierte Branchen, Unternehmenskontrakte), ist dies ein Risiko, das berücksichtigt werden muss.

Was sich nicht ändert. Die MIT-Lizenz ist klar: Sie können sie ohne zusätzliche Genehmigungen verwenden, modifizieren und kommerzialisieren. Die Geopolitik rund um DeepSeek hebt Ihre Rechte unter MIT nicht auf. Das Modell gehört Ihnen nach dem Download.

Quellen: The Next Web: Jensen Huang über Huawei und DeepSeek, ResultSense: DeepSeek V4 auf Huawei Ascend, TrendForce: Ascend 950PR und CUDA-Unabhängigkeit

Meine persönliche Einschätzung

Ich teste KI-Modelle nicht im Vakuum – ich habe ein spezifisches RAG-System: Spring Boot + nomic-embed-text für Embedding + PostgreSQL pgvector für die Speicherung + OpenRouter als Anbieter. Derzeit nutze ich meta-llama/llama-3.3-70b über OpenRouter in der Produktion für Chats.

Flash über die DeepSeek API oder OpenRouter ist mein nächster Kandidat für A/B-Tests. Gründe:

  • Preis: Fast doppelt so günstig wie die aktuelle Lösung für die Ausgabe.
  • 1M Kontext: Mein RAG übergibt große Dokumenten-Chunks – langer Kontext ist wichtig.
  • Cache-Hit-Preisgestaltung: Wenn der System-Prompt zwischen den Anfragen unverändert bleibt, sind 0,028 $/M fast kostenlos.

Was ich offen lasse: die Qualität bei ukrainischsprachigen Anfragen. Das Modell wurde hauptsächlich auf englisch- und chinesischsprachigen Daten trainiert. Meine tatsächlichen Tests – in einem separaten Artikel über den Vergleich von Flash vs. Gemini Flash vs. Claude Haiku 4.5 für RAG.

Bisher: Für API-Produkte, bei denen der Preis wichtig ist – Flash ist definitiv einen Test wert. Für komplexe Agentenaufgaben, bei denen der Mensch aus der Schleife ausfällt – warten Sie auf unabhängige Benchmarks oder nehmen Sie Pro.

Fazit

DeepSeek V4 Flash ist keine Revolution, aber ein sehr starkes Argument, Ihren KI-Stack zu überdenken. Kurz gesagt:

  • Das günstigste Frontier-Class-Modell in seinem Preissegment.
  • MIT-Lizenz und offene Gewichte – eine Seltenheit für dieses Niveau.
  • 1M Kontext zu einem akzeptablen Preis – endlich realistisch für die Produktion.
  • Auf SWE-bench liegt Flash 1,6 Punkte hinter Pro – ist aber 12 Mal günstiger bei der Ausgabe.
  • Schwächer als Closed-Source bei Wissens- und komplexen Agentenaufgaben – und DeepSeek schreibt das ehrlich.
  • Über Ollama Cloud kann es sofort ohne GPU gestartet werden – aber die Infrastruktur ist noch nicht stabilisiert.

Technischer Bericht DeepSeek V4: huggingface.co (DeepSeek_V4.pdf)
Offizielle Seite des Flash-Modells: huggingface.co/deepseek-ai/DeepSeek-V4-Flash
TechCrunch: DeepSeek schließt die Lücke zu Frontier-Modellen

Häufig gestellte Fragen (FAQ)

Was ist DeepSeek V4 Flash?

DeepSeek V4 Flash ist ein offenes MoE-Modell des chinesischen Labors DeepSeek, das am 24. April 2026 veröffentlicht wurde. Es hat 284B Parameter (13B aktiv pro Token), unterstützt einen Kontext von 1M Token und ist für 0,14 $/0,28 $ pro Million Token erhältlich.

Was unterscheidet Flash von V4 Pro?

Flash ist kleiner und deutlich günstiger: Die Ausgabe kostet 0,28 $/M gegenüber 3,48 $/M bei Pro. Auf den meisten Benchmarks liegt Flash 1-2 Punkte hinter Pro zurück. Pro eignet sich für komplexe Agentenaufgaben, Flash – für API-Produkte, RAG und auf den Preis ankommende Aufgaben.

Wie starte ich DeepSeek V4 Flash ohne GPU?

Über Ollama Cloud: ollama run deepseek-v4-flash:cloud oder ollama launch claude --model deepseek-v4-flash:cloud. Das Modell wird auf den Servern von Ollama ausgeführt, ein lokaler Download von 160 GB ist nicht erforderlich. Eine Alternative ist die DeepSeek API oder OpenRouter.

Wie viel kostet die DeepSeek V4 Flash API?

0,14 $/M Token für die Eingabe (Cache Miss), 0,028 $/M (Cache Hit), 0,28 $/M für die Ausgabe. Offizielle Quelle: api-docs.deepseek.com/quick_start/pricing

Ist DeepSeek V4 Flash für RAG geeignet?

Potenziell ja – insbesondere dank des niedrigen Ausgabepreises und des großen Kontexts. Die Cache-Hit-Preisgestaltung (0,028 $/M Eingabe) macht wiederholte Anfragen mit demselben System-Prompt fast kostenlos. Praktische Tests für reale Aufgaben – im nächsten Artikel dieses Clusters.

Останні статті

Читайте більше цікавих матеріалів

DeepSeek V4 Flash у 2026: що це, скільки коштує і як запустити без GPU

DeepSeek V4 Flash у 2026: що це, скільки коштує і як запустити без GPU

TL;DR за 30 секунд: DeepSeek V4 Flash — MoE-модель з 284B параметрами (13B активних), контекстом 1M токенів і MIT-ліцензією. Вийшла 24 квітня 2026 року. Коштує $0.14/$0.28 за мільйон токенів — дешевше за Claude Haiku 4.5, Gemini 3.1 Flash і GPT-5.4 Nano. Доступна через Ollama Cloud на NVIDIA...

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Коротко про що ця стаття: 17 квітня я взяв свіжий Claude Opus 4.7 і прогнав його через свою RAG-систему AskYourDocs на тестовому наборі з ~400 публічних юридичних документів (зразки договорів, нормативні акти, шаблони з відкритих джерел). Порівняв з Llama 3.3 70B, на якій у мене зараз...

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

TL;DR за 30 секунд: Claude Opus 4.7 — новий флагман Anthropic, який вийшов 16 квітня 2026 року. Головне: +10.9 пунктів на SWE-bench Pro (64.3% проти 53.4% у Opus 4.6), вища роздільна здатність vision (3.75 MP), нова memory на рівні файлової системи та новий рівень міркування xhigh. Ціна...

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати. Що таке MoE і чому 26B...

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...