TL;DR in 30 Sekunden: DeepSeek V4 Pro ist das größte Open-Weight-Modell der Welt: 1,6 Billionen Parameter (49B aktiv), 1 Mio. Token Kontext, MIT-Lizenz. Erschienen am 24. April 2026 als Vorschau. Kostet 3,48 $/M Output-Token – 7x günstiger als GPT-5.5 und 6x günstiger als Claude Opus 4.7. Auf SWE-bench Verified – 80,6 % gegenüber 80,8 % bei Claude Opus 4.7 bei einem Preisunterschied von 7x. Auf Codeforces-Coding-Benchmarks – die höchste Bewertung aller Modelle (3206). Es gibt spezifische Aufgaben, bei denen Pro gewinnt, und solche, bei denen es verliert. Details – weiter unten.
1. Warum V4 Pro nicht nur ein „größerer Flash“ ist
Wenn zwei Modelle gleichzeitig erscheinen – Flash und Pro – ist es leicht, Pro als „Flash mit mehr Parametern“ wahrzunehmen. Dies ist eine falsche Vereinfachung, die zu falschen Budgetentscheidungen führt.
Flash und Pro sind grundlegend unterschiedliche Produkte für unterschiedliche Aufgaben. Hier ist der Hauptunterschied:
Die wichtigste Erkenntnis aus der Tabelle: Bei SWE-bench (reale GitHub-Issues) beträgt der Unterschied zwischen Flash und Pro nur 1,6 Punkte. Bei Terminal-Bench 2.0 (autonome Arbeit im Terminal) sind es bereits 11 Punkte. Hier, bei Agentenaufgaben, bei denen das Modell stundenlang selbstständig arbeitet, übertrifft Pro Flash. Wenn Ihre Aufgaben autonome Agenten-Schleifen, komplexe mehrstufige Planung oder lange Coding-Sitzungen ohne menschliche Aufsicht sind – Pro ist gerechtfertigt. Wenn es um Klassifizierung, RAG oder Code-Reviews mit menschlicher Beteiligung geht – Flash liefert 92 % der Pro-Qualität zum 12-fachen niedrigeren Preis.
Ein weiterer wichtiger Kontext: Laut VentureBeat kostet V4 Pro bei gleicher Auslastung etwa 7 Mal weniger als GPT-5.5 und 6 Mal weniger als Claude Opus 4.7. Bei vergleichbarer Qualität bei Coding-Aufgaben ist dies ein anderes Spiel, nicht nur eine günstigere Alternative.
2. Architektur: Was sich wirklich geändert hat
Die meisten Artikel kopieren drei Zeilen aus dem technischen Bericht und gehen weiter. Hier – eine Erklärung, was die architektonischen Änderungen für Ihr Produkt bedeuten, nicht für den Forscher.
Hybrid Attention: CSA + HCA – Warum 1 Mio. Kontext jetzt real ist
Ein Standard-Transformer mit 1 Mio. Token Kontext wird praktisch unmöglich – die quadratische Skalierung bedeutet, dass jeder neue Token auf alle vorherigen „schaut“, und der Speicherverbrauch wächst quadratisch. Deshalb sind frühere Modelle mit „1 Mio. Token“ auf dem Etikett oft schon nach 200–300K degradiert.
V4 Pro löst dies durch einen hybriden Aufmerksamkeitsmechanismus:
CSA (Compressed Sparse Attention) – komprimiert die Sequenz um das 4-fache und verwendet einen Top-k-Indexierer. Das Modell „schaut“ nicht auf alle Token, sondern nur auf die relevantesten. Ähnlich wie ein erfahrener Leser ein Dokument durchsieht, ohne jedes Wort zu lesen.
HCA (Heavily Compressed Attention) – komprimiert den KV-Cache um das 128-fache in einen dichten MQA-Stream plus ein 128-Token-Sliding-Window für die Aktualität.
Praktisches Ergebnis: Bei 1 Mio. Token Kontext verwendet V4 Pro nur 27 % der FLOPs und 10 % des KV-Caches im Vergleich zu V3.2. Das ist kein Marketing – das bestätigt die offizielle Model Card. Was das für Sie bedeutet: Analyse eines ganzen Repositories in einer einzigen Anfrage, juristische Dokumente von Hunderten von Seiten, die vollständige Codebasis eines Start-ups – zum ersten Mal wird dies wirtschaftlich realistisch und nicht nur eine Marketingzahl.
Wichtige Einschränkung: Unabhängige Tests von Runpod zeigen, dass die praktische Obergrenze für zuverlässigen Recall bei etwa 66 % liegt, nicht bei 100 %. Für MRCR 1M (Needle-in-a-Haystack) erreicht das Modell 83,5 % – ein starkes Ergebnis, aber nicht perfekt. Für kritische Aufgaben, bei denen „nichts übersehen werden darf“ – testen Sie mit Ihren eigenen Daten.
mHC: Manifold-Constrained Hyper-Connections – Warum ein großes Modell stabil ist
Das Training eines MoE-Modells mit 1,6 Billionen Parametern ist notorisch instabil. DeepSeek löst dies durch mHC – einen Mechanismus, bei dem jede Verbindung zwischen den Schichten eigene Gewichtsparameter haben kann, aber durch eine Mannigfaltigkeitsbedingung eingeschränkt ist, die verhindert, dass die Gewichte auseinanderlaufen. Ergebnis: ein stabileres Signal zwischen tiefen Schichten, geringere Qualitätsvariabilität zwischen ähnlichen Anfragen, bessere Qualität bei langem Reasoning-Budget (Think Max-Modus).
Für den Endbenutzer äußert sich dies als geringere „Unvorhersehbarkeit“ – Pro liefert seltener unerwartet schlechte Antworten auf Anfragen, die früheren ähneln.
Muon Optimizer – Training auf 33T Token
V4 Pro wurde auf 33 Billionen Token trainiert – mehr als V3.2 – unter Verwendung des Muon-Optimierers anstelle des Standard-AdamW. Muon wendet eine Orthogonalisierung der Gradienten an, was zu einer schnelleren Konvergenz und besserer Qualität bei gleicher Trainingsmenge führt. Für Sie als Benutzer: bessere Qualität bei denselben Aufgaben im Vergleich zu V3.2, insbesondere in Mathematik und MINT.
Vorschau-Status: Was das praktisch bedeutet
V4 wurde als Vorschau veröffentlicht – und das ist kein Marketing-Schutz. Laut TechCrunch hat DeepSeek keine Fristen für die Finalisierung bekannt gegeben. Praktisch bedeutet dies: Das Verhalten des Modells kann sich zwischen der Vorschau und der endgültigen Veröffentlichung ändern, insbesondere im Denkmodus und bei der Arbeit mit Tools. Halten Sie für Produktionsintegrationen einen Rollback-Pfad bereit.
3. Benchmarks: Eine ehrliche Analyse ohne Beschönigung
Sofort wichtiger Kontext: Fast alle Zahlen unten sind Selbstaussagen von DeepSeek, unabhängige Bestätigungen sind zum Zeitpunkt der Veröffentlichung rar. Wo es unabhängige Bewertungen gibt – gebe ich sie separat an. Was DeepSeek selbst im technischen Bericht feststellt: V4 „liegt etwa 3 bis 6 Monate hinter den modernsten Modellen zurück“ – eine seltene Ehrlichkeit von einem KI-Labor.
Wo V4 Pro wirklich stark ist
Benchmark
V4 Pro Max
Claude Opus 4.7
GPT-5.5
Was gemessen wird
Codeforces ELO
3206
n/a
3168
Wettbewerbsorientiertes Programmieren – die höchste Bewertung aller getesteten Modelle
LiveCodeBench
93,5 %
88,8 %
—
LeetCode/Codeforces/AtCoder-Aufgaben
SWE-bench Verified
80,6 %
80,8 %
—
Reale GitHub-Issues – statistische Gleichheit
Terminal-Bench 2.0
67,9 %
65,4 %
82,7 %
Autonome Arbeit im Terminal (3-Stunden-Timeout)
BrowseComp
83,4 %
79,3 %
84,4 %
Agenten-Browsing, Suche nach geschlossenen Informationen
Schlüssel-Erkenntnis aus der Tabelle: Bei Codeforces und LiveCodeBench schlägt Pro alle – einschließlich GPT-5.5. Das ist keine Synthetik – Codeforces sind echte Wettbewerbe echter Programmierer. Bei SWE-bench – statistische Gleichheit mit Claude Opus 4.7 bei einem Preisunterschied von 7x. Für Produktteams, bei denen die Kosten von Coding-Agenten wichtig sind – das ist die wichtigste Zahl.
Wo V4 Pro verliert – ehrlich
Benchmark
V4 Pro Max
Gewinner
Unterschied
Praktische Bedeutung
HLE (Humanity's Last Exam)
37,7 %
Claude Opus 4.7 (46,9 %)
−9,2 Punkte
Die schwierigsten Fragen auf Expertenniveau – deutliche Lücke
Terminal-Bench 2.0
67,9 %
GPT-5.5 (82,7 %)
−14,8 Punkte
Lange autonome Terminal-Aufgaben – GPT-5.5 ist deutlich voraus
SimpleQA-Verified
57,9 %
Gemini 3.1 Pro (75,6 %)
−17,7 Punkte
Faktisches Wissen – Gemini dominiert
MRCR 1M (Needle-in-a-Haystack)
83,5 %
Claude Opus 4.6 (92,9 %)
−9,4 Punkte
Suche in langen Dokumenten – Claude ist besser
SWE-bench Pro
55,4 %
Claude Opus 4.7 (64,3 %)
−8,9 Punkte
Komplexere reale Fehler – Claude ist voraus
Warum das wichtig ist: Bei SWE-bench Verified ist der Unterschied zwischen Flash und Pro minimal, aber bei SWE-bench Pro (komplexere Aufgaben) – bereits 8,9 Punkte. Das heißt, je komplexer und offener die Aufgabe, desto größer ist der Vorteil von Pro gegenüber Flash. Und gleichzeitig – desto mehr liegt Pro hinter Claude Opus 4.7 zurück.
Eine Zahl, die man im Auge behalten sollte: DeepInfra verzeichnet die Halluzinationsrate von V4 Pro auf AA-Omniscience (Aufgaben, bei denen die richtige Antwort „Ich weiß es nicht“ lautet) auf dem Niveau von 94 %. Das bedeutet, dass das Modell fast immer antwortet, auch wenn es die richtige Antwort nicht kennt. Berücksichtigen Sie dies für Aufgaben, bei denen die Kalibrierung wichtig ist.
4. Preise und reale Wirtschaftlichkeit: Wann sich der Wechsel lohnt
Dies ist ein Abschnitt, der in den meisten Übersichten fehlt – nicht nur ein Preisvergleich, sondern konkrete Mathematik für die Entscheidungsfindung.
Hinweis: DeepSeek hatte bis zum 5. Mai 2026 einen Aktionsrabatt von 75 % auf V4 Pro. Nach der Aktion sind die Preise auf die Basispreise zurückgekehrt. Überprüfen Sie die aktuellen Preise auf der offiziellen Seite.
Reale Mathematik für drei typische Workloads
Die Daten für die Berechnungen basieren auf Beispielen von Apidog und Oplexa.
Bei 1000 Aufgaben/Monat: V4 Pro spart ~5.200 $ im Vergleich zu GPT-5.5 und ~5.200 $ im Vergleich zu Claude Opus 4.7. Selbst wenn die Qualität von V4 Pro bei komplexen Aufgaben um 5–8 % niedriger ist – für die meisten Teams ist dieser Unterschied keine 5.000 $ pro Monat wert.
Workload 2: 10 Mio. Output-Token pro Monat (typisches mittelgroßes Produkt):
Modell
Kosten/Monat
Ersparnis vs. GPT-5.5
GPT-5.5
300 $
—
Claude Opus 4.7
250 $
50 $
V4 Pro
34,80 $
265,20 $
V4 Flash
2,80 $
297,20 $
Diese Tabelle ist das Hauptargument für den Manager. Bei 10 Mio. Output-Token pro Monat kostet V4 Pro 34,80 $ gegenüber 300 $ bei GPT-5.5. Die Qualität auf SWE-bench unterscheidet sich um 8 Punkte. Für die meisten Produktaufgaben sind diese Qualitätsunterschiede keine 265 $ pro Monat wert.
Wo Cache-Hit-Preise das Spiel verändern
Der am meisten unterschätzte Aspekt der V4-Preisgestaltung ist der Cache-Hit. Bei demselben System-Prompt zwischen den Anfragen kosten Input-Token 0,145 $/M statt 1,74 $/M – ein **Rabatt von 92 %**.
Konkretes Beispiel: Sie haben ein RAG-System, bei dem der System-Prompt + der Retrieval-Kontext zwischen Benutzeranfragen unverändert bleiben (Standardarchitektur). Bei 20.000 Token Präfix und 100 Anfragen pro Tag:
10-mal günstiger. Aber es gibt eine wichtige technische Bedingung: Das Präfix muss mindestens 1024 Token lang sein und Byte für Byte übereinstimmen. Ein Leerzeichen im System-Prompt – und der Cache funktioniert nicht. Mehr über die richtige Prompt-Struktur für den Cache erfahren Sie im Leitfaden von Braincuber.
Kritische Budgetwarnung: Der Denkmodus ist standardmäßig aktiviert (Stufe High). Reasoning-Token werden wie normale Output-Token abgerechnet. Bei komplexen Aufgaben kann Think Max 10-mal mehr Token generieren als Non-thinking – und entsprechend 10-mal teurer sein. Ohne explizites Logging des Feldes usage.reasoning_tokens sehen Sie nicht, woher die Kostensteigerungen kommen.
Faustregel: Non-thinking als Standard für alle Aufgaben, bei denen der Kontext bereits bereitgestellt wurde (RAG). Thinking High für Aufgaben, bei denen das Modell „nachdenken“ soll. Think Max nur für Aufgaben, bei denen die Qualität entscheidend ist und das Budget es zulässt – und nur mit 384K+ Kontext.
6. Anwendungsfälle, bei denen Pro wirklich benötigt wird
Dies ist keine theoretische Liste – dies sind Aufgaben, bei denen der Unterschied zwischen Flash und Pro messbar und signifikant ist.
Autonome Coding-Agenten (8+ Stunden ohne menschliches Eingreifen)
Auf Terminal-Bench 2.0 erreicht Pro 67,9 %, Flash – 56,9 %. Ein Unterschied von 11 Punkten. Was das praktisch bedeutet: Ein Agent auf Pro „hängt“ seltener fest, wenn er auf unerwartete Fehler stößt, plant die nächsten Schritte besser unter Unsicherheit und benötigt seltener menschliches Eingreifen.
Konkrete Wirtschaftlichkeit: Laut CodersEra kostet ein 8-stündiger autonomer Coding-Lauf auf Claude Opus 4.7 50–200 $. Derselbe Lauf auf V4 Pro – 1,50–6 $. Für Teams, die Coding-Agenten aktiv nutzen, kann der Unterschied bei den monatlichen Kosten erheblich sein.
RAG mit großen Dokumenten (100K+ Token)
Bei einem Kontext von 500K–1M Token wird der Vorteil von Pro gegenüber Flash deutlicher – die größere Anzahl aktiver Parameter (49B gegenüber 13B) liefert eine bessere Synthesequalität aus sehr langen Dokumenten. Juristische Dokumente, medizinische Aufzeichnungen, große Codebasen – Aufgaben, bei denen das gesamte Dokument gleichzeitig im Kontext gehalten werden muss.
Wichtiger Hinweis: Auf MRCR 1M (Needle-in-a-Haystack) erreicht Pro 83,5 % – aber Claude Opus 4.6 hat 92,9 %. Wenn Ihre Aufgabe darin besteht, eine bestimmte Tatsache in einem sehr langen Dokument zu finden, anstatt sie zu synthetisieren – kann Claude trotz des höheren Preises die bessere Wahl sein.
Wettbewerbsorientiertes Programmieren und algorithmische Aufgaben
Codeforces ELO 3206 – der höchste unter allen getesteten Modellen, einschließlich GPT-5.5 (3168). Wenn Ihr Produkt mit Algorithmen, Optimierung, Aufgaben, die mathematisches Denken erfordern, zu tun hat – ist Pro hier wirklich besser als geschlossene Flaggschiffe.
Analytische Tiefe: Finanzen, Strategie, Forschung
Unabhängige Tests von FundaAI bei 38 Aufgaben zeigten: V4 Pro (Thinking) erreichte 8,90 bei Multi-Step-Aufgaben – höher als Claude Opus 4.7 (8,87). Bei Aufgaben, die analytische Tiefe, Spieltheorie, wettbewerbsorientierte Zuordnung erfordern – konkurriert Pro mit den besten geschlossenen Modellen. V4 Pro erhielt auch die einzige 10/10-Bewertung in der Finanzforschung bei der NVDA-Spieltheorie-Aufgabe.
Multi-Model-Routing: Pro als „schwere“ Stufe
Die effektivste Strategie laut Lushbinary ist nicht, ein Modell durch ein anderes zu ersetzen, sondern ein Routing aufzubauen:
60–70 % des Traffics → V4 Flash (Klassifizierung, einfache Anfragen, RAG mit kurzem Kontext)
20–30 % → V4 Pro (komplexe Coding-Aufgaben, lange Dokumente, Multi-Step-Reasoning)
5–10 % → Claude Opus 4.7 oder GPT-5.5 (Aufgaben, bei denen die höchste Qualität unabhängig vom Preis erforderlich ist)
Dieser Ansatz ermöglicht es, die Kosten für KI um 40–60 % im Vergleich zu einem Single-Model-Ansatz zu senken, während die Qualität bei kritischen Aufgaben erhalten bleibt oder verbessert wird.
7. Wo Pro immer noch hinter geschlossenen Modellen zurückbleibt
Eine ehrliche Bewertung ist ohne Schwachstellen nicht möglich. Hier ist, wo V4 Pro Stand Mai 2026 objektiv zurückbleibt.
Terminal-Agentenaufgaben: GPT-5.5 liegt 14,8 Punkte vorne
Terminal-Bench 2.0: GPT-5.5 – 82,7 %, V4 Pro – 67,9 %. Ein erheblicher Unterschied. Wenn Ihr Agent komplexe DevOps-Aufgaben selbstständig ausführen, Serverinfrastruktur konfigurieren oder lange Bash-Skripte ausführen muss – ist GPT-5.5 hier deutlich zuverlässiger. Das ist nicht „ein bisschen besser“ – das ist eine andere Klasse von Autonomie.
Faktisches Wissen: Gemini 3.1 Pro dominiert
SimpleQA-Verified: Gemini 3.1 Pro – 75,6 %, V4 Pro – 57,9 %. Bei Aufgaben, die genaue faktische Antworten erfordern (medizinische Referenzen, juristische Fakten, technische Standards) – ist Gemini deutlich zuverlässiger. Dies liegt daran, dass V4 Pro häufiger Antworten „halluziniert“, wenn es die richtige nicht kennt.
Komplexestes Reasoning: Claude liegt vorne
HLE (Humanity's Last Exam) – der komplexeste akademische Benchmark: Claude Opus 4.7 – 46,9 %, V4 Pro – 37,7 %. Für Aufgaben, die PhD-Niveau-Wissen aus mehreren Disziplinen gleichzeitig erfordern – ist Claude hier besser. SWE-bench Pro (komplexere reale Fehler): Claude Opus 4.7 – 64,3 %, V4 Pro – 55,4 %.
Keine Multimodalität
V4 Pro (wie auch Flash) ist nur Text. Unterstützung für Bilder und Videos wurde für die zweite Jahreshälfte 2026 angekündigt. Wenn Ihre Pipeline die Analyse von Screenshots, PDFs mit Diagrammen oder Videos erfordert – benötigen Sie einen Fallback auf Claude oder GPT-5.5.
Latenz: Server in China
Bei der Verwendung der offiziellen DeepSeek API außerhalb Asiens – erwarten Sie 200–400 ms Latenz für das erste Token. Für Latenz-kritische Produkte (Echtzeit-Chat, interaktives Coding) – erwägen Sie OpenRouter oder Fireworks als Proxy für eine bessere Time-to-First-Token. Dies löst das Problem nicht vollständig, verbessert es aber für die meisten Anwendungsfälle erheblich.
Fragen der Datensouveränität
Offizielle DeepSeek API – Server in China. Unter dem Gesetz der VR China kann der Staat auf Daten zugreifen. Für regulierte Branchen (Medizin, Finanzen, Recht in der EU), DSGVO-konforme Produkte oder jedes Projekt, bei dem personenbezogene Daten verarbeitet werden – ist dies keine rhetorische Warnung. Die MIT-Lizenz und die offenen Gewichte sind eine Versicherung: Sie können auf Ihre eigene Infrastruktur migrieren. Aber das Self-Hosting von Pro erfordert ernsthafte Hardware (mehr dazu unten).
8. Self-hosting: wann eigene Hardware gerechtfertigt ist
Die MIT-Lizenz und offene Gewichte sind einer der Hauptvorteile von V4 Pro. Aber „kann selbst gehostet werden“ und „sollte selbst gehostet werden“ sind zwei verschiedene Dinge.
Für hohe QPS oder wenn voller Kontext und Durchsatz benötigt werden
Empfohlenes Inference-Framework: vLLM oder SGLang. Beide haben Day-0-Offizielles-Rezepte für V4 mit Unterstützung für CSA+HCA-Attention, FP4 MoE-Backends und disaggregiertes Prefill/Decode. TGI unterstützt V4 zum Zeitpunkt der Veröffentlichung nicht. Ollama und llama.cpp sind nur Community-GGUF ohne offizielle Unterstützung.
Wichtiger Hinweis: V4 enthält kein Jinja-Format-Chat-Template. Wenn Sie vLLM oder SGLang mit Standard-Jinja-Vorlagen wie bei V3.2 verwenden, generiert das Modell eine fehlerhafte Ausgabe. Nicht offensichtlich fehlerhaft – eine, die korrekt aussieht, bis der Agent einen Tool-Aufruf fehlschlägt. DeepSeek stellt Python-Encoding-Skripte im Hugging Face Repository zur Verfügung – verwenden Sie diese für die Prompt-Konstruktion.
Wann sich Self-Hosting auszahlt
Laut Digital Applied TCO Analysis ist Self-Hosting von Open-Weight-Modellen ab einem Volumen von ~1,2 Milliarden Tokens pro Monat gerechtfertigt. Bei geringeren Volumina ist die API unter Berücksichtigung der Ingenieurszeit für die Wartung fast immer günstiger.
Drei Hauptgründe, sich für Self-Hosting zu entscheiden, ungeachtet der Kosten:
Datensouveränität: Regulierte Branchen, in denen Daten Ihre Infrastruktur nicht verlassen dürfen
Fine-Tuning: Die MIT-Lizenz erlaubt das Feinabstimmen des Modells für Ihre domänenspezifische Aufgabe
Sehr hohe Volumina: Bei 100 Millionen+ Tokens pro Tag kann Self-Hosting günstiger sein, selbst unter Berücksichtigung der GPU-Zeit
9. Pro vs. Flash: Entscheidungstabelle
Schnelle Entscheidung für einen bestimmten Anwendungsfall:
Aufgabe
Wahl
Warum
FAQ-Bot, Klassifizierung, strukturierte Ausgabe
Flash, Thinking off
Pro bietet keinen spürbaren Vorteil, Flash ist 12x günstiger
RAG mit Dokumenten bis zu 100K Tokens
Flash
Kontext wird durch die Retrieval-Schicht bereitgestellt, Reasoning ist überflüssig
RAG mit Dokumenten von 100K–1M Tokens
Pro oder zuerst Flash testen
Bei großem Kontext synthetisiert Pro besser, aber testen Sie mit Ihren eigenen Daten
Code-Review, Refactoring mit Mensch im Loop
Flash, Thinking High
Flash-Max nähert sich Pro an, günstiger
Autonomer Coding-Agent (8+ Stunden ohne Mensch)
Pro
11-Punkte-Vorteil auf Terminal-Bench ist entscheidend für Long-Horizon-Aufgaben
Flash-Max ist unerwartet stark in Mathematik, Pro ist besser bei den schwierigsten Aufgaben
Faktenrecherche, juristische Auskünfte
Gemini 3.1 Pro oder Claude
SimpleQA: Gemini 75,6 % vs. V4 Pro 57,9 % – deutlicher Unterschied
Bildanalyse, Multimodal
Claude Opus 4.7 oder GPT-5.5
V4 ist in der Vorschau nur Text
Regulierte Branchen, DSGVO
Self-hosted V4 Pro oder Claude/GPT
Offizielle API über chinesische Server – Risiko für persönliche Daten
Maximale Qualität ohne Budgetbeschränkung
Claude Opus 4.7 (Coding) / GPT-5.5 (Agentic)
Bei den schwierigsten Aufgaben sind geschlossene Modelle noch im Vorteil
10. Anbindung über API in 5 Minuten
V4 Pro ist kompatibel mit OpenAI ChatCompletions und Anthropic SDK-Formaten. Die Basis-URL und der API-Schlüssel bleiben dieselben wie für deepseek-chat – nur der Modellname ändert sich. Vollständige Dokumentation: api-docs.deepseek.com.
Schritt 1: Holen Sie sich einen API-Schlüssel auf platform.deepseek.com. Die Registrierung ist kostenlos, es gibt ein Startguthaben. Minimale Aufladung zur Aktivierung – $2.
Schritt 2 – Python (OpenAI SDK):
from openai import OpenAI
client = OpenAI(
api_key="your-deepseek-key",
base_url="https://api.deepseek.com"
)
# Non-Thinking-Modus – am schnellsten und günstigsten
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Analysiere diesen Code..."}],
extra_body={"thinking": {"type": "disabled"}}
)
# Thinking High – Standard, für komplexere Aufgaben
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Erkläre die Architektur..."}],
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}}
)
# Think Max – für die schwierigsten Aufgaben (mindestens 384K Kontext)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Behebe diesen Bug..."}],
reasoning_effort="max",
extra_body={"thinking": {"type": "enabled"}}
)
print(response.choices[0].message.content)
Anthropic SDK (wenn Ihr Code für Anthropic geschrieben ist):
Wichtig: Wenn Ihr Code noch model="deepseek-chat" oder model="deepseek-reasoner" enthält – diese werden ab dem 24. Juli 2026 nicht mehr funktionieren. Details zur Migration – in unserem Artikel „Migration von deepseek-chat: Was bricht bis zum 24. Juli“.
11. FAQ
Lohnt sich jetzt der Wechsel von Claude Opus 4.7 zu V4 Pro für die Produktion?
Abhängig von der Aufgabe. Für Coding-Agent-Schleifen und Wettbewerbsprogrammierung – ja, die Qualität ist nahe oder besser bei 7-mal niedrigeren Kosten. Für Aufgaben, bei denen faktische Genauigkeit (SimpleQA-Lücke 17 Punkte) oder komplexestes Reasoning (HLE-Lücke 9 Punkte) wichtig ist – Claude ist bisher besser. Empfohlener Ansatz: A/B-Test mit realen Daten über 2–4 Wochen, dann Entscheidung.
V4 Pro ist eine Vorschau. Ist es sicher, es in der Produktion zu verwenden?
Die API ist verfügbar und stabil. Aber „Vorschau“ bedeutet, dass DeepSeek keine Fristen für die Finalisierung bekannt gegeben hat und sich das Verhalten ändern kann. Für Produktionsintegrationen: Halten Sie einen Rollback-Pfad bereit, verfolgen Sie das Changelog (api-docs.deepseek.com/updates), machen Sie keinen harten Schnitt mit dem aktuellen Anbieter, bevor die Tests abgeschlossen sind.
Wie viel kostet ein 8-stündiger Coding-Agent-Lauf auf V4 Pro?
Laut CodersEra: $1,50–6, abhängig von der Aufgabe und dem Reasoning-Modus. Zum Vergleich: Derselbe Lauf auf Claude Opus 4.7 – $50–200. Der Unterschied von 10–30x macht lange autonome Coding-Sitzungen erstmals wirtschaftlich realistisch für die meisten Teams.
Kann V4 Pro für meine Domäne feinabgestimmt werden?
Ja. Die MIT-Lizenz erlaubt Fine-Tuning und kommerzielle Nutzung ohne zusätzliche Genehmigungen. Aber es erfordert ernsthafte Hardware (mindestens 8x H100/H200) und erheblichen Engineering-Aufwand. Für die meisten Teams ist die bessere Alternative: System-Prompt-Engineering und RAG.
Was ist die reale Obergrenze für zuverlässigen Recall bei 1 Million Kontext?
Laut unabhängigen Tests von Runpod – etwa 66 % bei einem zufälligen Needle-in-a-Haystack-Test bei vollen 1 Million. Auf MRCR 1M berichtet DeepSeek 83,5 %. Für Produktionsaufgaben, bei denen es wichtig ist, „nichts zu verpassen“, empfehle ich, den aktiven Kontext auf 600–700K zu beschränken und mit Ihren eigenen Dokumenten zu testen.
TL;DR
Як ефективно керувати контекстом у довгоживучих AI-агентах:
— Sliding Window + Pinning
— Автоматична summarization з розумними тригерами
— Compression та semantic memory
З конкретними цифрами, кодом і архітектурними рішеннями, які значно підвищили стабільність агента.
Ця стаття —...
15 травня 2026 року Google тихо оновив одне речення у своїй Spam Policy.
Але це речення змінює правила гри для всіх хто займається контентом і SEO.
Без гучних анонсів, без великої прес-конференції — просто нове формулювання
на сторінці документації.
Search Engine Roundtable...
Агент отримав запит — обробив — відповів. Наступний запит — і він не пам'ятає нічого з попереднього.
Не тому що щось зламалось. А тому що так влаштована LLM за замовчуванням: кожен виклик — чистий аркуш.
Якщо ви будуєте агента і не думали про пам'ять — ви будуєте амнезика з доступом до...
Grok Build — новий agentic CLI від xAI (early beta, 14 травня 2026).
Головні фішки: Plan Mode з обов’язковим затвердженням плану, паралельні субагенти (до 8), контекстне вікно ~1–2M токенів та сучасний TUI на Rust.
Працює на Grok 4.3, підтримує ACP, git worktree та MCP....
Оновлено: 15 травня 2026
14 травня 2026 вийшла Ollama 0.24 — і це не черговий патч з виправленням багів.
Цей реліз додає офіційну підтримку Codex App від OpenAI: тепер десктопний AI coding agent
можна запустити на будь-якій локальній або хмарній моделі через Ollama....
У вас 5 tools — все чудово. У вас 15 tools — починаються проблеми.
У вас 50 tools — агент деградує. Але є рішення яке вирішує проблему
масштабу елегантно — і ви вже знаєте як воно працює, бо використовуєте
його для документів.
Ця стаття — частина серії про AI агентів на Spring Boot.
Якщо...