AI_TOOLS 02 Mai 2026 14 Min. Lesezeit 67 Aufruf

Migration von deepseek-chat zu DeepSeek V4: Was bricht bis zum 24. Juli?

Aktualisiert: 02 May 2026

Sprache: 🇺🇦 🇺🇸 🇩🇪 🇪🇸

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

Migration von deepseek-chat zu DeepSeek V4: Was bricht bis zum 24. Juli?

TL;DR in 30 Sekunden: Am 24. Juli 2026 um 15:59 UTC werden die Namen deepseek-chat und deepseek-reasoner für immer abgeschaltet – ohne Vorwarnung und ohne Kulanzzeit. Jeder Code, der sie verwendet, gibt einen Fehler zurück. Dies ist keine kosmetische Änderung: V4 ist eine neue Architektur mit anderem Standardverhalten, neuer Antwortstruktur und anderem Kostenmodell. Wenn Ihr Team noch nicht mit der Migration begonnen hat – lesen Sie weiter.

Dieser Artikel richtet sich an technische Manager: ohne übermäßigen Code, mit Fokus auf Risiken, Fristen und Fragen, die Sie Ihrem Team heute stellen sollten. Wenn Sie an einer technischen Analyse des Modells selbst interessiert sind – lesen Sie unseren Überblick über DeepSeek V4 Flash.

1. Kontext: Warum dies nicht nur eine „Zeichenkette ändern“ ist

Wenn Entwickler sagen „das ist nur eine Änderung des Model-Strings“, haben sie technisch Recht – aber nur in Bezug auf die Syntax. Das Problem ist, dass sich hinter dem neuen Namen ein grundlegend anderes Modell verbirgt.

Hier ist die Chronologie, die wichtig zu verstehen ist:

Bis zum 24. April 2026: deepseek-chat zeigte auf DeepSeek V3.2. deepseek-reasoner – auf den Reasoning-Modus desselben V3.2.
Ab dem 24. April 2026: beide Namen werden bereits auf DeepSeek V4 Flash umgeleitet – ein neues Modell mit neuer Architektur. Das heißt, wenn Ihr Code sich nicht geändert hat, verwenden Sie bereits V4, ohne es zu wissen.
24. Juli 2026, 15:59 UTC: die alten Namen werden vollständig abgeschaltet. Keine Weiterleitung, kein Fallback.

Das bedeutet zwei Dinge für den Manager:

Ihr System verhält sich bereits etwas anders als vor dem 24. April – auch wenn Sie nichts am Code geändert haben. V4 Flash ist ein anderes Modell mit anderen Gewichten, anderer Antwortlänge und einem neuen Denkmodus.
Bis zum 24. Juli haben Sie ein Zeitfenster, um die Migration bewusst durchzuführen, zu testen und das neue Verhalten zu fixieren. Nach dem 24. Juli gibt es keine Wahl mehr.

Offizielle Bestätigung aus dem offiziellen DeepSeek API Changelog:

„The two legacy API model names, deepseek-chat and deepseek-reasoner, will be discontinued in three months (2026-07-24). During the current period, these two model names point to the non-thinking mode and thinking mode of deepseek-v4-flash, respectively.“

Und aus den offiziellen Release Notes von DeepSeek V4:

„⚠️ Note: deepseek-chat & deepseek-reasoner will be fully retired and inaccessible after Jul 24th, 2026, 15:59 (UTC Time).“

"Fully retired and inaccessible" – nicht "deprecated with warnings", nicht "may stop working". Vollständige Abschaltung zu einem bestimmten Zeitpunkt.

2. Frist: Was genau am 24. Juli passiert

Das genaue Datum und die Uhrzeit: 24. Juli 2026 um 15:59 UTC.

Was zu diesem Zeitpunkt passieren wird:

Jede Anfrage mit model: "deepseek-chat" gibt 404 oder 400 Bad Request zurück
Jede Anfrage mit model: "deepseek-reasoner" gibt eine ähnliche Fehlermeldung zurück
Es ist keine Kulanzzeit geplant – laut WaveSpeedAI hat DeepSeek offiziell bestätigt, dass eine Verlängerung des Zeitrahmens nicht diskutiert wird

Wie viel Zeit bleibt? Zum Zeitpunkt der Veröffentlichung dieses Artikels – weniger als 12 Wochen. Unter Berücksichtigung, dass:

Regressionstests nach der Modelländerung 2–4 Wochen dauern
Behebung damit verbundener Probleme mit Parsing und Überwachung – weitere 1–2 Wochen
schrittweise Einführung (staged rollout) für kritische Systeme – weitere 2–4 Wochen

…schließt sich das tatsächliche Zeitfenster für eine komfortable Migration Ende Mai – Anfang Juni. Nicht im Juli.

Empfehlung von Verdent AI: „Finish testing in May, leave June for stragglers“ – beenden Sie die Tests im Mai, lassen Sie den Juni für Nachzügler.

3. Was genau kaputt geht und warum

Unten sind sechs reale Risiken, geordnet nach Kritikalität. Für jedes: Was genau kaputt geht, warum es nicht offensichtlich ist und was dagegen zu tun ist.

Risiko 1: 404 nach der Frist – direkter Ausfall

Kritikalität: Hoch

Was kaputt geht: Jeder Produktionsdienst oder jedes Skript, in dem der Name deepseek-chat oder deepseek-reasoner fest codiert ist, hört auf, auf Anfragen zu antworten.

Warum nicht offensichtlich: Modellnamen sind oft nicht nur im Hauptcode der Anwendung versteckt. Sie können sich in folgenden befinden:

Konfigurationsdateien (.env, config.yaml, application.properties)
Deployment-Skripte und CI/CD-Pipelines
Dokumentation und Vorlagen für neue Entwickler
Einzelne Mikroservices, die seit Monaten nicht angefasst wurden
Cron-Jobs und Batch-Skripte, die einmal pro Woche laufen
SDK-Integrationen, bei denen der Modellname durch die Konfiguration des Anbieters festgelegt wird

Was zu tun ist: Bitten Sie das Team, eine grep-Suche im gesamten Repository und allen Konfigurationen nach den Zeilen deepseek-chat und deepseek-reasoner durchzuführen. Nicht nur in Python/JS-Dateien – in allen Dateien. Fixieren Sie alle Stellen in einem separaten Dokument.

Risiko 2: Denkmodus standardmäßig aktiviert – die Rechnung steigt

Kritikalität: Hoch (finanziell)

Was kaputt geht: Wenn Ihr Team von deepseek-reasoner auf deepseek-v4-flash migriert, ohne den Denkmodus explizit zu deaktivieren – generiert das Modell standardmäßig interne Chain-of-Thought-Überlegungen vor jeder Antwort. Diese Überlegungen werden wie normale Output-Token abgerechnet.

Warum das finanziell schmerzhaft ist: Laut realen Tests verbraucht dieselbe Aufgabe (Refactoring einer Python-Klasse) im Denkmodus thinking_max 3,2-mal mehr Token als ohne Denken:

Modus	Output-Token	Kosten (V4-Flash)
Non-thinking	~3 400	$0.00116
Thinking_max	~12 800	$0.00375

3,2x bei einer einzigen Anfrage. Multiplizieren Sie dies mit Millionen von Anfragen pro Monat – und der Unterschied in der Rechnung wird erheblich. Für komplexe Aufgaben kann der „Blowup“ 10x betragen.

Wichtiger Hinweis: Die offizielle DeepSeek-Dokumentation bestätigt: Der Denkmodus ist für V4 standardmäßig aktiviert, und für einige Agenten-Anfragen (Claude Code, OpenCode) wird automatisch die maximale Reasoning-Stufe eingestellt.

Was zu tun ist: Geben Sie bei der Migration explizit den Denkmodus an. Für Aufgaben, bei denen kein Reasoning benötigt wird (FAQ-Antworten, Klassifizierung, strukturierte Ausgabe) – übergeben Sie thinking: disabled. Wenn das Team diesen Parameter nicht kontrolliert – ist das Risiko einer versteckten Rechnungserhöhung real.

Risiko 3: Neue Antwortstruktur – Parsing bricht stillschweigend

Kritikalität: Mittel (aber gefährlich, weil nicht sofort sichtbar)

Was kaputt geht: V4 im Denkmodus gibt ein neues Feld reasoning_content im Antwortobjekt zurück – getrennt vom Hauptinhalt content. Wenn Ihr Code eine einfache Antwort ohne zusätzliche Felder erwartet und die Antwort direkt parst – ignoriert er möglicherweise reasoning_content oder bricht bei einer unerwarteten Struktur zusammen.

Warum das stillschweigend gefährlich ist: Ein Fehler dieser Art führt selten zu einem offensichtlichen Fehler – der Code nimmt einfach content und ignoriert den Rest. Aber es gibt ein schlimmeres Szenario: Wenn Ihr Code die Antwort des Modells in die nächste Anfrage zurückgibt (Multi-Turn-Konversation), hat V4 eine spezielle Anforderung: Selbst in Zügen, in denen kein Denken stattfand, muss das Feld reasoning_content als leerer String vorhanden sein, nicht als null. Ohne dies erhalten einige Clients im nächsten Zug einen Fehler.

Über diesen Fehler warnt CodersEra: „There's also a tool-call wrinkle: even on assistant turns where there was no thinking, some clients need to include reasoning_content: "" (empty string, not null) to satisfy V4's validator on the next turn.“

Was zu tun ist: Fragen Sie das Team, ob es Code gibt, der die Struktur der DeepSeek-Antwort parst oder Antworten in nachfolgende Anfragen (Multi-Turn, Agenten-Schleifen) weiterleitet. Wenn ja – sind Tests mit aktiviertem Denkmodus erforderlich.

Risiko 4: Drittanbieter-Integrationen – Sie kontrollieren deren Code nicht

Kritikalität: Mittel (abhängig vom Stack)

Was bricht: Wenn Sie DeepSeek über ein Gateway oder einen Proxy (LiteLLM, OpenRouter, Helicone, Portkey, Vercel AI Gateway) verwenden, ist Ihr eigener Code möglicherweise bereits aktualisiert, aber das Gateway verwendet möglicherweise weiterhin alte Modellnamen in seiner Konfiguration.

Dies gilt auch für fertige KI-Tools: Wenn Ihr Team ein beliebiges SaaS- oder Open-Source-Agenten-Framework mit integrierter DeepSeek-Unterstützung verwendet, prüfen Sie, ob der Anbieter seine Modellkonfigurationen aktualisiert hat. Laut WaveSpeedAI hat OpenRouter bereits V4-Routen veröffentlicht, aber die clientseitige Konfiguration kann immer noch alte Namen anpingen.

Was zu tun ist: Erstellen Sie eine Liste aller Drittanbieter, über die Anfragen an DeepSeek laufen. Prüfen Sie für jeden: Sind deren Modellnamen bereits auf V4 aktualisiert? Haben sie eine eigene Migrationsfrist?

Risiko 5: Monitoring wird blind – Dashboards sehen keine neuen Namen

Kritikalität: Niedrig (beeinflusst aber die Sichtbarkeit nach der Migration)

Was bricht: Wenn Ihr Monitoring- oder Abrechnungs-Dashboard Anfragen nach Modellnamen gruppiert, verschwinden nach der Migration die Metriken unter dem alten Namen, und neue erscheinen unter einem anderen Namen. Wenn Alarme für bestimmte Modellnamen konfiguriert sind, werden sie nicht mehr ausgelöst.

WaveSpeedAI warnt davor: „Not updating monitoring dashboards. If your dashboard groups by model name, V4 calls don't show up under your old DeepSeek tile until you fix the label.“

Was zu tun ist: Aktualisieren Sie vor der Migration die Filter in Dashboards und Alarmen – um nach der Umstellung keine Sichtbarkeit auf Kosten und Fehler zu verlieren. Separat: Logging von Denk-Tokens. Die API-Antwort enthält das Feld usage.reasoning_tokens – ohne explizites Logging sehen Sie nicht, wo Token-Explosionen auftreten.

Risiko 6: deepseek-reasoner → V4-Pro ist kein gleichwertiger Ersatz

Kritikalität: Mittel (wenn Ihr Team die Migration so plant)

Was bricht: Logischer Fehler im Migrationsplan. Manche glauben, dass deepseek-reasoner (Reasoning-Modell) durch deepseek-v4-pro (größeres Modell) ersetzt werden sollte. Das ist keine richtige Analogie.

Die tatsächlichen Entsprechungen gemäß der offiziellen Zuordnung:

Alter Name	Aktuelle Zuordnung (bis 24.07)	Empfohlener Ersatz	Hinweis
`deepseek-chat`	V4-Flash, non-thinking	`deepseek-v4-flash`	Direkter Ersatz in Bezug auf Preis und Geschwindigkeit
`deepseek-reasoner`	V4-Flash, thinking mode	`deepseek-v4-flash` + thinking enabled	Dies ist Flash, nicht Pro! Pro ist ein Upgrade, kein Ersatz

Wenn Ihr Team deepseek-reasoner durch deepseek-v4-pro ersetzt, machen sie ein Upgrade, keinen gleichwertigen Ersatz. Pro kostet 3,48 $/M Output-Tokens gegenüber 0,28 $/M bei Flash – 12-mal teurer. Vielleicht ist das die richtige Entscheidung für Ihren Anwendungsfall – aber es ist eine bewusste Wahl, kein Standard.

4. Risikomatrix: Schnelle Einschätzung für Manager

Nutzen Sie diese Tabelle, um Prioritäten für Ihr Team schnell zu verstehen:

Was Sie haben	Risiko	Priorität	Aktion
Hardcodiertes `deepseek-chat` oder `deepseek-reasoner` im Code/in Konfigurationen	Ausfallzeit nach dem 24.07	🔴 Kritisch	Bis Ende Mai finden und ersetzen
Verwendung von DeepSeek über ein Gateway (LiteLLM, OpenRouter)	Ausfallzeit nach dem 24.07, wenn das Gateway nicht aktualisiert wurde	🔴 Kritisch	Gateway-Konfigurationen und SDK-Version prüfen
Migration von deepseek-reasoner ohne explizites `thinking: disabled`	Kostensteigerung um das 3- bis 10-fache	🟠 Hoch	Thinking-Modus nach der Migration explizit kontrollieren
Parsing der Antwortstruktur oder Multi-Turn-Konversationen	Stiller Bug, Qualitätsverschlechterung oder Fehler in nachfolgenden Zügen	🟠 Hoch	Regressionstests für Multi-Turn-Szenarien
Alarme und Dashboards mit Filtern nach Modellnamen	Verlust der Sichtbarkeit nach der Migration	🟡 Mittel	Filter und Alarme vor dem Deployment aktualisieren
Agenten-Schleife oder Cron-Job mit deepseek-reasoner	Ausfallzeit + möglicher Kostenanstieg	🔴 Kritisch	Alle Batch-/geplanten Skripte finden, Thinking-Modus prüfen
Dokumentation und Onboarding-Vorlagen	Neue Entwickler werden alte Namen verwenden	🟡 Mittel	Dokumentation gleichzeitig mit dem Code aktualisieren

5. Flash oder Pro: Was bei der Migration wählen

Kurze Entscheidungshilfe für Manager ohne tiefes Eintauchen in Benchmarks (detaillierter Vergleich – in unserer Flash-Übersicht):

Ihr Anwendungsfall	Empfehlung	Warum
FAQ-Bots, Klassifizierung, Zusammenfassung, RAG	V4-Flash, thinking off	Kontext wird bereits bereitgestellt, Reasoning ist überflüssig, Flash ist 12x günstiger bei der Ausgabe
Code-Generierung, Refactoring, Code-Review	V4-Flash, thinking high	Flash-Max nähert sich Pro bei Coding-Aufgaben zu geringeren Kosten an
Komplexe Agenten-Schleifen, Planung, Multi-Step-Aufgaben	V4-Pro oder zuerst Flash testen	Pro ist im Terminal Bench um 11 Punkte besser – aber Flash-Max könnte ausreichend sein
Mathematik, Beweise, wissenschaftliche Aufgaben	V4-Flash, thinking max	Flash-Max ist bei formaler Mathematik unerwartet stark bei geringeren Kosten
Kritische Produktionsaufgaben, bei denen höchste Qualität wichtig ist	V4-Pro	Pro ist derzeit das größte Open-Weight-Modell mit 1,6 Billionen Parametern

Allgemeine Regel für die Migration: Beginnen Sie mit Flash als direktem Ersatz für deepseek-chat/deepseek-reasoner. Testen Sie die Qualität. Rüsten Sie nur dann auf Pro auf, wenn Flash Ihre Qualitätsstandards nicht erfüllt – und erst, nachdem Sie eine konkrete Lücke bei realen Daten festgestellt haben.

Aktuelle Preise (Quelle: offizielle DeepSeek-Dokumentation):

Modell	Input (Cache-Fehler)	Input (Cache-Hit)	Output
deepseek-v4-flash	0,14 $/M	0,028 $/M	0,28 $/M
deepseek-v4-pro	1,74 $/M	0,145 $/M	3,48 $/M

Hinweis: DeepSeek hat bis zum 5. Mai 2026 einen Aktionsrabatt von 75 % auf V4-Pro angekündigt. Überprüfen Sie die aktuellen Preise auf der offiziellen Seite – nach der Aktion werden die Preise auf die Basispreise zurückgesetzt.

6. Versteckte Falle: Wie der Denkmodus die Rechnung unbemerkt in die Höhe treibt

Dies ist das am meisten unterschätzte Migrationsrisiko – und es betrifft nicht nur die Modellauswahl, sondern auch, wie Ihr Team die Anfrageparameter konfiguriert.

So funktioniert der Denkmodus in V4:

Non-thinking: Das Modell generiert sofort eine Antwort. Tokens sind nur Ausgabe.
Thinking (High): Das Modell generiert zuerst interne Überlegungen (reasoning_content), dann die Antwort. Reasoning-Tokens werden als Ausgabe berechnet.
Think Max: Maximales Budget für Überlegungen. DeepSeek empfiehlt für diesen Modus mindestens 384K Kontext.

Der entscheidende Punkt: Der Denkmodus ist standardmäßig aktiviert (Stufe High). Wenn Ihr Team nicht explizit den Parameter thinking: disabled übergibt, zahlen Sie für das Reasoning, auch wenn es nicht benötigt wird.

So verfolgen Sie die Kosten für das Denken: In der API-Antwort gibt es das Feld usage.reasoning_tokens. Ohne explizites Logging dieses Feldes sehen Sie nicht, wo Kostensteigerungen auftreten. Fragen Sie Ihr Team, ob dieser Parameter in Ihrem System protokolliert wird.

Faustregel von Braincuber: „Log reasoning tokens separately. Thinking-mode calls bill at the same rate but burn more output tokens. Alert on spikes like CPU spikes.“

Das bedeutet: Behandeln Sie reasoning_tokens wie die CPU-Auslastung in Ihrem Überwachungssystem – schlagen Sie bei ungewöhnlichen Spitzen Alarm.

7. Checkliste für Manager: 15 Minuten mit dem Team

Diese Fragen können Sie in Ihrem nächsten 1:1 oder in Slack an die Entwickler stellen. Sie geben Ihnen ein Bild von den Risiken, ohne dass Sie den gesamten Code selbst lesen müssen.

Code-Audit (5 Minuten)

☐ Wurden alle Stellen gefunden, an denen deepseek-chat oder deepseek-reasoner erwähnt wird? (Code, Konfigurationen, .env, CI/CD, Cron-Jobs)
☐ Wie viele solcher Stellen gibt es? In welchen Diensten?
☐ Gibt es darunter geplante Aufgaben oder Batch-Jobs, die selten ausgeführt werden?

Denkmodus (3 Minuten)

☐ Wird der Parameter thinking bei allen Anfragen an DeepSeek explizit gesteuert?
☐ Für welche Aufgaben ist der Denkmodus aktiviert? Für welche deaktiviert?
☐ Wird das Feld usage.reasoning_tokens im Überwachungssystem protokolliert?

Parsing und Multi-Turn (3 Minuten)

☐ Gibt es Code, der die Struktur der DeepSeek-Antwort parst (nicht nur den Text, sondern die Felder des Objekts)?
☐ Gibt es Multi-Turn-Konversationen oder Agenten-Schleifen, bei denen die Antwort als Kontext zurückgegeben wird?
☐ Wurde nach dem 24. April (als deepseek-chat bereits auf V4 umgestellt wurde) ein Regressionstest durchgeführt?

Drittanbieter und Überwachung (4 Minuten)

☐ Wird LiteLLM, OpenRouter oder ein anderer Gateway verwendet? Sind deren Konfigurationen aktualisiert?
☐ Sind die Filter in Dashboards und Alarmen für die neuen Modellnamen aktualisiert?
☐ Sind die Dokumentation und die Onboarding-Vorlagen für Entwickler aktualisiert?
☐ Wie sieht der Plan für Tests und gestaffelte Einführung aus? Gibt es ein Testende-Datum?

8. Migrations-Zeitplan: Was wann zu tun ist

Basierend auf den Empfehlungen von WaveSpeedAI, Verdent AI und CodersEra:

Wann	Was zu tun ist	Verantwortlich
Jetzt – 16. Mai	Audit von Code und Konfigurationen: Alle `deepseek-chat`/`deepseek-reasoner` finden. Liste der Dienste und Aufgaben für die Migration ermitteln.	Tech Lead + Team
17. Mai – 31. Mai	Modellnamen auf `deepseek-v4-flash` umstellen. Explizite Steuerung des Denkmodus einrichten. Regressionstests starten. Überwachung und Protokollierung von reasoning_tokens aktualisieren.	Entwickler + QA
1. Juni – 20. Juni	Gestaffelte Einführung in die Produktion (beginnend mit Diensten mit geringem Risiko). Parallele Vergleiche der Ausgaben des alten und neuen Modells, wo möglich. Behebung von Restproblemen.	Tech Lead + DevOps
21. Juni – 10. Juli	Finale Überprüfung aller Dienste, Konfigurationen, geplanten Jobs, Dokumentation. Puffer für unvorhergesehene Probleme.	Tech Lead
24. Juli 2026, 15:59 UTC	⚠️ Deadline. `deepseek-chat` und `deepseek-reasoner` werden abgeschaltet.	—

Hauptprinzip: Führen Sie keinen globalen Austausch auf einmal durch. Migrieren Sie Dienst für Dienst, überwachen Sie die Fehlerrate und Latenz 24–48 Stunden nach jedem Übergang, halten Sie einen Rollback-Pfad bereit, bis Sie sich von der Stabilität überzeugt haben.

9. FAQ

Was passiert, wenn ich nichts ändere, nach dem 24. Juli?

Alle Anfragen mit model: "deepseek-chat" oder model: "deepseek-reasoner" geben einen HTTP 404 oder 400 Bad Request zurück. Ihr Dienst oder Skript erhält keine Antworten mehr von der API. Ein Fallback ist nicht vorgesehen – laut Bestätigung von WaveSpeedAI ist eine Fristverlängerung nicht verhandelbar.

Ändert sich der API-Schlüssel oder die Basis-URL?

Nein. Der Schlüssel, die Basis-URL (https://api.deepseek.com) und das Anfrageformat bleiben unverändert. Nur der Wert des Parameters model ändert sich. Dies wird durch die offizielle Release-Notiz bestätigt: „Keep base_url, just update model to deepseek-v4-pro or deepseek-v4-flash.“

Wird V4-Flash die gleiche Antwortqualität wie deepseek-chat liefern?

Nicht identisch. V4-Flash ist ein neues Modell mit anderen Gewichten. Laut Verdent AI ist zu erwarten: etwas längere Antworten, andere Formatierung von Code und Listen, potenziell bessere Qualität – aber nicht identisch. Regressionstests mit realen Daten sind zwingend erforderlich.

Unser Team verwendet OpenRouter – müssen wir auch etwas ändern?

Ja. OpenRouter hat bereits V4-Routen hinzugefügt, aber wenn Ihre clientseitige Konfiguration explizit deepseek-chat oder deepseek-reasoner anpinnt, funktioniert dies nach dem 24. Juli nicht mehr. Überprüfen Sie die Konfigurationen Ihres Gateways und aktualisieren Sie die Modellnamen, wo nötig.

Kann man Flash und Pro gleichzeitig für verschiedene Aufgaben verwenden?

Ja, und das ist eine empfohlene Vorgehensweise. Richten Sie das Routing ein: Flash für Klassifizierung, FAQ und einfache Aufgaben, Pro – für komplexe Agenten-Schleifen, bei denen die Qualität entscheidend ist. Dies ermöglicht die Optimierung der Kosten, ohne die Qualität dort zu beeinträchtigen, wo sie wichtig ist.

Kategorien