Am 5. März 2026 hat OpenAI GPT-5.4 veröffentlicht – gleichzeitig in ChatGPT, API und Codex.
Dies ist kein weiteres inkrementelles Update: Das Modell vereint erstmals die Coding-Pipeline von GPT-5.3-Codex
mit allgemeinem Reasoning, erhält native Computernutzung und ein Kontextfenster von bis zu 1M Token.
Kurz gesagt: Wenn Sie Agenten-Workflows oder Coding-Tools entwickeln –
ist dies ein Release, auf das Sie heute achten sollten.
⚡ Das Wichtigste in 30 Sekunden
- ✅ Veröffentlichungsdatum: 5. März 2026, Rollout in ChatGPT, API und Codex gleichzeitig
- ✅ Konsolidiertes Modell: GPT-5.3-Codex und GPT-5.2 sind in einem Modell vereint – kein Wechsel mehr zwischen Endpunkten erforderlich
- ✅ Native Computernutzung: Erstes Hauptmodell von OpenAI, das den Computer autonom über Playwright und Maus-/Tastaturbefehle steuert
- ✅ 1M Kontext-Token in der API (mit doppeltem Tarif über 272K)
- ✅ −47% Token bei einigen Agentenaufgaben im Vergleich zu den Vorgängern
- ✅ −33% Fehler in einzelnen Aussagen im Vergleich zu GPT-5.2
📚 Inhalt
- 📌 Was veröffentlicht wurde und wann
- 📌 3 Hauptänderungen für Entwickler
- 📌 Schneller Vergleich mit Wettbewerbern
- 📌 Was jetzt zu tun ist
- 📌 Möchten Sie tiefer eintauchen?
🗓️ Was veröffentlicht wurde und wann
OpenAI hat GPT-5.4 offiziell angekündigt
am 5. März 2026. Das Modell ist sofort auf drei Oberflächen verfügbar:
- ChatGPT – als GPT-5.4 Thinking für Plus-, Team- und Pro-Benutzer (ersetzt GPT-5.2 Thinking). GPT-5.2 Thinking bleibt bis zum 5. Juni 2026 in den Legacy Models.
- API – die Endpunkte
gpt-5.4undgpt-5.4-prosind ab sofort verfügbar - Codex – wird zum Standardmodell und ersetzt GPT-5.3-Codex
GPT-5.4 Pro ist über die API und für ChatGPT Pro ($200/Monat) sowie Enterprise-Pläne verfügbar.
Kostenlose Benutzer erhalten Zugriff auf GPT-5.4 durch automatische Anfragenrotation, laut
⚙️ 3 Hauptänderungen
1. Kein Wechsel mehr zwischen GPT-5.x und Codex erforderlich
Vor dem Release von GPT-5.4 sah die Standardarchitektur einer Agenten-Pipeline mit gemischten Aufgaben
wie folgt aus: GPT-5.2 für Planungs- und Reasoning-Schritte, GPT-5.3-Codex für Generierung
und Code-Ausführung. Jeder Wechsel zwischen Modellen bedeutete einen separaten API-Aufruf, eine separate Kontextverwaltung,
unterschiedliches Verhalten in Grenzbereichen und verschiedene Feinabstimmungsparameter.
Bei langen Agenten-Trajektorien führte dies zu einem erheblichen Overhead in Bezug auf Latenz und
Code-Komplexität.
GPT-5.4 eliminiert diesen Bedarf. Laut
ist dies das erste Mainline-Reasoning-Modell, das die Frontier-Coding-Fähigkeiten
von GPT-5.3-Codex in einem einzigen Gewichtssatz vereint – ein Ergebnis der Zusammenführung von Trainings-Stacks, nicht der Routing-Logik.
In der Praxis bedeutet dies:
SWE-Bench Pro: 57.7% vs 56.8% bei GPT-5.3-Codex – GPT-5.4 reproduziert die
Coding-Performance des Codex-Modells mit geringerer Latenz und zusätzlichen Reasoning-Fähigkeiten,
laut gaga.art
GDPval: 83.0% – eine neue OpenAI-Metrik, 44 Berufe aus 9 Branchen,
1320 Aufgaben von Fachspezialisten mit über 14 Jahren Erfahrung. GPT-5.4 übertrifft
GPT-5.2 (70.9%) und entspricht oder übertrifft menschliche Fachspezialisten in 83%
der Vergleiche, laut
Für Entwickler praktisch: Wenn Ihre Pipeline zwei Endpunkte verwendete,
genügt es jetzt, die Modell-ID auf
gpt-5.4zu ändern – in den meisten Fällenist dies ein Austausch ohne Logikänderungen. GPT-5.4 wird zum Standardmodell in Codex und ersetzt
GPT-5.3-Codex automatisch
Besonders hervorzuheben ist eine neue Funktion in ChatGPT Thinking: Das Modell zeigt nun den Plan
des Reasoning vor der Ausführung an und ermöglicht es, die Richtung mitten in der Antwort zu korrigieren –
es ist nicht nötig, die Anfrage von Grund auf neu zu starten, wenn das Modell in die falsche Richtung gegangen ist. Verfügbar
auf chatgpt.com und Android, iOS – bald, laut
2. Native Computernutzung: Mechanik und reale Zahlen
GPT-5.4 ist das erste allgemeine OpenAI-Modell mit integrierter Computernutzung. Es ist wichtig, die
Architektur zu verstehen: Es handelt sich nicht um einen einzigen Mechanismus, sondern um zwei parallele Ansätze, die das Modell
je nach Aufgabe kombiniert:
Code-basierte Automatisierung – das Modell schreibt Code in Playwright oder ähnlichen
Bibliotheken zur Steuerung von Browser- und Desktop-Anwendungen. Geeignet für deterministische,
wiederholbare Workflows: Formulare, Navigation, Datenextraktion
Screenshot-basierte Steuerung – das Modell erhält einen Screenshot des aktuellen Zustands
des Bildschirms und gibt Maus-/Tastaturbefehle aus. Geeignet für Aufgaben, bei denen die UI-Struktur unvorhersehbar
oder zwischen Sitzungen wechselt
Das Verhalten wird über Entwickler-Nachrichten und benutzerdefinierte Bestätigungsrichtlinien gesteuert:
Der Entwickler kann konfigurieren, welche Aktionen eine Bestätigung des Benutzers erfordern und welche
autonom ausgeführt werden – ein wichtiger Mechanismus für den Produktions-Deployment mit unterschiedlichen Risikostufen,
laut
Wichtige Benchmarks:
OSWorld-Verified: 75.0% – über dem menschlichen Durchschnitt (72.4%).
Zum Vergleich: GPT-5.2 zeigte auf demselben Benchmark nur 47.3% – ein Anstieg
von mehr als dem 1.5-fachen, laut
BrowseComp: 82.7% (Basis) / 89.3% (Pro) –
misst die Fähigkeit eines Agenten, schwer zugängliche Informationen im Internet durch
persistentes Browsing zu finden. GPT-5.2 zeigte 65.8% – ein Anstieg um 17 absolute Prozentpunkte
Zur Demonstration der Möglichkeiten hat OpenAI einen experimentellen Codex-Skill veröffentlicht:
Playwright (Interaktiv): Das Modell kann Web- und Electron-Anwendungen visuell
in Echtzeit debuggen – und sogar die Anwendung während ihrer Erstellung testen.
Laut
weist diese Kombination aus Code-Generierung und visuellem Feedback-Loop auf eine Richtung hin, in der KI-Agenten
mit minimaler menschlicher Beteiligung am Frontend iterieren können.
3. Tool Search: Vom statischen Manifest zur On-Demand-Entdeckung
Dies ist wahrscheinlich die praktisch wichtigste Änderung für Entwickler, die Systeme
mit vielen Tools erstellen. Zuvor war die Übergabe von Tool-Definitionen im System-Prompt
ineffizient: Alle Schemata wurden bei jedem Aufruf in den Kontext geladen,
unabhängig davon, ob sie in einem bestimmten Schritt benötigt wurden.
GPT-5.4 löst dies durch eine neue Architektur: Das Modell erhält nur eine leichtgewichtige
Liste der verfügbaren Tools und lädt die vollständigen Definitionen on-demand
nur dann, wenn es sich entscheidet, ein bestimmtes Tool zu verwenden. Laut
fügten große Tool-Ökosysteme zuvor Zehntausende unnötiger Token
zu jeder Anfrage hinzu.
Praktischer Effekt der Tool Search:
−47% Token bei Agentenaufgaben mit vielen Tools,
laut
Skalierbarkeit: Die Tool-Suche ermöglicht die Arbeit mit Ökosystemen,
die Zehntausende von Tools enthalten – zum Beispiel Unternehmens-
MCP-Server oder große API-Kataloge, laut
Cache-Trefferquote: Da die leichtgewichtige Tool-Liste zwischen
Anfragen stabiler ist als das vollständige Manifest, arbeitet das Caching effizienter – was zusätzlich die
Inferenzkosten senkt
Einschränkungen: Ausschließlich über die Responses API verfügbar, nicht über
Chat Completions
Besonders hervorzuheben ist die Verbesserung der Genauigkeit: Bei einer Reihe von de-identifizierten Prompts,
bei denen Benutzer zuvor faktische Fehler bemerkten, zeigt GPT-5.4
−33% falsche Aussagen und −18% Antworten mit jeglichen
Fehlern im Vergleich zu GPT-5.2, laut
Für Produktionssysteme, bei denen Genauigkeit entscheidend ist (Rechtsanalyse, Finanzberechnungen),
ist dies eine messbare Verbesserung der Zuverlässigkeit.