Коли вийшов GPT-5.4 і де він доступний?

GPT-5.4 вийшов 5 березня 2026 року одночасно в ChatGPT (як GPT-5.4 Thinking), API (gpt-5.4 та gpt-5.4-pro) і Codex (замінив GPT-5.3-Codex). Free-користувачі отримують доступ через авторотацію запитів.

Що таке consolidated architecture в GPT-5.4?

Це об'єднання спеціалізованих треків (загальний reasoning з GPT-5.2 та coding з GPT-5.3-Codex) в єдину модель з спільними вагами. Усуває routing-overhead, спрощує вибір моделі та міграцію — просто міняєте model ID на gpt-5.4

Які нові можливості з'явилися в GPT-5.4?

Native computer use (автономне керування комп'ютером через код або скріншоти), Tool Search у Responses API (−47% токенів на агентних задачах), 1M контекстне вікно в API, покращена точність і token efficiency

Чим відрізняється GPT-5.4 Thinking від GPT-5.4 Pro?

GPT-5.4 Thinking — це режим у ChatGPT з глибшим reasoning (показує план думок, дозволяє коригувати mid-response). GPT-5.4 Pro — преміум-варіант для API та ChatGPT Pro/Enterprise з вищими бенчмарками (наприклад, BrowseComp 89.3%)

Що таке Responses API і чому на нього переходити?

Новий API для агентів з підтримкою CoT між turns, stateful context, native compaction і Tool Search. Знижує latency та вартість на 40–80% у multi-turn сценаріях, підвищує cache hit rate. Assistants API відключать 26 серпня 2026 — мігруйте

Як GPT-5.4 впливає на вартість і ефективність?

Базова вартість вища, але token efficiency на складних задачах +18–20%, з Tool Search — до −47%. Для агентних воркфлоу загалом дешевше та швидше. Контекст понад 272K — 2× тариф

NEWS 06 März 2026 6 Min. Lesezeit 7.408 Aufruf

OpenAI hat GPT-5.4 veröffentlicht: Was sich 2026 geändert hat

Aktualisiert: 21 March 2026

Sprache: 🇺🇦 🇺🇸 🇩🇪 🇪🇸

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

OpenAI hat GPT-5.4 veröffentlicht: Was sich 2026 geändert hat

Am 5. März 2026 hat OpenAI GPT-5.4 veröffentlicht – gleichzeitig in ChatGPT, API und Codex.
Dies ist kein weiteres inkrementelles Update: Das Modell vereint erstmals die Coding-Pipeline von GPT-5.3-Codex
mit allgemeinem Reasoning, erhält native Computernutzung und ein Kontextfenster von bis zu 1M Token.
Kurz gesagt: Wenn Sie Agenten-Workflows oder Coding-Tools entwickeln –
ist dies ein Release, auf das Sie heute achten sollten.

⚡ Das Wichtigste in 30 Sekunden

✅ Veröffentlichungsdatum: 5. März 2026, Rollout in ChatGPT, API und Codex gleichzeitig

✅ Konsolidiertes Modell: GPT-5.3-Codex und GPT-5.2 sind in einem Modell vereint – kein Wechsel mehr zwischen Endpunkten erforderlich

✅ Native Computernutzung: Erstes Hauptmodell von OpenAI, das den Computer autonom über Playwright und Maus-/Tastaturbefehle steuert

✅ 1M Kontext-Token in der API (mit doppeltem Tarif über 272K)

✅ −47% Token bei einigen Agentenaufgaben im Vergleich zu den Vorgängern

✅ −33% Fehler in einzelnen Aussagen im Vergleich zu GPT-5.2

📚 Inhalt

📌 Was veröffentlicht wurde und wann

📌 3 Hauptänderungen für Entwickler

📌 Schneller Vergleich mit Wettbewerbern

📌 Was jetzt zu tun ist

📌 Möchten Sie tiefer eintauchen?

🗓️ Was veröffentlicht wurde und wann

OpenAI hat GPT-5.4 offiziell angekündigt

am 5. März 2026. Das Modell ist sofort auf drei Oberflächen verfügbar:

ChatGPT – als GPT-5.4 Thinking für Plus-, Team- und Pro-Benutzer (ersetzt GPT-5.2 Thinking). GPT-5.2 Thinking bleibt bis zum 5. Juni 2026 in den Legacy Models.

API – die Endpunkte gpt-5.4 und gpt-5.4-pro sind ab sofort verfügbar

Codex – wird zum Standardmodell und ersetzt GPT-5.3-Codex

GPT-5.4 Pro ist über die API und für ChatGPT Pro ($200/Monat) sowie Enterprise-Pläne verfügbar.

Kostenlose Benutzer erhalten Zugriff auf GPT-5.4 durch automatische Anfragenrotation, laut

VentureBeat.

⚙️ 3 Hauptänderungen

1. Kein Wechsel mehr zwischen GPT-5.x und Codex erforderlich

Vor dem Release von GPT-5.4 sah die Standardarchitektur einer Agenten-Pipeline mit gemischten Aufgaben

wie folgt aus: GPT-5.2 für Planungs- und Reasoning-Schritte, GPT-5.3-Codex für Generierung

und Code-Ausführung. Jeder Wechsel zwischen Modellen bedeutete einen separaten API-Aufruf, eine separate Kontextverwaltung,

unterschiedliches Verhalten in Grenzbereichen und verschiedene Feinabstimmungsparameter.

Bei langen Agenten-Trajektorien führte dies zu einem erheblichen Overhead in Bezug auf Latenz und

Code-Komplexität.

GPT-5.4 eliminiert diesen Bedarf. Laut

OpenAI,

ist dies das erste Mainline-Reasoning-Modell, das die Frontier-Coding-Fähigkeiten

von GPT-5.3-Codex in einem einzigen Gewichtssatz vereint – ein Ergebnis der Zusammenführung von Trainings-Stacks, nicht der Routing-Logik.

In der Praxis bedeutet dies:

SWE-Bench Pro: 57.7% vs 56.8% bei GPT-5.3-Codex – GPT-5.4 reproduziert die
Coding-Performance des Codex-Modells mit geringerer Latenz und zusätzlichen Reasoning-Fähigkeiten,
laut gaga.art

GDPval: 83.0% – eine neue OpenAI-Metrik, 44 Berufe aus 9 Branchen,
1320 Aufgaben von Fachspezialisten mit über 14 Jahren Erfahrung. GPT-5.4 übertrifft
GPT-5.2 (70.9%) und entspricht oder übertrifft menschliche Fachspezialisten in 83%
der Vergleiche, laut
The Decoder

Für Entwickler praktisch: Wenn Ihre Pipeline zwei Endpunkte verwendete,
genügt es jetzt, die Modell-ID auf gpt-5.4 zu ändern – in den meisten Fällen
ist dies ein Austausch ohne Logikänderungen. GPT-5.4 wird zum Standardmodell in Codex und ersetzt
GPT-5.3-Codex automatisch

Besonders hervorzuheben ist eine neue Funktion in ChatGPT Thinking: Das Modell zeigt nun den Plan

des Reasoning vor der Ausführung an und ermöglicht es, die Richtung mitten in der Antwort zu korrigieren –

es ist nicht nötig, die Anfrage von Grund auf neu zu starten, wenn das Modell in die falsche Richtung gegangen ist. Verfügbar

auf chatgpt.com und Android, iOS – bald, laut

DataCamp.

2. Native Computernutzung: Mechanik und reale Zahlen

GPT-5.4 ist das erste allgemeine OpenAI-Modell mit integrierter Computernutzung. Es ist wichtig, die

Architektur zu verstehen: Es handelt sich nicht um einen einzigen Mechanismus, sondern um zwei parallele Ansätze, die das Modell

je nach Aufgabe kombiniert:

Code-basierte Automatisierung – das Modell schreibt Code in Playwright oder ähnlichen
Bibliotheken zur Steuerung von Browser- und Desktop-Anwendungen. Geeignet für deterministische,
wiederholbare Workflows: Formulare, Navigation, Datenextraktion

Screenshot-basierte Steuerung – das Modell erhält einen Screenshot des aktuellen Zustands
des Bildschirms und gibt Maus-/Tastaturbefehle aus. Geeignet für Aufgaben, bei denen die UI-Struktur unvorhersehbar
oder zwischen Sitzungen wechselt

Das Verhalten wird über Entwickler-Nachrichten und benutzerdefinierte Bestätigungsrichtlinien gesteuert:

Der Entwickler kann konfigurieren, welche Aktionen eine Bestätigung des Benutzers erfordern und welche

autonom ausgeführt werden – ein wichtiger Mechanismus für den Produktions-Deployment mit unterschiedlichen Risikostufen,

laut

OpenAI.

Wichtige Benchmarks:

OSWorld-Verified: 75.0% – über dem menschlichen Durchschnitt (72.4%).
Zum Vergleich: GPT-5.2 zeigte auf demselben Benchmark nur 47.3% – ein Anstieg
von mehr als dem 1.5-fachen, laut
VentureBeat

BrowseComp: 82.7% (Basis) / 89.3% (Pro) –
misst die Fähigkeit eines Agenten, schwer zugängliche Informationen im Internet durch
persistentes Browsing zu finden. GPT-5.2 zeigte 65.8% – ein Anstieg um 17 absolute Prozentpunkte

Zur Demonstration der Möglichkeiten hat OpenAI einen experimentellen Codex-Skill veröffentlicht:

Playwright (Interaktiv): Das Modell kann Web- und Electron-Anwendungen visuell

in Echtzeit debuggen – und sogar die Anwendung während ihrer Erstellung testen.

Laut

DataCamp,

weist diese Kombination aus Code-Generierung und visuellem Feedback-Loop auf eine Richtung hin, in der KI-Agenten

mit minimaler menschlicher Beteiligung am Frontend iterieren können.

3. Tool Search: Vom statischen Manifest zur On-Demand-Entdeckung

Dies ist wahrscheinlich die praktisch wichtigste Änderung für Entwickler, die Systeme

mit vielen Tools erstellen. Zuvor war die Übergabe von Tool-Definitionen im System-Prompt

ineffizient: Alle Schemata wurden bei jedem Aufruf in den Kontext geladen,

unabhängig davon, ob sie in einem bestimmten Schritt benötigt wurden.

GPT-5.4 löst dies durch eine neue Architektur: Das Modell erhält nur eine leichtgewichtige

Liste der verfügbaren Tools und lädt die vollständigen Definitionen on-demand

nur dann, wenn es sich entscheidet, ein bestimmtes Tool zu verwenden. Laut

The Decoder,

fügten große Tool-Ökosysteme zuvor Zehntausende unnötiger Token

zu jeder Anfrage hinzu.

Praktischer Effekt der Tool Search:

−47% Token bei Agentenaufgaben mit vielen Tools,
laut
VentureBeat

Skalierbarkeit: Die Tool-Suche ermöglicht die Arbeit mit Ökosystemen,
die Zehntausende von Tools enthalten – zum Beispiel Unternehmens-
MCP-Server oder große API-Kataloge, laut
Apidog

Cache-Trefferquote: Da die leichtgewichtige Tool-Liste zwischen
Anfragen stabiler ist als das vollständige Manifest, arbeitet das Caching effizienter – was zusätzlich die
Inferenzkosten senkt

Einschränkungen: Ausschließlich über die Responses API verfügbar, nicht über
Chat Completions

Besonders hervorzuheben ist die Verbesserung der Genauigkeit: Bei einer Reihe von de-identifizierten Prompts,

bei denen Benutzer zuvor faktische Fehler bemerkten, zeigt GPT-5.4

−33% falsche Aussagen und −18% Antworten mit jeglichen

Fehlern im Vergleich zu GPT-5.2, laut

OpenAI.

Für Produktionssysteme, bei denen Genauigkeit entscheidend ist (Rechtsanalyse, Finanzberechnungen),

ist dies eine messbare Verbesserung der Zuverlässigkeit.

📊 Schneller Vergleich mit Wettbewerbern

Stand: März 2026. Quellen: Digital Applied, OpenAI, gaga.art.

Parameter	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
Kontextfenster	1M API / 272K Standard (über 272K – 2× Tarif)	200K (1M Beta)	2M
SWE-bench Verified	80.0%	80.8%	~74%
OSWorld (Computernutzung)	75.0% (Mensch: 72.4%)	72.7%	n.v.
BrowseComp (Web-Agenten)	82.7% / Pro: 89.3%	n.v.	n.v.
Input / Output $/1M Token	$2.50 / $15 (Basis) $30 / $180 (Pro)	$15 / $75	$2 / $12
Native Computernutzung	✅ integriert	✅	Begrenzt
CoT zwischen Turns	✅ (Responses API)	❌	❌
Tool Search	✅ (−47% Token)	❌	❌

💡 Vollständiger Vergleich mit 11 Parametern, Analyse der Inferenzkosten und einem praktischen Hierarchiemodell → GPT-5.4: Architektonische Analyse für Entwickler

✅ Was jetzt zu tun ist

Wenn Sie einen Agenten-Workflow oder eine Coding-Pipeline haben

Tauschen Sie die Modell-ID auf gpt-5.4 aus und führen Sie Ihre Evals aus.
Wenn Sie zuvor GPT-5.3-Codex verwendet haben – GPT-5.4 reproduziert dessen SWE-Bench Pro
(57.7% vs 56.8%) mit geringerer Latenz. Wenn Sie GPT-5.2 verwendet haben – erwarten Sie
Verbesserungen bei Coding-Aufgaben ohne Beeinträchtigung des Reasoning.

Erwägen Sie die Migration zur Responses API, wenn Sie Chat
Completions mit vielen Tools verwenden. Die Responses API ermöglicht Tool Search
(−47% Token), CoT zwischen Turns und native Compaction – drei Funktionen, die über
Chat Completions nicht verfügbar sind.

Aktivieren Sie den /fast Modus in Codex für Aufgaben, bei denen Geschwindigkeit wichtig ist:
dasselbe GPT-5.4, aber bis zu 1.5× schnellere Token-Geschwindigkeit, laut
target="_blank">VentureBeat

Für ein 1M Kontextfenster in Codex konfigurieren Sie
model_context_window und model_auto_compact_token_limit
in den Codex-Einstellungen. Wichtig: Anfragen über die Standard-272K hinaus werden
zum 2-fachen des normalen Tarifs abgerechnet, laut
gaga.art

Wenn Sie Computer-Use-Agenten entwickeln

Verwenden Sie das aktualisierte Computer-Tool in der API. In der OpenAI-Dokumentation
gibt es Empfehlungen für die original und high image detail Einstellungen –
diese verbessern die Lokalisierung und Klickgenauigkeit erheblich.

Konfigurieren Sie benutzerdefinierte Bestätigungsrichtlinien für Aktionen mit unterschiedlichem Risikoniveau:
legen Sie fest, welche Operationen autonom ausgeführt werden und welche eine Bestätigung des
Benutzers vor der Ausführung erfordern.

Probieren Sie Playwright (Interaktiv) in Codex für visuelles Debugging von
Web- und Electron-Anwendungen aus – ein experimenteller Skill, aber bereits funktionsfähig für reale
Frontend-Aufgaben.

Wenn Sie einfache High-Throughput-Aufgaben haben

Migrieren Sie nicht überstürzt – gpt-5-mini oder gpt-5.3-chat-latest bleiben
die bessere Wahl in Bezug auf Kosten/Latenz für Klassifizierung, Zusammenfassung und Template-Filling.
GPT-5.4 wäre für diese Szenarien überflüssig und teurer.

Für GPT-5.2 in der API gibt es kein angekündigtes Deprecation-Datum – daher
müssen Legacy-Systeme nicht überstürzt angefasst werden.

Wichtige Termine

5. Juni 2026 – GPT-5.2 Thinking wird in ChatGPT deaktiviert
(wechselt jetzt zu Legacy Models, vollständige Deaktivierung in 3 Monaten).
Wenn Sie es in einem Produkt über die ChatGPT-Oberfläche verwenden – migrieren Sie bis zu diesem Datum.

26. August 2026 – Einstellung der Assistants API. Wenn Sie die
Assistants API noch verwenden – ist die Migration zur Responses API eine sofortige Priorität.