OpenAI hat GPT-5.4 veröffentlicht: Was sich 2026 geändert hat

Aktualisiert:
OpenAI hat GPT-5.4 veröffentlicht: Was sich 2026 geändert hat

Am 5. März 2026 hat OpenAI GPT-5.4 veröffentlicht – gleichzeitig in ChatGPT, API und Codex.

Dies ist kein weiteres inkrementelles Update: Das Modell vereint erstmals die Coding-Pipeline von GPT-5.3-Codex

mit allgemeinem Reasoning, erhält native Computernutzung und ein Kontextfenster von bis zu 1M Token.

Kurz gesagt: Wenn Sie Agenten-Workflows oder Coding-Tools entwickeln –

ist dies ein Release, auf das Sie heute achten sollten.

⚡ Das Wichtigste in 30 Sekunden

  • Veröffentlichungsdatum: 5. März 2026, Rollout in ChatGPT, API und Codex gleichzeitig
  • Konsolidiertes Modell: GPT-5.3-Codex und GPT-5.2 sind in einem Modell vereint – kein Wechsel mehr zwischen Endpunkten erforderlich
  • Native Computernutzung: Erstes Hauptmodell von OpenAI, das den Computer autonom über Playwright und Maus-/Tastaturbefehle steuert
  • 1M Kontext-Token in der API (mit doppeltem Tarif über 272K)
  • −47% Token bei einigen Agentenaufgaben im Vergleich zu den Vorgängern
  • −33% Fehler in einzelnen Aussagen im Vergleich zu GPT-5.2

📚 Inhalt

🗓️ Was veröffentlicht wurde und wann

OpenAI hat GPT-5.4 offiziell angekündigt

am 5. März 2026. Das Modell ist sofort auf drei Oberflächen verfügbar:

  • ChatGPT – als GPT-5.4 Thinking für Plus-, Team- und Pro-Benutzer (ersetzt GPT-5.2 Thinking). GPT-5.2 Thinking bleibt bis zum 5. Juni 2026 in den Legacy Models.
  • API – die Endpunkte gpt-5.4 und gpt-5.4-pro sind ab sofort verfügbar
  • Codex – wird zum Standardmodell und ersetzt GPT-5.3-Codex

GPT-5.4 Pro ist über die API und für ChatGPT Pro ($200/Monat) sowie Enterprise-Pläne verfügbar.

Kostenlose Benutzer erhalten Zugriff auf GPT-5.4 durch automatische Anfragenrotation, laut

VentureBeat.

⚙️ 3 Hauptänderungen

1. Kein Wechsel mehr zwischen GPT-5.x und Codex erforderlich

Vor dem Release von GPT-5.4 sah die Standardarchitektur einer Agenten-Pipeline mit gemischten Aufgaben

wie folgt aus: GPT-5.2 für Planungs- und Reasoning-Schritte, GPT-5.3-Codex für Generierung

und Code-Ausführung. Jeder Wechsel zwischen Modellen bedeutete einen separaten API-Aufruf, eine separate Kontextverwaltung,

unterschiedliches Verhalten in Grenzbereichen und verschiedene Feinabstimmungsparameter.

Bei langen Agenten-Trajektorien führte dies zu einem erheblichen Overhead in Bezug auf Latenz und

Code-Komplexität.

GPT-5.4 eliminiert diesen Bedarf. Laut

OpenAI,

ist dies das erste Mainline-Reasoning-Modell, das die Frontier-Coding-Fähigkeiten

von GPT-5.3-Codex in einem einzigen Gewichtssatz vereint – ein Ergebnis der Zusammenführung von Trainings-Stacks, nicht der Routing-Logik.

In der Praxis bedeutet dies:

  • SWE-Bench Pro: 57.7% vs 56.8% bei GPT-5.3-Codex – GPT-5.4 reproduziert die

    Coding-Performance des Codex-Modells mit geringerer Latenz und zusätzlichen Reasoning-Fähigkeiten,

    laut gaga.art

  • GDPval: 83.0% – eine neue OpenAI-Metrik, 44 Berufe aus 9 Branchen,

    1320 Aufgaben von Fachspezialisten mit über 14 Jahren Erfahrung. GPT-5.4 übertrifft

    GPT-5.2 (70.9%) und entspricht oder übertrifft menschliche Fachspezialisten in 83%

    der Vergleiche, laut

    The Decoder

  • Für Entwickler praktisch: Wenn Ihre Pipeline zwei Endpunkte verwendete,

    genügt es jetzt, die Modell-ID auf gpt-5.4 zu ändern – in den meisten Fällen

    ist dies ein Austausch ohne Logikänderungen. GPT-5.4 wird zum Standardmodell in Codex und ersetzt

    GPT-5.3-Codex automatisch

Besonders hervorzuheben ist eine neue Funktion in ChatGPT Thinking: Das Modell zeigt nun den Plan

des Reasoning vor der Ausführung an und ermöglicht es, die Richtung mitten in der Antwort zu korrigieren

es ist nicht nötig, die Anfrage von Grund auf neu zu starten, wenn das Modell in die falsche Richtung gegangen ist. Verfügbar

auf chatgpt.com und Android, iOS – bald, laut

DataCamp.

2. Native Computernutzung: Mechanik und reale Zahlen

GPT-5.4 ist das erste allgemeine OpenAI-Modell mit integrierter Computernutzung. Es ist wichtig, die

Architektur zu verstehen: Es handelt sich nicht um einen einzigen Mechanismus, sondern um zwei parallele Ansätze, die das Modell

je nach Aufgabe kombiniert:

  • Code-basierte Automatisierung – das Modell schreibt Code in Playwright oder ähnlichen

    Bibliotheken zur Steuerung von Browser- und Desktop-Anwendungen. Geeignet für deterministische,

    wiederholbare Workflows: Formulare, Navigation, Datenextraktion

  • Screenshot-basierte Steuerung – das Modell erhält einen Screenshot des aktuellen Zustands

    des Bildschirms und gibt Maus-/Tastaturbefehle aus. Geeignet für Aufgaben, bei denen die UI-Struktur unvorhersehbar

    oder zwischen Sitzungen wechselt

Das Verhalten wird über Entwickler-Nachrichten und benutzerdefinierte Bestätigungsrichtlinien gesteuert:

Der Entwickler kann konfigurieren, welche Aktionen eine Bestätigung des Benutzers erfordern und welche

autonom ausgeführt werden – ein wichtiger Mechanismus für den Produktions-Deployment mit unterschiedlichen Risikostufen,

laut

OpenAI.

Wichtige Benchmarks:

  • OSWorld-Verified: 75.0% – über dem menschlichen Durchschnitt (72.4%).

    Zum Vergleich: GPT-5.2 zeigte auf demselben Benchmark nur 47.3% – ein Anstieg

    von mehr als dem 1.5-fachen, laut

    VentureBeat

  • BrowseComp: 82.7% (Basis) / 89.3% (Pro) –

    misst die Fähigkeit eines Agenten, schwer zugängliche Informationen im Internet durch

    persistentes Browsing zu finden. GPT-5.2 zeigte 65.8% – ein Anstieg um 17 absolute Prozentpunkte

Zur Demonstration der Möglichkeiten hat OpenAI einen experimentellen Codex-Skill veröffentlicht:

Playwright (Interaktiv): Das Modell kann Web- und Electron-Anwendungen visuell

in Echtzeit debuggen – und sogar die Anwendung während ihrer Erstellung testen.

Laut

DataCamp,

weist diese Kombination aus Code-Generierung und visuellem Feedback-Loop auf eine Richtung hin, in der KI-Agenten

mit minimaler menschlicher Beteiligung am Frontend iterieren können.

3. Tool Search: Vom statischen Manifest zur On-Demand-Entdeckung

Dies ist wahrscheinlich die praktisch wichtigste Änderung für Entwickler, die Systeme

mit vielen Tools erstellen. Zuvor war die Übergabe von Tool-Definitionen im System-Prompt

ineffizient: Alle Schemata wurden bei jedem Aufruf in den Kontext geladen,

unabhängig davon, ob sie in einem bestimmten Schritt benötigt wurden.

GPT-5.4 löst dies durch eine neue Architektur: Das Modell erhält nur eine leichtgewichtige

Liste der verfügbaren Tools und lädt die vollständigen Definitionen on-demand

nur dann, wenn es sich entscheidet, ein bestimmtes Tool zu verwenden. Laut

The Decoder,

fügten große Tool-Ökosysteme zuvor Zehntausende unnötiger Token

zu jeder Anfrage hinzu.

Praktischer Effekt der Tool Search:

  • −47% Token bei Agentenaufgaben mit vielen Tools,

    laut

    VentureBeat

  • Skalierbarkeit: Die Tool-Suche ermöglicht die Arbeit mit Ökosystemen,

    die Zehntausende von Tools enthalten – zum Beispiel Unternehmens-

    MCP-Server oder große API-Kataloge, laut

    Apidog

  • Cache-Trefferquote: Da die leichtgewichtige Tool-Liste zwischen

    Anfragen stabiler ist als das vollständige Manifest, arbeitet das Caching effizienter – was zusätzlich die

    Inferenzkosten senkt

  • Einschränkungen: Ausschließlich über die Responses API verfügbar, nicht über

    Chat Completions

Besonders hervorzuheben ist die Verbesserung der Genauigkeit: Bei einer Reihe von de-identifizierten Prompts,

bei denen Benutzer zuvor faktische Fehler bemerkten, zeigt GPT-5.4

−33% falsche Aussagen und −18% Antworten mit jeglichen

Fehlern im Vergleich zu GPT-5.2, laut

OpenAI.

Für Produktionssysteme, bei denen Genauigkeit entscheidend ist (Rechtsanalyse, Finanzberechnungen),

ist dies eine messbare Verbesserung der Zuverlässigkeit.

OpenAI hat GPT-5.4 veröffentlicht: Was sich 2026 geändert hat

📊 Schneller Vergleich mit Wettbewerbern

Stand: März 2026. Quellen: Digital Applied, OpenAI, gaga.art.

Parameter GPT-5.4 Claude Opus 4.6 Gemini 3.1 Pro
Kontextfenster 1M API / 272K Standard
(über 272K – 2× Tarif)
200K (1M Beta) 2M
SWE-bench Verified 80.0% 80.8% ~74%
OSWorld (Computernutzung) 75.0% (Mensch: 72.4%) 72.7% n.v.
BrowseComp (Web-Agenten) 82.7% / Pro: 89.3% n.v. n.v.
Input / Output $/1M Token $2.50 / $15 (Basis)
$30 / $180 (Pro)
$15 / $75 $2 / $12
Native Computernutzung ✅ integriert Begrenzt
CoT zwischen Turns ✅ (Responses API)
Tool Search ✅ (−47% Token)

💡 Vollständiger Vergleich mit 11 Parametern, Analyse der Inferenzkosten und einem praktischen Hierarchiemodell → GPT-5.4: Architektonische Analyse für Entwickler

OpenAI hat GPT-5.4 veröffentlicht: Was sich 2026 geändert hat

✅ Was jetzt zu tun ist

Wenn Sie einen Agenten-Workflow oder eine Coding-Pipeline haben

  • Tauschen Sie die Modell-ID auf gpt-5.4 aus und führen Sie Ihre Evals aus.

    Wenn Sie zuvor GPT-5.3-Codex verwendet haben – GPT-5.4 reproduziert dessen SWE-Bench Pro

    (57.7% vs 56.8%) mit geringerer Latenz. Wenn Sie GPT-5.2 verwendet haben – erwarten Sie

    Verbesserungen bei Coding-Aufgaben ohne Beeinträchtigung des Reasoning.

  • Erwägen Sie die Migration zur Responses API, wenn Sie Chat

    Completions mit vielen Tools verwenden. Die Responses API ermöglicht Tool Search

    (−47% Token), CoT zwischen Turns und native Compaction – drei Funktionen, die über

    Chat Completions nicht verfügbar sind.

  • Aktivieren Sie den /fast Modus in Codex für Aufgaben, bei denen Geschwindigkeit wichtig ist:

    dasselbe GPT-5.4, aber bis zu 1.5× schnellere Token-Geschwindigkeit, laut

    target="_blank">VentureBeat

  • Für ein 1M Kontextfenster in Codex konfigurieren Sie

    model_context_window und model_auto_compact_token_limit

    in den Codex-Einstellungen. Wichtig: Anfragen über die Standard-272K hinaus werden

    zum 2-fachen des normalen Tarifs abgerechnet, laut

    gaga.art

Wenn Sie Computer-Use-Agenten entwickeln

  • Verwenden Sie das aktualisierte Computer-Tool in der API. In der OpenAI-Dokumentation

    gibt es Empfehlungen für die original und high image detail Einstellungen –

    diese verbessern die Lokalisierung und Klickgenauigkeit erheblich.

  • Konfigurieren Sie benutzerdefinierte Bestätigungsrichtlinien für Aktionen mit unterschiedlichem Risikoniveau:

    legen Sie fest, welche Operationen autonom ausgeführt werden und welche eine Bestätigung des

    Benutzers vor der Ausführung erfordern.

  • Probieren Sie Playwright (Interaktiv) in Codex für visuelles Debugging von

    Web- und Electron-Anwendungen aus – ein experimenteller Skill, aber bereits funktionsfähig für reale

    Frontend-Aufgaben.

Wenn Sie einfache High-Throughput-Aufgaben haben

  • Migrieren Sie nicht überstürzt – gpt-5-mini oder gpt-5.3-chat-latest bleiben

    die bessere Wahl in Bezug auf Kosten/Latenz für Klassifizierung, Zusammenfassung und Template-Filling.

    GPT-5.4 wäre für diese Szenarien überflüssig und teurer.

  • Für GPT-5.2 in der API gibt es kein angekündigtes Deprecation-Datum – daher

    müssen Legacy-Systeme nicht überstürzt angefasst werden.

Wichtige Termine

  • 5. Juni 2026 – GPT-5.2 Thinking wird in ChatGPT deaktiviert

    (wechselt jetzt zu Legacy Models, vollständige Deaktivierung in 3 Monaten).

    Wenn Sie es in einem Produkt über die ChatGPT-Oberfläche verwenden – migrieren Sie bis zu diesem Datum.

  • 26. August 2026 – Einstellung der Assistants API. Wenn Sie die

    Assistants API noch verwenden – ist die Migration zur Responses API eine sofortige Priorität.

🔬 Möchten Sie verstehen, wie es funktioniert?

Dieser Artikel ist eine kurze Übersicht über das, was veröffentlicht wurde. Wenn Sie sich für die technische Mechanik interessieren:

wie genau sich die Reasoning-Pipeline von GPT-5.0 zu 5.4 geändert hat, warum ein konsolidiertes Modell

ein architektonischer Kompromiss ist und wie reasoning.effort die Kosten

und Latenz beeinflusst – lesen Sie die detaillierte Analyse:

👉

GPT-5.4 im Jahr 2026: Von spezialisierten Modellen zur konsolidierten Architektur – was sich geändert hat und warum


14 Min. Lesezeit · 5 Abschnitte · Benchmarks · Tabellen · FAQ

Quellen:

OpenAI – Einführung von GPT-5.4

TechCrunch – OpenAI startet GPT-5.4

VentureBeat – GPT-5.4 native Computernutzung

Digital Applied – GPT-5.4 vs Claude vs Gemini

OpenAI Academy – GPT-5.4 Thinking und Pro

Останні статті

Читайте більше цікавих матеріалів

Що означає GPT-5.5 для ринку AI у 2026 році

Що означає GPT-5.5 для ринку AI у 2026 році

У лютому 2026 за 48 годин зникло $285 мільярдів з капіталізації технологічних компаній. Не через рецесію. Не через провальну звітність. Через одне питання, яке інвестори поставили собі одночасно: якщо AI-агент робить роботу десяти людей — навіщо платити за десять місць у...

GPT-5.5 vs GPT-5.4: що  змінилося у 2026 році

GPT-5.5 vs GPT-5.4: що змінилося у 2026 році

OpenAI випустив GPT-5.5 лише через шість тижнів після GPT-5.4 — і це не черговий патч. Спойлер: перша повністю перетренована базова модель з часів GPT-4.5 дає реальний стрибок у агентних задачах і довгому контексті, але у hallucinations не покращилась — і коштує на 20% дорожче, а...

DeepSeek V4 Flash у 2026: що це, скільки коштує і як запустити без GPU

DeepSeek V4 Flash у 2026: що це, скільки коштує і як запустити без GPU

TL;DR за 30 секунд: DeepSeek V4 Flash — MoE-модель з 284B параметрами (13B активних), контекстом 1M токенів і MIT-ліцензією. Вийшла 24 квітня 2026 року. Коштує $0.14/$0.28 за мільйон токенів — дешевше за Claude Haiku 4.5, Gemini 3.1 Flash і GPT-5.4 Nano. Доступна через Ollama Cloud на NVIDIA...

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Коротко про що ця стаття: 17 квітня я взяв свіжий Claude Opus 4.7 і прогнав його через свою RAG-систему AskYourDocs на тестовому наборі з ~400 публічних юридичних документів (зразки договорів, нормативні акти, шаблони з відкритих джерел). Порівняв з Llama 3.3 70B, на якій у мене зараз...

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

TL;DR за 30 секунд: Claude Opus 4.7 — новий флагман Anthropic, який вийшов 16 квітня 2026 року. Головне: +10.9 пунктів на SWE-bench Pro (64.3% проти 53.4% у Opus 4.6), вища роздільна здатність vision (3.75 MP), нова memory на рівні файлової системи та новий рівень міркування xhigh. Ціна...

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати. Що таке MoE і чому 26B...