23. April 2026 veröffentlichte OpenAI GPT-5.5 – und machte es sofort zum Standardmodell in Codex.
Aber nicht jedes Update ändert tatsächlich etwas in der täglichen Arbeit. Dieses hier schon.
Drei Dinge, die für Entwickler wichtig sind: weniger Tokens für die gleichen Aufgaben,
die gleiche Geschwindigkeit wie GPT-5.4 und ein qualitativ neues Niveau an agentic-Arbeit
bei komplexen Multi-Step-Aufgaben.
In diesem Artikel – konkrete Zahlen aus offiziellen Benchmarks, ein ehrlicher Vergleich, wo GPT-5.5
gewinnt und wo Claude Opus 4.7 immer noch die Nase vorn hat, und eine praktische Analyse der neuen Modi Thinking
und Fast mode. Ohne Hype – nur das, was ein Entwickler im Mai 2026 wissen muss.
Kurz gesagt: GPT-5.5 ist das derzeit stärkste Modell in Codex.
Terminal-Bench 2.0: 82,7 %. Weniger Tokens für die gleiche Aufgabe. Die gleiche Per-Token-Latenz wie GPT-5.4.
Verfügbar für Plus-, Pro-, Business-, Enterprise-, Edu- und Go-Pläne. Aber es gibt wichtige Nuancen –
dazu später mehr.
GPT-5.5 – kurz über das Modell
Kurze Antwort: GPT-5.5 wurde am 23. April 2026 veröffentlicht –
sieben Wochen nach GPT-5.4 (März 2026). OpenAI nennt es
„eine neue Klasse von Intelligenz für reale Arbeit“.
Nach interner Klassifizierung erhielt das Modell den Codenamen Spud.
Stand Mai 2026 ist GPT-5.5 das intelligenteste Modell im Codex-Ökosystem.
Aber es ist wichtig zu verstehen, dass dies nicht nur „GPT-5.4 mit höheren Zahlen“ ist –
es ist ein qualitativ anderer Ansatz für agentic-Arbeit:
Das Modell ist für Aufgaben konzipiert, bei denen geplant, Werkzeuge verwendet,
die eigene Entscheidung überprüft und fortgesetzt werden muss – auch wenn der ursprüngliche Plan geändert wurde.
Verfügbarkeit in Codex
Eine wichtige Nuance, die bei früheren Modellen nicht vorhanden war:
GPT-5.5 in Codex und GPT-5.5 in der API sind unterschiedliche Oberflächen mit unterschiedlichen Kontextfenstern.
Parameter
Codex (App / CLI / IDE)
API
Kontextfenster
400K Tokens
1M Tokens
Autorisierung
ChatGPT OAuth (Abonnement)
API-Schlüssel (ab 24. April 2026)
API-Preis
–
5 $/1 Mio. Eingabe, 30 $/1 Mio. Ausgabe
Verfügbare Codex-Pläne
Plus, Pro, Business, Enterprise, Edu, Go
Pay-as-you-go
Fast mode
✅ (1,5× schneller, 2,5× Limit)
Priorität: 2,5× Preis
Leser verwechseln oft die Kontexte: „GPT-5.5 unterstützt 1 Mio. Tokens“ – das stimmt, aber nur in der API.
In der Codex-Oberfläche beträgt das Limit 400K. Dies muss bei der Arbeit mit großen Repositories berücksichtigt werden.
Varianten von GPT-5.5
OpenAI hat im Rahmen einer einzigen Veröffentlichung drei Varianten veröffentlicht:
GPT-5.5 (Standard) – das Standardmodell in Codex und ChatGPT für
Plus und höher. Am besten für die meisten agentic-Coding-Aufgaben.
GPT-5.5 Thinking – eine reflektiertere Variante: prägnantere
und genauere Antworten für komplexe Aufgaben, bei denen Qualität wichtiger ist als Geschwindigkeit.
Verfügbar für Plus, Pro, Business, Enterprise.
GPT-5.5 Pro – die leistungsstärkste Variante für die komplexesten Aufgaben.
Nur Pro, Business, Enterprise in ChatGPT. In Codex derzeit nicht separat aufgeführt.
Was hat sich konkret in Codex mit GPT-5.5 geändert
Kurze Antwort: vier tatsächliche Änderungen – zwei technische
(Token-Effizienz und Latenz), eine qualitative (bessere agentic-Arbeit)
und eine neue (Fast mode). Jede davon beeinflusst den täglichen Workflow unterschiedlich.
1. Token-Effizienz – ~40 % weniger Tokens für die gleiche Aufgabe
OpenAI hat Codex gezielt für GPT-5.5 optimiert: Die gleiche Aufgabe
erfordert etwa 40 % weniger Output-Tokens im Vergleich zu GPT-5.4.
Dies ist keine reine Marketingaussage – es bedeutet, dass das tatsächliche Nutzungslimit
für die meisten Aufgaben auf dem gleichen Niveau bleibt oder sinkt,
trotz des höheren Token-Preises in der API (30 $ vs. 15 $ pro 1 Mio. Ausgabe).
Praktische Veranschaulichung: Wenn GPT-5.4 für die Refaktorierung eines Moduls bedingt 10.000 Tokens verbrauchte,
wird GPT-5.5 die gleiche Aufgabe in etwa 6.000 erledigen. Bei einem 2-fachen Token-Preis steigen die tatsächlichen Kosten
um etwa 20 % und nicht um das Doppelte.
Wenn GPT-5.5 zudem weniger Wiederholungsversuche benötigt – Break-even oder Einsparung.
Für Codex-Abonnements: Pro-Benutzer erhielten bis zum 31. Mai 2026 2× Codex-Nutzung
als Entschädigung während des Rollouts des neuen Modells.
2. Gleiche Per-Token-Latenz bei höherer Intelligenz
Ein typisches Problem bei der Veröffentlichung leistungsfähigerer Modelle – sie sind langsamer.
GPT-5.5 ist eine Ausnahme: Es entspricht vollständig GPT-5.4 in Bezug auf die Per-Token-Latenz
unter realen Betriebsbedingungen. Dies wurde durch die gemeinsame Entwicklung
mit NVIDIA auf Basis von GB200/GB300 NVL72 Rack-Scale-Systemen ermöglicht.
Für Entwickler bedeutet dies: Sie erhalten mehr Ergebnis für die gleiche Wartezeit.
Nicht „intelligenter, aber langsamer“ – sondern „intelligenter und genauso schnell“.
3. Qualitativ bessere agentic-Arbeit – weniger Hin und Her
GPT-5.5 bewältigt unklare, mehrstufige Aufgaben besser, ohne ständige Klärungen.
Es plant selbstständig, wählt Werkzeuge aus, überprüft seine Entscheidung und fährt fort –
auch wenn der ursprüngliche Plan während des Prozesses angepasst werden musste.
OpenAI beschreibt dies als die Fähigkeit, „schneller zu verstehen, was Sie zu tun versuchen
und mehr Arbeit selbst zu übernehmen“.
Konkretes Beispiel aus Statistiken: Beim Expert-SWE – einem internen OpenAI-Benchmark,
bei dem Aufgaben eine mittlere Bearbeitungszeit von 20 Stunden für Menschen erfordern –
zeigte GPT-5.5 73,1 % gegenüber 68,5 % bei GPT-5.4. Dies ist kein synthetischer Test,
sondern ein agentic-Szenario, das der Realität nahekommt.
Eine separate Tatsache, die kaum öffentlich beleuchtet wurde: GPT-5.5 hat zusammen mit Codex
noch vor seiner offiziellen Veröffentlichung die eigene Produktionsinfrastruktur von OpenAI neu geschrieben.
Codex analysierte Wochen realen Traffics und schrieb Lastausgleichs-Heuristiken,
die die Geschwindigkeit der Token-Generierung um
mehr als 20 % erhöhten.
Das Modell half buchstäblich, das System zu optimieren, das es bedient.
4. Fast mode – neuer Modus für interaktive Arbeit
Zusammen mit GPT-5.5 wurde in Codex der Fast mode eingeführt – ein Modus, der bisher nicht existierte.
Er generiert Tokens 1,5-mal schneller für 2,5-fache Limitkosten.
Zweck: Ein interaktiver Feedback-Loop, bei dem die Antwortgeschwindigkeit wichtiger ist als die Tiefe
der autonomen Planung. Im Wesentlichen eine Alternative zu Codex-Spark für diejenigen, die keinen Pro-Plan haben
oder einen Kontext von mehr als 128K benötigen. Details zum Fast mode – im nächsten Abschnitt.
Kurze Antwort: GPT-5.5 führt die meisten Benchmarks für agentisches Coding an — aber nicht alle. Claude Opus 4.7 bleibt auf SWE-Bench Pro stärker. Die ehrliche Tabelle unten.
Wichtig: Benchmarks zeigen relative Stärken auf standardisierten Aufgaben. Die tatsächliche Leistung in Ihrem Projekt kann abweichen. Verwenden Sie die Zahlen als Ausgangspunkt, nicht als Urteil.
Vergleichstabelle der Modelle
Benchmark
GPT-5.3-Codex
GPT-5.4
GPT-5.5
Claude Opus 4.7
Gemini 3.1 Pro
Terminal-Bench 2.0
77.3%
75.1%
82.7% 🏆
69.4%
68.5%
SWE-Bench Pro
56.8%
–
58.6%
64.3% 🏆
–
Expert-SWE (intern)
–
68.5%
73.1% 🏆
–
–
FrontierMath T1-3
–
–
51.7% 🏆
–
–
Graphwalks BFS >128K
–
21.4%
73.7% 🏆
–
–
MRCR v2 bei 1M Token
–
36.6%
74.0% 🏆
–
–
Was jeder Benchmark für Entwickler bedeutet
Terminal-Bench 2.0 (82.7%) — am relevantesten für die Arbeit in Codex. Laut dem offiziellen Changelog von OpenAI: Dieser Benchmark misst die Fähigkeit eines Agenten, komplexe CLI-Aufgaben auszuführen, die Planung, Iteration und Werkzeugnutzung erfordern. GPT-5.5 führt mit einem Vorsprung von über 13 Prozentpunkten vor Claude Opus 4.7. Für autonome Terminal-Workflows ist dies ein entscheidender Vorteil.
SWE-Bench Pro (58.6%) — Lösung realer GitHub-Issues. Hier bleibt Claude Opus 4.7 mit 64.3% vorne. OpenAI merkt an, dass der Unterschied teilweise durch die Speicherung eines Teils des Benchmarks erklärt werden könnte — aber es gibt keine unabhängige Bestätigung dafür. Ehrliche Schlussfolgerung: Für Code-Reviews und Repository-Reasoning ist Claude Opus 4.7 immer noch konkurrenzfähig.
Expert-SWE (73.1%) — interner OpenAI-Benchmark für die schwierigsten Long-Horizon-Aufgaben. Die mittlere Bearbeitungszeit durch Menschen beträgt 20 Stunden. GPT-5.5 zeigte 73.1% gegenüber 68.5% bei GPT-5.4: +4.6 pp bei den schwierigsten Aufgaben.
Graphwalks BFS bei >128K (73.7% vs. 21.4%) — Zahlen, die zeigen, wie viel besser die Arbeit mit langem Kontext geworden ist. GPT-5.4 verschlechterte sich drastisch bei Aufgaben, die über 128K Token hinausgehen. GPT-5.5 behält 73.7% bei 256K bei — eine qualitative Veränderung für die Arbeit mit großen Codebasen.
Artificial Analysis Coding Index
Unabhängiges aggregiertes Ranking von
Artificial Analysis
(gewichteter Durchschnitt aus 10 Evaluierungen, einschließlich Terminal-Bench Hard, GPQA Diamond,
Humanity's Last Exam, SciCode und anderen):
GPT-5.5 belegt den ersten Platz bei halben Kosten der Konkurrenz
unter den Frontier-Coding-Modellen. Dies ist eine externe unabhängige Bewertung, nicht von OpenAI.
GPT-5.5 Thinking und Fast Mode — wann was einschalten
Kurze Antwort: GPT-5.5 ist nicht ein Modell, sondern drei Modi mit unterschiedlichen Kompromissen. Standard ist für die meisten Aufgaben. Thinking ist, wenn tiefere Reflexion benötigt wird. Fast Mode ist, wenn die Geschwindigkeit des Feedbacks wichtig ist.
GPT-5.5 Thinking — was es ist und wann es einzuschalten ist
Thinking ist eine Variante von GPT-5.5 mit verstärkter Reflexion vor der Antwort. Laut OpenAI: „ermöglicht schnellere Hilfe bei komplexeren Aufgaben und liefert intelligentere und prägnantere Antworten.“ Verfügbar für Plus, Pro, Business und Enterprise in ChatGPT. In Codex wird es über den Model Picker eingeschaltet — es wird als separater Punkt ausgewählt.
Thinking ist Ihre Wahl, wenn:
Architektonische Entscheidung, bei der Qualität wichtiger ist als Geschwindigkeit: z. B. wie ein monolithischer Dienst in Microservices aufgeteilt wird, unter Berücksichtigung bestehender Abhängigkeiten.
Komplexes Debugging, bei dem das Problem nicht offensichtlich ist: Fehler in der Produktion ohne expliziten Stack Trace, Race Condition im Async-Code, instabiler Test, der 1 von 10 Mal fehlschlägt.
Research-Aufgaben: Wahl zwischen zwei architektonischen Ansätzen mit Analyse der Kompromisse.
Jede Aufgabe, bei der Sie ein „Warum so und nicht anders“ hören möchten, nicht nur fertigen Code.
Bleiben Sie bei Standard-GPT-5.5, wenn:
Die Aufgabe klar ist und nur das Ergebnis benötigt wird: Tests schreiben, Validierung hinzufügen, eine Methode refaktorieren.
Autonome Aufgabe, bei der Codex die Unteraufgaben selbst löst — hier fügt Thinking unnötigen Overhead hinzu.
Die meisten normalen agentischen Coding-Aufgaben — der Standardmodus ist die empfohlene Standardeinstellung.
Fast Mode — was es ist und wann es einzuschalten ist
Fast Mode ist ein neuer Modus in Codex, der vor GPT-5.5 nicht existierte. Laut 9to5Mac generiert er Token 1,5-mal schneller für das 2,5-fache der Kosten pro Limit. Wird im Model Picker neben dem Haupt-GPT-5.5 eingeschaltet.
Im Wesentlichen ist Fast Mode eine Alternative zu
GPT-5.3-Codex-Spark
für diejenigen, die keinen Pro-Plan haben (Spark ist nur Pro, Research Preview) oder mehr als 128K Token Kontext benötigen (Spark ist auf 128K beschränkt). Fast Mode ist für alle Pläne mit GPT-5.5 verfügbar und nutzt den vollen 400K Kontext.
Fast Mode ist Ihre Wahl, wenn:
Aktives Debugging, bei dem Sie eine Antwort in Sekunden statt Minuten wünschen: Stack Trace überprüfen, Hypothese vorschlagen, nächste überprüfen wollen.
Schnelles Refactoring einer Methode oder Klasse — die Aufgabe ist klein und erfordert keine tiefgehende Planung.
Code-Review in Echtzeit: Sie erhalten einen Diff und möchten sofort Kommentare erhalten.
Implementierungsoptionen durchgehen: Einen Ansatz ausprobiert, eine Alternative sehen wollen — und das mehrmals.
Bleiben Sie bei Standard-GPT-5.5, wenn:
Autonome Aufgabe für längere Zeit — Planung, Feature-Implementierung, Testschreibung: Hier ist die Antwortgeschwindigkeit nicht kritisch, die Qualität des Ergebnisses ist wichtig.
Limit unter Druck — Fast Mode kostet das 2,5-fache des Standards; bei aktiver Nutzung wird das monatliche Limit deutlich schneller aufgebraucht.
Die meisten Aufgaben — Standard-GPT-5.5 ist die empfohlene Standardeinstellung, Fast Mode für Ausnahmesituationen.
Kurze Antwort: Aktualisieren Sie die Anwendung und wählen Sie GPT-5.5 im Model Picker aus. Wenn das Modell noch nicht verfügbar ist — der Rollout ist schrittweise, das ist normal. Unten sind die Schritte für jede Oberfläche und was zu tun ist, solange GPT-5.5 nicht verfügbar ist.
Laut dem offiziellen Changelog vom Mai 2026:
„GPT-5.5 ist die empfohlene Wahl für die meisten Aufgaben in Codex. Wenn Sie GPT-5.5 nicht sehen — aktualisieren Sie die CLI, die IDE-Erweiterung oder die Codex-App auf die neueste Version. Während des Rollouts verwenden Sie weiterhin GPT-5.4.“
Codex App (macOS / Windows)
Aktualisieren Sie die Codex-App auf die neueste Version über das Menü oder den App Store.
Öffnen Sie einen neuen Thread → im Composer finden Sie den Model Picker.
Wählen Sie GPT-5.5 aus der Liste (oder GPT-5.5 Thinking für komplexe Aufgaben).
Fast Mode wird über einen separaten Schalter neben der Modellauswahl aktiviert.
Codex CLI
Starten mit einem bestimmten Modell über ein Flag:
codex --model gpt-5.5
Ändern des Modells in einem aktiven Thread ohne Neustart:
/model gpt-5.5
GPT-5.5 als Standard in config.toml festlegen:
[model]
default = "gpt-5.5"
VS Code Extension
Aktualisieren Sie die Erweiterung über das Extensions Panel (Strg+Umschalt+X → Codex aktualisieren).
Im Composer — Model Selector unter dem Eingabefeld.
Wählen Sie GPT-5.5; die Änderung wird auf den aktuellen und nachfolgenden Threads angewendet.
JetBrains Extension
Aktualisieren Sie über den JetBrains Marketplace (Einstellungen → Plugins → Updates).
Im Codex Composer — Model Selector unter dem Eingabefeld, analog zu VS Code.
API (ab 24. April 2026)
GPT-5.5 ist über die Responses und Chat Completions API
ab dem 24. April 2026 verfügbar.
Model String: gpt-5.5. Kontext in der API — 1 Million Token.
// Beispiel für die Responses API
{
"model": "gpt-5.5",
"input": "Refaktoriere diesen Spring Boot Service..."
}
Wichtig: In den Codex-Oberflächen (App / CLI / IDE) ist GPT-5.5 nur über
ChatGPT OAuth (Abonnement) verfügbar. Für API-Key-Workflows in Codex
verwenden Sie vorerst gpt-5.4 oder gpt-5.2-codex.
Wenn GPT-5.5 noch nicht erschienen ist
Der Rollout ist schrittweise — das ist normal, nicht alle Konten erhalten gleichzeitig Zugriff.
Prüfen Sie, ob die Anwendung / CLI auf die neueste Version aktualisiert ist — das ist die häufigste Ursache.
Vorübergehend: Fahren Sie mit GPT-5.4 fort. Für die meisten Aufgaben ist der Unterschied nicht kritisch.
Praktischer Vergleich: GPT-5.4 vs. GPT-5.5 für typische Aufgaben
Kurze Antwort: GPT-5.5 gewinnt am meisten bei komplexen, unklaren, mehrstufigen Aufgaben. Bei einfachen und gut definierten Aufgaben ist der Unterschied minimal, und manchmal ist es wichtiger, den richtigen Modus (Fast Mode, Thinking) zu wählen als das Modell selbst.
Refactoring eines Moduls
GPT-5.4
GPT-5.5
Eine Klasse / Methode
Bewältigt gut
Vergleichbar, etwas weniger Token
Multi-File-Refactoring
Kann Verbindungen zwischen Dateien in großem Umfang verlieren
„Versteht die Form des Systems“ besser — wo das Problem liegt und was noch betroffen sein wird
Legacy-Code mit impliziten Abhängigkeiten
Erfordert Klärungen
Weniger Hin und Her, bessere Navigation durch nicht offensichtliche Verbindungen
Empfehlung: Für eine einzelne Klasse ist der Unterschied minimal — Sie können bei GPT-5.4 bleiben. Für Refactoring, das mehrere Module betrifft — GPT-5.5 ist spürbar genauer.
Tests schreiben
GPT-5.4
GPT-5.5
Unit-Tests für bekannte Muster
Gut
Vergleichbar, ~30–40% weniger Token
Integrationstests mit nicht offensichtlichen Edge Cases
Übersieht nicht-triviale Szenarien
Findet nicht offensichtliche Grenzfälle besser
Tests für Legacy-Code ohne Dokumentation
Erfordert detaillierte Beschreibung der Logik
Leitet die Logik selbst besser aus dem Code ab
Empfehlung: Für typische Unit-Tests auf sauberem Code —
Spark (schneller) oder GPT-5.4 Mini (günstiger). GPT-5.5 ist gerechtfertigt
für komplexe Integrationstests und Legacy.
Debugging von Produktionsproblemen
Szenario
Empfohlenes Modell
Warum
Bekannter Stack Trace, klare Ursache
Fast Mode oder Spark
Antwortgeschwindigkeit wichtiger als Tiefe
Instabiler Fehler, unklare Ursache
GPT-5.5 Thinking
Reflexion vor der Antwort, weniger falsche Hypothesen
Produktionsproblem, das mehrere Dienste betrifft
GPT-5.5 Standard
Analyse von Cross-Service-Abhängigkeiten, Planung
Autonome Feature-Entwicklung
Hier zeigt GPT-5.5 den größten Abstand zu GPT-5.4.
Expert-SWE mit einer mittleren Bearbeitungszeit von 20 Stunden —
73.1% gegenüber 68.5% — genau darum geht es: lange, komplexe, mehrstufige Aufgaben,
bei denen das Modell selbst plant, auf Hindernisse stößt und ohne Kontextverlust fortfährt.
Typischer autonomer Workflow in Codex mit GPT-5.5:
Aufgabe erhalten: „Füge einen Endpunkt für den Export von Berichten in PDF mit Datumsfilterung hinzu.“
Fertigen Diff oder PR zur Überprüfung zurückgeben — ohne Zwischenklärungen.
GPT-5.4 bewältigt dieses Szenario, erfordert aber häufiger Klärungen
bei nicht standardmäßigen Situationen und kann bei großem Umfang den Kontext verlieren.
Aus meiner Erfahrung — der AskYourDocs-Fall
Ich habe GPT-5.5 bei realen Aufgaben von zwei Spring Boot-Projekten getestet.
Hier sind konkrete Beobachtungen:
Fall 1: Refactoring einer RAG-Pipeline in AskYourDocs.
Aufgabe — einen monolithischen Dokumentenverarbeitungsservice in drei separate aufteilen:
Ingestion, Chunking und Embedding. Betraf 6 Klassen und Spring AI-Konfigurationen.
GPT-5.4 erforderte bei derselben Aufgabe zuvor 3–4 Klärungen bezüglich der Abhängigkeiten zwischen Beans.
GPT-5.5 erledigte dies ohne Zwischenfragen — analysierte die
@ConditionalOnProperty-Konfiguration und berücksichtigte die Abhängigkeit
von OpenRouter und Ollama-Providern selbstständig. Das Ergebnis wurde mit minimalen Anpassungen übernommen.
Fall 2: Schreiben von Tests für WebsCraft.
Für Unit-Tests einfacher Dienste — der Unterschied zu GPT-5.4 ist minimal.
Wo der Unterschied spürbar wurde: Tests für Thymeleaf-Vorlagen mit JSON-LD und komplexen bedingten Blöcken.
GPT-5.5 fand zwei Grenzfälle (leere FAQ-Liste und fehlender Breadcrumb-Elternteil),
die ich bei der manuellen Überprüfung selbst übersehen hatte.
Was enttäuschte: Fast Mode verbraucht bei aktiver Nutzung
das Limit schnell. An einem aktiven Tag interaktiven Debuggings
spürt man den 2,5-fachen Kostenfaktor bereits am Abend.
Jetzt schalte ich Fast Mode nur noch für wirklich kurze interaktive Aufgaben ein,
und lange autonome lasse ich auf Standard-GPT-5.5.
Kurze Antwort: GPT-5.5 ist das stärkste Modell in Codex,
hat aber reale Einschränkungen, die man vorab kennen sollte. Besonders wichtig sind:
der Unterschied zwischen dem Kontext in Codex und der API, Autorisierungsbeschränkungen und die Kosten des Fast-Modus.
400K Kontext in Codex – nicht 1M
Der häufigste Punkt der Verwirrung: GPT-5.5 unterstützt 1 Million Token Kontext –
aber nur in der API. In der Codex-Oberfläche (App / CLI / IDE) beträgt das Limit 400K Token.
Dies wird durch die offizielle Dokumentation bestätigt.
Für sehr große Repositories (über 400K Token) –
teilen Sie den Kontext entweder manuell auf oder verwenden Sie GPT-5.4 über die API mit einem 1M-Fenster.
GPT-5.5 in Codex – nur über ChatGPT OAuth
In der Codex-Oberfläche (App / CLI / IDE) ist GPT-5.5 nur verfügbar
bei der Autorisierung über ChatGPT OAuth (Abonnement Plus und höher).
Gemäß der offiziellen Codex-Dokumentation:
für API-Key-Workflows in Codex verwenden Sie gpt-5.4
oder gpt-5.2-codex.
In der direkten API (Responses / Chat Completions) ist GPT-5.5 seit dem 24. April 2026 über API-Key verfügbar.
Höherer Preis pro Token in der API
GPT-5.5 in der API kostet 5 $ / 1M Eingabe- und 30 $ / 1M Ausgabe-Token
– doppelt so teuer wie GPT-5.4 (2,50 $ / 15 $).
OpenAI behauptet, dass die Token-Effizienz (~40% weniger Token pro Aufgabe)
den Unterschied für die meisten Workloads kompensiert.
Für Codex-Abonnements (Plus, Pro usw.) – die Kosten werden im Abonnementlimit berechnet,
nicht direkt in Dollar.
Fast Mode – 2,5-fache Kosten des Limits
Der Fast-Modus ist praktisch, aber teuer: Jede Anfrage kostet 2,5-mal mehr des Limits
als das Standard-GPT-5.5. Bei intensiver Nutzung über den Tag hinweg
wird das monatliche Limit deutlich schneller aufgebraucht als bei der Arbeit mit dem Standardmodus.
Empfehlung: Aktivieren Sie den Fast-Modus nur für kurze interaktive Aufgaben,
lassen Sie autonome Aufgaben im Standardmodus.
Schrittweise Einführung – GPT-5.5 ist möglicherweise nicht verfügbar
Selbst mit einem aktuellen Plan und einer aktualisierten Anwendung ist GPT-5.5 möglicherweise nicht
in Ihrem Model Picker vorhanden. Die Einführung erfolgt schrittweise und dauert mehrere Wochen.
Was zu tun ist: Aktualisieren Sie die App/CLI auf die neueste Version (häufigste Ursache für Nichtverfügbarkeit),
fahren Sie mit GPT-5.4 fort – für die meisten Aufgaben ist der Unterschied nicht kritisch.
GPT-5.5 Pro – nur Pro/Business/Enterprise in ChatGPT
GPT-5.5 Pro (die leistungsstärkste Variante) ist nur für Pro, Business und Enterprise
in ChatGPT verfügbar. Plus erhält Standard-GPT-5.5 und Thinking, aber nicht die Pro-Variante.
In Codex ist GPT-5.5 Pro im Model Picker nicht separat aufgeführt – es wird
Standard-GPT-5.5 verwendet.
Tabelle der Einschränkungen
Einschränkung
Detail
Umgehung
Kontext in Codex
400K (nicht 1M)
GPT-5.4 über API für Aufgaben mit >400K Kontext
Autorisierung in Codex
Nur ChatGPT OAuth
gpt-5.4 oder gpt-5.2-codex für API-Key-Workflows
API-Preis
2x teurer pro Token als GPT-5.4
Token-Effizienz kompensiert teilweise; Batch für nicht dringende Aufgaben verwenden
Aus meiner Erfahrung – die ersten Wochen mit GPT-5.5 in Codex
Ich habe GPT-5.5 auf zwei Spring Boot-Projekten getestet – WebsCraft und AskYourDocs –
unter realen Bedingungen, nicht auf synthetischen Aufgaben. Hier ist, was sich im täglichen Betrieb im Vergleich zu GPT-5.4 tatsächlich geändert hat.
Wo ich den größten Zuwachs spürte
Multi-Datei-Aufgaben – der Hauptunterschied.
Bei AskYourDocs betraf das Refactoring der RAG-Pipeline 6 Klassen gleichzeitig.
GPT-5.4 verlor bei ähnlichen Aufgaben regelmäßig die Abhängigkeiten zwischen Spring-Beans
und benötigte 3-4 Klärungen. GPT-5.5 hat das gesamte Refactoring zum ersten Mal ohne Zwischenfragen abgeschlossen –
es erkannte die @ConditionalOnProperty-Konfiguration und berücksichtigte beide Anbieter
(OpenRouter für Prod, Ollama für Local) ohne Hinweis.
Das fühlt sich wie eine qualitative Veränderung an, nicht nur "ein bisschen besser".
Tests für nicht-triviale Code.
Für Thymeleaf-Vorlagen mit JSON-LD fand GPT-5.5 zwei Grenzfälle,
die ich selbst bei der manuellen Überprüfung übersehen hatte:
eine leere FAQ-Liste und ein fehlender Breadcrumb-Elternteil.
GPT-5.4 schrieb im selben Szenario nur Tests für den Happy Path.
Wo der Unterschied minimal ist oder Spark besser ist
Einfache Unit-Tests und Boilerplate.
Beim Schreiben von Tests für Standard-CRUD-Services oder beim Generieren von DTOs –
der Unterschied zwischen GPT-5.4 und GPT-5.5 ist praktisch nicht spürbar.
In diesen Szenarien verwende ich weiterhin
GPT-5.3-Codex-Spark (wenn die Aufgabe klein ist und Geschwindigkeit benötigt wird)
oder GPT-5.4 mini (wenn parallele Verarbeitung ohne Verbrauch des Hauptlimits benötigt wird).
Aktives Debugging mit bekanntem Stack Trace.
Hier liefert der Fast-Modus auf GPT-5.5 gute Ergebnisse, aber Spark ist immer noch schneller –
wenn er in Ihrem Plan verfügbar ist. Für Monitoring und Debugging während einer aktiven Sitzung
bleibt Spark meine erste Wahl.
Was enttäuscht hat
Fast Mode und Limit.
In der ersten Woche habe ich den Fast-Modus zu aggressiv genutzt –
bei Aufgaben, bei denen er nicht benötigt wurde. Der 2,5-fache Kostenfaktor des Limits
verbraucht den monatlichen Vorrat sehr schnell. Jetzt gilt die einfache Regel:
Fast Mode – nur für interaktive Aufgaben bis zu 10 Minuten.
Alles Längere – Standard-GPT-5.5.
400K Kontext in Codex – eine reale Einschränkung.
Ich habe versucht, das gesamte WebsCraft-Projekt (Spring Boot mit allen Vorlagen und Konfigurationen)
in einem Durchgang zu analysieren – es passte nicht. Ich musste es in logische Teile aufteilen:
separat Web-Layer, separat Service-Layer, separat Thymeleaf.
Für sehr große Repositories sind 400K eine echte Obergrenze.
Mein aktueller Workflow mit GPT-5.5
Standard-GPT-5.5 – autonome Aufgaben: Implementierung von Features, Refactoring von Multi-Datei-Projekten, Schreiben komplexer Tests
GPT-5.5 Thinking – Architekturentscheidungen und nicht-triviales Debugging
Fast Mode – kurze interaktive Sitzungen, Ausprobieren von Implementierungsoptionen
Spark – aktives Debugging mit bekannter Ursache, wo Antwortgeschwindigkeit wichtig ist
GPT-5.4 mini – Sub-Agents für parallele Routineaufgaben
Lohnt sich der Umstieg von GPT-5.4 auf GPT-5.5 in Codex?
Ja – wenn GPT-5.5 bereits in Ihrem Model Picker erschienen ist.
Dank der Token-Effizienz (~40% weniger Token pro Aufgabe)
bleibt der tatsächliche Verbrauch des Limits für die meisten Aufgaben auf dem gleichen Niveau oder sinkt,
trotz des höheren Preises pro Token in der API.
Für autonome und Multi-Step-Aufgaben ist der Unterschied spürbar.
Wenn GPT-5.5 noch nicht verfügbar ist – aktualisieren Sie die App; während des Rollouts fahren Sie mit GPT-5.4 fort.
Was ist der Unterschied zwischen GPT-5.5 und GPT-5.3-Codex?
GPT-5.3-Codex ist ein spezialisiertes Coding-Modell mit 400K Kontext und Fokus auf
agentive Software Engineering. GPT-5.5 ist breiter: Coding + Reasoning + Computer Use +
Knowledge Work, und dabei intelligenter – 82,7% gegenüber 77,3% auf Terminal-Bench 2.0.
Allerdings bleibt GPT-5.3-Codex über API-Key in Codex verfügbar
(GPT-5.5 über API-Key in der Codex-Oberfläche ist noch nicht verfügbar),
daher ist es für API-Key-Workflows immer noch relevant.
Ist GPT-5.5 kostenlos verfügbar?
Nein. In Codex ist GPT-5.5 nur für kostenpflichtige Pläne verfügbar:
Plus (20 $/Monat), Pro (100 $ oder 200 $/Monat), Business (30 $/Benutzer/Monat),
Enterprise, Edu und Go.
Der kostenlose Plan hat keinen Zugriff auf GPT-5.5, weder in ChatGPT noch in Codex.
Was ist GPT-5.5 Thinking und wie unterscheidet es sich vom Standard?
Thinking ist eine Variante von GPT-5.5 mit verstärkter Reflexion vor der Antwort.
Es liefert prägnantere und genauere Antworten für komplexe Aufgaben:
Architekturentscheidungen, tiefes Debugging, Forschungsfragen.
Es kann etwas langsamer sein. Verfügbar für Plus und höher.
Nicht zu verwechseln mit GPT-5.5 Pro – das ist eine separate, leistungsstärkste Variante
nur für Pro/Business/Enterprise in ChatGPT.
Wie unterscheidet sich GPT-5.5 in Codex von GPT-5.5 in ChatGPT und in der API?
Dasselbe Modell, verschiedene Oberflächen und Kontexte.
In Codex: 400K Kontextfenster, Zugriff auf Repository,
Terminal, Browser, PR-Workflow, Skills, Fast Mode.
In ChatGPT: Standarddialog mit Tools, Websuche, Python.
In API: 1M Kontextfenster, vollständige Anpassung, Preis 5 $/30 $ pro 1M Token.
Für agentives Coding – Codex ist die richtige Oberfläche.
Schlussfolgerungen
GPT-5.5 wurde am 23. April 2026 veröffentlicht und ist das Standardmodell in Codex.
Wichtige Änderungen für Entwickler: ~40% weniger Token für dieselbe Aufgabe,
dieselbe Latenz pro Token wie GPT-5.4, qualitativ bessere agentive Arbeit bei Multi-Step-Aufgaben.
Kontext in Codex – 400K Token, in der API – 1M.
Dieser Unterschied ist entscheidend bei der Wahl der Oberfläche für die Arbeit mit großen Repositories.
GPT-5.5 führt auf Terminal-Bench 2.0 (82,7%) und Expert-SWE (73,1%) an,
aber Claude Opus 4.7 bleibt auf SWE-Bench Pro (64,3% vs. 58,6%) stärker.
Die Wahl des Modells hängt von der Art der Aufgabe ab – nicht vom Markennamen.
Zwei neue Modi verändern den Workflow:
Thinking – für Architekturentscheidungen und komplexes Debugging;
Fast Mode – für interaktive Aufgaben, kostet aber das 2,5-fache des Limits.
Der effektivste Ansatz im Jahr 2026 ist die Kombination von Modi je nach Aufgabentyp:
Standard-GPT-5.5 für autonomes Coding, Thinking für Architektur,
Fast Mode für interaktive Aufgaben, Spark für Echtzeit, Mini für Sub-Agents.
Hauptgedanke: GPT-5.5 ist ein echter Schritt nach vorne, kein Marketing-Update.
Aber den maximalen Nutzen bringt nicht das Modell selbst,
sondern die richtige Wahl zwischen Standard-GPT-5.5, Thinking und Fast Mode für die jeweilige Aufgabe.
Dies erfordert ein bis zwei Wochen Übung – danach wird der Workflow deutlich effizienter.
23 квітня 2026 OpenAI випустила GPT-5.5 — і одразу зробила її дефолтною моделлю в Codex.
Але не кожен апдейт насправді щось змінює у щоденній роботі. Цей — змінює.
Три речі, які важливі для розробника: менше токенів на ті ж задачі,
та сама швидкість що й GPT-5.4, і якісно новий...
Ця стаття — практичний гід для розробників що хочуть підключити GPT-Realtime-2 до свого проєкту. Ми розберемо архітектуру Realtime API, виберемо правильний метод підключення для вашого сценарію, напишемо першу робочу сесію з нуля і налаштуємо preambles, tool calls і recovery з реальним...
7 травня 2026 року OpenAI зробила анонс, який багато хто в спільноті розробників чекав давно: три нові голосові моделі в Realtime API. Флагман — GPT-Realtime-2 — перша в лінійці, де мислення рівня GPT-5 вбудоване прямо в голосовий потік. Без затримок між розпізнаванням і відповіддю. Без окремих...
Tool calling в Ollama — одна з найбільш неочевидних фіч локальних моделей.
Не тому що API складний. А тому що між «модель підтримує tools» у документації
і «модель стабільно викликає tools у продакшні» — велика різниця яку
можна виявити тільки під навантаженням.
Одні моделі...
12 лютого 2026 року OpenAI випустила GPT-5.3-Codex-Spark — і більшість розробників одразу запитали одне й те саме: «Це новий додаток? Мені треба щось перевстановлювати?» Ні. Spark — це модель всередині Codex App яку ти вже маєш. Просто інша модель у model picker — але з принципово іншим принципом...
OpenAI Codex у 2026 році — це не той інструмент, про який ви, можливо, читали кілька років тому. Оригінальний Codex API (2021–2023) був моделлю для автодоповнення коду на базі GPT-3, яка живила ранні версії GitHub Copilot. OpenAI закрила той API у березні 2023 року. Те, що існує сьогодні —...