GPT-5.5 in Codex: Was hat sich 2026 für Entwickler geändert

Aktualisiert:
GPT-5.5 in Codex: Was hat sich 2026 für Entwickler geändert

23. April 2026 veröffentlichte OpenAI GPT-5.5 – und machte es sofort zum Standardmodell in Codex. Aber nicht jedes Update ändert tatsächlich etwas in der täglichen Arbeit. Dieses hier schon. Drei Dinge, die für Entwickler wichtig sind: weniger Tokens für die gleichen Aufgaben, die gleiche Geschwindigkeit wie GPT-5.4 und ein qualitativ neues Niveau an agentic-Arbeit bei komplexen Multi-Step-Aufgaben.

In diesem Artikel – konkrete Zahlen aus offiziellen Benchmarks, ein ehrlicher Vergleich, wo GPT-5.5 gewinnt und wo Claude Opus 4.7 immer noch die Nase vorn hat, und eine praktische Analyse der neuen Modi Thinking und Fast mode. Ohne Hype – nur das, was ein Entwickler im Mai 2026 wissen muss.

Kurz gesagt: GPT-5.5 ist das derzeit stärkste Modell in Codex. Terminal-Bench 2.0: 82,7 %. Weniger Tokens für die gleiche Aufgabe. Die gleiche Per-Token-Latenz wie GPT-5.4. Verfügbar für Plus-, Pro-, Business-, Enterprise-, Edu- und Go-Pläne. Aber es gibt wichtige Nuancen – dazu später mehr.

GPT-5.5 – kurz über das Modell

Kurze Antwort: GPT-5.5 wurde am 23. April 2026 veröffentlicht – sieben Wochen nach GPT-5.4 (März 2026). OpenAI nennt es „eine neue Klasse von Intelligenz für reale Arbeit“. Nach interner Klassifizierung erhielt das Modell den Codenamen Spud.

Stand Mai 2026 ist GPT-5.5 das intelligenteste Modell im Codex-Ökosystem. Aber es ist wichtig zu verstehen, dass dies nicht nur „GPT-5.4 mit höheren Zahlen“ ist – es ist ein qualitativ anderer Ansatz für agentic-Arbeit: Das Modell ist für Aufgaben konzipiert, bei denen geplant, Werkzeuge verwendet, die eigene Entscheidung überprüft und fortgesetzt werden muss – auch wenn der ursprüngliche Plan geändert wurde.

Verfügbarkeit in Codex

Eine wichtige Nuance, die bei früheren Modellen nicht vorhanden war: GPT-5.5 in Codex und GPT-5.5 in der API sind unterschiedliche Oberflächen mit unterschiedlichen Kontextfenstern.

Parameter Codex (App / CLI / IDE) API
Kontextfenster 400K Tokens 1M Tokens
Autorisierung ChatGPT OAuth (Abonnement) API-Schlüssel (ab 24. April 2026)
API-Preis 5 $/1 Mio. Eingabe, 30 $/1 Mio. Ausgabe
Verfügbare Codex-Pläne Plus, Pro, Business, Enterprise, Edu, Go Pay-as-you-go
Fast mode ✅ (1,5× schneller, 2,5× Limit) Priorität: 2,5× Preis

Leser verwechseln oft die Kontexte: „GPT-5.5 unterstützt 1 Mio. Tokens“ – das stimmt, aber nur in der API. In der Codex-Oberfläche beträgt das Limit 400K. Dies muss bei der Arbeit mit großen Repositories berücksichtigt werden.

Varianten von GPT-5.5

OpenAI hat im Rahmen einer einzigen Veröffentlichung drei Varianten veröffentlicht:

  • GPT-5.5 (Standard) – das Standardmodell in Codex und ChatGPT für Plus und höher. Am besten für die meisten agentic-Coding-Aufgaben.
  • GPT-5.5 Thinking – eine reflektiertere Variante: prägnantere und genauere Antworten für komplexe Aufgaben, bei denen Qualität wichtiger ist als Geschwindigkeit. Verfügbar für Plus, Pro, Business, Enterprise.
  • GPT-5.5 Pro – die leistungsstärkste Variante für die komplexesten Aufgaben. Nur Pro, Business, Enterprise in ChatGPT. In Codex derzeit nicht separat aufgeführt.

Quellen: OpenAI – Introducing GPT-5.5 (23. April 2026) | Codex Models – Offizielle Dokumentation

Was hat sich konkret in Codex mit GPT-5.5 geändert

Kurze Antwort: vier tatsächliche Änderungen – zwei technische (Token-Effizienz und Latenz), eine qualitative (bessere agentic-Arbeit) und eine neue (Fast mode). Jede davon beeinflusst den täglichen Workflow unterschiedlich.

1. Token-Effizienz – ~40 % weniger Tokens für die gleiche Aufgabe

OpenAI hat Codex gezielt für GPT-5.5 optimiert: Die gleiche Aufgabe erfordert etwa 40 % weniger Output-Tokens im Vergleich zu GPT-5.4. Dies ist keine reine Marketingaussage – es bedeutet, dass das tatsächliche Nutzungslimit für die meisten Aufgaben auf dem gleichen Niveau bleibt oder sinkt, trotz des höheren Token-Preises in der API (30 $ vs. 15 $ pro 1 Mio. Ausgabe).

Praktische Veranschaulichung: Wenn GPT-5.4 für die Refaktorierung eines Moduls bedingt 10.000 Tokens verbrauchte, wird GPT-5.5 die gleiche Aufgabe in etwa 6.000 erledigen. Bei einem 2-fachen Token-Preis steigen die tatsächlichen Kosten um etwa 20 % und nicht um das Doppelte. Wenn GPT-5.5 zudem weniger Wiederholungsversuche benötigt – Break-even oder Einsparung.

Für Codex-Abonnements: Pro-Benutzer erhielten bis zum 31. Mai 2026 2× Codex-Nutzung als Entschädigung während des Rollouts des neuen Modells.

2. Gleiche Per-Token-Latenz bei höherer Intelligenz

Ein typisches Problem bei der Veröffentlichung leistungsfähigerer Modelle – sie sind langsamer. GPT-5.5 ist eine Ausnahme: Es entspricht vollständig GPT-5.4 in Bezug auf die Per-Token-Latenz unter realen Betriebsbedingungen. Dies wurde durch die gemeinsame Entwicklung mit NVIDIA auf Basis von GB200/GB300 NVL72 Rack-Scale-Systemen ermöglicht.

Für Entwickler bedeutet dies: Sie erhalten mehr Ergebnis für die gleiche Wartezeit. Nicht „intelligenter, aber langsamer“ – sondern „intelligenter und genauso schnell“.

3. Qualitativ bessere agentic-Arbeit – weniger Hin und Her

GPT-5.5 bewältigt unklare, mehrstufige Aufgaben besser, ohne ständige Klärungen. Es plant selbstständig, wählt Werkzeuge aus, überprüft seine Entscheidung und fährt fort – auch wenn der ursprüngliche Plan während des Prozesses angepasst werden musste. OpenAI beschreibt dies als die Fähigkeit, „schneller zu verstehen, was Sie zu tun versuchen und mehr Arbeit selbst zu übernehmen“.

Konkretes Beispiel aus Statistiken: Beim Expert-SWE – einem internen OpenAI-Benchmark, bei dem Aufgaben eine mittlere Bearbeitungszeit von 20 Stunden für Menschen erfordern – zeigte GPT-5.5 73,1 % gegenüber 68,5 % bei GPT-5.4. Dies ist kein synthetischer Test, sondern ein agentic-Szenario, das der Realität nahekommt.

Eine separate Tatsache, die kaum öffentlich beleuchtet wurde: GPT-5.5 hat zusammen mit Codex noch vor seiner offiziellen Veröffentlichung die eigene Produktionsinfrastruktur von OpenAI neu geschrieben. Codex analysierte Wochen realen Traffics und schrieb Lastausgleichs-Heuristiken, die die Geschwindigkeit der Token-Generierung um mehr als 20 % erhöhten. Das Modell half buchstäblich, das System zu optimieren, das es bedient.

4. Fast mode – neuer Modus für interaktive Arbeit

Zusammen mit GPT-5.5 wurde in Codex der Fast mode eingeführt – ein Modus, der bisher nicht existierte. Er generiert Tokens 1,5-mal schneller für 2,5-fache Limitkosten.

Zweck: Ein interaktiver Feedback-Loop, bei dem die Antwortgeschwindigkeit wichtiger ist als die Tiefe der autonomen Planung. Im Wesentlichen eine Alternative zu Codex-Spark für diejenigen, die keinen Pro-Plan haben oder einen Kontext von mehr als 128K benötigen. Details zum Fast mode – im nächsten Abschnitt.

Quellen: OpenAI – Introducing GPT-5.5 | Vellum – Everything You Need to Know About GPT-5.5 | Codex Changelog – Mai 2026

Benchmarks — was die Zahlen sagen

Kurze Antwort: GPT-5.5 führt die meisten Benchmarks für agentisches Coding an — aber nicht alle. Claude Opus 4.7 bleibt auf SWE-Bench Pro stärker. Die ehrliche Tabelle unten.

Wichtig: Benchmarks zeigen relative Stärken auf standardisierten Aufgaben. Die tatsächliche Leistung in Ihrem Projekt kann abweichen. Verwenden Sie die Zahlen als Ausgangspunkt, nicht als Urteil.

Vergleichstabelle der Modelle

Benchmark GPT-5.3-Codex GPT-5.4 GPT-5.5 Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 77.3% 75.1% 82.7% 🏆 69.4% 68.5%
SWE-Bench Pro 56.8% 58.6% 64.3% 🏆
Expert-SWE (intern) 68.5% 73.1% 🏆
FrontierMath T1-3 51.7% 🏆
Graphwalks BFS >128K 21.4% 73.7% 🏆
MRCR v2 bei 1M Token 36.6% 74.0% 🏆

Was jeder Benchmark für Entwickler bedeutet

Terminal-Bench 2.0 (82.7%) — am relevantesten für die Arbeit in Codex. Laut dem offiziellen Changelog von OpenAI: Dieser Benchmark misst die Fähigkeit eines Agenten, komplexe CLI-Aufgaben auszuführen, die Planung, Iteration und Werkzeugnutzung erfordern. GPT-5.5 führt mit einem Vorsprung von über 13 Prozentpunkten vor Claude Opus 4.7. Für autonome Terminal-Workflows ist dies ein entscheidender Vorteil.

SWE-Bench Pro (58.6%) — Lösung realer GitHub-Issues. Hier bleibt Claude Opus 4.7 mit 64.3% vorne. OpenAI merkt an, dass der Unterschied teilweise durch die Speicherung eines Teils des Benchmarks erklärt werden könnte — aber es gibt keine unabhängige Bestätigung dafür. Ehrliche Schlussfolgerung: Für Code-Reviews und Repository-Reasoning ist Claude Opus 4.7 immer noch konkurrenzfähig.

Expert-SWE (73.1%) — interner OpenAI-Benchmark für die schwierigsten Long-Horizon-Aufgaben. Die mittlere Bearbeitungszeit durch Menschen beträgt 20 Stunden. GPT-5.5 zeigte 73.1% gegenüber 68.5% bei GPT-5.4: +4.6 pp bei den schwierigsten Aufgaben.

Graphwalks BFS bei >128K (73.7% vs. 21.4%) — Zahlen, die zeigen, wie viel besser die Arbeit mit langem Kontext geworden ist. GPT-5.4 verschlechterte sich drastisch bei Aufgaben, die über 128K Token hinausgehen. GPT-5.5 behält 73.7% bei 256K bei — eine qualitative Veränderung für die Arbeit mit großen Codebasen.

Artificial Analysis Coding Index

Unabhängiges aggregiertes Ranking von Artificial Analysis (gewichteter Durchschnitt aus 10 Evaluierungen, einschließlich Terminal-Bench Hard, GPQA Diamond, Humanity's Last Exam, SciCode und anderen): GPT-5.5 belegt den ersten Platz bei halben Kosten der Konkurrenz unter den Frontier-Coding-Modellen. Dies ist eine externe unabhängige Bewertung, nicht von OpenAI.

Quellen: OpenAI — Introducing GPT-5.5 (Benchmarks) | Handy AI — Model Drop: GPT-5.5 | LLM Stats — GPT-5.5 vs GPT-5.4: Detaillierte Analyse | Vellum — Alles, was Sie über GPT-5.5 wissen müssen

GPT-5.5 Thinking und Fast Mode — wann was einschalten

Kurze Antwort: GPT-5.5 ist nicht ein Modell, sondern drei Modi mit unterschiedlichen Kompromissen. Standard ist für die meisten Aufgaben. Thinking ist, wenn tiefere Reflexion benötigt wird. Fast Mode ist, wenn die Geschwindigkeit des Feedbacks wichtig ist.

GPT-5.5 Thinking — was es ist und wann es einzuschalten ist

Thinking ist eine Variante von GPT-5.5 mit verstärkter Reflexion vor der Antwort. Laut OpenAI: „ermöglicht schnellere Hilfe bei komplexeren Aufgaben und liefert intelligentere und prägnantere Antworten.“ Verfügbar für Plus, Pro, Business und Enterprise in ChatGPT. In Codex wird es über den Model Picker eingeschaltet — es wird als separater Punkt ausgewählt.

Thinking ist Ihre Wahl, wenn:

  • Architektonische Entscheidung, bei der Qualität wichtiger ist als Geschwindigkeit: z. B. wie ein monolithischer Dienst in Microservices aufgeteilt wird, unter Berücksichtigung bestehender Abhängigkeiten.
  • Komplexes Debugging, bei dem das Problem nicht offensichtlich ist: Fehler in der Produktion ohne expliziten Stack Trace, Race Condition im Async-Code, instabiler Test, der 1 von 10 Mal fehlschlägt.
  • Research-Aufgaben: Wahl zwischen zwei architektonischen Ansätzen mit Analyse der Kompromisse.
  • Jede Aufgabe, bei der Sie ein „Warum so und nicht anders“ hören möchten, nicht nur fertigen Code.

Bleiben Sie bei Standard-GPT-5.5, wenn:

  • Die Aufgabe klar ist und nur das Ergebnis benötigt wird: Tests schreiben, Validierung hinzufügen, eine Methode refaktorieren.
  • Autonome Aufgabe, bei der Codex die Unteraufgaben selbst löst — hier fügt Thinking unnötigen Overhead hinzu.
  • Die meisten normalen agentischen Coding-Aufgaben — der Standardmodus ist die empfohlene Standardeinstellung.

Fast Mode — was es ist und wann es einzuschalten ist

Fast Mode ist ein neuer Modus in Codex, der vor GPT-5.5 nicht existierte. Laut 9to5Mac generiert er Token 1,5-mal schneller für das 2,5-fache der Kosten pro Limit. Wird im Model Picker neben dem Haupt-GPT-5.5 eingeschaltet.

Im Wesentlichen ist Fast Mode eine Alternative zu GPT-5.3-Codex-Spark für diejenigen, die keinen Pro-Plan haben (Spark ist nur Pro, Research Preview) oder mehr als 128K Token Kontext benötigen (Spark ist auf 128K beschränkt). Fast Mode ist für alle Pläne mit GPT-5.5 verfügbar und nutzt den vollen 400K Kontext.

Fast Mode ist Ihre Wahl, wenn:

  • Aktives Debugging, bei dem Sie eine Antwort in Sekunden statt Minuten wünschen: Stack Trace überprüfen, Hypothese vorschlagen, nächste überprüfen wollen.
  • Schnelles Refactoring einer Methode oder Klasse — die Aufgabe ist klein und erfordert keine tiefgehende Planung.
  • Code-Review in Echtzeit: Sie erhalten einen Diff und möchten sofort Kommentare erhalten.
  • Implementierungsoptionen durchgehen: Einen Ansatz ausprobiert, eine Alternative sehen wollen — und das mehrmals.

Bleiben Sie bei Standard-GPT-5.5, wenn:

  • Autonome Aufgabe für längere Zeit — Planung, Feature-Implementierung, Testschreibung: Hier ist die Antwortgeschwindigkeit nicht kritisch, die Qualität des Ergebnisses ist wichtig.
  • Limit unter Druck — Fast Mode kostet das 2,5-fache des Standards; bei aktiver Nutzung wird das monatliche Limit deutlich schneller aufgebraucht.
  • Die meisten Aufgaben — Standard-GPT-5.5 ist die empfohlene Standardeinstellung, Fast Mode für Ausnahmesituationen.

Vergleichstabelle der Modi

Modus Geschwindigkeit Kosten pro Limit Am besten für Zugang
GPT-5.5 (Standard) wie GPT-5.4 Die meisten Aufgaben, autonomes Coding Plus, Pro, Business, Enterprise, Edu, Go
GPT-5.5 Thinking etwas langsamer (Reflexion) 1× (nicht separat bestätigt) Architektur, komplexes Debugging, Research Plus und höher
Fast Mode 1,5× schneller 2,5× Limit Interaktive Schleife, schnelles Refactoring Alle Pläne mit GPT-5.5
GPT-5.3-Codex-Spark >1000 Token/Sek. Separates Limit Echtzeit-Coding, 128K Kontext Nur Pro (Research Preview)

Quellen: OpenAI — Introducing GPT-5.5 (Thinking und Fast Mode) | 9to5Mac — OpenAI upgrades ChatGPT and Codex with GPT-5.5 | Codex Models — Offizielle Dokumentation

Wie man in Codex zu GPT-5.5 wechselt

Kurze Antwort: Aktualisieren Sie die Anwendung und wählen Sie GPT-5.5 im Model Picker aus. Wenn das Modell noch nicht verfügbar ist — der Rollout ist schrittweise, das ist normal. Unten sind die Schritte für jede Oberfläche und was zu tun ist, solange GPT-5.5 nicht verfügbar ist.

Laut dem offiziellen Changelog vom Mai 2026: „GPT-5.5 ist die empfohlene Wahl für die meisten Aufgaben in Codex. Wenn Sie GPT-5.5 nicht sehen — aktualisieren Sie die CLI, die IDE-Erweiterung oder die Codex-App auf die neueste Version. Während des Rollouts verwenden Sie weiterhin GPT-5.4.“

Codex App (macOS / Windows)

  1. Aktualisieren Sie die Codex-App auf die neueste Version über das Menü oder den App Store.
  2. Öffnen Sie einen neuen Thread → im Composer finden Sie den Model Picker.
  3. Wählen Sie GPT-5.5 aus der Liste (oder GPT-5.5 Thinking für komplexe Aufgaben).
  4. Fast Mode wird über einen separaten Schalter neben der Modellauswahl aktiviert.

Codex CLI

Starten mit einem bestimmten Modell über ein Flag:

codex --model gpt-5.5

Ändern des Modells in einem aktiven Thread ohne Neustart:

/model gpt-5.5

GPT-5.5 als Standard in config.toml festlegen:

[model]
default = "gpt-5.5"

VS Code Extension

  1. Aktualisieren Sie die Erweiterung über das Extensions Panel (Strg+Umschalt+X → Codex aktualisieren).
  2. Im Composer — Model Selector unter dem Eingabefeld.
  3. Wählen Sie GPT-5.5; die Änderung wird auf den aktuellen und nachfolgenden Threads angewendet.

JetBrains Extension

  1. Aktualisieren Sie über den JetBrains Marketplace (Einstellungen → Plugins → Updates).
  2. Im Codex Composer — Model Selector unter dem Eingabefeld, analog zu VS Code.

API (ab 24. April 2026)

GPT-5.5 ist über die Responses und Chat Completions API ab dem 24. April 2026 verfügbar. Model String: gpt-5.5. Kontext in der API — 1 Million Token.

// Beispiel für die Responses API
{
  "model": "gpt-5.5",
  "input": "Refaktoriere diesen Spring Boot Service..."
}

Wichtig: In den Codex-Oberflächen (App / CLI / IDE) ist GPT-5.5 nur über ChatGPT OAuth (Abonnement) verfügbar. Für API-Key-Workflows in Codex verwenden Sie vorerst gpt-5.4 oder gpt-5.2-codex.

Wenn GPT-5.5 noch nicht erschienen ist

  • Der Rollout ist schrittweise — das ist normal, nicht alle Konten erhalten gleichzeitig Zugriff.
  • Prüfen Sie, ob die Anwendung / CLI auf die neueste Version aktualisiert ist — das ist die häufigste Ursache.
  • Vorübergehend: Fahren Sie mit GPT-5.4 fort. Für die meisten Aufgaben ist der Unterschied nicht kritisch.
  • Überprüfen Sie den Verfügbarkeitsstatus: chatgpt.com/codex/settings/usage

Quellen: Codex Changelog — Offiziell | Codex Models — Dokumentation

Praktischer Vergleich: GPT-5.4 vs. GPT-5.5 für typische Aufgaben

Kurze Antwort: GPT-5.5 gewinnt am meisten bei komplexen, unklaren, mehrstufigen Aufgaben. Bei einfachen und gut definierten Aufgaben ist der Unterschied minimal, und manchmal ist es wichtiger, den richtigen Modus (Fast Mode, Thinking) zu wählen als das Modell selbst.

Refactoring eines Moduls

GPT-5.4GPT-5.5
Eine Klasse / Methode Bewältigt gut Vergleichbar, etwas weniger Token
Multi-File-Refactoring Kann Verbindungen zwischen Dateien in großem Umfang verlieren „Versteht die Form des Systems“ besser — wo das Problem liegt und was noch betroffen sein wird
Legacy-Code mit impliziten Abhängigkeiten Erfordert Klärungen Weniger Hin und Her, bessere Navigation durch nicht offensichtliche Verbindungen

Empfehlung: Für eine einzelne Klasse ist der Unterschied minimal — Sie können bei GPT-5.4 bleiben. Für Refactoring, das mehrere Module betrifft — GPT-5.5 ist spürbar genauer.

Tests schreiben

GPT-5.4GPT-5.5
Unit-Tests für bekannte Muster Gut Vergleichbar, ~30–40% weniger Token
Integrationstests mit nicht offensichtlichen Edge Cases Übersieht nicht-triviale Szenarien Findet nicht offensichtliche Grenzfälle besser
Tests für Legacy-Code ohne Dokumentation Erfordert detaillierte Beschreibung der Logik Leitet die Logik selbst besser aus dem Code ab

Empfehlung: Für typische Unit-Tests auf sauberem Code — Spark (schneller) oder GPT-5.4 Mini (günstiger). GPT-5.5 ist gerechtfertigt für komplexe Integrationstests und Legacy.

Debugging von Produktionsproblemen

SzenarioEmpfohlenes ModellWarum
Bekannter Stack Trace, klare Ursache Fast Mode oder Spark Antwortgeschwindigkeit wichtiger als Tiefe
Instabiler Fehler, unklare Ursache GPT-5.5 Thinking Reflexion vor der Antwort, weniger falsche Hypothesen
Produktionsproblem, das mehrere Dienste betrifft GPT-5.5 Standard Analyse von Cross-Service-Abhängigkeiten, Planung

Autonome Feature-Entwicklung

Hier zeigt GPT-5.5 den größten Abstand zu GPT-5.4. Expert-SWE mit einer mittleren Bearbeitungszeit von 20 Stunden — 73.1% gegenüber 68.5% — genau darum geht es: lange, komplexe, mehrstufige Aufgaben, bei denen das Modell selbst plant, auf Hindernisse stößt und ohne Kontextverlust fortfährt.

Typischer autonomer Workflow in Codex mit GPT-5.5:

  1. Aufgabe erhalten: „Füge einen Endpunkt für den Export von Berichten in PDF mit Datumsfilterung hinzu.“
  2. Vorhandenen Code lesen: Controller, Services, Repositories, DTOs.
  3. Planen: Welche Klassen ändern, welche erstellen, wie in die bestehende Architektur passen.
  4. Code schreiben, Tests ausführen, Fehler sehen → Ursache selbst ermitteln → beheben.
  5. Fertigen Diff oder PR zur Überprüfung zurückgeben — ohne Zwischenklärungen.

GPT-5.4 bewältigt dieses Szenario, erfordert aber häufiger Klärungen bei nicht standardmäßigen Situationen und kann bei großem Umfang den Kontext verlieren.

Aus meiner Erfahrung — der AskYourDocs-Fall

Ich habe GPT-5.5 bei realen Aufgaben von zwei Spring Boot-Projekten getestet. Hier sind konkrete Beobachtungen:

Fall 1: Refactoring einer RAG-Pipeline in AskYourDocs. Aufgabe — einen monolithischen Dokumentenverarbeitungsservice in drei separate aufteilen: Ingestion, Chunking und Embedding. Betraf 6 Klassen und Spring AI-Konfigurationen. GPT-5.4 erforderte bei derselben Aufgabe zuvor 3–4 Klärungen bezüglich der Abhängigkeiten zwischen Beans. GPT-5.5 erledigte dies ohne Zwischenfragen — analysierte die @ConditionalOnProperty-Konfiguration und berücksichtigte die Abhängigkeit von OpenRouter und Ollama-Providern selbstständig. Das Ergebnis wurde mit minimalen Anpassungen übernommen.

Fall 2: Schreiben von Tests für WebsCraft. Für Unit-Tests einfacher Dienste — der Unterschied zu GPT-5.4 ist minimal. Wo der Unterschied spürbar wurde: Tests für Thymeleaf-Vorlagen mit JSON-LD und komplexen bedingten Blöcken. GPT-5.5 fand zwei Grenzfälle (leere FAQ-Liste und fehlender Breadcrumb-Elternteil), die ich bei der manuellen Überprüfung selbst übersehen hatte.

Was enttäuschte: Fast Mode verbraucht bei aktiver Nutzung das Limit schnell. An einem aktiven Tag interaktiven Debuggings spürt man den 2,5-fachen Kostenfaktor bereits am Abend. Jetzt schalte ich Fast Mode nur noch für wirklich kurze interaktive Aufgaben ein, und lange autonome lasse ich auf Standard-GPT-5.5.

Quellen: OpenAI — Introducing GPT-5.5 | Developer Tech — GPT-5.5 Codex developer workflows

Einschränkungen und Nuancen

Kurze Antwort: GPT-5.5 ist das stärkste Modell in Codex, hat aber reale Einschränkungen, die man vorab kennen sollte. Besonders wichtig sind: der Unterschied zwischen dem Kontext in Codex und der API, Autorisierungsbeschränkungen und die Kosten des Fast-Modus.

400K Kontext in Codex – nicht 1M

Der häufigste Punkt der Verwirrung: GPT-5.5 unterstützt 1 Million Token Kontext – aber nur in der API. In der Codex-Oberfläche (App / CLI / IDE) beträgt das Limit 400K Token. Dies wird durch die offizielle Dokumentation bestätigt. Für sehr große Repositories (über 400K Token) – teilen Sie den Kontext entweder manuell auf oder verwenden Sie GPT-5.4 über die API mit einem 1M-Fenster.

GPT-5.5 in Codex – nur über ChatGPT OAuth

In der Codex-Oberfläche (App / CLI / IDE) ist GPT-5.5 nur verfügbar bei der Autorisierung über ChatGPT OAuth (Abonnement Plus und höher). Gemäß der offiziellen Codex-Dokumentation: für API-Key-Workflows in Codex verwenden Sie gpt-5.4 oder gpt-5.2-codex. In der direkten API (Responses / Chat Completions) ist GPT-5.5 seit dem 24. April 2026 über API-Key verfügbar.

Höherer Preis pro Token in der API

GPT-5.5 in der API kostet 5 $ / 1M Eingabe- und 30 $ / 1M Ausgabe-Token – doppelt so teuer wie GPT-5.4 (2,50 $ / 15 $). OpenAI behauptet, dass die Token-Effizienz (~40% weniger Token pro Aufgabe) den Unterschied für die meisten Workloads kompensiert. Für Codex-Abonnements (Plus, Pro usw.) – die Kosten werden im Abonnementlimit berechnet, nicht direkt in Dollar.

Fast Mode – 2,5-fache Kosten des Limits

Der Fast-Modus ist praktisch, aber teuer: Jede Anfrage kostet 2,5-mal mehr des Limits als das Standard-GPT-5.5. Bei intensiver Nutzung über den Tag hinweg wird das monatliche Limit deutlich schneller aufgebraucht als bei der Arbeit mit dem Standardmodus. Empfehlung: Aktivieren Sie den Fast-Modus nur für kurze interaktive Aufgaben, lassen Sie autonome Aufgaben im Standardmodus.

Schrittweise Einführung – GPT-5.5 ist möglicherweise nicht verfügbar

Selbst mit einem aktuellen Plan und einer aktualisierten Anwendung ist GPT-5.5 möglicherweise nicht in Ihrem Model Picker vorhanden. Die Einführung erfolgt schrittweise und dauert mehrere Wochen. Was zu tun ist: Aktualisieren Sie die App/CLI auf die neueste Version (häufigste Ursache für Nichtverfügbarkeit), fahren Sie mit GPT-5.4 fort – für die meisten Aufgaben ist der Unterschied nicht kritisch.

GPT-5.5 Pro – nur Pro/Business/Enterprise in ChatGPT

GPT-5.5 Pro (die leistungsstärkste Variante) ist nur für Pro, Business und Enterprise in ChatGPT verfügbar. Plus erhält Standard-GPT-5.5 und Thinking, aber nicht die Pro-Variante. In Codex ist GPT-5.5 Pro im Model Picker nicht separat aufgeführt – es wird Standard-GPT-5.5 verwendet.

Tabelle der Einschränkungen

Einschränkung Detail Umgehung
Kontext in Codex 400K (nicht 1M) GPT-5.4 über API für Aufgaben mit >400K Kontext
Autorisierung in Codex Nur ChatGPT OAuth gpt-5.4 oder gpt-5.2-codex für API-Key-Workflows
API-Preis 2x teurer pro Token als GPT-5.4 Token-Effizienz kompensiert teilweise; Batch für nicht dringende Aufgaben verwenden
Fast Mode Kosten 2,5x des Abonnementlimits Nur für kurze interaktive Aufgaben
Rollout Schrittweise, kann Verzögerung geben App aktualisieren; vorübergehend GPT-5.4
GPT-5.5 Pro Nicht separat in Codex verfügbar Standard-GPT-5.5 für Codex-Aufgaben

Quellen: Codex Models – Offizielle Dokumentation | OpenAI – Introducing GPT-5.5 (Preise und Verfügbarkeit)

Aus meiner Erfahrung – die ersten Wochen mit GPT-5.5 in Codex

Ich habe GPT-5.5 auf zwei Spring Boot-Projekten getestet – WebsCraft und AskYourDocs – unter realen Bedingungen, nicht auf synthetischen Aufgaben. Hier ist, was sich im täglichen Betrieb im Vergleich zu GPT-5.4 tatsächlich geändert hat.

Wo ich den größten Zuwachs spürte

Multi-Datei-Aufgaben – der Hauptunterschied. Bei AskYourDocs betraf das Refactoring der RAG-Pipeline 6 Klassen gleichzeitig. GPT-5.4 verlor bei ähnlichen Aufgaben regelmäßig die Abhängigkeiten zwischen Spring-Beans und benötigte 3-4 Klärungen. GPT-5.5 hat das gesamte Refactoring zum ersten Mal ohne Zwischenfragen abgeschlossen – es erkannte die @ConditionalOnProperty-Konfiguration und berücksichtigte beide Anbieter (OpenRouter für Prod, Ollama für Local) ohne Hinweis. Das fühlt sich wie eine qualitative Veränderung an, nicht nur "ein bisschen besser".

Tests für nicht-triviale Code. Für Thymeleaf-Vorlagen mit JSON-LD fand GPT-5.5 zwei Grenzfälle, die ich selbst bei der manuellen Überprüfung übersehen hatte: eine leere FAQ-Liste und ein fehlender Breadcrumb-Elternteil. GPT-5.4 schrieb im selben Szenario nur Tests für den Happy Path.

Wo der Unterschied minimal ist oder Spark besser ist

Einfache Unit-Tests und Boilerplate. Beim Schreiben von Tests für Standard-CRUD-Services oder beim Generieren von DTOs – der Unterschied zwischen GPT-5.4 und GPT-5.5 ist praktisch nicht spürbar. In diesen Szenarien verwende ich weiterhin GPT-5.3-Codex-Spark (wenn die Aufgabe klein ist und Geschwindigkeit benötigt wird) oder GPT-5.4 mini (wenn parallele Verarbeitung ohne Verbrauch des Hauptlimits benötigt wird).

Aktives Debugging mit bekanntem Stack Trace. Hier liefert der Fast-Modus auf GPT-5.5 gute Ergebnisse, aber Spark ist immer noch schneller – wenn er in Ihrem Plan verfügbar ist. Für Monitoring und Debugging während einer aktiven Sitzung bleibt Spark meine erste Wahl.

Was enttäuscht hat

Fast Mode und Limit. In der ersten Woche habe ich den Fast-Modus zu aggressiv genutzt – bei Aufgaben, bei denen er nicht benötigt wurde. Der 2,5-fache Kostenfaktor des Limits verbraucht den monatlichen Vorrat sehr schnell. Jetzt gilt die einfache Regel: Fast Mode – nur für interaktive Aufgaben bis zu 10 Minuten. Alles Längere – Standard-GPT-5.5.

400K Kontext in Codex – eine reale Einschränkung. Ich habe versucht, das gesamte WebsCraft-Projekt (Spring Boot mit allen Vorlagen und Konfigurationen) in einem Durchgang zu analysieren – es passte nicht. Ich musste es in logische Teile aufteilen: separat Web-Layer, separat Service-Layer, separat Thymeleaf. Für sehr große Repositories sind 400K eine echte Obergrenze.

Mein aktueller Workflow mit GPT-5.5

  • Standard-GPT-5.5 – autonome Aufgaben: Implementierung von Features, Refactoring von Multi-Datei-Projekten, Schreiben komplexer Tests
  • GPT-5.5 Thinking – Architekturentscheidungen und nicht-triviales Debugging
  • Fast Mode – kurze interaktive Sitzungen, Ausprobieren von Implementierungsoptionen
  • Spark – aktives Debugging mit bekannter Ursache, wo Antwortgeschwindigkeit wichtig ist
  • GPT-5.4 mini – Sub-Agents für parallele Routineaufgaben

Codex Hub mit allen Materialien zu den Modellen – Codex von OpenAI: Der vollständige Leitfaden 2026.

Häufig gestellte Fragen (FAQ)

Lohnt sich der Umstieg von GPT-5.4 auf GPT-5.5 in Codex?

Ja – wenn GPT-5.5 bereits in Ihrem Model Picker erschienen ist. Dank der Token-Effizienz (~40% weniger Token pro Aufgabe) bleibt der tatsächliche Verbrauch des Limits für die meisten Aufgaben auf dem gleichen Niveau oder sinkt, trotz des höheren Preises pro Token in der API. Für autonome und Multi-Step-Aufgaben ist der Unterschied spürbar. Wenn GPT-5.5 noch nicht verfügbar ist – aktualisieren Sie die App; während des Rollouts fahren Sie mit GPT-5.4 fort.

Was ist der Unterschied zwischen GPT-5.5 und GPT-5.3-Codex?

GPT-5.3-Codex ist ein spezialisiertes Coding-Modell mit 400K Kontext und Fokus auf agentive Software Engineering. GPT-5.5 ist breiter: Coding + Reasoning + Computer Use + Knowledge Work, und dabei intelligenter – 82,7% gegenüber 77,3% auf Terminal-Bench 2.0. Allerdings bleibt GPT-5.3-Codex über API-Key in Codex verfügbar (GPT-5.5 über API-Key in der Codex-Oberfläche ist noch nicht verfügbar), daher ist es für API-Key-Workflows immer noch relevant.

Ist GPT-5.5 kostenlos verfügbar?

Nein. In Codex ist GPT-5.5 nur für kostenpflichtige Pläne verfügbar: Plus (20 $/Monat), Pro (100 $ oder 200 $/Monat), Business (30 $/Benutzer/Monat), Enterprise, Edu und Go. Der kostenlose Plan hat keinen Zugriff auf GPT-5.5, weder in ChatGPT noch in Codex.

Was ist GPT-5.5 Thinking und wie unterscheidet es sich vom Standard?

Thinking ist eine Variante von GPT-5.5 mit verstärkter Reflexion vor der Antwort. Es liefert prägnantere und genauere Antworten für komplexe Aufgaben: Architekturentscheidungen, tiefes Debugging, Forschungsfragen. Es kann etwas langsamer sein. Verfügbar für Plus und höher. Nicht zu verwechseln mit GPT-5.5 Pro – das ist eine separate, leistungsstärkste Variante nur für Pro/Business/Enterprise in ChatGPT.

Wie unterscheidet sich GPT-5.5 in Codex von GPT-5.5 in ChatGPT und in der API?

Dasselbe Modell, verschiedene Oberflächen und Kontexte. In Codex: 400K Kontextfenster, Zugriff auf Repository, Terminal, Browser, PR-Workflow, Skills, Fast Mode. In ChatGPT: Standarddialog mit Tools, Websuche, Python. In API: 1M Kontextfenster, vollständige Anpassung, Preis 5 $/30 $ pro 1M Token. Für agentives Coding – Codex ist die richtige Oberfläche.

Schlussfolgerungen

  • GPT-5.5 wurde am 23. April 2026 veröffentlicht und ist das Standardmodell in Codex. Wichtige Änderungen für Entwickler: ~40% weniger Token für dieselbe Aufgabe, dieselbe Latenz pro Token wie GPT-5.4, qualitativ bessere agentive Arbeit bei Multi-Step-Aufgaben.
  • Kontext in Codex – 400K Token, in der API – 1M. Dieser Unterschied ist entscheidend bei der Wahl der Oberfläche für die Arbeit mit großen Repositories.
  • GPT-5.5 führt auf Terminal-Bench 2.0 (82,7%) und Expert-SWE (73,1%) an, aber Claude Opus 4.7 bleibt auf SWE-Bench Pro (64,3% vs. 58,6%) stärker. Die Wahl des Modells hängt von der Art der Aufgabe ab – nicht vom Markennamen.
  • Zwei neue Modi verändern den Workflow: Thinking – für Architekturentscheidungen und komplexes Debugging; Fast Mode – für interaktive Aufgaben, kostet aber das 2,5-fache des Limits.
  • Der effektivste Ansatz im Jahr 2026 ist die Kombination von Modi je nach Aufgabentyp: Standard-GPT-5.5 für autonomes Coding, Thinking für Architektur, Fast Mode für interaktive Aufgaben, Spark für Echtzeit, Mini für Sub-Agents.

Hauptgedanke: GPT-5.5 ist ein echter Schritt nach vorne, kein Marketing-Update. Aber den maximalen Nutzen bringt nicht das Modell selbst, sondern die richtige Wahl zwischen Standard-GPT-5.5, Thinking und Fast Mode für die jeweilige Aufgabe. Dies erfordert ein bis zwei Wochen Übung – danach wird der Workflow deutlich effizienter.

Vollständiger Überblick über das Codex-Ökosystem und alle Modelle – Codex von OpenAI: Der vollständige Leitfaden 2026. Details zu GPT-5.3-Codex-Spark – GPT-5.3-Codex-Spark: Echtzeit-Coding im Jahr 2026. Vergleich von GPT-5.4 und GPT-5.3-Codex – GPT-5.4 vs. GPT-5.3-Codex: Was ist der Unterschied und was wählen?.

📚 Quellen

Останні статті

Читайте більше цікавих матеріалів

GPT-5.5 в Codex: що змінилось для розробників у 2026

GPT-5.5 в Codex: що змінилось для розробників у 2026

23 квітня 2026 OpenAI випустила GPT-5.5 — і одразу зробила її дефолтною моделлю в Codex. Але не кожен апдейт насправді щось змінює у щоденній роботі. Цей — змінює. Три речі, які важливі для розробника: менше токенів на ті ж задачі, та сама швидкість що й GPT-5.4, і якісно новий...

GPT-Realtime-2: технічний гід — WebSocket API, підключення і приклади коду

GPT-Realtime-2: технічний гід — WebSocket API, підключення і приклади коду

Ця стаття — практичний гід для розробників що хочуть підключити GPT-Realtime-2 до свого проєкту. Ми розберемо архітектуру Realtime API, виберемо правильний метод підключення для вашого сценарію, напишемо першу робочу сесію з нуля і налаштуємо preambles, tool calls і recovery з реальним...

OpenAI випустила GPT-Realtime-2: перша голосова модель з GPT-5-рівнем мислення

OpenAI випустила GPT-Realtime-2: перша голосова модель з GPT-5-рівнем мислення

7 травня 2026 року OpenAI зробила анонс, який багато хто в спільноті розробників чекав давно: три нові голосові моделі в Realtime API. Флагман — GPT-Realtime-2 — перша в лінійці, де мислення рівня GPT-5 вбудоване прямо в голосовий потік. Без затримок між розпізнаванням і відповіддю. Без окремих...

Яку модель Ollama обрати для агента з tool calling: порівняння і бенчмарки

Яку модель Ollama обрати для агента з tool calling: порівняння і бенчмарки

Tool calling в Ollama — одна з найбільш неочевидних фіч локальних моделей. Не тому що API складний. А тому що між «модель підтримує tools» у документації і «модель стабільно викликає tools у продакшні» — велика різниця яку можна виявити тільки під навантаженням. Одні моделі...

GPT-5.3-Codex-Spark: real-time кодинг у 2026 — що це і навіщо

GPT-5.3-Codex-Spark: real-time кодинг у 2026 — що це і навіщо

12 лютого 2026 року OpenAI випустила GPT-5.3-Codex-Spark — і більшість розробників одразу запитали одне й те саме: «Це новий додаток? Мені треба щось перевстановлювати?» Ні. Spark — це модель всередині Codex App яку ти вже маєш. Просто інша модель у model picker — але з принципово іншим принципом...

Codex від OpenAI: повний гід 2026

Codex від OpenAI: повний гід 2026

OpenAI Codex у 2026 році — це не той інструмент, про який ви, можливо, читали кілька років тому. Оригінальний Codex API (2021–2023) був моделлю для автодоповнення коду на базі GPT-3, яка живила ранні версії GitHub Copilot. OpenAI закрила той API у березні 2023 року. Те, що існує сьогодні —...