Протягом останніх дванадцяти місяців OpenAI послідовно розширювала свій модельний зоопарк: окремі моделі для коду, для reasoning, для агентів. GPT-5.4, випущений 5 березня 2026 року, ламає цю логіку — він об'єднує все в одну модель. Але чи є це архітектурним рішенням, чи операційним спрощенням?
Спойлер: це одночасно і те, і інше — і саме тому варто розібратись у механіці цього переходу, перш ніж приймати рішення про використання моделі в продакшені.
⚡ Коротко
- ✅ Консолідація: GPT-5.4 замінює і gpt-5.2 (загальна модель), і gpt-5.3-codex (кодова), об'єднуючи їх в єдиний inference pipeline
- ✅ Reasoning як параметр: замість окремих моделей — один параметр
reasoning.effort від none до xhigh, який керує кількістю reasoning tokens - ✅ CoT між turns: вперше в mainline-моделі підтримується передача chain-of-thought між запитами через Responses API — це знижує latency і підвищує cache hit rate
- 🎯 Ви отримаєте: розуміння того, як архітектурні рішення в GPT-5.4 впливають на вибір моделі, конфігурацію inference і вартість у реальних сценаріях
- 👇 Нижче — детальні пояснення, приклади та таблиці
📚 Зміст статті
🎯 Чому OpenAI відмовилась від роздільних моделей: інженерна логіка консолідації
Навіщо консолідація?
OpenAI підійшла до GPT-5.4 через накопичений операційний борг: паралельна підтримка окремих
кодових моделей (GPT-5-Codex → GPT-5.1-Codex → GPT-5.2-Codex → GPT-5.3-Codex) поруч із
загальними (GPT-5.2, GPT-5.3 Instant) створювала фрагментацію на рівні API, документації
та вибору для розробників. GPT-5.4 усуває цю фрагментацію, об'єднавши coding capabilities
GPT-5.3-Codex із загальним reasoning в єдиній моделі — першій mainline-моделі, де це
злиття відбулось на рівні тренувальних стеків, а не routing логіки.
Вибір між «загальною» і «кодовою» моделлю — це когнітивний overhead для розробника.
Consolidated architecture переносить цей вибір з рівня «яку модель використовувати»
на рівень «який параметр виставити».
Як виглядав модельний зоопарк до GPT-5.4
Щоб зрозуміти логіку консолідації, потрібно відновити хронологію фрагментації. Протягом
2025–2026 років OpenAI паралельно розвивала два незалежних треки:
Загальний трек: GPT-5 (травень 2025) → GPT-5.1 (серпень 2025) →
GPT-5.2 (грудень 2025) → GPT-5.3 Instant (лютий 2026). Кожна версія мала підваріанти:
Instant (низька latency), Thinking (extended reasoning), Pro (максимальний compute).
Codex-трек: GPT-5-Codex (травень 2025) → GPT-5.1-Codex → GPT-5.1-Codex-Max
(з context compaction) → GPT-5.2-Codex (14 січня 2026) → GPT-5.3-Codex (лютий 2026).
Codex-моделі були оптимізовані для агентного кодингу: довгі горизонти задач, compaction,
SWE-bench-орієнтоване тренування.
За даними
OpenAI Model Release Notes, GPT-5.3-Codex став першою моделлю, де Codex і GPT-5
тренувальні стеки були об'єднані: «перша модель, що поєднує Codex + GPT-5 training
stacks — bringing together best-in-class code generation, reasoning, and general-purpose
intelligence in one unified model». GPT-5.4 завершує цей процес,
ставши дефолтною моделлю для всіх поверхонь: ChatGPT, API і Codex одночасно.
Конкретні витрати фрагментації для розробника
Фрагментація між треками мала реальні операційні наслідки. Розробник, що будував агентний
воркфлоу зі змішаними задачами (планування, написання коду, аналіз документів, робота
з spreadsheet), стикався з кількома проблемами одночасно.
Routing між моделями в межах pipeline. Стандартна архітектура включала
GPT-5.2 для planning і reasoning-кроків і GPT-5.2-Codex для generation-кроків.
Кожен switch між моделями означав окремий API-виклик, окреме управління контекстом,
потенційно різні параметри і різну поведінку на граничних випадках. При довгих агентних
траєкторіях це накопичувалось у суттєвий overhead — і по latency, і по складності коду.
Розбіжності в документації і поведінці.
Codex Models page
і загальна API-документація були окремими ресурсами з різними рекомендаціями:
«Use GPT-5-codex for coding-focused work in Codex, or Codex-like environments;
use GPT-5 for general, non-coding tasks» — пряма інструкція розробнику
думати про вибір моделі на кожному кроці воркфлоу.
Context compaction як exclusive feature. GPT-5.1-Codex-Max вніс context
compaction — механізм стиснення довгих агентних контекстів без втрати ключової інформації.
Але ця функція була доступна лише в Codex-моделях. Розробники на загальному GPT-5.x
вирішували проблему переповнення контексту власними механізмами summarization, що додавало
логіку і токени. GPT-5.4 вводить native compaction для всіх сценаріїв.
Що означає «злиття тренувальних стеків» на практиці
Відповідно до
офіційного анонсу OpenAI, GPT-5.4 — це «перша mainline reasoning-модель, що
incorporates the frontier coding capabilities of GPT-5.3-Codex». Це архітектурно
відрізняється від простого «кращого промпту» або post-hoc routing:
Спільні ваги для coding і reasoning. Обидва capability-треки живуть
в одному наборі ваг — результат спільного тренування на coding і general-purpose даних,
а не ensemble або routing між окремими моделями.
Єдиний context window для змішаних задач. При роботі з агентним
воркфлоу, де чергуються planning (reasoning-heavy) і implementation (coding-heavy) кроки,
контекст не розривається між моделями — модель зберігає повний стан задачі.
Tool search як міст між capability-треками.
OpenAI
описує tool search як механізм, що «допомагає агентам знаходити і використовувати
правильні інструменти ефективніше без втрати інтелекту» — це стає можливим саме тому,
що модель однаково добре розуміє і загальний контекст задачі, і технічні деталі
інструментів.
Deprecation-стратегія як індикатор пріоритетів
Паттерн deprecation підтверджує, що консолідація — стратегічне, а не тактичне рішення.
За даними OpenAI,
GPT-5.2 Thinking буде доступний ще три місяці в розділі Legacy Models і буде відключений
6 червня 2026 року. При цьому GPT-5.1, GPT-5 і GPT-4.1 в API поки не отримали дати
deprecation —
OpenAI прямо зазначала: «no current plans to deprecate» для API-версій.
Це означає: OpenAI свідомо зберігає старіші моделі в API для тих, кому потрібна нижча
вартість або специфічна поведінка, але в продуктовому шарі (ChatGPT, Codex) послідовно
переходить на consolidated підхід. Для розробника це практичний сигнал:
нові інтеграції варто будувати під GPT-5.4, тоді як legacy-системи з GPT-5.1/4.1 можна
не мігрувати поспіхом.
Від «яку модель» до «який параметр»
Консолідація переміщує складність з вибору моделі на конфігурацію параметрів. Замість
рішення «GPT-5.2 чи GPT-5.3-Codex» тепер рішення «який reasoning.effort
і чи потрібен мені Responses API з CoT між turns».
Це не спрощення як таке — рівень складності зберігається, але змінює форму. Перевага:
параметри конфігурації версійовані, документовані і передбачувані в межах одного model ID.
Вибір між двома різними моделями із різними тренувальними даними і різною поведінкою
на edge cases — суттєво більша невизначеність, ніж вибір між effort=high
і effort=xhigh в межах одного графа.
🎯 Як змінився reasoning pipeline від GPT-5.0 до 5.4: router, thinking-трек і стерованість
Еволюція reasoning у GPT-5.x
Ключова зміна між версіями GPT-5.x — це перехід від бінарного «reasoning on/off» до гранульованого керування через параметр reasoning.effort з п'ятьма рівнями: none, low, medium, high, xhigh. GPT-5.4 також вводить підтримку передачі chain-of-thought між turns через Responses API, що принципово змінює поведінку моделі в multi-turn агентних сценаріях.
Reasoning effort — це не просто «думати більше чи менше». Це пряме управління кількістю reasoning tokens, які генерує модель перед відповіддю, зі всіма наслідками для latency і вартості.
Рання архітектура GPT-5 (версія 5.0) мала жорстко вшиту логіку: модель або входила в reasoning mode, або ні. GPT-5.1 і 5.2 поступово ввели параметризацію, але зупинялись на трьох рівнях (low/medium/high). З GPT-5.2 з'явився рівень none для low-latency сценаріїв, і xhigh для максимальної глибини — нова стеля, яка в GPT-5.4 стала стандартним режимом для бенчмарків.
За даними OpenRouter, коефіцієнти розподілу reasoning tokens по рівнях такі: xhigh виділяє до 95% від max_tokens на reasoning, high — 80%, medium — 50%, low — 20%, minimal — 10%. Це означає, що при max_tokens=4096 і xhigh модель генерує до ~3891 прихованих reasoning tokens перед відповіддю — токенів, які не відображаються у відповіді, але тарифікуються як output tokens.
Принципова новація GPT-5.4 — підтримка передачі CoT (chain-of-thought) між turns через Responses API. Раніше кожен запит починав reasoning з нуля. Тепер модель може «пам'ятати» свій попередній thought process, що, за даними OpenAI, дає покращену якість reasoning, менше згенерованих reasoning tokens, вищий cache hit rate і нижчу latency в multi-turn сценаріях.
🎯 GPT-5.4 Thinking як окремий inference-режим: чим він відрізняється від базової моделі
Thinking — це не окрема модель
GPT-5.4 Thinking — це не окрема модель з іншими вагами, а той самий gpt-5.4 з фіксованим
reasoning.effort=xhigh у ChatGPT-інтерфейсі. На рівні API різниці між «Thinking» і базовим
GPT-5.4 з параметром xhigh немає — це продуктове розмежування для end-user інтерфейсу,
а не архітектурне. GPT-5.4 Pro — єдиний варіант, який дійсно відрізняється на рівні compute:
він використовує ширший inference-граф і тарифікується окремо.
Плутанина між «Thinking», «Pro» і базовим GPT-5.4 є типовою для тих, хто дивиться на продуктову
назву, а не на API-параметри. На рівні inference — це один граф з різними конфігураціями
reasoning.effort і різним виділеним compute.
Продуктова лінійка GPT-5.4 у ChatGPT включає три режими: Instant
(effort=none/low — мінімальна latency), Thinking
(effort=xhigh — максимальна глибина reasoning) і Pro
(окремий inference-граф з більшим compute-бюджетом на відповідь). З точки зору API
перші два — це один endpoint gpt-5.4 з різними значеннями параметра.
Різниця між рівнями reasoning.effort є суттєвою на рівні токен-економіки.
За даними OpenRouter,
розподіл reasoning tokens по рівнях такий:
xhigh — до 95% від max_tokens витрачається на приховані reasoning tokenshigh — ~80%medium — ~50%low — ~20%none — reasoning tokens не генеруються
Це означає: при max_tokens=4096 і effort=xhigh модель генерує
до ~3 890 прихованих reasoning tokens перед фінальною відповіддю. Ці токени не відображаються
у відповіді, але тарифікуються як output tokens — що безпосередньо впливає на вартість
і latency запиту.
GPT-5.4 Pro — окремий випадок. Він відрізняється не тільки кількістю
reasoning tokens, а й ширшим inference-графом: більше beam search або еквівалентний механізм
на рівні семплування. За даними
Digital Applied,
GPT-5.4 Pro досягає 83.3% на ARC-AGI-2 — бенчмарку на абстрактне reasoning,
де базовий GPT-5.4 показує нижчий результат. Ціна: $30 input / $180 output за мільйон токенів —
тобто ~6× дорожче за базову конфігурацію.
Практична рекомендація :
effort=none/low — real-time chat, класифікація, template-filling. TTFT < 1–2 с,
мінімальна вартість.
effort=high — оптимальний баланс для більшості агентних задач: рефакторинг,
multi-step planning, structured output. Вартість в 2–3× вища за none,
але якість суттєво краща.
effort=xhigh — виправданий для одноразових складних задач: юридичний аналіз,
архітектурні рішення, складний math reasoning. Якість максимальна, але вартість і latency
відповідні.
Pro — критичні сценарії з нульовою терпимістю до помилок.
ARC-AGI-2: 83.3% — поки що найвищий результат серед усіх публічних моделей.
Новація GPT-5.4, яка впливає на всі режими — підтримка передачі chain-of-thought між turns
через Responses API. Раніше кожен запит починав reasoning з нуля; тепер модель зберігає
попередній thought-process між кроками агентного воркфлоу. Це знижує кількість reasoning tokens
на повторюваних кроках і підвищує cache hit rate, що безпосередньо впливає на вартість
multi-turn агентних сценаріїв.
📊 Порівняння GPT-5.4 / Claude Opus 4.6 / Gemini 3.1 Pro за вимірюваними параметрами
Дані актуальні на березень 2026. Джерела:
Digital Applied,
Onyx LLM Leaderboard,
Failing Fast AI Coding Benchmarks.
| Параметр | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|
| GPQA Diamond (graduate science) | 93.2% | 91.3% | 94.3% |
| SWE-bench Verified (real GitHub issues) | 80.0% | 80.8% | ~74% |
| HumanEval (code generation) | 95.0% | 95.0% | ~97.8% |
| ARC-AGI-2 (abstract reasoning) | Pro: 83.3% / base: ~75% | ~72% | 77.1% |
| OSWorld (autonomous desktop tasks) | 75% (вище людини: 72.4%) | 72.7% | н/д |
| Aider Polyglot (multi-language code edit) | 88% | 70.7% | 83.1% |
| Контекстне вікно | 1M (API) / 272K (standard) | 200K (1M beta) | 2M |
| Input / Output ($/1M токенів) | ~$15 / $60 (base) · $30 / $180 (Pro) | $15 / $75 | $2 / $12 |
| Context caching | Tool search (−47% токенів) | ✅ (до −75% input) | ✅ (до −75% input) |
| Computer use (native) | ✅ (вбудований) | ✅ | Обмежено |
| CoT між turns | ✅ (Responses API) | ❌ | ❌ |
Важливо: бенчмарки вимірюють поведінку моделі в стандартизованих умовах і не завжди
корелюють з production-результатами. SWE-bench і OSWorld є найбільш репрезентативними
для реальних інженерних задач — саме на них варто орієнтуватись при виборі моделі для
агентних воркфлоу.
🎯 Consolidated model як компроміс: latency, спеціалізація і вартість обслуговування
У чому полягає архітектурний компроміс?
Consolidated architecture знижує операційну складність і покращує cross-domain performance,
але підвищує базову вартість inference: модель більша за вагами, ніж спеціалізовані попередники.
При цьому підвищена token efficiency GPT-5.4 частково нівелює різницю в ціні — але лише
для складних задач. Для простих high-throughput сценаріїв consolidated модель залишається
надлишковою, і правильна модельна ієрархія в продукті залишається важливою.
Consolidated model — це відповідь на питання «яку модель використовувати для складних змішаних
задач», але не скасовує необхідність думати про модельну ієрархію в продукті.
Один великий молоток зручніший за набір інструментів — до того моменту, поки вам не потрібен
скальпель.
Вартість inference: що реально показують цифри
Порівняння list-price не відображає реальну вартість inference в продакшені — через кешування,
розподіл reasoning tokens і tool search. Розберемо кожен фактор окремо.
Базова вартість токенів. GPT-5.4 і Claude Opus 4.6 знаходяться в одному
ціновому сегменті (~$15/$60–75 per 1M). Gemini 3.1 Pro — суттєво дешевший:
$2/$12 per 1M,
що дає приблизно 5–7× перевагу по вартості за токен при зіставних benchmark-результатах.
Для cost-sensitive сценаріїв — це значущий параметр.
Context caching. Gemini 3.1 Pro і Claude Opus 4.6 підтримують context caching
зі зниженням вартості input до 75%. GPT-5.4 натомість використовує
tool search — механізм динамічного discovery і підвантаження тільки
релевантних інструментів. За даними
Digital Applied,
tool search знижує token consumption на 47% для агентних задач з великою
кількістю інструментів — це більш ніж компенсує відсутність традиційного кешування
для відповідних сценаріїв.
Token efficiency GPT-5.4. За даними
Augment Code,
на складних задачах (рефакторинг, multi-file reasoning, архітектурне планування) GPT-5.4
використовує на 18–20% менше токенів, ніж попередники. Це означає: вища ціна за токен частково
нівелюється нижчою кількістю токенів на задачу — але тільки для складних сценаріїв,
де модель дійсно «думає ефективніше».
Де consolidated модель не є оптимальним вибором
Для простих high-throughput задач — класифікація, summarization, template-filling, intent
detection — consolidated GPT-5.4 є надлишковою. Тут оптимальними залишаються:
gpt-5-mini — lightweight задачі з низькою latency і мінімальною вартістю.
Gemini 2.5 Flash ($0.30/$2.50 per 1M) — якщо потрібна масштабованість
з великим контекстом за мінімальну вартість.
Claude Haiku 4.5 ($1.00/$5.00 per 1M) — для сценаріїв де важливий
Anthropic API і низька вартість одночасно.
Microsoft у рекомендаціях для
Azure Foundry
прямо вказує: для real-time chat і customer support з низькою latency-вимогою GPT-4.1
залишається кращим вибором, ніж GPT-5.x — незважаючи на нижчу якість reasoning.
Latency GPT-4.1 для простих запитів суттєво нижча, а якість відповіді для стандартних
підтримових сценаріїв — достатня.
Практична модельна ієрархія
| Рівень | Модель | Сценарій | Орієнтовна вартість |
|---|
| High-frequency lightweight | gpt-5-mini / Gemini 2.5 Flash | Класифікація, summarization, chat | < $1/1M output |
| Complex reasoning + agents | gpt-5.4 (effort=high) | Рефакторинг, planning, multi-step agents | ~$60/1M output |
| Long-context document work | Gemini 3.1 Pro (2M ctx) | Аналіз великих кодових баз, документів | ~$12/1M output |
| Critical one-shot precision | gpt-5.4 Pro / Claude Opus 4.6 | Юридичний аналіз, фінансові рішення | $75–180/1M output |
Consolidated architecture GPT-5.4 усуває необхідність вибору між «кодовою» і «загальною»
моделлю всередині складного воркфлоу — але не усуває необхідність думати про routing
між рівнями ієрархії. Для product-інженера правильна архітектура routing між моделями
залишається одним із ключових факторів оптимізації cost і latency.
❓ Часті питання (FAQ)
Чи варто мігрувати з gpt-5.2 на gpt-5.4 прямо зараз?
Залежить від типу задач. Для агентних і coding-сценаріїв мігрувати є сенс: GPT-5.4
об'єднав capabilities GPT-5.3-Codex з загальним reasoning в одній моделі, що означає
кращі результати на змішаних воркфлоу без routing між двома endpoints. За даними
VentureBeat,
GPT-5.4 генерує на 47% менше токенів на деяких задачах порівняно з попередниками —
і це частково компенсує вищу ціну за токен для складних задач.
Для простих high-throughput задач — класифікація, summarization, template-filling —
мігрувати немає потреби. gpt-5-mini або gpt-5.2 залишаються раціональнішим вибором
по cost/latency. GPT-5.2 Thinking залишається в Legacy Models до 6 червня 2026
, тобто часу на поступову міграцію достатньо. При цьому GPT-5.1 і GPT-4.1
не мають оголошеної дати deprecation в API — тому legacy-системи можна не чіпати поспіхом.
Чим відрізняється gpt-5.4 у ChatGPT від gpt-5.4 в API?
Це одна й та сама модель, але з різним рівнем контролю над inference-параметрами.
У ChatGPT routing між трьома режимами (Instant, Thinking, Pro) відбувається автоматично —
за документацією OpenAI, «routing layer selects the best model to use» на основі
складності запиту, і користувач може явно перемкнути режим через UI.
В API ви отримуєте прямий контроль: один endpoint gpt-5.4 і параметр
reasoning.effort з п'ятьма рівнями (none / low /
medium / high / xhigh). ChatGPT Instant відповідає
приблизно effort=none/low, ChatGPT Thinking — effort=xhigh.
GPT-5.4 Pro — єдиний виняток: він використовує ширший inference-граф і окремо тарифікується,
тому не зводиться просто до значення параметра.
Коли Responses API дає реальну перевагу над Chat Completions?
Responses API є суттєво кращим вибором для агентних і multi-turn reasoning сценаріїв.
Головна відмінність — підтримка передачі chain-of-thought між turns: модель зберігає
попередній thought process і не починає reasoning з нуля на кожному кроці.
За
даними OpenAI з внутрішніх evalів, це дає покращення на 3% по SWE-bench,
кращий cache hit rate і нижчу latency в multi-turn сценаріях, а також
40–80% зниження вартості за рахунок покращеного кешування порівняно з Chat Completions.
Крім CoT, Responses API надає ексклюзивний доступ до tool_search (deferred tool loading),
native compaction, computer use і stateful context через store: true.
Для простих stateless запитів без інструментів Chat Completions залишається валідним
вибором — він стабільний, добре задокументований і не планується до sunset найближчим часом.
Assistants API, натомість, буде закрито 26 серпня 2026 року — тому міграція
з нього на Responses API є пріоритетною.
Коли передача CoT між turns не дає переваги?
CoT persistence корисна тільки тоді, коли reasoning одного кроку реально впливає на якість
наступного. У кількох поширених сценаріях ця перевага не реалізується.
По-перше, single-turn і stateless запити: якщо кожен запит незалежний по контексту —
batch-класифікація, масова генерація тексту за шаблоном, паралельні незалежні задачі —
передавати CoT нема чого, і overhead від Responses API не виправданий.
По-друге, короткі прості ланцюжки з effort=none/low: reasoning tokens
або не генеруються, або мінімальні — CoT persistence в цьому випадку не дає
measurable ефекту. По-третє, сценарії з частою зміною контексту: якщо між кроками агента
контекст задачі кардинально змінюється (наприклад, окремі незалежні subtasks),
збережений CoT може навіть погіршити якість, оскільки модель «тягнутиме»
нерелевантний reasoning з попереднього кроку.
Як tool_search впливає на вартість inference в реальних агентних сценаріях?
Tool search — механізм, що дозволяє моделі defer велику поверхню інструментів до runtime:
замість передачі повного списку доступних tools у кожен запит, модель динамічно підвантажує
тільки ті, що релевантні для поточного кроку.
За
OpenAI Changelog, це «знижує token usage, зберігає cache performance і покращує latency».
За даними VentureBeat,
загальна економія на деяких агентних задачах досягає 47% токенів порівняно з попередниками.
Практично це важливо для систем з великою кількістю зареєстрованих інструментів —
наприклад, корпоративних агентів з десятками MCP-серверів або API-інтеграцій.
Раніше передача повного tool manifest у кожен запит суттєво збільшувала input tokens
і знижувала cache hit rate, оскільки manifest змінювався між запитами.
Tool search вирішує обидві проблеми одночасно. Доступний виключно через Responses API —
ще один аргумент на користь міграції для агентних сценаріїв.
✅ Висновки
GPT-5.4 — це не просто «краща версія» попередника. Це зміна архітектурної філософії: від набору спеціалізованих моделей до єдиного параметризованого inference pipeline. Для розробника це означає менший cognitive load при виборі моделі, але більшу відповідальність за правильне налаштування параметрів — зокрема reasoning.effort і вибір між Chat Completions і Responses API.
Ключові архітектурні висновки:
- Консолідація gpt-5.2 і gpt-5.3-codex в одну модель знижує фрагментацію API, але підвищує базову вартість inference — оптимізація потрібна на рівні параметрів, а не вибору endpoint
- CoT між turns через Responses API — найбільша прихована перевага для агентних систем, яка недооцінена в більшості оглядів
- «Thinking», «Pro» і базовий gpt-5.4 — це один model graph з різними inference-конфігураціями, а не окремі архітектури
- Напрямок GPT-5.x вказує на зростаючу роль Responses API як основного протоколу і поступову deprecation Chat Completions для складних сценаріїв
У наступних статтях серії розберемо inference під капотом — як влаштовано контекстне вікно в 1M токенів, де виникають реальні bottlenecks і як виглядає порівняння вартості GPT-5.4 з Claude Sonnet 4.6 і Gemini у вимірюваних сценаріях.
Джерела:
OpenAI — Introducing GPT-5.4
OpenAI API — Using GPT-5.4
Augment Code — GPT-5.4 as default model
Microsoft Azure Foundry — GPT-5 vs GPT-4.1 model choice guide
OpenRouter — Reasoning Tokens documentation
The Neuron — GPT-5.4 full breakdown
Ключові слова:
GPT-5.4CodexGemini 3.1 Pro