Чому OpenAI перейшла від спеціалізованих моделей до consolidated architecture в GPT-5.4?

Через накопичений операційний борг від фрагментації API та великий routing-overhead. Об'єднання GPT-5.2, GPT-5.3-Codex та інших треків в єдину модель з consolidated architecture значно спрощує вибір, підтримку та масштабування для розробників.

Що таке reasoning.effort у GPT-5.4 і як він працює?

Це гранульований параметр, який контролює глибину внутрішнього міркування (від none до xhigh). Чим вищий рівень, тим більше hidden reasoning-токенів генерується, що покращує якість на складних задачах, але збільшує latency та вартість

Чим відрізняється GPT-5.4 від GPT-5.4 Thinking або Pro?

GPT-5.4 Thinking — це той самий GPT-5.4 з фіксованим reasoning.effort = xhigh. Pro — ширший inference-граф з кращими бенчмарками, але дорожчий. Звичайний GPT-5.4 дозволяє гнучко обирати effort-рівень

Які переваги Responses API порівняно з Chat Completions?

Responses API підтримує CoT між turns, stateful context, native compaction та tool search. Це знижує latency та вартість на 40–80% у multi-turn агентних сценаріях і значно підвищує cache hit rate.

Чи потрібно мігрувати з GPT-5.2 / 5.3-Codex на GPT-5.4?

Рекомендується для агентних, coding та змішаних задач — там token usage падає до 47%, а якість зростає. Для простих high-throughput сценаріїв стара модель часто залишається раціональнішою та дешевшою.

Коли відключать старі моделі (deprecation plan) ?

GPT-5.2 Thinking відключать 6 червня 2026 в Legacy Models. Старіші GPT-5.1, GPT-4.1 та подібні не мають оголошених планів deprecation — legacy-системи можуть працювати ще довго.

Як consolidated architecture впливає на вартість та ефективність?

Базова вартість inference вища через більші ваги, але token efficiency на складних задачах зростає на 18–20%, а з tool search — до 47%. Загалом модель вигідніша для змішаних та агентних сценаріїв

Які основні бенчмарки GPT-5.4 у 2026 році?

93.2% на GPQA, ~80% на SWE-bench Verified, 75% на OSWorld. Це один з найкращих показників серед публічних моделей на початок 2026 року.

NEWS 06 березня 2026 14 хв читання 5 141 перегляд

GPT-5.4 у 2026: від спеціалізованих моделей до consolidated architecture — що змінилось

Оновлено: 21 March 2026

Мова: 🇺🇦 🇺🇸 🇩🇪 🇪🇸

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

GPT-5.4 у 2026: від спеціалізованих моделей до consolidated architecture — що змінилось

Протягом останніх дванадцяти місяців OpenAI послідовно розширювала свій модельний зоопарк: окремі моделі для коду, для reasoning, для агентів. GPT-5.4, випущений 5 березня 2026 року, ламає цю логіку — він об'єднує все в одну модель. Але чи є це архітектурним рішенням, чи операційним спрощенням?
Спойлер: це одночасно і те, і інше — і саме тому варто розібратись у механіці цього переходу, перш ніж приймати рішення про використання моделі в продакшені.

⚡ Коротко

✅ Консолідація: GPT-5.4 замінює і gpt-5.2 (загальна модель), і gpt-5.3-codex (кодова), об'єднуючи їх в єдиний inference pipeline

✅ Reasoning як параметр: замість окремих моделей — один параметр reasoning.effort від none до xhigh, який керує кількістю reasoning tokens

✅ CoT між turns: вперше в mainline-моделі підтримується передача chain-of-thought між запитами через Responses API — це знижує latency і підвищує cache hit rate

🎯 Ви отримаєте: розуміння того, як архітектурні рішення в GPT-5.4 впливають на вибір моделі, конфігурацію inference і вартість у реальних сценаріях

👇 Нижче — детальні пояснення, приклади та таблиці

📚 Зміст статті

📌 Розділ 1. Чому OpenAI відмовилась від роздільних моделей

📌 Розділ 2. Як змінився reasoning pipeline від GPT-5.0 до 5.4

📌 Розділ 3. GPT-5.4 Thinking як окремий inference-режим

📌 Розділ 4. Consolidated model як компроміс

📌 Розділ 5. Що архітектурний вектор GPT-5.x говорить про напрямок OpenAI

❓ Часті питання (FAQ)

✅ Висновки

🎯 Чому OpenAI відмовилась від роздільних моделей: інженерна логіка консолідації

Навіщо консолідація?

OpenAI підійшла до GPT-5.4 через накопичений операційний борг: паралельна підтримка окремих

кодових моделей (GPT-5-Codex → GPT-5.1-Codex → GPT-5.2-Codex → GPT-5.3-Codex) поруч із

загальними (GPT-5.2, GPT-5.3 Instant) створювала фрагментацію на рівні API, документації

та вибору для розробників. GPT-5.4 усуває цю фрагментацію, об'єднавши coding capabilities

GPT-5.3-Codex із загальним reasoning в єдиній моделі — першій mainline-моделі, де це

злиття відбулось на рівні тренувальних стеків, а не routing логіки.

Вибір між «загальною» і «кодовою» моделлю — це когнітивний overhead для розробника.
Consolidated architecture переносить цей вибір з рівня «яку модель використовувати»
на рівень «який параметр виставити».

Як виглядав модельний зоопарк до GPT-5.4

Щоб зрозуміти логіку консолідації, потрібно відновити хронологію фрагментації. Протягом

2025–2026 років OpenAI паралельно розвивала два незалежних треки:

Загальний трек: GPT-5 (травень 2025) → GPT-5.1 (серпень 2025) →

GPT-5.2 (грудень 2025) → GPT-5.3 Instant (лютий 2026). Кожна версія мала підваріанти:

Instant (низька latency), Thinking (extended reasoning), Pro (максимальний compute).

Codex-трек: GPT-5-Codex (травень 2025) → GPT-5.1-Codex → GPT-5.1-Codex-Max

(з context compaction) → GPT-5.2-Codex (14 січня 2026) → GPT-5.3-Codex (лютий 2026).

Codex-моделі були оптимізовані для агентного кодингу: довгі горизонти задач, compaction,

SWE-bench-орієнтоване тренування.

За даними

OpenAI Model Release Notes, GPT-5.3-Codex став першою моделлю, де Codex і GPT-5

тренувальні стеки були об'єднані: «перша модель, що поєднує Codex + GPT-5 training

stacks — bringing together best-in-class code generation, reasoning, and general-purpose

intelligence in one unified model». GPT-5.4 завершує цей процес,

ставши дефолтною моделлю для всіх поверхонь: ChatGPT, API і Codex одночасно.

Конкретні витрати фрагментації для розробника

Фрагментація між треками мала реальні операційні наслідки. Розробник, що будував агентний

воркфлоу зі змішаними задачами (планування, написання коду, аналіз документів, робота

з spreadsheet), стикався з кількома проблемами одночасно.

Routing між моделями в межах pipeline. Стандартна архітектура включала

GPT-5.2 для planning і reasoning-кроків і GPT-5.2-Codex для generation-кроків.

Кожен switch між моделями означав окремий API-виклик, окреме управління контекстом,

потенційно різні параметри і різну поведінку на граничних випадках. При довгих агентних

траєкторіях це накопичувалось у суттєвий overhead — і по latency, і по складності коду.

Розбіжності в документації і поведінці.

Codex Models page

і загальна API-документація були окремими ресурсами з різними рекомендаціями:

«Use GPT-5-codex for coding-focused work in Codex, or Codex-like environments;

use GPT-5 for general, non-coding tasks» — пряма інструкція розробнику

думати про вибір моделі на кожному кроці воркфлоу.

Context compaction як exclusive feature. GPT-5.1-Codex-Max вніс context

compaction — механізм стиснення довгих агентних контекстів без втрати ключової інформації.

Але ця функція була доступна лише в Codex-моделях. Розробники на загальному GPT-5.x

вирішували проблему переповнення контексту власними механізмами summarization, що додавало

логіку і токени. GPT-5.4 вводить native compaction для всіх сценаріїв.

Що означає «злиття тренувальних стеків» на практиці

Відповідно до

офіційного анонсу OpenAI, GPT-5.4 — це «перша mainline reasoning-модель, що

incorporates the frontier coding capabilities of GPT-5.3-Codex». Це архітектурно

відрізняється від простого «кращого промпту» або post-hoc routing:

Спільні ваги для coding і reasoning. Обидва capability-треки живуть
в одному наборі ваг — результат спільного тренування на coding і general-purpose даних,
а не ensemble або routing між окремими моделями.

Єдиний context window для змішаних задач. При роботі з агентним
воркфлоу, де чергуються planning (reasoning-heavy) і implementation (coding-heavy) кроки,
контекст не розривається між моделями — модель зберігає повний стан задачі.

Tool search як міст між capability-треками.
OpenAI
описує tool search як механізм, що «допомагає агентам знаходити і використовувати
правильні інструменти ефективніше без втрати інтелекту» — це стає можливим саме тому,
що модель однаково добре розуміє і загальний контекст задачі, і технічні деталі
інструментів.

Deprecation-стратегія як індикатор пріоритетів

Паттерн deprecation підтверджує, що консолідація — стратегічне, а не тактичне рішення.

За даними OpenAI,

GPT-5.2 Thinking буде доступний ще три місяці в розділі Legacy Models і буде відключений

6 червня 2026 року. При цьому GPT-5.1, GPT-5 і GPT-4.1 в API поки не отримали дати

deprecation —

OpenAI прямо зазначала: «no current plans to deprecate» для API-версій.

Це означає: OpenAI свідомо зберігає старіші моделі в API для тих, кому потрібна нижча

вартість або специфічна поведінка, але в продуктовому шарі (ChatGPT, Codex) послідовно

переходить на consolidated підхід. Для розробника це практичний сигнал:

нові інтеграції варто будувати під GPT-5.4, тоді як legacy-системи з GPT-5.1/4.1 можна

не мігрувати поспіхом.

Від «яку модель» до «який параметр»

Консолідація переміщує складність з вибору моделі на конфігурацію параметрів. Замість

рішення «GPT-5.2 чи GPT-5.3-Codex» тепер рішення «який reasoning.effort

і чи потрібен мені Responses API з CoT між turns».

Це не спрощення як таке — рівень складності зберігається, але змінює форму. Перевага:

параметри конфігурації версійовані, документовані і передбачувані в межах одного model ID.

Вибір між двома різними моделями із різними тренувальними даними і різною поведінкою

на edge cases — суттєво більша невизначеність, ніж вибір між effort=high

і effort=xhigh в межах одного графа.

🎯 Як змінився reasoning pipeline від GPT-5.0 до 5.4: router, thinking-трек і стерованість

Еволюція reasoning у GPT-5.x

Ключова зміна між версіями GPT-5.x — це перехід від бінарного «reasoning on/off» до гранульованого керування через параметр reasoning.effort з п'ятьма рівнями: none, low, medium, high, xhigh. GPT-5.4 також вводить підтримку передачі chain-of-thought між turns через Responses API, що принципово змінює поведінку моделі в multi-turn агентних сценаріях.

Reasoning effort — це не просто «думати більше чи менше». Це пряме управління кількістю reasoning tokens, які генерує модель перед відповіддю, зі всіма наслідками для latency і вартості.

Рання архітектура GPT-5 (версія 5.0) мала жорстко вшиту логіку: модель або входила в reasoning mode, або ні. GPT-5.1 і 5.2 поступово ввели параметризацію, але зупинялись на трьох рівнях (low/medium/high). З GPT-5.2 з'явився рівень none для low-latency сценаріїв, і xhigh для максимальної глибини — нова стеля, яка в GPT-5.4 стала стандартним режимом для бенчмарків.

За даними OpenRouter, коефіцієнти розподілу reasoning tokens по рівнях такі: xhigh виділяє до 95% від max_tokens на reasoning, high — 80%, medium — 50%, low — 20%, minimal — 10%. Це означає, що при max_tokens=4096 і xhigh модель генерує до ~3891 прихованих reasoning tokens перед відповіддю — токенів, які не відображаються у відповіді, але тарифікуються як output tokens.

Принципова новація GPT-5.4 — підтримка передачі CoT (chain-of-thought) між turns через Responses API. Раніше кожен запит починав reasoning з нуля. Тепер модель може «пам'ятати» свій попередній thought process, що, за даними OpenAI, дає покращену якість reasoning, менше згенерованих reasoning tokens, вищий cache hit rate і нижчу latency в multi-turn сценаріях.

🎯 GPT-5.4 Thinking як окремий inference-режим: чим він відрізняється від базової моделі

Thinking — це не окрема модель

GPT-5.4 Thinking — це не окрема модель з іншими вагами, а той самий gpt-5.4 з фіксованим

reasoning.effort=xhigh у ChatGPT-інтерфейсі. На рівні API різниці між «Thinking» і базовим

GPT-5.4 з параметром xhigh немає — це продуктове розмежування для end-user інтерфейсу,

а не архітектурне. GPT-5.4 Pro — єдиний варіант, який дійсно відрізняється на рівні compute:

він використовує ширший inference-граф і тарифікується окремо.

Плутанина між «Thinking», «Pro» і базовим GPT-5.4 є типовою для тих, хто дивиться на продуктову
назву, а не на API-параметри. На рівні inference — це один граф з різними конфігураціями
reasoning.effort і різним виділеним compute.

Продуктова лінійка GPT-5.4 у ChatGPT включає три режими: Instant

(effort=none/low — мінімальна latency), Thinking

(effort=xhigh — максимальна глибина reasoning) і Pro

(окремий inference-граф з більшим compute-бюджетом на відповідь). З точки зору API

перші два — це один endpoint gpt-5.4 з різними значеннями параметра.

Різниця між рівнями reasoning.effort є суттєвою на рівні токен-економіки.

За даними OpenRouter,

розподіл reasoning tokens по рівнях такий:

xhigh — до 95% від max_tokens витрачається на приховані reasoning tokens

high — ~80%

medium — ~50%

low — ~20%

none — reasoning tokens не генеруються

Це означає: при max_tokens=4096 і effort=xhigh модель генерує

до ~3 890 прихованих reasoning tokens перед фінальною відповіддю. Ці токени не відображаються

у відповіді, але тарифікуються як output tokens — що безпосередньо впливає на вартість

і latency запиту.

GPT-5.4 Pro — окремий випадок. Він відрізняється не тільки кількістю

reasoning tokens, а й ширшим inference-графом: більше beam search або еквівалентний механізм

на рівні семплування. За даними

Digital Applied,

GPT-5.4 Pro досягає 83.3% на ARC-AGI-2 — бенчмарку на абстрактне reasoning,

де базовий GPT-5.4 показує нижчий результат. Ціна: $30 input / $180 output за мільйон токенів —

тобто ~6× дорожче за базову конфігурацію.

Практична рекомендація :

effort=none/low — real-time chat, класифікація, template-filling. TTFT < 1–2 с,
мінімальна вартість.

effort=high — оптимальний баланс для більшості агентних задач: рефакторинг,
multi-step planning, structured output. Вартість в 2–3× вища за none,
але якість суттєво краща.

effort=xhigh — виправданий для одноразових складних задач: юридичний аналіз,
архітектурні рішення, складний math reasoning. Якість максимальна, але вартість і latency
відповідні.

Pro — критичні сценарії з нульовою терпимістю до помилок.
ARC-AGI-2: 83.3% — поки що найвищий результат серед усіх публічних моделей.

Новація GPT-5.4, яка впливає на всі режими — підтримка передачі chain-of-thought між turns

через Responses API. Раніше кожен запит починав reasoning з нуля; тепер модель зберігає

попередній thought-process між кроками агентного воркфлоу. Це знижує кількість reasoning tokens

на повторюваних кроках і підвищує cache hit rate, що безпосередньо впливає на вартість

multi-turn агентних сценаріїв.

📊 Порівняння GPT-5.4 / Claude Opus 4.6 / Gemini 3.1 Pro за вимірюваними параметрами

Дані актуальні на березень 2026. Джерела:

Digital Applied,

Onyx LLM Leaderboard,

Failing Fast AI Coding Benchmarks.

Параметр	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
GPQA Diamond (graduate science)	93.2%	91.3%	94.3%
SWE-bench Verified (real GitHub issues)	80.0%	80.8%	~74%
HumanEval (code generation)	95.0%	95.0%	~97.8%
ARC-AGI-2 (abstract reasoning)	Pro: 83.3% / base: ~75%	~72%	77.1%
OSWorld (autonomous desktop tasks)	75% (вище людини: 72.4%)	72.7%	н/д
Aider Polyglot (multi-language code edit)	88%	70.7%	83.1%
Контекстне вікно	1M (API) / 272K (standard)	200K (1M beta)	2M
Input / Output ($/1M токенів)	~$15 / $60 (base) · $30 / $180 (Pro)	$15 / $75	$2 / $12
Context caching	Tool search (−47% токенів)	✅ (до −75% input)	✅ (до −75% input)
Computer use (native)	✅ (вбудований)	✅	Обмежено
CoT між turns	✅ (Responses API)	❌	❌

Важливо: бенчмарки вимірюють поведінку моделі в стандартизованих умовах і не завжди

корелюють з production-результатами. SWE-bench і OSWorld є найбільш репрезентативними

для реальних інженерних задач — саме на них варто орієнтуватись при виборі моделі для

агентних воркфлоу.

🎯 Consolidated model як компроміс: latency, спеціалізація і вартість обслуговування

У чому полягає архітектурний компроміс?

Consolidated architecture знижує операційну складність і покращує cross-domain performance,

але підвищує базову вартість inference: модель більша за вагами, ніж спеціалізовані попередники.

При цьому підвищена token efficiency GPT-5.4 частково нівелює різницю в ціні — але лише

для складних задач. Для простих high-throughput сценаріїв consolidated модель залишається

надлишковою, і правильна модельна ієрархія в продукті залишається важливою.

Consolidated model — це відповідь на питання «яку модель використовувати для складних змішаних
задач», але не скасовує необхідність думати про модельну ієрархію в продукті.
Один великий молоток зручніший за набір інструментів — до того моменту, поки вам не потрібен
скальпель.

Вартість inference: що реально показують цифри

Порівняння list-price не відображає реальну вартість inference в продакшені — через кешування,

розподіл reasoning tokens і tool search. Розберемо кожен фактор окремо.

Базова вартість токенів. GPT-5.4 і Claude Opus 4.6 знаходяться в одному

ціновому сегменті (~$15/$60–75 per 1M). Gemini 3.1 Pro — суттєво дешевший:

$2/$12 per 1M,

що дає приблизно 5–7× перевагу по вартості за токен при зіставних benchmark-результатах.

Для cost-sensitive сценаріїв — це значущий параметр.

Context caching. Gemini 3.1 Pro і Claude Opus 4.6 підтримують context caching

зі зниженням вартості input до 75%. GPT-5.4 натомість використовує

tool search — механізм динамічного discovery і підвантаження тільки

релевантних інструментів. За даними

Digital Applied,

tool search знижує token consumption на 47% для агентних задач з великою

кількістю інструментів — це більш ніж компенсує відсутність традиційного кешування

для відповідних сценаріїв.

Token efficiency GPT-5.4. За даними

Augment Code,

на складних задачах (рефакторинг, multi-file reasoning, архітектурне планування) GPT-5.4

використовує на 18–20% менше токенів, ніж попередники. Це означає: вища ціна за токен частково

нівелюється нижчою кількістю токенів на задачу — але тільки для складних сценаріїв,

де модель дійсно «думає ефективніше».

Де consolidated модель не є оптимальним вибором

Для простих high-throughput задач — класифікація, summarization, template-filling, intent

detection — consolidated GPT-5.4 є надлишковою. Тут оптимальними залишаються:

gpt-5-mini — lightweight задачі з низькою latency і мінімальною вартістю.

Gemini 2.5 Flash ($0.30/$2.50 per 1M) — якщо потрібна масштабованість
з великим контекстом за мінімальну вартість.

Claude Haiku 4.5 ($1.00/$5.00 per 1M) — для сценаріїв де важливий
Anthropic API і низька вартість одночасно.

Microsoft у рекомендаціях для

Azure Foundry

прямо вказує: для real-time chat і customer support з низькою latency-вимогою GPT-4.1

залишається кращим вибором, ніж GPT-5.x — незважаючи на нижчу якість reasoning.

Latency GPT-4.1 для простих запитів суттєво нижча, а якість відповіді для стандартних

підтримових сценаріїв — достатня.

Практична модельна ієрархія

Рівень	Модель	Сценарій	Орієнтовна вартість
High-frequency lightweight	gpt-5-mini / Gemini 2.5 Flash	Класифікація, summarization, chat	< $1/1M output
Complex reasoning + agents	gpt-5.4 (`effort=high`)	Рефакторинг, planning, multi-step agents	~$60/1M output
Long-context document work	Gemini 3.1 Pro (2M ctx)	Аналіз великих кодових баз, документів	~$12/1M output
Critical one-shot precision	gpt-5.4 Pro / Claude Opus 4.6	Юридичний аналіз, фінансові рішення	$75–180/1M output

Consolidated architecture GPT-5.4 усуває необхідність вибору між «кодовою» і «загальною»

моделлю всередині складного воркфлоу — але не усуває необхідність думати про routing

між рівнями ієрархії. Для product-інженера правильна архітектура routing між моделями

залишається одним із ключових факторів оптимізації cost і latency.

❓ Часті питання (FAQ)

Чи варто мігрувати з gpt-5.2 на gpt-5.4 прямо зараз?

Залежить від типу задач. Для агентних і coding-сценаріїв мігрувати є сенс: GPT-5.4

об'єднав capabilities GPT-5.3-Codex з загальним reasoning в одній моделі, що означає

кращі результати на змішаних воркфлоу без routing між двома endpoints. За даними

VentureBeat,

GPT-5.4 генерує на 47% менше токенів на деяких задачах порівняно з попередниками —

і це частково компенсує вищу ціну за токен для складних задач.

Для простих high-throughput задач — класифікація, summarization, template-filling —

мігрувати немає потреби. gpt-5-mini або gpt-5.2 залишаються раціональнішим вибором

по cost/latency. GPT-5.2 Thinking залишається в Legacy Models до 6 червня 2026

, тобто часу на поступову міграцію достатньо. При цьому GPT-5.1 і GPT-4.1

не мають оголошеної дати deprecation в API — тому legacy-системи можна не чіпати поспіхом.

Чим відрізняється gpt-5.4 у ChatGPT від gpt-5.4 в API?

Це одна й та сама модель, але з різним рівнем контролю над inference-параметрами.

У ChatGPT routing між трьома режимами (Instant, Thinking, Pro) відбувається автоматично —

за документацією OpenAI, «routing layer selects the best model to use» на основі

складності запиту, і користувач може явно перемкнути режим через UI.

В API ви отримуєте прямий контроль: один endpoint gpt-5.4 і параметр

reasoning.effort з п'ятьма рівнями (none / low /

medium / high / xhigh). ChatGPT Instant відповідає

приблизно effort=none/low, ChatGPT Thinking — effort=xhigh.

GPT-5.4 Pro — єдиний виняток: він використовує ширший inference-граф і окремо тарифікується,

тому не зводиться просто до значення параметра.

Коли Responses API дає реальну перевагу над Chat Completions?

Responses API є суттєво кращим вибором для агентних і multi-turn reasoning сценаріїв.

Головна відмінність — підтримка передачі chain-of-thought між turns: модель зберігає

попередній thought process і не починає reasoning з нуля на кожному кроці.

За

даними OpenAI з внутрішніх evalів, це дає покращення на 3% по SWE-bench,

кращий cache hit rate і нижчу latency в multi-turn сценаріях, а також

40–80% зниження вартості за рахунок покращеного кешування порівняно з Chat Completions.

Крім CoT, Responses API надає ексклюзивний доступ до tool_search (deferred tool loading),

native compaction, computer use і stateful context через store: true.

Для простих stateless запитів без інструментів Chat Completions залишається валідним

вибором — він стабільний, добре задокументований і не планується до sunset найближчим часом.

Assistants API, натомість, буде закрито 26 серпня 2026 року — тому міграція

з нього на Responses API є пріоритетною.

Коли передача CoT між turns не дає переваги?

CoT persistence корисна тільки тоді, коли reasoning одного кроку реально впливає на якість

наступного. У кількох поширених сценаріях ця перевага не реалізується.

По-перше, single-turn і stateless запити: якщо кожен запит незалежний по контексту —

batch-класифікація, масова генерація тексту за шаблоном, паралельні незалежні задачі —

передавати CoT нема чого, і overhead від Responses API не виправданий.

По-друге, короткі прості ланцюжки з effort=none/low: reasoning tokens

або не генеруються, або мінімальні — CoT persistence в цьому випадку не дає

measurable ефекту. По-третє, сценарії з частою зміною контексту: якщо між кроками агента

контекст задачі кардинально змінюється (наприклад, окремі незалежні subtasks),

збережений CoT може навіть погіршити якість, оскільки модель «тягнутиме»

нерелевантний reasoning з попереднього кроку.

Як tool_search впливає на вартість inference в реальних агентних сценаріях?

Tool search — механізм, що дозволяє моделі defer велику поверхню інструментів до runtime:

замість передачі повного списку доступних tools у кожен запит, модель динамічно підвантажує

тільки ті, що релевантні для поточного кроку.

За

OpenAI Changelog, це «знижує token usage, зберігає cache performance і покращує latency».

За даними VentureBeat,

загальна економія на деяких агентних задачах досягає 47% токенів порівняно з попередниками.

Практично це важливо для систем з великою кількістю зареєстрованих інструментів —

наприклад, корпоративних агентів з десятками MCP-серверів або API-інтеграцій.

Раніше передача повного tool manifest у кожен запит суттєво збільшувала input tokens

і знижувала cache hit rate, оскільки manifest змінювався між запитами.

Tool search вирішує обидві проблеми одночасно. Доступний виключно через Responses API —

ще один аргумент на користь міграції для агентних сценаріїв.

✅ Висновки

GPT-5.4 — це не просто «краща версія» попередника. Це зміна архітектурної філософії: від набору спеціалізованих моделей до єдиного параметризованого inference pipeline. Для розробника це означає менший cognitive load при виборі моделі, але більшу відповідальність за правильне налаштування параметрів — зокрема reasoning.effort і вибір між Chat Completions і Responses API.

Ключові архітектурні висновки:

Консолідація gpt-5.2 і gpt-5.3-codex в одну модель знижує фрагментацію API, але підвищує базову вартість inference — оптимізація потрібна на рівні параметрів, а не вибору endpoint

CoT між turns через Responses API — найбільша прихована перевага для агентних систем, яка недооцінена в більшості оглядів

«Thinking», «Pro» і базовий gpt-5.4 — це один model graph з різними inference-конфігураціями, а не окремі архітектури

Напрямок GPT-5.x вказує на зростаючу роль Responses API як основного протоколу і поступову deprecation Chat Completions для складних сценаріїв

У наступних статтях серії розберемо inference під капотом — як влаштовано контекстне вікно в 1M токенів, де виникають реальні bottlenecks і як виглядає порівняння вартості GPT-5.4 з Claude Sonnet 4.6 і Gemini у вимірюваних сценаріях.

Джерела:

OpenAI — Introducing GPT-5.4

OpenAI API — Using GPT-5.4

Augment Code — GPT-5.4 as default model

Microsoft Azure Foundry — GPT-5 vs GPT-4.1 model choice guide

OpenRouter — Reasoning Tokens documentation

The Neuron — GPT-5.4 full breakdown