5 березня 2026 року OpenAI випустив GPT-5.4 — одночасно у ChatGPT, API і Codex.
Це не черговий incremental update: модель вперше об'єднує coding pipeline GPT-5.3-Codex
із загальним reasoning, отримує native computer use і контекстне вікно до 1M токенів.
Коротко: якщо ви будуєте агентні воркфлоу або coding-інструменти —
це реліз, на який варто звернути увагу сьогодні.
⚡ Головне за 30 секунд
- ✅ Дата релізу: 5 березня 2026, rollout у ChatGPT, API і Codex одночасно
- ✅ Consolidated model: GPT-5.3-Codex і GPT-5.2 об'єднані в одну модель — більше не потрібно перемикатись між endpoints
- ✅ Native computer use: перша mainline модель OpenAI, що керує комп'ютером автономно через Playwright і mouse/keyboard commands
- ✅ 1M токенів контексту в API (з подвійним тарифом понад 272K)
- ✅ −47% токенів на деяких агентних задачах порівняно з попередниками
- ✅ −33% помилок в окремих твердженнях порівняно з GPT-5.2
📚 Зміст
- 📌 Що вийшло і коли
- 📌 3 головні зміни для розробника
- 📌 Швидке порівняння з конкурентами
- 📌 Що робити прямо зараз
- 📌 Хочеш глибше?
🗓️ Що вийшло і коли
OpenAI офіційно анонсував GPT-5.4
5 березня 2026 року. Модель доступна одразу на трьох поверхнях:
- ChatGPT — як GPT-5.4 Thinking для Plus, Team і Pro користувачів (замінює GPT-5.2 Thinking). GPT-5.2 Thinking залишається у Legacy Models до 5 червня 2026
- API — endpoint
gpt-5.4іgpt-5.4-proдоступні вже зараз - Codex — стає дефолтною моделлю, замінюючи GPT-5.3-Codex
GPT-5.4 Pro доступний через API і для ChatGPT Pro ($200/міс) та Enterprise-планів.
Free-користувачі отримують доступ до GPT-5.4 через авторотацію запитів, за даними
⚙️ 3 головні зміни
1. Більше не потрібно вибирати між GPT-5.x і Codex
До релізу GPT-5.4 стандартна архітектура агентного pipeline зі змішаними задачами
виглядала так: GPT-5.2 для planning і reasoning-кроків, GPT-5.3-Codex для generation
і code execution. Кожен switch між моделями — окремий API-виклик, окреме управління
контекстом, різна поведінка на граничних випадках і різні параметри тонкої настройки.
При довгих агентних траєкторіях це накопичувалось у суттєвий overhead по latency і
складності коду.
GPT-5.4 усуває цю потребу. За даними
це перша mainline reasoning-модель, що incorporates frontier coding capabilities
GPT-5.3-Codex в єдині ваги — результат злиття тренувальних стеків, а не routing логіки.
На практиці це означає:
SWE-Bench Pro: 57.7% vs 56.8% у GPT-5.3-Codex — GPT-5.4 відтворює
coding performance Codex-моделі при нижчій latency і з додатковими можливостями reasoning,
за даними gaga.art
GDPval: 83.0% — нова метрика OpenAI, 44 професії з 9 індустрій,
1320 задач від профільних спеціалістів з 14+ роками досвіду. GPT-5.4 перевершує
GPT-5.2 (70.9%) і відповідає або перевершує людського профільного спеціаліста в 83%
порівнянь, за даними
Для розробника практично: якщо ваш pipeline використовував два endpoints,
зараз достатньо змінити model ID на
gpt-5.4— в більшості випадківце swap без змін логіки. GPT-5.4 стає дефолтною моделлю в Codex, замінюючи
GPT-5.3-Codex автоматично
Окремо варто зазначити нову функцію в ChatGPT Thinking: модель тепер показує план
reasoning перед виконанням і дозволяє коригувати напрямок mid-response —
не потрібно починати запит з нуля, якщо модель пішла у хибному напрямку. Доступно
на chatgpt.com і Android, iOS — незабаром, за даними
2. Native computer use: механіка і реальні цифри
GPT-5.4 — перша загальна модель OpenAI з вбудованим computer use. Важливо розуміти
архітектуру: це не один механізм, а два паралельних підходи, які модель комбінує
залежно від задачі:
Code-based automation — модель пише код на Playwright або аналогічних
бібліотеках для керування браузером і desktop-додатками. Підходить для детермінованих
повторюваних воркфлоу: форми, navigation, data extraction
Screenshot-based control — модель отримує скріншот поточного стану
екрану і видає mouse/keyboard команди. Підходить для задач, де структура UI непередбачувана
або змінюється між сесіями
Поведінка стерується через developer messages і custom confirmation policies:
розробник може налаштувати, які дії вимагають підтвердження від користувача, а які
виконуються автономно — важливий механізм для продакшн-деплойменту з різними рівнями
ризику, за даними
Ключові бенчмарки:
OSWorld-Verified: 75.0% — вище середнього людського показника (72.4%).
Для порівняння: GPT-5.2 на тому ж бенчмарку показував лише 47.3% — тобто приріст
більш ніж у 1.5×, за даними
BrowseComp: 82.7% (базова) / 89.3% (Pro) —
вимірює здатність агента знаходити складнодоступну інформацію в інтернеті через
персистентний browsing. GPT-5.2 показував 65.8% — приріст на 17% абсолютних пунктів
Для демонстрації можливостей OpenAI випустив експериментальний Codex skill
Playwright (Interactive): модель може візуально дебажити web і Electron
додатки в реальному часі — і навіть тестувати додаток в процесі його створення.
За даними
це поєднання code generation і visual feedback loop вказує на напрямок, де AI-агенти
зможуть ітерувати над frontend з мінімальним залученням людини.
3. Tool Search: від статичного manifest до on-demand discovery
Це, мабуть, найбільш практично важлива зміна для розробників, що будують системи
з великою кількістю інструментів. Раніше передача tool definitions у system prompt
була неефективною: всі схеми завантажувались в контекст при кожному виклику,
незалежно від того, чи були вони потрібні на конкретному кроці.
GPT-5.4 вирішує це через нову архітектуру: модель отримує лише легковаговий
список доступних інструментів, а повні definitions підвантажує on-demand
тільки тоді, коли вирішує використати конкретний інструмент. За даними
раніше великі tool ecosystems додавали десятки тисяч зайвих токенів
на кожен запит.
Практичний ефект Tool Search:
−47% токенів на агентних задачах з великою кількістю інструментів,
за даними
Масштабованість: tool search дозволяє працювати з екосистемами,
що містять десятки тисяч інструментів — наприклад, корпоративні
MCP-сервери або великі API-каталоги, за даними
Cache hit rate: оскільки lightweight tool list стабільніший між
запитами ніж повний manifest, кешування працює ефективніше — додатково знижуючи
вартість inference
Обмеження: доступно виключно через Responses API, не через
Chat Completions
Окремо варто відзначити покращення точності: на наборі де-ідентифікованих промптів,
де користувачі раніше відмічали фактичні помилки, GPT-5.4 показує
−33% помилкових тверджень і −18% відповідей з будь-якими
помилками порівняно з GPT-5.2, за даними
Для продакшн-систем, де точність критична (юридичний аналіз, фінансові розрахунки),
це вимірюване покращення надійності.