OpenAI випустив GPT-5.4: що змінилось в 2026

Оновлено:
OpenAI випустив GPT-5.4: що змінилось  в 2026

5 березня 2026 року OpenAI випустив GPT-5.4 — одночасно у ChatGPT, API і Codex.

Це не черговий incremental update: модель вперше об'єднує coding pipeline GPT-5.3-Codex

із загальним reasoning, отримує native computer use і контекстне вікно до 1M токенів.

Коротко: якщо ви будуєте агентні воркфлоу або coding-інструменти —

це реліз, на який варто звернути увагу сьогодні.

⚡ Головне за 30 секунд

  • Дата релізу: 5 березня 2026, rollout у ChatGPT, API і Codex одночасно
  • Consolidated model: GPT-5.3-Codex і GPT-5.2 об'єднані в одну модель — більше не потрібно перемикатись між endpoints
  • Native computer use: перша mainline модель OpenAI, що керує комп'ютером автономно через Playwright і mouse/keyboard commands
  • 1M токенів контексту в API (з подвійним тарифом понад 272K)
  • −47% токенів на деяких агентних задачах порівняно з попередниками
  • −33% помилок в окремих твердженнях порівняно з GPT-5.2

📚 Зміст

🗓️ Що вийшло і коли

OpenAI офіційно анонсував GPT-5.4

5 березня 2026 року. Модель доступна одразу на трьох поверхнях:

  • ChatGPT — як GPT-5.4 Thinking для Plus, Team і Pro користувачів (замінює GPT-5.2 Thinking). GPT-5.2 Thinking залишається у Legacy Models до 5 червня 2026
  • API — endpoint gpt-5.4 і gpt-5.4-pro доступні вже зараз
  • Codex — стає дефолтною моделлю, замінюючи GPT-5.3-Codex

GPT-5.4 Pro доступний через API і для ChatGPT Pro ($200/міс) та Enterprise-планів.

Free-користувачі отримують доступ до GPT-5.4 через авторотацію запитів, за даними

VentureBeat.

⚙️ 3 головні зміни

1. Більше не потрібно вибирати між GPT-5.x і Codex

До релізу GPT-5.4 стандартна архітектура агентного pipeline зі змішаними задачами

виглядала так: GPT-5.2 для planning і reasoning-кроків, GPT-5.3-Codex для generation

і code execution. Кожен switch між моделями — окремий API-виклик, окреме управління

контекстом, різна поведінка на граничних випадках і різні параметри тонкої настройки.

При довгих агентних траєкторіях це накопичувалось у суттєвий overhead по latency і

складності коду.

GPT-5.4 усуває цю потребу. За даними

OpenAI,

це перша mainline reasoning-модель, що incorporates frontier coding capabilities

GPT-5.3-Codex в єдині ваги — результат злиття тренувальних стеків, а не routing логіки.

На практиці це означає:

  • SWE-Bench Pro: 57.7% vs 56.8% у GPT-5.3-Codex — GPT-5.4 відтворює

    coding performance Codex-моделі при нижчій latency і з додатковими можливостями reasoning,

    за даними gaga.art

  • GDPval: 83.0% — нова метрика OpenAI, 44 професії з 9 індустрій,

    1320 задач від профільних спеціалістів з 14+ роками досвіду. GPT-5.4 перевершує

    GPT-5.2 (70.9%) і відповідає або перевершує людського профільного спеціаліста в 83%

    порівнянь, за даними

    The Decoder

  • Для розробника практично: якщо ваш pipeline використовував два endpoints,

    зараз достатньо змінити model ID на gpt-5.4 — в більшості випадків

    це swap без змін логіки. GPT-5.4 стає дефолтною моделлю в Codex, замінюючи

    GPT-5.3-Codex автоматично

Окремо варто зазначити нову функцію в ChatGPT Thinking: модель тепер показує план

reasoning перед виконанням і дозволяє коригувати напрямок mid-response

не потрібно починати запит з нуля, якщо модель пішла у хибному напрямку. Доступно

на chatgpt.com і Android, iOS — незабаром, за даними

DataCamp.

2. Native computer use: механіка і реальні цифри

GPT-5.4 — перша загальна модель OpenAI з вбудованим computer use. Важливо розуміти

архітектуру: це не один механізм, а два паралельних підходи, які модель комбінує

залежно від задачі:

  • Code-based automation — модель пише код на Playwright або аналогічних

    бібліотеках для керування браузером і desktop-додатками. Підходить для детермінованих

    повторюваних воркфлоу: форми, navigation, data extraction

  • Screenshot-based control — модель отримує скріншот поточного стану

    екрану і видає mouse/keyboard команди. Підходить для задач, де структура UI непередбачувана

    або змінюється між сесіями

Поведінка стерується через developer messages і custom confirmation policies:

розробник може налаштувати, які дії вимагають підтвердження від користувача, а які

виконуються автономно — важливий механізм для продакшн-деплойменту з різними рівнями

ризику, за даними

OpenAI.

Ключові бенчмарки:

  • OSWorld-Verified: 75.0% — вище середнього людського показника (72.4%).

    Для порівняння: GPT-5.2 на тому ж бенчмарку показував лише 47.3% — тобто приріст

    більш ніж у 1.5×, за даними

    VentureBeat

  • BrowseComp: 82.7% (базова) / 89.3% (Pro) —

    вимірює здатність агента знаходити складнодоступну інформацію в інтернеті через

    персистентний browsing. GPT-5.2 показував 65.8% — приріст на 17% абсолютних пунктів

Для демонстрації можливостей OpenAI випустив експериментальний Codex skill

Playwright (Interactive): модель може візуально дебажити web і Electron

додатки в реальному часі — і навіть тестувати додаток в процесі його створення.

За даними

DataCamp,

це поєднання code generation і visual feedback loop вказує на напрямок, де AI-агенти

зможуть ітерувати над frontend з мінімальним залученням людини.

3. Tool Search: від статичного manifest до on-demand discovery

Це, мабуть, найбільш практично важлива зміна для розробників, що будують системи

з великою кількістю інструментів. Раніше передача tool definitions у system prompt

була неефективною: всі схеми завантажувались в контекст при кожному виклику,

незалежно від того, чи були вони потрібні на конкретному кроці.

GPT-5.4 вирішує це через нову архітектуру: модель отримує лише легковаговий

список доступних інструментів, а повні definitions підвантажує on-demand

тільки тоді, коли вирішує використати конкретний інструмент. За даними

The Decoder,

раніше великі tool ecosystems додавали десятки тисяч зайвих токенів

на кожен запит.

Практичний ефект Tool Search:

  • −47% токенів на агентних задачах з великою кількістю інструментів,

    за даними

    VentureBeat

  • Масштабованість: tool search дозволяє працювати з екосистемами,

    що містять десятки тисяч інструментів — наприклад, корпоративні

    MCP-сервери або великі API-каталоги, за даними

    Apidog

  • Cache hit rate: оскільки lightweight tool list стабільніший між

    запитами ніж повний manifest, кешування працює ефективніше — додатково знижуючи

    вартість inference

  • Обмеження: доступно виключно через Responses API, не через

    Chat Completions

Окремо варто відзначити покращення точності: на наборі де-ідентифікованих промптів,

де користувачі раніше відмічали фактичні помилки, GPT-5.4 показує

−33% помилкових тверджень і −18% відповідей з будь-якими

помилками порівняно з GPT-5.2, за даними

OpenAI.

Для продакшн-систем, де точність критична (юридичний аналіз, фінансові розрахунки),

це вимірюване покращення надійності.

OpenAI випустив GPT-5.4: що змінилось  в 2026

📊 Швидке порівняння з конкурентами

Актуально на березень 2026. Джерела: Digital Applied, OpenAI, gaga.art.

Параметр GPT-5.4 Claude Opus 4.6 Gemini 3.1 Pro
Контекстне вікно 1M API / 272K standard
(понад 272K — 2× тариф)
200K (1M beta) 2M
SWE-bench Verified 80.0% 80.8% ~74%
OSWorld (computer use) 75.0% (людина: 72.4%) 72.7% н/д
BrowseComp (web agents) 82.7% / Pro: 89.3% н/д н/д
Input / Output $/1M токенів $2.50 / $15 (base)
$30 / $180 (Pro)
$15 / $75 $2 / $12
Native computer use ✅ вбудований Обмежено
CoT між turns ✅ (Responses API)
Tool Search ✅ (−47% токенів)

💡 Повне порівняння з 11 параметрами, аналізом inference-вартості і практичною моделлю ієрархії → GPT-5.4: архітектурний розбір для розробника

OpenAI випустив GPT-5.4: що змінилось  в 2026

✅ Що робити прямо зараз

Якщо у вас агентний воркфлоу або coding pipeline

  • Swap model ID на gpt-5.4 і запустіть свої evals.

    Якщо раніше використовували GPT-5.3-Codex — GPT-5.4 відтворює його SWE-Bench Pro

    (57.7% vs 56.8%) при нижчій latency. Якщо використовували GPT-5.2 — очікуйте

    покращення на coding-задачах без деградації reasoning

  • Розгляньте міграцію на Responses API якщо використовуєте Chat

    Completions з великою кількістю tools. Responses API відкриває Tool Search

    (−47% токенів), CoT між turns і native compaction — три функції, недоступні

    через Chat Completions

  • Увімкніть /fast mode в Codex для задач, де важлива

    швидкість: той самий GPT-5.4, але до 1.5× швидша token velocity, за даними

    target="_blank">VentureBeat

  • Для 1M context window в Codex налаштуйте

    model_context_window і model_auto_compact_token_limit

    у Codex settings. Важливо: запити понад стандартні 272K тарифікуються

    за 2× нормальною ставкою, за даними

    gaga.art

Якщо будуєте computer use агентів

  • Використовуйте оновлений computer tool в API. В документації OpenAI

    є рекомендації щодо original і high image detail settings —

    вони суттєво покращують localization і click accuracy

  • Налаштуйте custom confirmation policies для дій з різним рівнем ризику:

    визначте, які операції виконуються автономно, а які вимагають підтвердження від

    користувача перед виконанням

  • Спробуйте Playwright (Interactive) в Codex для visual debugging

    web і Electron додатків — experimental skill, але вже робочий для реальних

    frontend задач

Якщо у вас simple high-throughput задачі

  • Не мігруйте поспіхом — gpt-5-mini або gpt-5.3-chat-latest залишаються

    кращим вибором по cost/latency для класифікації, summarization і template-filling.

    GPT-5.4 буде надлишковим і дорожчим для цих сценаріїв

  • GPT-5.2 в API не має оголошеної дати deprecation — тому

    legacy-системи можна не чіпати поспіхом

Ключові дати

  • 5 червня 2026 — GPT-5.2 Thinking відключається в ChatGPT

    (переходить у Legacy Models зараз, повне відключення через 3 місяці).

    Якщо використовуєте його в продукті через ChatGPT інтерфейс — мігруйте до цієї дати

  • 26 серпня 2026 — sunset Assistants API. Якщо ще використовуєте

    Assistants API — міграція на Responses API є пріоритетною задачею прямо зараз

🔬 Хочеш зрозуміти як це влаштовано?

Ця стаття — короткий огляд того, що вийшло. Якщо тебе цікавить інженерна механіка:

як саме змінився reasoning pipeline від GPT-5.0 до 5.4, чому consolidated model —

це архітектурний компроміс, і як reasoning.effort впливає на вартість

і latency — читай детальний розбір:

👉

GPT-5.4 у 2026: від спеціалізованих моделей до consolidated architecture — що змінилось і чому


14 хв читання · 5 розділів · бенчмарки · таблиці · FAQ

Джерела:

OpenAI — Introducing GPT-5.4

TechCrunch — OpenAI launches GPT-5.4

VentureBeat — GPT-5.4 native computer use

Digital Applied — GPT-5.4 vs Claude vs Gemini

OpenAI Academy — GPT-5.4 Thinking та Pro

Останні статті

Читайте більше цікавих матеріалів

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Коротко про що ця стаття: 17 квітня я взяв свіжий Claude Opus 4.7 і прогнав його через свою RAG-систему AskYourDocs на тестовому наборі з ~400 публічних юридичних документів (зразки договорів, нормативні акти, шаблони з відкритих джерел). Порівняв з Llama 3.3 70B, на якій у мене зараз...

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

TL;DR за 30 секунд: Claude Opus 4.7 — новий флагман Anthropic, який вийшов 16 квітня 2026 року. Головне: +10.9 пунктів на SWE-bench Pro (64.3% проти 53.4% у Opus 4.6), вища роздільна здатність vision (3.75 MP), нова memory на рівні файлової системи та новий рівень міркування xhigh. Ціна...

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати. Що таке MoE і чому 26B...

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Коротко: Reasoning mode — це вбудована здатність Gemma 4 "думати" перед відповіддю. Увімкнений за замовчуванням. На M1 16 GB з'їдає від 20 до 73 секунд залежно від задачі. Повністю вимкнути через Ollama не можна — але можна скоротити через /no_think. Читай коли це варто робити, а коли...

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Коротко: Gemma 4 — нове покоління відкритих моделей від Google DeepMind, випущене 2 квітня 2026 року. Чотири розміри: E2B, E4B, 26B MoE і 31B Dense. Ліцензія Apache 2.0 — можна використовувати комерційно без обмежень. Підтримує зображення, аудіо, reasoning mode і 256K контекст. Запускається...

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Коротко: Встановив Gemma 4 на MacBook Pro M1 16 GB і протестував на двох реальних задачах — генерація Spring Boot коду і текст про RAG. Порівняв з Qwen3:8b і Mistral Nemo. Результат: Gemma 4 видає найкращу якість, але найповільніша. Qwen3:8b — майже та сама якість коду за 1/4 часу. Читай якщо...