7 травня 2026 року OpenAI зробила анонс, який багато хто в спільноті розробників чекав давно: три нові голосові моделі в Realtime API. Флагман — GPT-Realtime-2 — перша в лінійці, де мислення рівня GPT-5 вбудоване прямо в голосовий потік. Без затримок між розпізнаванням і відповіддю. Без окремих пайплайнів.
Якщо коротко: голосові агенти більше не мусять вибирати між «розумним» і «швидким».
Коротко: OpenAI випустила GPT-Realtime-2 (reasoning рівня GPT-5), GPT-Realtime-Translate (переклад 70+ мов в реальному часі) і GPT-Realtime-Whisper (потокова транскрипція). Всі три — в Realtime API, доступні вже зараз. OpenRouter для цього не підійде — і ось чому.
Зміст статті
Контекст: чому голосові агенти досі були «розумними або швидкими» — але не обома
До цього релізу розробники голосових агентів стикались з одним і тим самим вибором. Або берете модель, яка говорить природно і відповідає швидко — але не може впоратись зі складними запитами. Або берете модель з реальним мисленням — і отримуєте 5–7 секунд мовчання між питанням і відповіддю, що в голосовому інтерфейсі рівносильно смерті розмови.
Ця проблема не нова. Два роки галузь намагалась її вирішити через оптимізацію окремих компонентів — швидший ASR, менший LLM, агресивніший TTS-кешинг. Але фундаментальне обмеження залишалось: архітектура була каскадною.
Класичний стек голосового агента виглядав так:
- ASR (Automatic Speech Recognition) — розпізнає мову в текст. Найкращі рішення: Whisper, Deepgram, AssemblyAI. Затримка: 200–500 мс.
- LLM — отримує текст, обробляє, генерує відповідь. Якщо використовується reasoning (CoT) — ще +2–6 секунд зверху.
- TTS (Text-to-Speech) — перетворює відповідь назад у мову. ElevenLabs, Cartesia, OpenAI TTS. Ще 200–400 мс.
Сумарна затримка від кінця питання до початку відповіді — 1.5–8 секунд залежно від складності запиту і вибраних компонентів. У текстовому чаті це непомітно. У голосовому інтерфейсі — катастрофа. Людина сприймає паузу понад 1.5 секунди як збій або зависання.
Це і породжувало компроміс. Команди, які будували голосових агентів для call-центрів або підтримки, мусили вибирати:
- Варіант А — швидкий але обмежений: маленька модель (GPT-4o mini, Llama 3 8B), без reasoning, відповідає за 800–900 мс. Справляється з FAQ і простими сценаріями, ламається на нестандартних запитах або багатокрокових задачах.
- Варіант Б — розумний але повільний: велика модель з reasoning, відповідає за 4–7 секунд. Вирішує складні запити, але розмова перетворюється на серію незручних пауз.
На практиці більшість продакшн-систем обирала Варіант А і намагалась «прикрити» обмеження моделі через жорсткі скрипти, fallback-фрази і детальні системні промпти. Reasoning в голосі залишався недосяжним без жертви UX.
Ще одна проблема каскадного стеку — кожен компонент має власні точки відмови. ASR неправильно розпізнав слово — LLM отримав хибний контекст — TTS озвучив нісенітницю. Відлагоджувати таку систему складно: помилка може бути на будь-якому з трьох кроків, і часто незрозуміло де саме.
GPT-Realtime-2 прибирає саму каскадну архітектуру. Модель приймає аудіо на вхід і видає аудіо на вихід — reasoning відбувається всередині єдиної петлі, без конвертацій між форматами. Немає трьох компонентів — немає трьох точок відмови і трьох затримок, що складаються. Це не «краща модель у тому ж стеці» — це заміна самого підходу.
Саме тому цей реліз важливий не як черговий інкремент, а як архітектурний зсув у тому, як взагалі будуються голосові продукти.
GPT-Realtime-2, Translate, Whisper — три моделі для трьох різних задач
OpenAI випустила не одну модель, а три — і кожна закриває окремий сценарій. Це не «базова, стандартна і преміум» версії одного продукту. Це три принципово різних інструменти з різною архітектурою, різним білінгом і різними сценаріями використання. Важливо не плутати їх між собою ще на етапі вибору.
GPT-Realtime-2 — голосовий агент з мисленням
Флагман релізу. Це перша голосова модель OpenAI з reasoning рівня GPT-5 — speech-to-speech модель, яка слухає аудіо, думає і відповідає аудіо, без конвертації в текст між кроками.
Ключові характеристики:
- Контекстне вікно: 128K токенів (було 32K у GPT-Realtime-1.5)
- Reasoning effort: minimal / low / medium / high / xhigh — налаштовується під задачу
- Білінг: за токенами ($32/1M input, $64/1M output)
- Підтримка: паралельні tool calls, preambles, відновлення після помилок
Коли брати GPT-Realtime-2: голосові агенти підтримки зі складними сценаріями, асистенти що виконують багатокрокові задачі (бронювання, пошук, зміна даних), будь-який продукт де важливо не просто відповісти, а зрозуміти контекст і діяти.
Коли не брати: якщо вам потрібна лише транскрипція або переклад — це надлишковий інструмент за вищою ціною.
GPT-Realtime-Translate — живий переклад між мовами
Окрема спеціалізована модель для real-time перекладу мовлення. Підтримує більш ніж 70 вхідних мов і 13 вихідних. Серед вихідних: англійська, іспанська, французька, німецька, японська, хінді, португальська, арабська та інші основні мови.
Ключові характеристики:
- Білінг: за хвилинами ($0.034/хв) — простий і передбачуваний
- Одночасно генерує живі транскрипти під час перекладу
- Встигає за темпом живого мовця, не чекає кінця речення
- Зберігає сенс при регіональній вимові та галузевій термінології
Коли брати GPT-Realtime-Translate: міжнародна підтримка клієнтів (кожен говорить своєю мовою), онлайн-освіта з глобальною аудиторією, конференції та прямі ефіри з живим перекладом, крос-кордонні продажі де мовний бар'єр = втрачена угода.
Важлива деталь: це не GPT-Realtime-2 з увімкненим перекладом. Це окрема модель, оптимізована саме під переклад — вона не веде розмову і не виконує задачі, вона перекладає потік мовлення.
GPT-Realtime-Whisper — потокова транскрипція
Модель що перетворює мову в текст прямо під час того як людина говорить — не після, а в процесі. Це не розмовна модель: вона не відповідає, не перекладає, не аналізує. Вона транскрибує.
Ключові характеристики:
- Білінг: за хвилинами ($0.017/хв) — найдешевша з трьох
- Регульована затримка: нижче налаштування = швидші часткові транскрипти, вище = краща якість
- Потокова передача: текст з'являється слово за словом, не після паузи
Коли брати GPT-Realtime-Whisper: живі субтитри для зустрічей і вебінарів, автоматичні нотатки що синхронізуються з розмовою, CRM-системи де потрібно фіксувати дзвінки в реальному часі, медичні системи де лікар диктує — і текст з'являється одразу в карті пацієнта.
Головна таблиця вибору:
Потрібен голосовий агент що розуміє і відповідає → GPT-Realtime-2
Потрібен переклад між живими учасниками розмови → GPT-Realtime-Translate
Потрібен текст з того що говорить людина → GPT-Realtime-Whisper
І окремо: GPT-Realtime-Whisper ≠ класичний Whisper. Класичний Whisper — batch-транскрипція готового аудіофайлу після запису. GPT-Realtime-Whisper — потокова, слово за словом, поки людина ще говорить. Різні інструменти для різних сценаріїв — не взаємозамінні.
Що конкретно змінилося: 128K контекст, preambles, паралельні tool calls
Порівняно з GPT-Realtime-1.5, нова модель отримала п'ять конкретних покращень. Розберемо кожне — не як маркетинговий список фіч, а з точки зору того, що це означає для продакшн-системи.
Контекстне вікно: 32K → 128K токенів
Це не косметична зміна — це усунення одного з головних обмежень попередньої версії.
32K токенів в аудіо-контексті вистачало приблизно на 20–30 хвилин розмови або на кілька tool calls з помірним обсягом даних. Для простого FAQ-агента — цілком достатньо. Але для реальних продакшн-сценаріїв цього не вистачало:
- Дзвінок з повною історією клієнта (попередні замовлення, статус, скарги) — контекст переповнюється
- Агентський флоу з 5–10 tool calls, кожен з яких повертає дані — те саме
- Довга сесія де клієнт повертається до теми з початку розмови — модель «забуває»
Команди вирішували це через external state stitching — окремий шар, що зберігав стан розмови поза моделлю і вручну підкладав потрібний контекст у кожен запит. Це додаткова інфраструктура, додаткові точки відмови і додатковий код для підтримки.
128K токенів прибирає потребу в цьому шарі для більшості сценаріїв. Повна сесія, вся історія клієнта, кілька раундів tool calls — все вміщується в один контекст без ручного управління станом.
Preambles — рішення проблеми «розумної тиші»
Одна з найдражливіших UX-проблем голосових агентів: модель думає — користувач чує тишу. У текстовому чаті спінер або «Typing...» вирішують це візуально. У голосі аналогу не було — пауза звучала як збій або зависання.
Preambles — це можливість увімкнути короткі аудіо-фрази що вимовляються до того як модель почне основну відповідь, поки reasoning іде у фоні. Приклади:
- «Хвилиночку, перевіряю...»
- «Дайте подивлюсь на ваше замовлення»
- «Один момент, уточнюю деталі»
Технічно це не просто текстовий шаблон що програється — модель генерує preamble контекстно, враховуючи що саме вона збирається зробити далі. «Перевіряю ваш календар» — якщо буде tool call до календаря. «Шукаю інформацію» — якщо буде пошук. Це не рандомна фраза-заглушка.
Для UX це суттєво: розмова не переривається, користувач знає що агент працює, і природний ритм діалогу зберігається навіть під час складних операцій.
Паралельні tool calls з аудіо-фідбеком
GPT-Realtime-1.5 виконував tool calls послідовно. Потрібно перевірити статус замовлення і наявність товару — спочатку перший запит, потім другий. Кожен додає затримку.
GPT-Realtime-2 може запускати кілька tool calls одночасно — і паралельно озвучувати що відбувається:
- «Одночасно перевіряю ваше замовлення і наявність на складі»
- «Шукаю доступні слоти і перевіряю вашу підписку»
Для агентських флоу з кількома джерелами даних це може суттєво скоротити загальний час відповіді — замість послідовного очікування результатів запити йдуть паралельно.
Покращене відновлення після помилок
У попередній версії збій під час tool call або timeout часто означав або тишу, або обрив сесії. Для продакшн-систем це означало потребу в окремому шарі error handling, який перехоплював би помилки і якось їх озвучував.
GPT-Realtime-2 обробляє помилки нативно — модель сама озвучує що щось пішло не так і продовжує розмову:
- «У мене зараз виникла проблема з перевіркою статусу — спробуймо інакше»
- «Не можу отримати цю інформацію зараз, але можу допомогти з...»
Розмова не обривається — агент gracefully виходить із ситуації і пропонує альтернативу.
Тонове налаштування під контекст
Нова можливість адаптувати манеру мовлення залежно від сценарію. Це не просто «формальний / неформальний» перемикач — модель враховує контекст розмови:
- Спокійніший, повільніший тон для скарг і складних ситуацій у підтримці
- Чіткий і впевнений для підтвердження замовлення або важливих деталей
- Бадьоріший для онбордингу або привітальних сценаріїв
Для брендів з чітким голосом — це важлива деталь. Агент що відповідає однаково байдужо на «моє замовлення зникло» і «дякую за покупку» — це поганий агент незалежно від якості відповіді.
Важливий нюанс щодо бенчмарків: дефолтний рівень reasoning effort у GPT-Realtime-2 — low. Маркетингові цифри +15.2% на Big Bench Audio і +13.8% на Audio MultiChallenge отримані на рівні high / xhigh. Більший effort = більша затримка + більше output-токенів = вища вартість. На рівні low модель відповідає швидше, але не показує маркетингових цифр з прес-релізу. Починайте з low, вимірюйте якість на своїх реальних сценаріях і піднімайте effort тільки там де це об'єктивно потрібно.
Реальні цифри: +26% у Zillow, Deutsche Telekom, BolnaAI — що вони побудували
OpenAI публікує не лише власні бенчмарки, а й результати реальних компаній що тестували модель до релізу. Це корисніше ніж синтетичні тести — бо показує не «скільки балів на Big Bench Audio», а що змінилося в реальному продукті з реальними користувачами.
Zillow: +26 відсоткових пунктів на найскладнішому тесті
Zillow — американська платформа нерухомості з понад 200 млн щомісячних відвідувачів. Вони будують голосового агента для роботи з покупцями і орендарями: пошук об'єктів, відповіді на питання про район, бронювання переглядів.
Складність задачі — не технічна, а юридична. У США діє Fair Housing Act — закон що забороняє дискримінацію при продажу і оренді нерухомості. Агент не може давати рекомендації на основі расового складу району, релігії, національності мешканців і ряду інших ознак. Навіть відповідь на питання «а який там район?» може стати юридичною проблемою якщо сформульована неправильно.
Саме тому Zillow використовує adversarial benchmark — тести де перевіряється не лише якість корисних відповідей, а й стійкість до «небезпечних» запитів. На цьому тесті:
- GPT-Realtime-1.5: 69% успішних дзвінків
- GPT-Realtime-2 після оптимізації промптів: 95% успішних дзвінків
- Різниця: +26 відсоткових пунктів
Що стоїть за цифрою: агент на GPT-Realtime-2 краще розпізнає коли запит наближається до юридично небезпечної зони і gracefully перенаправляє розмову — без обриву і без порушення compliance. Для Zillow це не просто «краща якість» — це різниця між агентом що можна виводити в продакшн і агентом що несе юридичний ризик.
Приклад запиту що обробляє агент: «Знайди будинки у межах мого бюджету $400K, без жвавих вулиць, бажано тихий район, заброньовуй перегляд на суботу» — кілька задач в одному реченні, що потребує і пошуку, і фільтрації, і бронювання через tool calls паралельно.
Deutsche Telekom: мовний бар'єр у підтримці — без перемикання мови
Deutsche Telekom — один з найбільших телекомунікаційних операторів Європи з клієнтами у десятках країн. Їхня задача: підтримка де клієнт говорить своєю мовою, оператор — своєю, і жоден не мусить перемикатись.
Вони тестують GPT-Realtime-Translate для сценарію де клієнт телефонує наприклад турецькою, оператор відповідає німецькою — і модель перекладає обидва потоки в реальному часі з живими транскриптами. Ні клієнт, ні оператор не чують затримки перекладу як окремої паузи — переклад встигає за темпом розмови.
Чому це важливо саме зараз: альтернатива — або найм мультилінгвальних операторів (дорого і обмежено), або переведення клієнта на «англійську лінію» (поганий досвід), або асинхронна підтримка через текст (повільно). GPT-Realtime-Translate дає четвертий варіант — живий дзвінок рідною мовою клієнта без додаткових витрат на персонал.
BolnaAI: -12.5% Word Error Rate для індійських мов
BolnaAI будує голосових агентів для індійського ринку — одного з найскладніших з точки зору мовного різноманіття. Індія має 22 офіційних мови і сотні діалектів. Хінді, тамільська і телугу — три з найпоширеніших, кожна з унікальною фонетикою що погано розпізнається моделями тренованими переважно на англійськомовних даних.
На тестах BolnaAI GPT-Realtime-Translate показав зниження Word Error Rate на 12.5% для цих трьох мов порівняно з іншими протестованими моделями. Word Error Rate — відсоток слів що модель розпізнала або переклала неправильно. Зниження на 12.5% означає що кожен восьмий помилковий токен тепер правильний — для агента що обробляє сотні дзвінків на день це суттєво.
Практичний контекст: помилки розпізнавання в індійських мовах часто не випадкові — вони системні, пов'язані з ритмом мовлення, аспірованими приголосними і code-switching (коли мовець мішає хінді з англійськими словами у середині речення). Покращення саме на цих мовах говорить про те що модель стала краще з мовною варіативністю, а не просто з гучністю або акцентом.
Три паттерни що OpenAI виділяє окремо — і яка модель закриває кожен:
Voice-to-action — користувач описує задачу голосом, агент reasoning-ує і виконує її через tool calls. Zillow: «знайди і заброньовуй». → GPT-Realtime-2
Systems-to-voice — система сама ініціює голосове повідомлення в потрібний момент. Приклад: застосунок для подорожей каже «ваш рейс затримується, але ви все ще встигнете на пересадку — новий гейт X, найшвидший маршрут Y». → GPT-Realtime-2
Voice-to-voice — дві людини говорять різними мовами і чують одна одну в перекладі. Deutsche Telekom: клієнт турецькою, оператор німецькою. → GPT-Realtime-Translate
Ціни, доступність і reasoning effort: low / high / xhigh — що це означає на практиці
Всі три моделі доступні через OpenAI Realtime API прямо зараз. Важлива деталь: разом з цим релізом Realtime API офіційно вийшов з бети і став generally available. Для команд що відкладали впровадження через нестабільність бети — це зелене світло. GA означає SLA, стабільні endpoint-и і відсутність breaking changes без попередження.
Протестувати без написання коду можна в OpenAI Playground — там вже є інтерфейс для GPT-Realtime-2 з мікрофоном прямо в браузері.
Ціни і модель білінгу
Три моделі мають різну модель білінгу — це важливо враховувати при плануванні витрат:
| Модель |
Білінг |
Вартість |
| GPT-Realtime-2 |
За токенами |
$32 / 1M input tokens $0.40 / 1M cached input $64 / 1M output tokens |
| GPT-Realtime-Translate |
За хвилинами |
$0.034 / хвилина |
| GPT-Realtime-Whisper |
За хвилинами |
$0.017 / хвилина |
Кілька практичних спостережень щодо вартості:
GPT-Realtime-2 — непередбачуваний білінг при змінному навантаженні. Токенний білінг означає що вартість дзвінка залежить від його тривалості, складності відповідей і кількості tool calls. Короткий FAQ-дзвінок і довга агентська сесія з кількома раундами reasoning — зовсім різна вартість. Закладайте буфер при плануванні бюджету і вимірюйте середній token usage на реальних дзвінках до масштабування.
Кешування input-токенів ($0.40 замість $32) — суттєва економія. Якщо ваш системний промпт великий і однаковий між сесіями — він кешується. При активному використанні це може знизити реальну вартість input у рази. Варто проектувати архітектуру так щоб стабільна частина промпту йшла першою і потрапляла в кеш.
GPT-Realtime-Translate і Whisper — простий і передбачуваний білінг. $0.034/хв і $0.017/хв відповідно. 1000 хвилин перекладу = $34. Легко закладати в бюджет і прогнозувати при зростанні.
Reasoning effort: що означає кожен рівень на практиці
GPT-Realtime-2 підтримує п'ять рівнів reasoning effort: minimal, low, medium, high, xhigh. Дефолт — low. Вибір рівня впливає на три параметри одночасно: глибину мислення, затримку відповіді і кількість output-токенів (а отже, вартість).
Ось як це виглядає на практиці:
minimal / low — модель відповідає швидко, без глибокого reasoning. Підходить для: відповідей на FAQ, підтвердження замовлень, простих навігаційних сценаріїв де відповідь однозначна. Затримка мінімальна, вартість найнижча. Саме на цьому рівні більшість продакшн-систем будуть працювати 80% часу.
medium — баланс між швидкістю і глибиною. Підходить для: сценаріїв з кількома кроками, де потрібно враховувати контекст попередніх реплік, але не потрібне складне планування. Хороший стартовий рівень для тестування якості перед тим як вирішувати чи потрібен high.
high / xhigh — повне reasoning. Модель планує відповідь, враховує edge cases, краще справляється з неоднозначними запитами і складними агентськими флоу. Саме на цих рівнях отримані маркетингові бенчмарки (+15.2% Big Bench Audio, +13.8% Audio MultiChallenge). Затримка помітно вища, output-токенів більше — і вартість відповідно зростає. Виправдано для: складних агентських сценаріїв, compliance-чутливих задач (як у Zillow), ситуацій де помилка агента коштує дорожче ніж затримка.
Практична стратегія вибору effort: не встановлюйте xhigh «на всяк випадок». Починайте з low, записуйте реальні дзвінки де агент помилився або дав неповну відповідь, і піднімайте effort тільки для тих категорій запитів де це об'єктивно покращує результат. Різниця у вартості між low і xhigh при 10,000 дзвінків на місяць може бути в рази — і найчастіше виявляється що 70–80% сценаріїв чудово закриваються на low або medium.
Нові голоси: Cedar і Marin
Разом з моделями OpenAI випустила два нових голоси — Cedar і Marin. Вони доступні для GPT-Realtime-2 поряд з існуючими (Alloy, Echo, Shimmer та іншими).
Cedar — нейтральний, спокійний тон, добре підходить для підтримки і інформаційних сценаріїв. Marin — дещо тепліший і живіший, краще для онбордингу і конверсійних флоу. Вибір голосу не впливає на вартість — це параметр сесії що перемикається без додаткових витрат.
Чому OpenRouter не підійде для Realtime API — і що використовувати натомість
Це питання закономірно виникає у розробників що звикли до зручності агрегаторів. OpenRouter дає один ключ — і доступ до сотень моделей від OpenAI, Anthropic, Google, Mistral і десятків інших провайдерів. Логічно спробувати підключити GPT-Realtime-2 туди ж і не ускладнювати інфраструктуру.
Але тут є принципова архітектурна несумісність — і вона не вирішується налаштуваннями чи workaround-ами.
В чому різниця протоколів
OpenRouter працює через стандартний Chat Completions API — це класичні HTTP-запити за схемою «запит → відповідь». Ви відправляєте POST-запит з повідомленнями, отримуєте відповідь, з'єднання закривається. Навіть streaming у Chat Completions API технічно реалізований через HTTP — Server-Sent Events (SSE), а не справжній двосторонній канал.
GPT-Realtime-2 працює принципово інакше. Він використовує WebSocket — протокол що встановлює постійне двостороннє з'єднання між клієнтом і сервером. Аудіо тече в обидва боки одночасно і безперервно: клієнт відправляє потік аудіо-чанків поки користувач говорить, модель відповідає аудіо-чанками в реальному часі ще до того як користувач закінчив речення. Це не «запит → відповідь» — це постійно відкритий канал на весь час розмови.
OpenRouter побудований на HTTP-інфраструктурі. Проксувати через неї WebSocket-з'єднання — не питання налаштувань, це фундаментальна несумісність протоколів. Це те саме що намагатись зробити відеодзвінок через електронну пошту — різні речі для різних задач.
Що це означає практично
Якщо ви спробуєте підключитись до GPT-Realtime-2 через OpenRouter — ви просто отримаєте помилку підключення або 404. Модель там не з'явиться навіть якщо OpenRouter додасть інші нові моделі OpenAI. Realtime API існує в окремому просторі від Chat Completions і Responses API.
Також не підійдуть інші агрегатори побудовані на тій самій HTTP-архітектурі: Together AI, Fireworks AI, Groq (для цієї конкретної моделі), AWS Bedrock у стандартному режимі. Будь-який проксі що не підтримує WebSocket на рівні інфраструктури — не підійде.
Що використовувати натомість
Для тестування без коду:
- OpenAI Playground — там вже є інтерфейс для GPT-Realtime-2 з мікрофоном прямо в браузері. Найшвидший спосіб почути модель в дії без жодного коду.
Для розробки:
- Прямий ключ OpenAI — єдиний спосіб отримати доступ до Realtime API. Якщо у вашому проєкті вже є ключ для GPT-4o або GPT-5 — він підійде і тут. Окремого ключа не потрібно.
- WebSocket — основний метод підключення для серверних застосунків і Node.js. Більше контролю над сесією, підходить для складних агентських флоу.
- WebRTC — метод для браузерних застосунків де аудіо захоплюється прямо з мікрофона користувача. Менше серверної інфраструктури, краще для клієнтських додатків.
- SIP — для інтеграції з телефонією. Якщо будуєте агента для реальних телефонних дзвінків — це офіційний метод підключення через SIP-протокол.
Коротко про вибір методу підключення:
Браузерний застосунок з мікрофоном → WebRTC
Серверний застосунок / Node.js / Python бекенд → WebSocket
Інтеграція з телефонією (реальні дзвінки) → SIP
Просто подивитись як працює → Playground
У наступній технічній статті ми детально розберемо підключення GPT-Realtime-2 через WebSocket: як відкрити сесію, як передавати аудіо чанками, як налаштувати preambles і паралельні tool calls — з повним кодом на JavaScript і Python.
→ GPT-Realtime-2: технічний гід — WebSocket API, підключення, приклади коду 2026 (стаття виходить найближчим часом)
Висновки: голосові агенти більше не компроміс
GPT-Realtime-2 — це не черговий апдейт моделі. Це зміна того, що взагалі можливо в голосовому AI. І щоб не звучати абстрактно — ось конкретно що змінилось і для кого це важливо.
Що реально змінив цей реліз
До 7 травня 2026 року голосовий агент з реальним мисленням і природною розмовою одночасно — був компромісом або дорогим custom-рішенням. Тепер це один API-виклик з налаштованим effort-рівнем.
Конкретні зміни що мають практичне значення:
- Каскадний ASR → LLM → TTS стек більше не обов'язковий для складних сценаріїв. GPT-Realtime-2 замінює його одним з'єднанням — менше інфраструктури, менше точок відмови.
- 128K контекст прибирає потребу в external state management для більшості продакшн-сценаріїв.
- Preambles і паралельні tool calls вирішують UX-проблему «розумної тиші» що раніше вимагала окремого шару логіки.
- Realtime API вийшов з бети — це сигнал що інфраструктура стабільна і готова до production.
- Живий переклад 70+ мов через GPT-Realtime-Translate стає доступним без побудови окремого пайплайну.
- Потокова транскрипція через GPT-Realtime-Whisper за $0.017/хв — найдешевший варіант для live captions і нотаток.
Для кого це актуально вже зараз
Якщо ви будуєте продукт з голосовою підтримкою — GPT-Realtime-2 на рівні low effort вже зараз може замінити або суттєво спростити поточний стек. Результати Zillow (+26% на adversarial benchmark) і BolnaAI (-12.5% WER) показують що покращення реальне, а не тільки на синтетичних тестах.
Якщо ви будуєте міжнародний продукт — GPT-Realtime-Translate прибирає мовний бар'єр без найму мультилінгвальних операторів. $0.034/хв за живий переклад між 70+ мовами — це нова реальність ціноутворення в цьому сегменті.
Якщо вам потрібна транскрипція в реальному часі — GPT-Realtime-Whisper за $0.017/хв є найпростішим входом у потокову транскрипцію без побудови власного ASR-пайплайну.
Якщо ви поки що тільки оцінюєте — Playground дає змогу почути модель в дії за п'ять хвилин без жодного рядка коду. Це найшвидший спосіб зрозуміти чи підходить вона для вашого сценарію.
Що робити далі — покроково
- Протестуйте в Playground — platform.openai.com/playground. Говоріть з моделлю, оцініть затримку і природність на своїх реальних сценаріях.
- Визначте метод підключення — WebSocket для серверного застосунку, WebRTC для браузера, SIP для телефонії.
- Починайте з effort low — і піднімайте рівень тільки там де виміряна якість недостатня.
- Враховуйте кешування — великий стабільний системний промпт що кешується знижує вартість input-токенів з $32 до $0.40 за 1M.
- Читайте технічний гід — там покрокове підключення з кодом, налаштування preambles, приклади tool calls і розбір типових помилок.
Головний висновок: голосові агенти перестали бути нішевою технологією де доводиться вибирати між якістю і швидкістю. GPT-Realtime-2 зробив «розумний і швидкий одночасно» доступним через один API з передбачуваним ціноутворенням. Питання тепер не «чи можливо це побудувати» — а «коли ви починаєте».
Читайте далі
Технічна стаття з повним кодом підключення, налаштуванням WebSocket-сесії і прикладами preambles та tool calls:
→ GPT-Realtime-2: технічний гід — WebSocket API, підключення, приклади коду 2026
Якщо вас цікавить ширша OpenAI-екосистема для розробників — повний гід по Codex: моделі, поверхні, CLI, порівняння з GitHub Copilot і Claude Code:
→ Codex від OpenAI: повний гід 2026
Джерела: OpenAI офіційний анонс, OpenAI Developer Docs — gpt-realtime-2, Realtime WebSocket Guide, Interesting Engineering, Heyloha Blog