AI_TOOLS 09 mayo 2026 19 min de lectura 63 vista

OpenAI випустила GPT-Realtime-2: перша голосова модель з GPT-5-рівнем мислення

Actualizado: 09 May 2026

Idioma: 🇺🇦 🇺🇸 🇩🇪 🇪🇸

Dmitro Petrov

A Tech Lead who builds AI/ML systems for production — and writes about how they actually work.

OpenAI випустила GPT-Realtime-2: перша голосова модель з GPT-5-рівнем мислення

7 травня 2026 року OpenAI зробила анонс, який багато хто в спільноті розробників чекав давно: три нові голосові моделі в Realtime API. Флагман — GPT-Realtime-2 — перша в лінійці, де мислення рівня GPT-5 вбудоване прямо в голосовий потік. Без затримок між розпізнаванням і відповіддю. Без окремих пайплайнів.

Якщо коротко: голосові агенти більше не мусять вибирати між «розумним» і «швидким».

Коротко: OpenAI випустила GPT-Realtime-2 (reasoning рівня GPT-5), GPT-Realtime-Translate (переклад 70+ мов в реальному часі) і GPT-Realtime-Whisper (потокова транскрипція). Всі три — в Realtime API, доступні вже зараз. OpenRouter для цього не підійде — і ось чому.

Зміст статті

Контекст: чому голосові агенти досі були «розумними або швидкими» — але не обома
GPT-Realtime-2, Translate, Whisper — три моделі для трьох різних задач
Що конкретно змінилося: 128K контекст, preambles, паралельні tool calls
Реальні цифри: +26% у Zillow, Deutsche Telekom, BolnaAI — що вони побудували
Ціни, доступність і reasoning effort: low / high / xhigh — що це означає на практиці
Чому OpenRouter не підійде для Realtime API — і що використовувати натомість
Висновки: голосові агенти більше не компроміс

Контекст: чому голосові агенти досі були «розумними або швидкими» — але не обома

До цього релізу розробники голосових агентів стикались з одним і тим самим вибором. Або берете модель, яка говорить природно і відповідає швидко — але не може впоратись зі складними запитами. Або берете модель з реальним мисленням — і отримуєте 5–7 секунд мовчання між питанням і відповіддю, що в голосовому інтерфейсі рівносильно смерті розмови.

Ця проблема не нова. Два роки галузь намагалась її вирішити через оптимізацію окремих компонентів — швидший ASR, менший LLM, агресивніший TTS-кешинг. Але фундаментальне обмеження залишалось: архітектура була каскадною.

Класичний стек голосового агента виглядав так:

ASR (Automatic Speech Recognition) — розпізнає мову в текст. Найкращі рішення: Whisper, Deepgram, AssemblyAI. Затримка: 200–500 мс.
LLM — отримує текст, обробляє, генерує відповідь. Якщо використовується reasoning (CoT) — ще +2–6 секунд зверху.
TTS (Text-to-Speech) — перетворює відповідь назад у мову. ElevenLabs, Cartesia, OpenAI TTS. Ще 200–400 мс.

Сумарна затримка від кінця питання до початку відповіді — 1.5–8 секунд залежно від складності запиту і вибраних компонентів. У текстовому чаті це непомітно. У голосовому інтерфейсі — катастрофа. Людина сприймає паузу понад 1.5 секунди як збій або зависання.

Це і породжувало компроміс. Команди, які будували голосових агентів для call-центрів або підтримки, мусили вибирати:

Варіант А — швидкий але обмежений: маленька модель (GPT-4o mini, Llama 3 8B), без reasoning, відповідає за 800–900 мс. Справляється з FAQ і простими сценаріями, ламається на нестандартних запитах або багатокрокових задачах.
Варіант Б — розумний але повільний: велика модель з reasoning, відповідає за 4–7 секунд. Вирішує складні запити, але розмова перетворюється на серію незручних пауз.

На практиці більшість продакшн-систем обирала Варіант А і намагалась «прикрити» обмеження моделі через жорсткі скрипти, fallback-фрази і детальні системні промпти. Reasoning в голосі залишався недосяжним без жертви UX.

Ще одна проблема каскадного стеку — кожен компонент має власні точки відмови. ASR неправильно розпізнав слово — LLM отримав хибний контекст — TTS озвучив нісенітницю. Відлагоджувати таку систему складно: помилка може бути на будь-якому з трьох кроків, і часто незрозуміло де саме.

GPT-Realtime-2 прибирає саму каскадну архітектуру. Модель приймає аудіо на вхід і видає аудіо на вихід — reasoning відбувається всередині єдиної петлі, без конвертацій між форматами. Немає трьох компонентів — немає трьох точок відмови і трьох затримок, що складаються. Це не «краща модель у тому ж стеці» — це заміна самого підходу.

Саме тому цей реліз важливий не як черговий інкремент, а як архітектурний зсув у тому, як взагалі будуються голосові продукти.

GPT-Realtime-2, Translate, Whisper — три моделі для трьох різних задач

OpenAI випустила не одну модель, а три — і кожна закриває окремий сценарій. Це не «базова, стандартна і преміум» версії одного продукту. Це три принципово різних інструменти з різною архітектурою, різним білінгом і різними сценаріями використання. Важливо не плутати їх між собою ще на етапі вибору.

GPT-Realtime-2 — голосовий агент з мисленням

Флагман релізу. Це перша голосова модель OpenAI з reasoning рівня GPT-5 — speech-to-speech модель, яка слухає аудіо, думає і відповідає аудіо, без конвертації в текст між кроками.

Ключові характеристики:

Контекстне вікно: 128K токенів (було 32K у GPT-Realtime-1.5)
Reasoning effort: minimal / low / medium / high / xhigh — налаштовується під задачу
Білінг: за токенами ($32/1M input, $64/1M output)
Підтримка: паралельні tool calls, preambles, відновлення після помилок

Коли брати GPT-Realtime-2: голосові агенти підтримки зі складними сценаріями, асистенти що виконують багатокрокові задачі (бронювання, пошук, зміна даних), будь-який продукт де важливо не просто відповісти, а зрозуміти контекст і діяти.

Коли не брати: якщо вам потрібна лише транскрипція або переклад — це надлишковий інструмент за вищою ціною.

GPT-Realtime-Translate — живий переклад між мовами

Окрема спеціалізована модель для real-time перекладу мовлення. Підтримує більш ніж 70 вхідних мов і 13 вихідних. Серед вихідних: англійська, іспанська, французька, німецька, японська, хінді, португальська, арабська та інші основні мови.

Ключові характеристики:

Білінг: за хвилинами ($0.034/хв) — простий і передбачуваний
Одночасно генерує живі транскрипти під час перекладу
Встигає за темпом живого мовця, не чекає кінця речення
Зберігає сенс при регіональній вимові та галузевій термінології

Коли брати GPT-Realtime-Translate: міжнародна підтримка клієнтів (кожен говорить своєю мовою), онлайн-освіта з глобальною аудиторією, конференції та прямі ефіри з живим перекладом, крос-кордонні продажі де мовний бар'єр = втрачена угода.

Важлива деталь: це не GPT-Realtime-2 з увімкненим перекладом. Це окрема модель, оптимізована саме під переклад — вона не веде розмову і не виконує задачі, вона перекладає потік мовлення.

GPT-Realtime-Whisper — потокова транскрипція

Модель що перетворює мову в текст прямо під час того як людина говорить — не після, а в процесі. Це не розмовна модель: вона не відповідає, не перекладає, не аналізує. Вона транскрибує.

Ключові характеристики:

Білінг: за хвилинами ($0.017/хв) — найдешевша з трьох
Регульована затримка: нижче налаштування = швидші часткові транскрипти, вище = краща якість
Потокова передача: текст з'являється слово за словом, не після паузи

Коли брати GPT-Realtime-Whisper: живі субтитри для зустрічей і вебінарів, автоматичні нотатки що синхронізуються з розмовою, CRM-системи де потрібно фіксувати дзвінки в реальному часі, медичні системи де лікар диктує — і текст з'являється одразу в карті пацієнта.

Головна таблиця вибору:

Потрібен голосовий агент що розуміє і відповідає → GPT-Realtime-2
Потрібен переклад між живими учасниками розмови → GPT-Realtime-Translate
Потрібен текст з того що говорить людина → GPT-Realtime-Whisper

І окремо: GPT-Realtime-Whisper ≠ класичний Whisper. Класичний Whisper — batch-транскрипція готового аудіофайлу після запису. GPT-Realtime-Whisper — потокова, слово за словом, поки людина ще говорить. Різні інструменти для різних сценаріїв — не взаємозамінні.

Що конкретно змінилося: 128K контекст, preambles, паралельні tool calls

Порівняно з GPT-Realtime-1.5, нова модель отримала п'ять конкретних покращень. Розберемо кожне — не як маркетинговий список фіч, а з точки зору того, що це означає для продакшн-системи.

Контекстне вікно: 32K → 128K токенів

Це не косметична зміна — це усунення одного з головних обмежень попередньої версії.

32K токенів в аудіо-контексті вистачало приблизно на 20–30 хвилин розмови або на кілька tool calls з помірним обсягом даних. Для простого FAQ-агента — цілком достатньо. Але для реальних продакшн-сценаріїв цього не вистачало:

Дзвінок з повною історією клієнта (попередні замовлення, статус, скарги) — контекст переповнюється
Агентський флоу з 5–10 tool calls, кожен з яких повертає дані — те саме
Довга сесія де клієнт повертається до теми з початку розмови — модель «забуває»

Команди вирішували це через external state stitching — окремий шар, що зберігав стан розмови поза моделлю і вручну підкладав потрібний контекст у кожен запит. Це додаткова інфраструктура, додаткові точки відмови і додатковий код для підтримки.

128K токенів прибирає потребу в цьому шарі для більшості сценаріїв. Повна сесія, вся історія клієнта, кілька раундів tool calls — все вміщується в один контекст без ручного управління станом.

Preambles — рішення проблеми «розумної тиші»

Одна з найдражливіших UX-проблем голосових агентів: модель думає — користувач чує тишу. У текстовому чаті спінер або «Typing...» вирішують це візуально. У голосі аналогу не було — пауза звучала як збій або зависання.

Preambles — це можливість увімкнути короткі аудіо-фрази що вимовляються до того як модель почне основну відповідь, поки reasoning іде у фоні. Приклади:

«Хвилиночку, перевіряю...»
«Дайте подивлюсь на ваше замовлення»
«Один момент, уточнюю деталі»

Технічно це не просто текстовий шаблон що програється — модель генерує preamble контекстно, враховуючи що саме вона збирається зробити далі. «Перевіряю ваш календар» — якщо буде tool call до календаря. «Шукаю інформацію» — якщо буде пошук. Це не рандомна фраза-заглушка.

Для UX це суттєво: розмова не переривається, користувач знає що агент працює, і природний ритм діалогу зберігається навіть під час складних операцій.

Паралельні tool calls з аудіо-фідбеком

GPT-Realtime-1.5 виконував tool calls послідовно. Потрібно перевірити статус замовлення і наявність товару — спочатку перший запит, потім другий. Кожен додає затримку.

GPT-Realtime-2 може запускати кілька tool calls одночасно — і паралельно озвучувати що відбувається:

«Одночасно перевіряю ваше замовлення і наявність на складі»
«Шукаю доступні слоти і перевіряю вашу підписку»

Для агентських флоу з кількома джерелами даних це може суттєво скоротити загальний час відповіді — замість послідовного очікування результатів запити йдуть паралельно.

Покращене відновлення після помилок

У попередній версії збій під час tool call або timeout часто означав або тишу, або обрив сесії. Для продакшн-систем це означало потребу в окремому шарі error handling, який перехоплював би помилки і якось їх озвучував.

GPT-Realtime-2 обробляє помилки нативно — модель сама озвучує що щось пішло не так і продовжує розмову:

«У мене зараз виникла проблема з перевіркою статусу — спробуймо інакше»
«Не можу отримати цю інформацію зараз, але можу допомогти з...»

Розмова не обривається — агент gracefully виходить із ситуації і пропонує альтернативу.

Тонове налаштування під контекст

Нова можливість адаптувати манеру мовлення залежно від сценарію. Це не просто «формальний / неформальний» перемикач — модель враховує контекст розмови:

Спокійніший, повільніший тон для скарг і складних ситуацій у підтримці
Чіткий і впевнений для підтвердження замовлення або важливих деталей
Бадьоріший для онбордингу або привітальних сценаріїв

Для брендів з чітким голосом — це важлива деталь. Агент що відповідає однаково байдужо на «моє замовлення зникло» і «дякую за покупку» — це поганий агент незалежно від якості відповіді.

Важливий нюанс щодо бенчмарків: дефолтний рівень reasoning effort у GPT-Realtime-2 — low. Маркетингові цифри +15.2% на Big Bench Audio і +13.8% на Audio MultiChallenge отримані на рівні high / xhigh. Більший effort = більша затримка + більше output-токенів = вища вартість. На рівні low модель відповідає швидше, але не показує маркетингових цифр з прес-релізу. Починайте з low, вимірюйте якість на своїх реальних сценаріях і піднімайте effort тільки там де це об'єктивно потрібно.

Реальні цифри: +26% у Zillow, Deutsche Telekom, BolnaAI — що вони побудували

OpenAI публікує не лише власні бенчмарки, а й результати реальних компаній що тестували модель до релізу. Це корисніше ніж синтетичні тести — бо показує не «скільки балів на Big Bench Audio», а що змінилося в реальному продукті з реальними користувачами.

Zillow: +26 відсоткових пунктів на найскладнішому тесті

Zillow — американська платформа нерухомості з понад 200 млн щомісячних відвідувачів. Вони будують голосового агента для роботи з покупцями і орендарями: пошук об'єктів, відповіді на питання про район, бронювання переглядів.

Складність задачі — не технічна, а юридична. У США діє Fair Housing Act — закон що забороняє дискримінацію при продажу і оренді нерухомості. Агент не може давати рекомендації на основі расового складу району, релігії, національності мешканців і ряду інших ознак. Навіть відповідь на питання «а який там район?» може стати юридичною проблемою якщо сформульована неправильно.

Саме тому Zillow використовує adversarial benchmark — тести де перевіряється не лише якість корисних відповідей, а й стійкість до «небезпечних» запитів. На цьому тесті:

GPT-Realtime-1.5: 69% успішних дзвінків
GPT-Realtime-2 після оптимізації промптів: 95% успішних дзвінків
Різниця: +26 відсоткових пунктів

Що стоїть за цифрою: агент на GPT-Realtime-2 краще розпізнає коли запит наближається до юридично небезпечної зони і gracefully перенаправляє розмову — без обриву і без порушення compliance. Для Zillow це не просто «краща якість» — це різниця між агентом що можна виводити в продакшн і агентом що несе юридичний ризик.

Приклад запиту що обробляє агент: «Знайди будинки у межах мого бюджету $400K, без жвавих вулиць, бажано тихий район, заброньовуй перегляд на суботу» — кілька задач в одному реченні, що потребує і пошуку, і фільтрації, і бронювання через tool calls паралельно.

Deutsche Telekom: мовний бар'єр у підтримці — без перемикання мови

Deutsche Telekom — один з найбільших телекомунікаційних операторів Європи з клієнтами у десятках країн. Їхня задача: підтримка де клієнт говорить своєю мовою, оператор — своєю, і жоден не мусить перемикатись.

Вони тестують GPT-Realtime-Translate для сценарію де клієнт телефонує наприклад турецькою, оператор відповідає німецькою — і модель перекладає обидва потоки в реальному часі з живими транскриптами. Ні клієнт, ні оператор не чують затримки перекладу як окремої паузи — переклад встигає за темпом розмови.

Чому це важливо саме зараз: альтернатива — або найм мультилінгвальних операторів (дорого і обмежено), або переведення клієнта на «англійську лінію» (поганий досвід), або асинхронна підтримка через текст (повільно). GPT-Realtime-Translate дає четвертий варіант — живий дзвінок рідною мовою клієнта без додаткових витрат на персонал.

BolnaAI: -12.5% Word Error Rate для індійських мов

BolnaAI будує голосових агентів для індійського ринку — одного з найскладніших з точки зору мовного різноманіття. Індія має 22 офіційних мови і сотні діалектів. Хінді, тамільська і телугу — три з найпоширеніших, кожна з унікальною фонетикою що погано розпізнається моделями тренованими переважно на англійськомовних даних.

На тестах BolnaAI GPT-Realtime-Translate показав зниження Word Error Rate на 12.5% для цих трьох мов порівняно з іншими протестованими моделями. Word Error Rate — відсоток слів що модель розпізнала або переклала неправильно. Зниження на 12.5% означає що кожен восьмий помилковий токен тепер правильний — для агента що обробляє сотні дзвінків на день це суттєво.

Практичний контекст: помилки розпізнавання в індійських мовах часто не випадкові — вони системні, пов'язані з ритмом мовлення, аспірованими приголосними і code-switching (коли мовець мішає хінді з англійськими словами у середині речення). Покращення саме на цих мовах говорить про те що модель стала краще з мовною варіативністю, а не просто з гучністю або акцентом.

Три паттерни що OpenAI виділяє окремо — і яка модель закриває кожен:

Voice-to-action — користувач описує задачу голосом, агент reasoning-ує і виконує її через tool calls. Zillow: «знайди і заброньовуй». → GPT-Realtime-2

Systems-to-voice — система сама ініціює голосове повідомлення в потрібний момент. Приклад: застосунок для подорожей каже «ваш рейс затримується, але ви все ще встигнете на пересадку — новий гейт X, найшвидший маршрут Y». → GPT-Realtime-2

Voice-to-voice — дві людини говорять різними мовами і чують одна одну в перекладі. Deutsche Telekom: клієнт турецькою, оператор німецькою. → GPT-Realtime-Translate

Ціни, доступність і reasoning effort: low / high / xhigh — що це означає на практиці

Всі три моделі доступні через OpenAI Realtime API прямо зараз. Важлива деталь: разом з цим релізом Realtime API офіційно вийшов з бети і став generally available. Для команд що відкладали впровадження через нестабільність бети — це зелене світло. GA означає SLA, стабільні endpoint-и і відсутність breaking changes без попередження.

Протестувати без написання коду можна в OpenAI Playground — там вже є інтерфейс для GPT-Realtime-2 з мікрофоном прямо в браузері.

Ціни і модель білінгу

Три моделі мають різну модель білінгу — це важливо враховувати при плануванні витрат:

Модель	Білінг	Вартість
GPT-Realtime-2	За токенами	$32 / 1M input tokens $0.40 / 1M cached input $64 / 1M output tokens
GPT-Realtime-Translate	За хвилинами	$0.034 / хвилина
GPT-Realtime-Whisper	За хвилинами	$0.017 / хвилина

Кілька практичних спостережень щодо вартості:

GPT-Realtime-2 — непередбачуваний білінг при змінному навантаженні. Токенний білінг означає що вартість дзвінка залежить від його тривалості, складності відповідей і кількості tool calls. Короткий FAQ-дзвінок і довга агентська сесія з кількома раундами reasoning — зовсім різна вартість. Закладайте буфер при плануванні бюджету і вимірюйте середній token usage на реальних дзвінках до масштабування.

Кешування input-токенів ($0.40 замість $32) — суттєва економія. Якщо ваш системний промпт великий і однаковий між сесіями — він кешується. При активному використанні це може знизити реальну вартість input у рази. Варто проектувати архітектуру так щоб стабільна частина промпту йшла першою і потрапляла в кеш.

GPT-Realtime-Translate і Whisper — простий і передбачуваний білінг. $0.034/хв і $0.017/хв відповідно. 1000 хвилин перекладу = $34. Легко закладати в бюджет і прогнозувати при зростанні.

Reasoning effort: що означає кожен рівень на практиці

GPT-Realtime-2 підтримує п'ять рівнів reasoning effort: minimal, low, medium, high, xhigh. Дефолт — low. Вибір рівня впливає на три параметри одночасно: глибину мислення, затримку відповіді і кількість output-токенів (а отже, вартість).

Ось як це виглядає на практиці:

minimal / low — модель відповідає швидко, без глибокого reasoning. Підходить для: відповідей на FAQ, підтвердження замовлень, простих навігаційних сценаріїв де відповідь однозначна. Затримка мінімальна, вартість найнижча. Саме на цьому рівні більшість продакшн-систем будуть працювати 80% часу.

medium — баланс між швидкістю і глибиною. Підходить для: сценаріїв з кількома кроками, де потрібно враховувати контекст попередніх реплік, але не потрібне складне планування. Хороший стартовий рівень для тестування якості перед тим як вирішувати чи потрібен high.

high / xhigh — повне reasoning. Модель планує відповідь, враховує edge cases, краще справляється з неоднозначними запитами і складними агентськими флоу. Саме на цих рівнях отримані маркетингові бенчмарки (+15.2% Big Bench Audio, +13.8% Audio MultiChallenge). Затримка помітно вища, output-токенів більше — і вартість відповідно зростає. Виправдано для: складних агентських сценаріїв, compliance-чутливих задач (як у Zillow), ситуацій де помилка агента коштує дорожче ніж затримка.

Практична стратегія вибору effort: не встановлюйте xhigh «на всяк випадок». Починайте з low, записуйте реальні дзвінки де агент помилився або дав неповну відповідь, і піднімайте effort тільки для тих категорій запитів де це об'єктивно покращує результат. Різниця у вартості між low і xhigh при 10,000 дзвінків на місяць може бути в рази — і найчастіше виявляється що 70–80% сценаріїв чудово закриваються на low або medium.

Нові голоси: Cedar і Marin

Разом з моделями OpenAI випустила два нових голоси — Cedar і Marin. Вони доступні для GPT-Realtime-2 поряд з існуючими (Alloy, Echo, Shimmer та іншими).

Cedar — нейтральний, спокійний тон, добре підходить для підтримки і інформаційних сценаріїв. Marin — дещо тепліший і живіший, краще для онбордингу і конверсійних флоу. Вибір голосу не впливає на вартість — це параметр сесії що перемикається без додаткових витрат.

Чому OpenRouter не підійде для Realtime API — і що використовувати натомість

Це питання закономірно виникає у розробників що звикли до зручності агрегаторів. OpenRouter дає один ключ — і доступ до сотень моделей від OpenAI, Anthropic, Google, Mistral і десятків інших провайдерів. Логічно спробувати підключити GPT-Realtime-2 туди ж і не ускладнювати інфраструктуру.

Але тут є принципова архітектурна несумісність — і вона не вирішується налаштуваннями чи workaround-ами.

В чому різниця протоколів

OpenRouter працює через стандартний Chat Completions API — це класичні HTTP-запити за схемою «запит → відповідь». Ви відправляєте POST-запит з повідомленнями, отримуєте відповідь, з'єднання закривається. Навіть streaming у Chat Completions API технічно реалізований через HTTP — Server-Sent Events (SSE), а не справжній двосторонній канал.

GPT-Realtime-2 працює принципово інакше. Він використовує WebSocket — протокол що встановлює постійне двостороннє з'єднання між клієнтом і сервером. Аудіо тече в обидва боки одночасно і безперервно: клієнт відправляє потік аудіо-чанків поки користувач говорить, модель відповідає аудіо-чанками в реальному часі ще до того як користувач закінчив речення. Це не «запит → відповідь» — це постійно відкритий канал на весь час розмови.

OpenRouter побудований на HTTP-інфраструктурі. Проксувати через неї WebSocket-з'єднання — не питання налаштувань, це фундаментальна несумісність протоколів. Це те саме що намагатись зробити відеодзвінок через електронну пошту — різні речі для різних задач.

Що це означає практично

Якщо ви спробуєте підключитись до GPT-Realtime-2 через OpenRouter — ви просто отримаєте помилку підключення або 404. Модель там не з'явиться навіть якщо OpenRouter додасть інші нові моделі OpenAI. Realtime API існує в окремому просторі від Chat Completions і Responses API.

Також не підійдуть інші агрегатори побудовані на тій самій HTTP-архітектурі: Together AI, Fireworks AI, Groq (для цієї конкретної моделі), AWS Bedrock у стандартному режимі. Будь-який проксі що не підтримує WebSocket на рівні інфраструктури — не підійде.

Що використовувати натомість

Для тестування без коду:

OpenAI Playground — там вже є інтерфейс для GPT-Realtime-2 з мікрофоном прямо в браузері. Найшвидший спосіб почути модель в дії без жодного коду.

Для розробки:

Прямий ключ OpenAI — єдиний спосіб отримати доступ до Realtime API. Якщо у вашому проєкті вже є ключ для GPT-4o або GPT-5 — він підійде і тут. Окремого ключа не потрібно.
WebSocket — основний метод підключення для серверних застосунків і Node.js. Більше контролю над сесією, підходить для складних агентських флоу.
WebRTC — метод для браузерних застосунків де аудіо захоплюється прямо з мікрофона користувача. Менше серверної інфраструктури, краще для клієнтських додатків.
SIP — для інтеграції з телефонією. Якщо будуєте агента для реальних телефонних дзвінків — це офіційний метод підключення через SIP-протокол.

Коротко про вибір методу підключення:

Браузерний застосунок з мікрофоном → WebRTC
Серверний застосунок / Node.js / Python бекенд → WebSocket
Інтеграція з телефонією (реальні дзвінки) → SIP
Просто подивитись як працює → Playground

У наступній технічній статті ми детально розберемо підключення GPT-Realtime-2 через WebSocket: як відкрити сесію, як передавати аудіо чанками, як налаштувати preambles і паралельні tool calls — з повним кодом на JavaScript і Python.

→ GPT-Realtime-2: технічний гід — WebSocket API, підключення, приклади коду 2026 (стаття виходить найближчим часом)

Висновки: голосові агенти більше не компроміс

GPT-Realtime-2 — це не черговий апдейт моделі. Це зміна того, що взагалі можливо в голосовому AI. І щоб не звучати абстрактно — ось конкретно що змінилось і для кого це важливо.

Що реально змінив цей реліз

До 7 травня 2026 року голосовий агент з реальним мисленням і природною розмовою одночасно — був компромісом або дорогим custom-рішенням. Тепер це один API-виклик з налаштованим effort-рівнем.

Конкретні зміни що мають практичне значення:

Каскадний ASR → LLM → TTS стек більше не обов'язковий для складних сценаріїв. GPT-Realtime-2 замінює його одним з'єднанням — менше інфраструктури, менше точок відмови.
128K контекст прибирає потребу в external state management для більшості продакшн-сценаріїв.
Preambles і паралельні tool calls вирішують UX-проблему «розумної тиші» що раніше вимагала окремого шару логіки.
Realtime API вийшов з бети — це сигнал що інфраструктура стабільна і готова до production.
Живий переклад 70+ мов через GPT-Realtime-Translate стає доступним без побудови окремого пайплайну.
Потокова транскрипція через GPT-Realtime-Whisper за $0.017/хв — найдешевший варіант для live captions і нотаток.

Для кого це актуально вже зараз

Якщо ви будуєте продукт з голосовою підтримкою — GPT-Realtime-2 на рівні low effort вже зараз може замінити або суттєво спростити поточний стек. Результати Zillow (+26% на adversarial benchmark) і BolnaAI (-12.5% WER) показують що покращення реальне, а не тільки на синтетичних тестах.

Якщо ви будуєте міжнародний продукт — GPT-Realtime-Translate прибирає мовний бар'єр без найму мультилінгвальних операторів. $0.034/хв за живий переклад між 70+ мовами — це нова реальність ціноутворення в цьому сегменті.

Якщо вам потрібна транскрипція в реальному часі — GPT-Realtime-Whisper за $0.017/хв є найпростішим входом у потокову транскрипцію без побудови власного ASR-пайплайну.

Якщо ви поки що тільки оцінюєте — Playground дає змогу почути модель в дії за п'ять хвилин без жодного рядка коду. Це найшвидший спосіб зрозуміти чи підходить вона для вашого сценарію.

Що робити далі — покроково

Протестуйте в Playground — platform.openai.com/playground. Говоріть з моделлю, оцініть затримку і природність на своїх реальних сценаріях.
Визначте метод підключення — WebSocket для серверного застосунку, WebRTC для браузера, SIP для телефонії.
Починайте з effort low — і піднімайте рівень тільки там де виміряна якість недостатня.
Враховуйте кешування — великий стабільний системний промпт що кешується знижує вартість input-токенів з $32 до $0.40 за 1M.
Читайте технічний гід — там покрокове підключення з кодом, налаштування preambles, приклади tool calls і розбір типових помилок.

Головний висновок: голосові агенти перестали бути нішевою технологією де доводиться вибирати між якістю і швидкістю. GPT-Realtime-2 зробив «розумний і швидкий одночасно» доступним через один API з передбачуваним ціноутворенням. Питання тепер не «чи можливо це побудувати» — а «коли ви починаєте».

Читайте далі

Технічна стаття з повним кодом підключення, налаштуванням WebSocket-сесії і прикладами preambles та tool calls:

→ GPT-Realtime-2: технічний гід — WebSocket API, підключення, приклади коду 2026

Якщо вас цікавить ширша OpenAI-екосистема для розробників — повний гід по Codex: моделі, поверхні, CLI, порівняння з GitHub Copilot і Claude Code:

→ Codex від OpenAI: повний гід 2026

Джерела: OpenAI офіційний анонс, OpenAI Developer Docs — gpt-realtime-2, Realtime WebSocket Guide, Interesting Engineering, Heyloha Blog

Categorías

Зміст статті

Контекст: чому голосові агенти досі були «розумними або швидкими» — але не обома

GPT-Realtime-2, Translate, Whisper — три моделі для трьох різних задач

GPT-Realtime-2 — голосовий агент з мисленням

GPT-Realtime-Translate — живий переклад між мовами

GPT-Realtime-Whisper — потокова транскрипція

Що конкретно змінилося: 128K контекст, preambles, паралельні tool calls

Контекстне вікно: 32K → 128K токенів

Preambles — рішення проблеми «розумної тиші»

Паралельні tool calls з аудіо-фідбеком

Покращене відновлення після помилок

Тонове налаштування під контекст

Реальні цифри: +26% у Zillow, Deutsche Telekom, BolnaAI — що вони побудували

Zillow: +26 відсоткових пунктів на найскладнішому тесті

Deutsche Telekom: мовний бар'єр у підтримці — без перемикання мови

BolnaAI: -12.5% Word Error Rate для індійських мов

Ціни, доступність і reasoning effort: low / high / xhigh — що це означає на практиці

Ціни і модель білінгу

Reasoning effort: що означає кожен рівень на практиці

Нові голоси: Cedar і Marin

Чому OpenRouter не підійде для Realtime API — і що використовувати натомість

В чому різниця протоколів

Що це означає практично

Що використовувати натомість

Висновки: голосові агенти більше не компроміс

Що реально змінив цей реліз

Для кого це актуально вже зараз

Що робити далі — покроково

Читайте далі

📬 No se pierda los nuevos artículos

¿Listo para crear un sitio web llave en mano?

Останні статті

GPT-Realtime-2: технічний гід — WebSocket API, підключення і приклади коду

OpenAI випустила GPT-Realtime-2: перша голосова модель з GPT-5-рівнем мислення

Яку модель Ollama обрати для агента з tool calling: порівняння і бенчмарки

GPT-5.3-Codex-Spark: real-time кодинг у 2026 — що це і навіщо

Codex від OpenAI: повний гід 2026

Ollama REST API: інтеграція у свій застосунок — Java, Python, JavaScript