GPT-Realtime-2 vs Gemini Live API: що обрати для голосового агента у 2026 році

Оновлено:
GPT-Realtime-2 vs Gemini Live API: що обрати для голосового агента у 2026 році

Два флагмани real-time голосового AI вийшли практично одночасно. OpenAI випустила GPT-Realtime-2 7 травня 2026 року. Google запустила Gemini 3.1 Flash Live 26 березня 2026 року. Обидві — speech-to-speech моделі з reasoning всередині. Обидві — для голосових агентів у продакшн.

Але під капотом вони відрізняються суттєво: за ціною в рази, за можливостями (відео, мови, тривалість сесії), за екосистемою і зручністю інтеграції. Ця стаття — практичне порівняння для розробника що вибирає платформу, а не маркетинговий огляд.

Коротко: GPT-Realtime-2 виграє на складних агентських сценаріях, compliance і тривалих сесіях (60 хв). Gemini Live API виграє на вартості (у рази дешевше), мовному охопленні і відео. Вибір залежить від вашого конкретного сценарію — і ця стаття допоможе визначитись.

Зміст статті

Контекст: чому порівнювати ці дві моделі — правильне питання у 2026 році

До 2026 року вибір голосового стеку для більшості команд виглядав так: беремо Whisper для ASR, GPT-4o або Claude для LLM, ElevenLabs або Cartesia для TTS — і збираємо каскад. Результат: затримка 1.5–8 секунд, три точки відмови, три окремих контракти і білінги.

GPT-Realtime-2 і Gemini Live API — це принципово інший підхід. Обидві моделі приймають аудіо на вхід і повертають аудіо на вихід без проміжних конвертацій у текст. Reasoning відбувається всередині єдиної петлі. Затримка до першої аудіо-відповіді — від 300 мс до 2.3 секунд залежно від рівня thinking.

Чому порівняння саме цих двох актуальне зараз:

  • Обидві вийшли в production-ready статусі протягом 7 тижнів одна від одної
  • Обидві мають WebSocket API з подібною event-driven архітектурою
  • Обидві закривають один і той самий клас задач — голосові агенти
  • Але ціна між ними відрізняється до 182 разів залежно від моделі

Вибір між ними — це не питання смаку. Це питання архітектури, бюджету і конкретних вимог продукту.

Важлива деталь: в цій статті ми порівнюємо GPT-Realtime-2 (флагман OpenAI, травень 2026) з Gemini 3.1 Flash Live (флагман Google, березень 2026) — актуальні моделі станом на травень 2026. Попередні версії (GPT-Realtime-1.5, Gemini 2.5 Flash Live) мають інші характеристики і ціни.

WebSocket, WebRTC і SIP — що це таке і в чому різниця

Обидва API підтримують кілька протоколів підключення. Якщо ви вже знаєте різницю — пропускайте цей розділ. Якщо ні — ось коротке пояснення без зайвої теорії.

WebSocket — постійний двосторонній канал

WebSocket — це протокол що встановлює постійне з'єднання між вашим сервером і API. На відміну від звичайного HTTP де кожен запит відкриває і закриває з'єднання, WebSocket тримає канал відкритим весь час розмови. Через нього одночасно йдуть два потоки: ваш аудіо до моделі і аудіо моделі до вас.

Коли використовувати: Node.js або Python бекенд, серверний застосунок, будь-яка архітектура де аудіо обробляється на сервері.

Перевага: повний контроль над сесією, підходить для складних агентських флоу, прямий API ключ без додаткових кроків.

WebRTC — браузерний протокол для аудіо

WebRTC (Web Real-Time Communication) — протокол оптимізований для передачі аудіо і відео прямо в браузері з мінімальною затримкою. Він захоплює мікрофон користувача нативно і передає аудіо напряму до API без проміжного сервера для медіа.

Коли використовувати: браузерний застосунок або мобільний клієнт де аудіо йде з мікрофона користувача. Для безпеки потрібен ephemeral token — короткочасний ключ що генерується вашим бекендом і передається клієнту.

Перевага: менше серверної інфраструктури для медіа, найкраща затримка для браузера, нативне захоплення мікрофона.

SIP — протокол для реальної телефонії

SIP (Session Initiation Protocol) — стандартний протокол телефонної галузі. Якщо ви будуєте агента для реальних телефонних дзвінків (не через браузер чи застосунок, а через звичайний номер телефону) — вам потрібен SIP.

Коли використовувати: call-центри, outbound дзвінки, інтеграція з АТС, будь-який сценарій де кінцевий користувач дзвонить на звичайний номер.

Важлива відмінність між платформами: GPT-Realtime-2 має нативний SIP endpoint (поки в beta). Gemini Live API SIP нативно не підтримує — для телефонії потрібен міст через Twilio, Telnyx або Voximplant.

Таблиця вибору протоколу:

Браузер / мобільний додаток → WebRTC
Node.js / Python бекенд → WebSocket
Реальні телефонні дзвінки → SIP (GPT-Realtime-2) або Twilio/Telnyx → WebSocket (Gemini)
Просто протестувати → Playground (OpenAI) або AI Studio (Google)
GPT-Realtime-2 vs Gemini Live API: що обрати для голосового агента у 2026 році

Архітектура: GPT-Realtime-2 vs Gemini Live API — як кожна модель обробляє голос

Обидві моделі відмовились від каскадного підходу ASR → LLM → TTS. Але реалізували це по-різному.

GPT-Realtime-2: speech-to-speech з reasoning рівня GPT-5

GPT-Realtime-2 — перша голосова модель OpenAI з reasoning рівня GPT-5. Приймає PCM16 аудіо на вхід (24 кГц), обробляє в єдиній моделі і повертає аудіо на вихід. Текстова транскрипція генерується паралельно як додатковий вихід.

Ключові архітектурні деталі:

  • Контекстне вікно: 128K токенів
  • Аудіо формат: PCM16, 24 кГц вхід / вихід
  • Максимум сесії: 60 хвилин
  • Reasoning effort: 5 рівнів — minimal, low, medium, high, xhigh
  • VAD: semantic VAD (розуміє контекст, не просто тишу)
  • Пов'язані моделі: GPT-Realtime-Translate (переклад), GPT-Realtime-Whisper (транскрипція)

Gemini 3.1 Flash Live: нативно мультимодальна

Gemini 3.1 Flash Live — нативно мультимодальна модель, побудована на базі Gemini 3 Pro. Приймає аудіо, відео, зображення і текст одночасно. Це головна архітектурна відмінність від GPT-Realtime-2: модель може бачити екран або відеопотік користувача під час розмови.

Ключові архітектурні деталі:

  • Контекстне вікно: 128K токенів
  • Аудіо формат: PCM16, 16 кГц вхід (менше ніж у GPT-Realtime-2)
  • Максимум сесії: 10 хвилин (базово), до 30 хв з session resumption
  • Thinking: 4 рівні — minimal, low, medium, high (дефолт minimal)
  • VAD: автоматичний + ручне керування через ActivityStart/ActivityEnd
  • Мультимодальність: аудіо + відео + зображення + текст одночасно
Головна архітектурна різниця: GPT-Realtime-2 — це виключно аудіо-в-аудіо з потужним reasoning. Gemini 3.1 Flash Live — це мультимодальна модель що може одночасно бачити, чути і говорити. Якщо вашому агенту не потрібне відео — ця різниця не має значення. Якщо потрібне — Gemini єдиний варіант.

Ключові відмінності: відео, мови, сесія, thinking — порівняльна таблиця

Характеристика GPT-Realtime-2 Gemini 3.1 Flash Live
Дата виходу 7 травня 2026 26 березня 2026
Базова модель GPT-5 class Gemini 3 Pro
Відео вхід ❌ Немає ✅ Є
Контекстне вікно 128K токенів 128K токенів
Макс. сесія 60 хвилин 10 хв (до 30 з resumption)
Мови розмови Широка підтримка 90+ мов
Thinking рівні 5 (minimal→xhigh) 4 (minimal→high)
Дефолт thinking low minimal
Протоколи WebSocket, WebRTC, SIP (beta) WebSocket, WebRTC
SIP нативно ✅ Beta ❌ Через партнерів
Preambles ✅ Є ❌ Немає нативно
Affective dialog Тональне налаштування ✅ Повноцінний (2.5 Flash)
Переклад Окрема модель (Translate) Вбудований
OpenRouter ❌ Не підтримується ❌ Не підтримується (Live API)
Vertex AI
Бенчмарк Big Bench Audio 96.6% (high) 96.6% (high) — рівні
Audio MultiChallenge 70.8% APR 36.1%

Джерела бенчмарків: Artificial Analysis via Latent Space, Interesting Engineering.

Ціни: скільки коштує хвилина розмови у кожному випадку

Це найбільш вражаючий розрив між двома платформами. За даними Speko (березень 2026), різниця у вартості між старшими моделями становила 182 рази. З релізом GPT-Realtime-2 ціни змінились, але розрив залишається суттєвим.

GPT-Realtime-2 — токенний білінг

Тип Ціна Приблизно / хв
Input аудіо-токени $32 / 1M токенів ~$0.077/хв
Кешовані input токени $0.40 / 1M токенів ~$0.001/хв
Output аудіо-токени $64 / 1M токенів ~$0.154/хв
Разом (типовий дзвінок) ~$0.23/хв

GPT-Realtime-Translate: $0.034/хв. GPT-Realtime-Whisper: $0.017/хв.

Gemini 3.1 Flash Live — токенний білінг

Тип Ціна Приблизно / хв
Input аудіо-токени $3.00 / 1M токенів ~$0.007/хв
Output аудіо-токени $12.00 / 1M токенів ~$0.029/хв
Разом (типовий дзвінок) ~$0.036/хв

Додатково: Gemini API має безкоштовний tier через Google AI Studio з rate limits — для тестування і прототипування не потрібно платити взагалі.

Порівняння вартості за сценаріями

Сценарій GPT-Realtime-2 Gemini 3.1 Flash Live Різниця
1 дзвінок 5 хв ~$1.15 ~$0.18 6.4x
1,000 хв / місяць ~$230 ~$36 6.4x
10,000 хв / місяць ~$2,300 ~$360 6.4x
100,000 хв / місяць ~$23,000 ~$3,600 6.4x
Важливий нюанс по білінгу GPT-Realtime-2: токенний білінг означає що вартість зростає з довжиною контексту. Чим довша розмова — тим більше input-токенів (бо контекст накопичується). При дзвінках понад 10–15 хвилин реальна вартість хвилини збільшується. У Gemini — аналогічна механіка, але базова ціна за токен нижча. Завжди вимірюйте реальний token usage на своїх сценаріях, не покладайтесь на теоретичні розрахунки.

OpenRouter, Vertex AI та екосистема: чому зручність інтеграції важливіша ніж здається

Ціна і можливості моделі — це лише частина рівняння. Зручність інтеграції, гнучкість архітектури і можливість легко замінювати моделі — це те з чим ви будете жити щодня в розробці.

OpenRouter — чому я ним користуюсь і чому він тут не підійде

Чесно скажу: я регулярно використовую OpenRouter для роботи з текстовими моделями. Головна перевага — один API ключ, один формат запиту, і ви можете перемикатись між GPT-4o, Claude Sonnet, Gemini Flash або будь-якою іншою моделлю змінивши лише рядок з назвою моделі. Ніякого переписування коду. Це дуже зручно для порівняння моделей, A/B тестування і зниження vendor lock-in.

Але для Realtime API — ні OpenRouter, ні жоден інший агрегатор не підійде. Причина архітектурна: OpenRouter побудований на HTTP-інфраструктурі, а Realtime API потребує постійного WebSocket-з'єднання. Це не обмеження OpenRouter як продукту — це несумісність протоколів. Два різних інструменти для двох різних задач.

Важлива деталь: і GPT-Realtime-2, і Gemini Live API однаково недоступні через OpenRouter. Це не перевага жодної з платформ — це загальне обмеження класу Realtime API.

Vertex AI — перевага Gemini для enterprise

Gemini Live API доступний через Vertex AI — Google Cloud платформу для enterprise. Це дає:

  • SLA і гарантії uptime корпоративного рівня
  • Data residency — ваші дані залишаються в обраному регіоні
  • Інтеграція з іншими сервісами Google Cloud (BigQuery, Cloud Storage, Pub/Sub)
  • HIPAA, SOC2 compliance через Vertex AI
  • Model Optimizer — автоматичний вибір між Flash і Pro залежно від складності запиту

GPT-Realtime-2 доступний тільки напряму через OpenAI API. Немає аналога Vertex AI — лише прямий ключ через platform.openai.com.

Google AI Studio — безкоштовне тестування

Окремо хочу порадити з власного досвіду: перш ніж підключати будь-який Realtime API до свого проєкту і витрачати гроші — витратьте 10 хвилин у безкоштовних sandbox-середовищах. Вони суттєво відрізняються між собою, і ця різниця важлива.

Google AI Studio — моя перша рекомендація для початку. Ви отримуєте повноцінний доступ до Gemini Live API без кредитної картки і без білінгу. Просто реєструєтесь через Google акаунт і одразу говорите з моделлю через мікрофон у браузері. Є rate limits, але для первинної оцінки і прототипування їх повністю вистачає. Я використовував AI Studio щоб зрозуміти як модель поводиться на реальних сценаріях ще до того як прийняв будь-яке рішення по архітектурі.

OpenAI Playground теж має інтерфейс для GPT-Realtime-2 з мікрофоном прямо в браузері — і він також підходить для тестування. Але є важлива відмінність: Playground використовує ваш реальний API ключ і реальний білінг. Тестування безкоштовне лише поки ви в рамках початкових кредитів акаунту — потім кожна хвилина розмови списується за стандартними тарифами.

Моя практична порада: починайте з Google AI Studio — це нульовий ризик і нульові витрати. Поговоріть з Gemini Live на своїх реальних сценаріях. Потім зайдіть в OpenAI Playground і повторіть те саме з GPT-Realtime-2. Порівняйте живе відчуття від розмови, затримку і якість відповідей на вашому контенті — не на маркетингових демо. Тільки після цього варто вирішувати яку платформу інтегрувати. Обидва інструменти дають реальне уявлення про модель за 15 хвилин без жодного рядка коду.
Моя думка як розробника: якби існував OpenRouter для Realtime API — це б вирішило більшість проблем vendor lock-in. Поки його немає, і GPT-Realtime-2, і Gemini Live вимагають окремої інтеграції. Єдиний спосіб зберегти гнучкість — проектувати abstraction layer у власному коді: окремий клас/модуль для голосового агента з інтерфейсом що не залежить від конкретної платформи. Тоді зміна GPT-Realtime-2 на Gemini або навпаки — це заміна одного адаптера, а не переписування всього.

Для якого сценарію обрати GPT-Realtime-2

✅ Складні агентські флоу з кількома tool calls

GPT-Realtime-2 має перевагу на задачах де агент мусить одночасно викликати кілька інструментів і озвучувати що робить. На Scale AI Audio MultiChallenge модель показала 70.8% APR проти 36.1% у Gemini 3.1 Flash Live. Це майже вдвічі краще на задачах що імітують складні реальні розмови з перебиваннями і фоновим шумом.

✅ Compliance-чутливі сценарії

Zillow на своєму adversarial benchmark (Fair Housing compliance) отримала 95% успішних дзвінків проти 69% на попередній версії. Якщо ваш продукт має юридичні або регуляторні обмеження на що може говорити агент — GPT-Realtime-2 показує кращу стійкість.

✅ Довгі сесії (понад 10 хвилин)

Максимум 60 хвилин проти 10 хвилин у Gemini (до 30 з session resumption). Для call-центрів де дзвінок може тривати 20–40 хвилин — GPT-Realtime-2 не потребує логіки reconnect.

✅ Телефонна інтеграція через SIP

Нативний SIP endpoint (beta) — єдина платформа з прямою підтримкою телефонного протоколу без обов'язкового моста через Twilio або Telnyx.

✅ Живий переклад з 70+ мов

GPT-Realtime-Translate підтримує 70+ вхідних мов через окрему спеціалізовану модель за $0.034/хв. BolnaAI зафіксувала зниження Word Error Rate на 12.5% для хінді, тамільської і телугу.

✅ Команди що вже на OpenAI екосистемі

Якщо у вас вже є GPT-4o або GPT-5 в продакшн — той самий API ключ підходить для Realtime API. Немає нового акаунту, нового білінгу, нової документації.

Для якого сценарію обрати Gemini Live API

✅ Вартість — головний критерій

~$0.036/хв проти ~$0.23/хв — різниця 6.4 рази на поточних моделях. При 10,000 хвилин на місяць це $360 проти $2,300. При 100,000 хвилин — $3,600 проти $23,000. Для consumer-продуктів з великими обсягами це може бути визначальним фактором.

✅ Відео + аудіо одночасно

Gemini Live API бачить відеопотік, зображення і аудіо одночасно. GPT-Realtime-2 — тільки аудіо. Якщо ваш агент мусить бачити екран користувача, аналізувати відео або реагувати на зорові сигнали — Gemini єдиний варіант серед двох.

✅ Широке мовне охоплення

90+ мов для розмови проти вужчого переліку у GPT-Realtime-2. Якщо ваш продукт орієнтований на ринки з менш поширеними мовами — Gemini має ширше покриття нативно.

✅ Google Cloud екосистема

Якщо ваша інфраструктура вже на Google Cloud — Vertex AI дає нативну інтеграцію, єдиний білінг, compliance і SLA в рамках вже існуючого контракту.

✅ Прототипування без витрат

Безкоштовний tier через Google AI Studio дозволяє тестувати без кредитної картки. Для стартапів на ранній стадії або для порівняльного тестування — це реальна перевага.

✅ Affective dialog (на моделі 2.5 Flash)

Gemini 2.5 Flash Live має повноцінний affective dialog — модель інтерпретує тон, емоції і темп мовлення і адаптує відповідь. У Gemini 3.1 Flash Live ця функція поки не підтримується. Якщо емоційний інтелект агента критично важливий — потрібно тестувати обидві версії.

Чого зараз не вистачає — реальні обмеження обох у 2026 році

Ні OpenAI, ні Google не пишуть про свої gap-и в прес-релізах. Але розробник що вибирає платформу для продакшн повинен знати що доведеться будувати самому або чекати.

GPT-Realtime-2 — чого не вистачає

  • ❌ Відео вхід відсутній. Якщо агент мусить бачити — Gemini єдиний варіант. OpenAI поки не анонсувала відео в Realtime API.
  • ❌ SIP в beta, не в GA. Для production телефонії поки потрібен міст через Twilio або Telnyx з додатковою вартістю і складністю.
  • ❌ Тільки 13 вихідних мов у Translate. 70+ вхідних, але лише 13 на виході. Якщо потрібна мова якої немає в списку вихідних — не підійде.
  • ❌ Немає агрегатора типу OpenRouter. Жорсткий vendor lock-in — якщо захочете перейти на іншу модель, потрібно переписувати інтеграцію.
  • ❌ Вища вартість. У 6.4 рази дорожче ніж Gemini 3.1 Flash Live на аналогічних сценаріях — суттєво для великих обсягів.

Gemini Live API — чого не вистачає

  • ❌ Сесія лише 10 хвилин. З session resumption — до 30 хвилин, але це потребує додаткової логіки. GPT-Realtime-2 дає 60 хвилин нативно без reconnect.
  • ❌ Немає SIP нативно. Для телефонної інтеграції обов'язково потрібен третій сервіс: Twilio, Telnyx або Voximplant як міст.
  • ❌ Немає аналогу Preambles. GPT-Realtime-2 дозволяє моделі вимовляти короткі фрази під час thinking. У Gemini Live цієї функції немає нативно — тишу під час обробки доведеться заповнювати власною логікою.
  • ❌ Affective dialog не в Gemini 3.1. Є у 2.5 Flash Live, але відсутня в новій 3.1 Flash Live. Якщо потрібна — або чекайте оновлення, або використовуйте 2.5.
  • ❌ Слабші результати на Audio MultiChallenge. 36.1% проти 70.8% у GPT-Realtime-2 на задачах зі складними інструкціями в умовах перебивань і шуму.
  • ❌ Ризик зміни ціни. Поточне ціноутворення Gemini агресивне і, ймовірно, відображає стратегію захоплення ринку. Аналітики Speko попереджають: ціни можуть зрости у міру дорослішання продукту.
Спільні gap-и обох платформ:

❌ Немає агрегатора типу OpenRouter для Realtime API — обидва потребують прямої інтеграції
❌ Немає нативного запису і зберігання дзвінків
❌ Немає вбудованого dashboardу для моніторингу якості дзвінків
❌ Немає A/B тестування між моделями без власного routing layer

Висновок: моя особиста думка після роботи з обома API

Після того як я детально розібрав обидві платформи, спробував їх у Playground і AI Studio і порівняв цифри — ось моє чесне резюме.

GPT-Realtime-2 — це правильний вибір коли якість важливіша за вартість. На складних агентських сценаріях, compliance-чутливих задачах і довгих сесіях вона перевершує Gemini Live. Різниця в 70.8% проти 36.1% на Audio MultiChallenge — це не маркетинг, це реальна різниця в поведінці агента під тиском. Якщо ви будуєте продукт де помилка агента коштує дорого (медицина, фінанси, юридичні сервіси) — ця різниця важлива.

Gemini Live API — це правильний вибір коли масштаб і вартість важливіші. При 100,000 хвилин на місяць різниця в $19,400 — це не дрібниця. Плюс відео, плюс ширше мовне покриття, плюс Google Cloud ecosystem для enterprise. Для consumer-продуктів з великою аудиторією — це суттєві аргументи.

Головне про що я думаю постійно під час роботи з обома: відсутність агрегатора типу OpenRouter для Realtime API — це реальна проблема. В текстових моделях я можу змінити модель одним рядком коду і порівняти результати. В голосових API кожна зміна платформи — це нова інтеграція. Поки рішення одне: проектувати власний abstraction layer від початку.

Якщо мені треба дати одну рекомендацію: починайте з Gemini AI Studio безкоштовно, щоб зрозуміти чи підходить voice AI взагалі для вашого сценарію. Потім тестуйте GPT-Realtime-2 на тих самих сценаріях. Вибирайте на основі реальних вимірювань, а не маркетингових обіцянок.

Читайте також:

OpenAI випустила GPT-Realtime-2: перша голосова модель з GPT-5-рівнем мислення — новинна стаття про реліз: що змінилось, реальні кейси Zillow і Deutsche Telekom, ціни.

GPT-Realtime-2: технічний гід — WebSocket API, підключення і приклади коду 2026 — як підключити GPT-Realtime-2 через WebSocket з кодом на JS і Python.

Codex від OpenAI: повний гід 2026 — якщо вас цікавить ширша OpenAI-екосистема для розробників.

Джерела: OpenAI офіційний анонс, Google Gemini 3.1 Flash Live анонс, Speko S2S Benchmark 2026, Latent Space AI News, Google Gemini Live API Docs, OpenAI Realtime API Docs, Interesting Engineering

Останні статті

Читайте більше цікавих матеріалів

Agent Chat: два AI агенти що сперечаються — Spring Boot 4 + Spring AI + Ollama / OpenRouter

Agent Chat: два AI агенти що сперечаються — Spring Boot 4 + Spring AI + Ollama / OpenRouter

Що буде якщо дати двом AI протилежні переконання і змусити їх сперечатись на задану тему? Саме це питання стало відправною точкою для Agent Chat — експерименту де два агенти з різними характерами ведуть діалог в реальному часі, підкріплюючи аргументи реальними фактами з Wikipedia, Tavily,...

GPT-Realtime-2 vs Gemini Live API: що обрати для голосового агента у 2026 році

GPT-Realtime-2 vs Gemini Live API: що обрати для голосового агента у 2026 році

Два флагмани real-time голосового AI вийшли практично одночасно. OpenAI випустила GPT-Realtime-2 7 травня 2026 року. Google запустила Gemini 3.1 Flash Live 26 березня 2026 року. Обидві — speech-to-speech моделі з reasoning всередині. Обидві — для голосових агентів у продакшн. Але під капотом...

GPT-5.5 в Codex: що змінилось для розробників у 2026

GPT-5.5 в Codex: що змінилось для розробників у 2026

23 квітня 2026 OpenAI випустила GPT-5.5 — і одразу зробила її дефолтною моделлю в Codex. Але не кожен апдейт насправді щось змінює у щоденній роботі. Цей — змінює. Три речі, які важливі для розробника: менше токенів на ті ж задачі, та сама швидкість що й GPT-5.4, і якісно новий...

GPT-Realtime-2: технічний гід — WebSocket API, підключення і приклади коду

GPT-Realtime-2: технічний гід — WebSocket API, підключення і приклади коду

Ця стаття — практичний гід для розробників що хочуть підключити GPT-Realtime-2 до свого проєкту. Ми розберемо архітектуру Realtime API, виберемо правильний метод підключення для вашого сценарію, напишемо першу робочу сесію з нуля і налаштуємо preambles, tool calls і recovery з реальним...

OpenAI випустила GPT-Realtime-2: перша голосова модель з GPT-5-рівнем мислення

OpenAI випустила GPT-Realtime-2: перша голосова модель з GPT-5-рівнем мислення

7 травня 2026 року OpenAI зробила анонс, який багато хто в спільноті розробників чекав давно: три нові голосові моделі в Realtime API. Флагман — GPT-Realtime-2 — перша в лінійці, де мислення рівня GPT-5 вбудоване прямо в голосовий потік. Без затримок між розпізнаванням і відповіддю. Без окремих...

Яку модель Ollama обрати для агента з tool calling: порівняння і бенчмарки

Яку модель Ollama обрати для агента з tool calling: порівняння і бенчмарки

Tool calling в Ollama — одна з найбільш неочевидних фіч локальних моделей. Не тому що API складний. А тому що між «модель підтримує tools» у документації і «модель стабільно викликає tools у продакшні» — велика різниця яку можна виявити тільки під навантаженням. Одні моделі...