Gemini 3.5 Flash після Google I/O 2026: нова модель, нові ціни і чому дефолт thinking змінився

Actualizado:
Gemini 3.5 Flash після Google I/O 2026: нова модель, нові ціни і чому дефолт thinking змінився

Цей огляд базується на офіційній документації Google DeepMind, анонсі з Google I/O 2026 (19 травня) та незалежних технічних аналізах. Де посилаюсь на конкретні цифри — вказую джерело.

Зміст

  1. Що таке Gemini 3.5 Flash і чому цей реліз нестандартний
  2. Архітектура: thinking levels, 1M контекст, knowledge cutoff січень 2026
  3. Tool use та function calling: @tool як перша особа в агенті
  4. Бенчмарки: де Flash виграє — і дві регресії, які Google не виніс у заголовки
  5. Швидкість: 4x швидше — і чому для агентів реальна цифра інша
  6. Реальна економіка: не $9, а $0.15 — як рахувати вартість agent loop
  7. Де запущено: Gemini app, Antigravity 2.0, AI Studio, Vertex, Search
  8. Порівняння з Claude Opus 4.7 та GPT-5.5 — по задачах, не по хайпу
  9. Де Flash програє і коли залишитись на Pro
  10. Lazy модель більше не лінується — що змінилось на практиці
  11. Gemini 3.5 Pro — що відомо про наступну модель (червень 2026)
  12. Висновок: Researcher vs Builder — як обирати модель у 2026

1. Що таке Gemini 3.5 Flash і чому цей реліз нестандартний

19 травня 2026 року, на відкритті Google I/O 2026, Google DeepMind випустив Gemini 3.5 Flash у загальний доступ. Це перша модель нової лінійки Gemini 3.5 — і вона одразу порушила звичну логіку модельних релізів.

Традиційна схема виглядала так: спочатку виходить Pro — найпотужніша і найдорожча модель, а Flash зявляється пізніше як бюджетний варіант. За даними felloai.com, Google цього разу перевернув схему: Gemini 3.5 Flash на офіційних бенчмарках перевершує Gemini 3.1 Pro на задачах кодингу та agentic workflows — і при цьому коштує на 40% дешевше та працює в 4 рази швидше.

Gemini 3.5 Pro на I/O не вийшов. За повідомленнями Let's Data Science та Business Insider, анонс затримки Pro спричинив виразні вигуки розчарування в залі. Пічаї особисто сказав аудиторії: "I know you can't wait to get your hands on it. Give us until next month to get it to you". Pro зараз використовується тільки внутрішньо в Google, очікується у червні 2026.

Таким чином, Flash — не полегшена версія, а єдина актуальна модель у лінійці 3.5, доступна сьогодні. Саме вона живить Antigravity 2.0, Gemini Spark і AI Mode в Google Search.

2. Архітектура: thinking levels, 1M контекст, knowledge cutoff січень 2026

Базові специфікації

За офіційною model card Google DeepMind:

  • API model ID: gemini-3.5-flash (без суфікса preview — стабільна GA версія)
  • Snapshot: gemini-3.5-flash-05-2026
  • Контекстне вікно input: 1 048 576 токенів (1M)
  • Максимальний output: 65 536 токенів
  • Мультимодальний input: текст, зображення, аудіо, відео, PDF
  • Knowledge cutoff: січень 2026

Knowledge cutoff: +12 місяців — чому це важливо

Попередній Gemini 3 Flash мав knowledge cutoff у січні 2025. За даними llm-stats.com, Gemini 3.5 Flash — січень 2026. Різниця в рік. Для розробника це конкретна практична вигода: фреймворки, бібліотеки, API — модель знає їхні актуальні версії без RAG-милиць.

Thinking levels замість thinking_budget

Це важлива зміна з прямими наслідками для вашого коду. Офіційна документація Gemini API: параметр thinking_budget (ціле число) замінений на thinking_level (enum-рядок):

  • minimal — мінімальне міркування, максимальна швидкість
  • low — легке міркування
  • medium — баланс (новий дефолт, замість попереднього high)
  • high — глибоке міркування для складних задач

Критична деталь для міграції від byteiota.com: якщо ви просто зміните model string з gemini-3-flash-preview на gemini-3.5-flash без інших змін — дефолтний рівень thinking зміниться з high на medium. Це мовчки знизить якість відповідей у вашому застосунку. Завжди перевіряйте поведінку після міграції.

Також: thought preservation увімкнена за замовчуванням. Модель зберігає reasoning context між ходами — покращує якість багатоходових задач, але збільшує витрати токенів на довгих розмовах.

Повний чеклист міграції від офіційного Google Developer Guide на DEV Community:

  • Оновіть model string: gemini-3-flash-preview → gemini-3.5-flash
  • Замініть thinking_budget на thinking_level
  • Видаліть temperature, top_p, top_k з конфігу
  • Додайте id та відповідний name до всіх FunctionResponse parts
  • Оновіть SDK до google-genai v2.0.0 або новіше
  • Перевірте token usage — thought preservation тепер активна за замовчуванням
Gemini 3.5 Flash після Google I/O 2026: нова модель, нові ціни і чому дефолт thinking змінився

3. Tool use та function calling: @tool

Tool use — не просто ще одна фіча. За Coding Beauty: "Tool use is becoming the real operating system for AI". Gemini 3.5 Flash побудований навколо цього з першого дня.

MCP Atlas 83.6% — найвищий показник серед усіх моделей

За даними aimadetools.com: Gemini 3.5 Flash отримав 83.6% на MCP Atlas — це найвищий показник серед усіх протестованих моделей. MCP Atlas — benchmark саме на якість оркестрації зовнішніх інструментів і складних tool-calling workflows. Для розробника, що будує agent із десятками @tool викликів, це найпрактичніша цифра у всьому релізі.

Що підтримується з коробки

За офіційною документацією Gemini API, в одному запиті можна одночасно комбінувати:

  • Google Search — grounding на актуальних даних з вебу
  • Google Maps — геолокаційні запити
  • URL context — читання зовнішніх сторінок
  • Code execution — запуск коду в sandbox
  • Custom functions — ваші власні @tool

Все це паралельно, в одному API call. Раніше вам доводилось будувати orchestration layer вручну; тепер модель сама вирішує, які інструменти запустити і в якому порядку.

Breaking change у FunctionResponse — що зламається у старому коді

Офіційна документація фіксує критичну зміну: тепер у кожному FunctionResponse потрібно передавати і id, і name, що відповідають попередньому functionCall. Якщо ваш старий код не передає id — він поламається без очевидного error message.

// Правильно — з id та name
{
  functionResponse: {
    name: toolCall.name,
    id: toolCall.id,      // НОВЕ — обовязково
    response: { result: result }
  }
}

Ще один нюанс: якщо ви додаєте інструкції разом з FunctionResponse — не робіть їх окремими Parts. Додавайте їх до тексту function response через два переноси рядка. Інакше — "thought leakage" і нижча якість output.

Паралельний tool use: thought signatures

За офіційною документацією Gemini 3 Developer Guide, при паралельному function calling: тільки перший functionCall у списку містить thoughtSignature. Ви повинні повертати Parts у точно тому самому порядку, в якому їх отримали. Порушення порядку — помилка API.

Реальні кейси

За MarkTechPost:

  • Salesforce Agentforce — субагенти зберігають контекст між складними багатоходовими tool calls
  • Shopify — паралельні субагенти для аналізу даних і прогнозування зростання мерчантів
  • Ramp — OCR фінансових документів зі складними tool chains

Що не підтримується

Офіційна документація прямо: "Computer Use is not supported at this moment". Для workloads з прямим управлінням ОС — залишайтесь на Gemini 3 Flash Preview або дивіться в бік GPT-5.5.

4. Бенчмарки: де Flash виграє — і дві регресії, які Google не виніс у заголовки

Усі бенчмарки — з офіційної публікації Google DeepMind від 19 травня 2026, якщо не вказано інше. Handy AI Substack зібрав повну таблицю включно з регресіями.

Бенчмарк Gemini 3.5 Flash Gemini 3.1 Pro Хто кращий
Terminal-Bench 2.1 (CLI coding agents) 76.2% 70.3% Flash
MCP Atlas (agentic tool use) 83.6% 78.2% Flash
Finance Agent v2 57.9% 43.0% Flash (+14.9 пп)
CharXiv Reasoning 84.2% нижче Flash
GDPval-AA (real-world agentic) 1656 Elo 1314 Elo Flash (+342 Elo)
MRCR v2 при 1M (довгий контекст) 77.3% 84.9% Pro (регресія)
Humanity's Last Exam 40.2% 44.4% Pro (регресія)
ARC-AGI-2 72.1% 77.1% Pro (регресія)

Дві регресії, про які Google мовчить у заголовках

llm-stats.com формулює чесно: Flash поступається 3.1 Pro на Humanity's Last Exam (40.2% vs 44.4%) і ARC-AGI-2 (72.1% vs 77.1%). Це не баги — це архітектурний вибір: Flash оптимізований для реальної роботи, а не для абстрактного reasoning. Фрейм від llm-stats.com: "If your workload is an agent that needs to get something done rather than a researcher asking a hard question — 3.5 Flash is the better choice today".

Незалежний BenchLM.ai ставить Flash на #11 зі 116 моделей. Найсильніша категорія — Agentic (#3 з усіх). Найслабша — Instruction Following (#37).

5. Швидкість: 4x швидше — і чому для агентів реальна цифра інша

Google заявляє: Gemini 3.5 Flash генерує токени в 4 рази швидше за інші frontier-моделі. WaveSpeed та Artificial Analysis підтверджують: понад 289 output токенів на секунду. Claude Opus 4.7 — 67 tok/s, GPT-5.5 — 71 tok/s.

Але є важливий нюанс від Build Fast with AI: "Faster token generation reduces the part of an agent's time spent generating text, and for agentic coding that text portion is often large. So agents get faster, but not 4x". Частина часу агента витрачається на виклики зовнішніх інструментів, очікування API, файлові операції — і цю частину модель не прискорює.

Усередині Antigravity 2.0 Google заявляє 12x прискорення завдяки оптимізованому agent harness. Для масштабу: VentureBeat повідомляє, що розробники Google у Antigravity обробляли 0.5 трлн токенів на день у березні 2026, а до травня — понад 3 трлн. Зростання в 6 разів за 10 тижнів.

6. Реальна економіка: не $9, а $0.15 — як рахувати вартість agent loop

Більшість оглядів зупиняється на $9.00 за мільйон output токенів. Але для agent workflows це неповна картина.

Базова таблиця цін

За llm-stats.com та WaveSpeed:

Модель Input ($/1M) Output ($/1M) Cached input ($/1M)
Gemini 3 Flash (попередня) $0.50 $3.00
Gemini 3.5 Flash (нова) $1.50 $9.00 $0.15
Gemini 3.1 Pro $2.50 $15.00

Чому $0.15 cached input — ключова цифра для агентів

aimadetools.com пояснює: у типовому agent loop system prompt і tool definitions повторюються в кожному запиті. Без кешування ці токени рахуються за $1.50/M у кожному виклику. З кешуванням — $0.15/M, знижка 90%.

Для agent harness із 50 паралельними субагентами і system prompt на 5000 токенів — різниця між кешованим і некешованим input стає головним cost lever, а не базова ціна per token. llm-stats.com: "The 90% cache discount makes long agent contexts the dominant cost lever, not per-request input".

Де є реальне невдоволення

3.5 Flash у 3 рази дорожчий за попередній Gemini 3 Flash. Latent Space фіксує: спільнота на r/LocalLLaMA реагує негативно на зростання per-token ціни. Build Fast with AI: "At 3x the previous Flash price, Google is asking you to validate that the capability jump is worth it".

7. Де запущено: Gemini app, Antigravity 2.0, AI Studio, Vertex, Search

WaveSpeed підтверджує: 19 травня 2026 Gemini 3.5 Flash став доступним одночасно у всіх основних поверхнях:

  • Gemini app (веб, Android, iOS) — дефолтна модель, включно з безкоштовним tier
  • AI Mode в Google Search — глобальний rollout
  • Google Antigravity 2.0 — з оптимізованим agent harness (12x швидкість у середовищі платформи)
  • Google AI Studio — Build mode та стандартний API
  • Gemini API — stable ID: gemini-3.5-flash; snapshot: gemini-3.5-flash-05-2026
  • Vertex AI — enterprise API з tiered SLAs
  • Android Studio
  • Gemini Enterprise Agent Platform

Безкоштовний доступ: за felloai.com, Flash безкоштовний у Gemini app (денні ліміти) та в AI Studio через API-ключ.

Branding confusion: Latent Space фіксує проблему від спільноти: розробники після I/O не розуміють — використовувати Gemini CLI чи Antigravity CLI. Офіційна позиція: Gemini CLI закривається 18 червня 2026, Antigravity CLI — його заміна. Але документація ще не оновлена скрізь.

8. Порівняння з Claude Opus 4.7 та GPT-5.5 — по задачах, не по хайпу

Порівняння базується на офіційних бенчмарках та аналізах felloai.com, aimadetools.com та Handy AI.

Задача Gemini 3.5 Flash Claude Opus 4.7 GPT-5.5
Agentic tool use (MCP Atlas) 83.6% нижче нижче
Terminal / CLI coding 76.2% 69.4% 82.7%
Finance Agent v2 57.9% нижче
SWE-Bench Verified нижче лідер вище Flash
Hallucination rate середній найнижчий середній
ARC-AGI-2 72.1% 84.6%
Computer Use не підтримується є 75%+ OSWorld
Швидкість output 289 tok/s 67 tok/s 71 tok/s
Ціна output ($/1M) $9.00 (найдешевше) дорожче дорожче

felloai.com: "Gemini's edge is speed and price at near-flagship quality". Flash не претендує на загальну перемогу — він змінює value equation: ця якість за такою ціною і такою швидкістю раніше не існувала у Flash-tier.

9. Де Flash програє і коли залишитись на Pro

Де Gemini 3.5 Flash поступається

  • Terminal coding: GPT-5.5 попереду — 82.7% проти 76.2%.
  • Довгий контекст з точним витягом: MRCR v2 — Flash 77.3% проти Pro 84.9%.
  • Складний кодинг (SWE-Bench): Claude Opus 4.7 і GPT-5.5 попереду.
  • Абстрактне reasoning (ARC-AGI-2): GPT-5.5 лідирує з 84.6% проти 72.1%.
  • Hallucination rate: Claude Opus 4.7 найнижчий. Для критичних задач — суттєво.
  • Computer Use: не підтримується у Flash. GPT-5.5 лідирує.
  • Instruction Following: BenchLM ставить Flash на #37. Для складних строгих інструкцій — перевіряйте окремо.

Коли залишитись на Gemini 3.1 Pro

  • Задача — витяг з дуже довгих документів (близько до 1M токенів), де точність критична.
  • Потрібне найглибше абстрактне reasoning без компромісів.
  • У вас вже налаштований pipeline з точним thinking_budget, і ви не готові перевіряти поведінку після зміни дефолту.

llm-stats.com: "Read the rows, not the headline" — на більшості agentic задач Flash кращий, але є конкретні рядки таблиці, де Pro досі попереду.

10. Lazy модель більше не лінується — що змінилось на практиці

Це розділ, якого немає у більшості технічних оглядів — але саме він найважливіший для розробника, що вже пробував Gemini Flash у роботі.

Місяцями одна з найчастіших скарг на Gemini Flash-моделі звучала так: модель лінується. Конкретні прояви, зафіксовані Build Fast with AI:

  • обрізає складні code outputs і вставляє // TODO: implement this замість реальної логіки;
  • генерує scaffold замість повноцінного коду;
  • завершує завдання раніше, ніж виконало його повністю;
  • у Canvas mode — більше заглушок, ніж реальних рішень.

Ранні тестери Gemini 3.5 Flash, за NPowerUser, кажуть: ця проблема "здебільшого відійшла в минуле". Build Fast with AI уточнює: у тестуванні до I/O модель виробляла "більш повні імплементації з меншою кількістю placeholder comments і більш реальною логікою".

Важливе застереження: "здебільшого" — не "повністю". Для складних задач, де модель раніше стабільно лінувалась, варто тестувати конкретно на вашому use case. Але напрямок зміни правильний, і це підтверджують незалежні тестери.

11. Gemini 3.5 Pro — що відомо про наступну модель (червень 2026)

Офіційна позиція Google на 21 травня 2026: Gemini 3.5 Pro використовується внутрішньо в Google і запланований до виходу "наступного місяця" — тобто у червні 2026. Публічна дата не анонсована.

Що відомо з офіційних джерел та apidog.com:

  • Той самий фокус на agentic coding і long-horizon tasks, що і у Flash.
  • Позиціонується для задач, де task budget включає багатогодинну автономну роботу або deep research.
  • Очікується підтримка Computer Use — якої немає у Flash.
  • Цінова модель — очікується близько до GPT-5.5 і Opus 4.7.

До виходу Pro Flash — єдина актуальна модель лінійки 3.5 і закриває переважну більшість production agentic задач.

12. Висновок: Researcher vs Builder — як обирати модель у 2026

The Inference Report на Medium дає найточніший фрейм: вибір більше не "розумний та повільний" vs "швидкий та поверхневий". Тепер питання інше: вам потрібна глибока параметрична знання Researcher (Gemini 3.1 Pro) — чи низько-латентна ітеративна виконавча здатність Builder (Gemini 3.5 Flash)?

Gemini 3.5 Flash — правильний вибір, якщо:

  • ви будуєте agentic workflows з багатьма @tool викликами;
  • важлива швидкість ітерацій, а не глибина одного reasoning кроку;
  • ваш pipeline перевикористовує system prompt — кешування зробить вас вигіднішими за Pro;
  • ви мігруєте з Gemini 3 Flash і потребуєте кращого tool use.

Залишайтесь на Pro або Claude / GPT-5.5, якщо:

  • задача вимагає найскладнішого абстрактного reasoning;
  • критична мінімальна hallucination rate;
  • потрібен Computer Use;
  • ваш workload — точний витяг з документів близько до 1M токенів.

Для розробників, що вже на Gemini API: зверніть увагу на breaking changes — thinking_level замість thinking_budget, обовязковий id у FunctionResponse, новий дефолт medium замість high, thought preservation за замовчуванням. Проста заміна model string без перевірки — ризик тихої деградації якості.

Gemini 3.5 Pro у червні 2026 змінить картину знову. Але вже зараз Flash — не компроміс. Це нова норма для agentic розробки.

Джерела

Останні статті

Читайте більше цікавих матеріалів

Gemini 3.5 Flash після Google I/O 2026: нова модель, нові ціни і чому дефолт thinking змінився

Gemini 3.5 Flash після Google I/O 2026: нова модель, нові ціни і чому дефолт thinking змінився

Цей огляд базується на офіційній документації Google DeepMind, анонсі з Google I/O 2026 (19 травня) та незалежних технічних аналізах. Де посилаюсь на конкретні цифри — вказую джерело. Зміст Що таке Gemini 3.5 Flash і чому цей реліз нестандартний Архітектура: thinking levels, 1M...

Як керувати контекстом AI агента: sliding window, summarization і compression з прикладами

Як керувати контекстом AI агента: sliding window, summarization і compression з прикладами

TL;DR Як ефективно керувати контекстом у довгоживучих AI-агентах: — Sliding Window + Pinning — Автоматична summarization з розумними тригерами — Compression та semantic memory З конкретними цифрами, кодом і архітектурними рішеннями, які значно підвищили стабільність агента. Ця стаття —...

Google Spam Policy 2026: маніпуляції з AI Overview тепер офіційно спам

Google Spam Policy 2026: маніпуляції з AI Overview тепер офіційно спам

15 травня 2026 року Google тихо оновив одне речення у своїй Spam Policy. Але це речення змінює правила гри для всіх хто займається контентом і SEO. Без гучних анонсів, без великої прес-конференції — просто нове формулювання на сторінці документації. Search Engine Roundtable...

Пам'ять AI агента: in-context, episodic, RAG і semantic — коли що використовувати

Пам'ять AI агента: in-context, episodic, RAG і semantic — коли що використовувати

Агент отримав запит — обробив — відповів. Наступний запит — і він не пам'ятає нічого з попереднього. Не тому що щось зламалось. А тому що так влаштована LLM за замовчуванням: кожен виклик — чистий аркуш. Якщо ви будуєте агента і не думали про пам'ять — ви будуєте амнезика з доступом до...

Grok Build від xAI: детальний технічний огляд

Grok Build від xAI: детальний технічний огляд

Grok Build — новий agentic CLI від xAI (early beta, 14 травня 2026). Головні фішки: Plan Mode з обов’язковим затвердженням плану, паралельні субагенти (до 8), контекстне вікно ~1–2M токенів та сучасний TUI на Rust. Працює на Grok 4.3, підтримує ACP, git worktree та MCP....

Ollama 0.24 + Codex App: як запустити локальний AI coding agent

Ollama 0.24 + Codex App: як запустити локальний AI coding agent

Оновлено: 15 травня 2026 14 травня 2026 вийшла Ollama 0.24 — і це не черговий патч з виправленням багів. Цей реліз додає офіційну підтримку Codex App від OpenAI: тепер десктопний AI coding agent можна запустити на будь-якій локальній або хмарній моделі через Ollama....