TL;DR за 30 секунд: DeepSeek V4 Flash — MoE-модель з 284B параметрами (13B активних), контекстом 1M токенів і MIT-ліцензією. Вийшла 24 квітня 2026 року. Коштує $0.14/$0.28 за мільйон токенів — дешевше за Claude Haiku 4.5, Gemini 3.1 Flash і GPT-5.4 Nano. Доступна через Ollama Cloud на NVIDIA Blackwell без завантаження 160 ГБ ваг. Детально — нижче.
Як я дізнався про цей реліз
25 квітня вранці прийшов лист від Ollama: "DeepSeek-V4-Flash is now available to run on Ollama's cloud using the latest NVIDIA Blackwell hardware." Саме так — без великих анонсів, просто email від сервісу, яким я користуюся щодня для локального запуску моделей.
Я слідкую за DeepSeek з часів R1 — тоді модель буквально обрушила акції NVIDIA і переписала всі уявлення про те, скільки коштує навчання frontier-класу. V4 очікували довго, відклали кілька разів. І ось воно.
Ця стаття — не переказ прес-релізу. Я спробую розібрати, що реально важливо для розробника, який будує продукти на LLM — так само, як я будую свою RAG-систему .
Контекст: що було до V4
Якщо ви слідкували за DeepSeek тільки поверхнево, ось коротка хронологія:
- Грудень 2024: DeepSeek V3 — перша open-source модель, яка реально конкурує з GPT-4o за якістю при відкритих вагах
- Січень 2025: R1 — reasoning-модель на рівні o1 від OpenAI, навчена за копійки порівняно з конкурентами. Акції NVIDIA впали на сотні мільярдів
- Грудень 2025: V3.2 — еволюційне оновлення з 671B параметрами
- 24 квітня 2026: V4 Flash і V4 Pro — нова архітектура, не просто "більше параметрів"
Важливо розуміти: V4 — це не V3.2+. Це нова архітектура з принципово іншим підходом до довгого контексту. Детально нижче.
Flash vs Pro: два різних продукти
DeepSeek випустила дві моделі одночасно, і їх часто плутають. Ось головні відмінності:
| Параметр | V4 Flash | V4 Pro |
|---|---|---|
| Параметри (всього) | 284B | 1.6T |
| Активних на токен | 13B | 49B |
| Контекст | 1M токенів | 1M токенів |
| Максимальний output | 384K токенів | 384K токенів |
| Вага (HuggingFace) | 160 ГБ | 865 ГБ |
| Input (cache miss) | $0.14/M | $1.74/M |
| Input (cache hit) | $0.028/M | $0.145/M |
| Output | $0.28/M | $3.48/M |
| Ліцензія | MIT | MIT |
Ключовий інсайт, який ховається в цих цифрах: input-ціна у Flash і Pro майже однакова при cache hit ($0.028 vs $0.145), але output — в 12 разів дешевший у Flash ($0.28 vs $3.48). Для більшості продакшн-задач саме output складає основну частину витрат. Тобто Flash — це не "дешева версія", це окремий продукт для іншого класу задач.
Ціни підтверджені офіційною документацією: api-docs.deepseek.com/quick_start/pricing
Також важлива нотатка з офіційної документації: старі назви deepseek-chat і deepseek-reasoner будуть deprecated. Вони тепер відповідають deepseek-v4-flash в non-thinking і thinking режимах. Якщо у вас є старий код — плануйте міграцію до 24 липня 2026 року.
Архітектура: що реально нового
Більшість оглядів у цьому місці просто копіюють абзаци з tech report. Я спробую пояснити що це означає практично.
Архітектура: що реально нового
Більшість оглядів у цьому місці копіюють три рядки з tech report і йдуть далі. Я спробую пояснити що ці зміни означають практично — для розробника, якому важливо розуміти не "яка в моделі архітектура", а "чому вона поводиться саме так і що мені з цим робити".
В DeepSeek V4 три ключові архітектурні нововведення: гібридна увага (CSA + HCA), Manifold-Constrained Hyper-Connections і оптимізатор Muon. Розберемо кожне.
Hybrid Attention: CSA + HCA
Щоб зрозуміти навіщо це потрібно, спочатку — проблема яку вирішують.
У стандартному трансформері механізм self-attention квадратично зростає зі збільшенням контексту. Це означає: якщо ви вдвічі збільшуєте довжину контексту, обчислення зростають в чотири рази. При 1M токенів стандартний attention стає практично нереальним — як за вартістю inference, так і за пам'яттю для KV-кешу.
DeepSeek V4 вирішує це через два компліментарних механізми:
CSA (Compressed Sparse Attention) — замість того щоб кожен токен "дивився" на всі інші токени в контексті, CSA вибірково концентрується на найрелевантніших частинах. Це схоже на те як досвідчений читач переглядає довгий документ: не читає кожне слово, а знає де шукати важливе. Для більшості токенів у довгому контексті повна увага — надлишок, CSA відсікає цей надлишок.
HCA (Heavily Compressed Attention) — іде далі і агресивно стискає KV-кеш, зберігаючи стиснуте представлення замість повного. Менший KV-кеш означає менше GPU пам'яті і швидший inference при довгих контекстах.
Разом ефект такий: при контексті 1M токенів DeepSeek V4 Pro використовує лише 27% FLOPs і 10% KV-кешу порівняно з V3.2. Flash з 13B активними параметрами ще ефективніший за Pro.
Що це означає практично для вас:
- RAG з великими chunks: замість агресивного чанкування на 512–1024 токени можна передавати більші шматки документів. Менше втрат контексту на межах чанків — потенційно краща якість відповідей
- Аналіз великих кодових баз: 1M токенів — це реально цілий репозиторій. Раніше це була маркетингова цифра, тепер при $0.028/M на cache hit — це реальна опція
- Довгі діалоги: модель може зберігати весь контекст розмови без примусового обрізання history
Важлива застереження: CSA і HCA — це апроксимації. В теорії модель може пропустити щось важливе в дуже довгому контексті де релевантні деталі розкидані по всьому документу. На практиці DeepSeek звітує 83.5% на MRCR 1M (needle-in-a-haystack при 1M токенів) — це сильний результат, але не 100%. Для критичних задач де важливо "нічого не пропустити" — тестуйте на своїх даних.
Джерело: huggingface.co/deepseek-ai/DeepSeek-V4-Flash
mHC: Manifold-Constrained Hyper-Connections
У стандартному трансформері кожен шар додає своє представлення до попереднього через residual connection — просте додавання. Ця проста операція виявилась і силою і слабкістю: вона дозволяє градієнтам текти назад під час навчання (вирішуючи проблему vanishing gradient), але не дає шарам "домовлятися" між собою про те як саме комбінувати свої представлення.
mHC замінює просте додавання на більш виразний механізм де кожне з'єднання між шарами може мати власні вагові параметри. При цьому "manifold constraint" — це математична умова яка не дає цим вагам розійтися під час навчання, зберігаючи стабільність.
Практичний ефект для кінцевого користувача двоякий:
- Стабільніша якість на складних задачах: стандартні residual connections іноді дають "провали" — запит схожий на попередній, але відповідь раптово гірша. mHC зменшує цю варіативність через кращу стабілізацію сигналу між шарами
- Краща якість при великому reasoning budget: коли модель думає довго (режим Think Max), важливо щоб сигнал не деградував на глибших шарах. mHC безпосередньо вирішує цю проблему
Для звичайного API-використання ви не "побачите" mHC напряму — але саме ця деталь пояснює чому Flash-Max в режимі Think Max може наближатися до якості Pro на reasoning задачах, попри значно менший розмір.
Muon Optimizer
Це третє нововведення стосується процесу навчання, а не архітектури моделі. Muon — це оптимізатор нового покоління, альтернатива AdamW який використовує більшість сучасних LLM.
Технічно Muon застосовує ортогоналізацію градієнтів через метод Нестерова, що дає два ефекти: швидша збіжність під час навчання і менша чутливість до learning rate. Для вас як користувача це означає одне: модель навчена краще за ту ж кількість токенів. DeepSeek навчила обидві моделі на 32T токенах — значно більше ніж V3.2.
Три режими reasoning: практичний гід
Обидві моделі підтримують три режими, але в документації DeepSeek їх назви трохи відрізняються від того що пишуть в оглядах. Офіційно:
- Non-Thinking — inference без внутрішнього chain-of-thought. Відповідь генерується одразу, без "thinking" токенів. Найшвидший і найдешевший за кількістю output-токенів
- Thinking (High) — модель генерує внутрішні міркування перед відповіддю. Thinking-токени витрачаються, але не входять в output ціну так само як completion — технічно вони є reasoning tokens і тарифікуються окремо. Для більшості складних задач — оптимальний баланс
- Think Max — максимальний бюджет для внутрішніх міркувань. DeepSeek рекомендує мінімум 384K контексту для цього режиму — це важлива деталь: якщо ваш контекст менший, модель буде обрізати reasoning і якість впаде
Як вмикається через API (за замовчуванням в deepseek-v4-flash включений Thinking режим):
# Non-Thinking — найдешевший
{
"model": "deepseek-v4-flash",
"messages": [...],
"thinking": {"type": "disabled"}
}
# Thinking (High) — дефолт
{
"model": "deepseek-v4-flash",
"messages": [...],
"thinking": {"type": "enabled", "budget_tokens": 8000}
}
# Think Max — для складних задач
{
"model": "deepseek-v4-flash",
"messages": [...],
"thinking": {"type": "enabled", "budget_tokens": 32000}
}
Мій практичний гід по режимах:
| Задача | Режим | Чому |
|---|---|---|
| RAG-чат, FAQ-відповіді | Non-Thinking | Контекст вже наданий retrieval-шаром, reasoning зайвий |
| Генерація коду, рефакторинг | Thinking (High) | Потрібно "подумати" але не надмірно |
| Складні баги, архітектурні рішення | Think Max | Задача потребує глибокого аналізу, токени виправдані |
| Математика, доведення | Think Max | Де Flash-Max наближається до Pro за якістю |
| Класифікація, structured output | Non-Thinking | Проста задача — reasoning тільки здорожує |
На своїй RAG-системі я використовую Non-Thinking як дефолт: retrieval-шар вже робить "важку роботу" з пошуку релевантного контексту, і додатковий reasoning від моделі не покращує якість відповіді, але збільшує latency і вартість. Think Max тримаю для ручних тестів і порівняння якості — не для продакшну.
Документація по thinking mode: api-docs.deepseek.com/guides/thinking_mode
Бенчмарки: що брати серйозно, а що ні
Я звик скептично ставитися до самозвітних бенчмарків — особливо коли модель тільки вийшла і ніхто ще не встиг провести незалежне тестування. Тому розберемо дані в контексті: що вони вимірюють, де Flash реально хороший, де поступається, і що в цих числах взагалі варто ігнорувати.
Що означають ці бенчмарки насправді
Перед цифрами — важливий контекст про те, як читати таблиці DeepSeek.
По-перше, майже всі цифри від DeepSeek — самозвітні. Незалежних підтверджень станом на дату публікації цієї статті ще немає. Це не означає що вони брехня — DeepSeek має репутацію за V3 і R1, де їхні бенчмарки підтвердилися. Але "довіряй, але перевіряй".
По-друге, майже всі сильні числа Flash — це режим Flash-Max, тобто з максимальним бюджетом reasoning токенів. У звичайному Thinking режимі цифри будуть нижчі. У Non-Thinking — ще нижчі. Для API-задач де важлива швидкість і ціна, ви, скоріш за все, не будете використовувати Max режим постійно.
Кодинг: де Flash найсильніший
На кодингових задачах Flash показує найкращі результати відносно своєї ціни. Ключові числа з офіційного model card та tech report:
| Бенчмарк | Flash-Max | Pro-Max | Claude Opus 4.6 | Що вимірює |
|---|---|---|---|---|
| SWE-bench Verified | 79% | 80.6% | 80.8% | Реальні GitHub issues |
| LiveCodeBench | ~91% | 93.5% | 88.8% | Конкурсне програмування |
| Terminal Bench 2.0 | 56.9% | 67.9% | 65.4% | Агентні задачі в терміналі |
| SWE-bench Pro | ~48% | 55.4% | — | Складніші реальні issues |
SWE-bench Verified — найважливіший з цих бенчмарків, тому що він використовує реальні задачі з реальних репозиторіїв (django, scikit-learn, matplotlib тощо). Не синтетика, не задачки з олімпіади. Flash-Max на 79% — це лише 1.6 пункти від Pro-Max і 1.8 від Claude Opus 4.6. При різниці в ціні output в 12 разів — це дуже вузький gap.
LiveCodeBench — задачі з Codeforces, LeetCode, AtCoder. Flash трохи слабший за Pro, але обидва обходять Claude Opus 4.6. Важливо: це конкурсне програмування, і в реальній розробці ці задачі зустрічаються рідко. Але для оцінки "чи може модель думати алгоритмічно" — релевантний бенчмарк.
Де Flash помітно поступається Pro
Тут важливо бути чесним — і цифри говорять самі за себе.
Terminal Bench 2.0: 56.9% vs 67.9% у Pro — це найбільший gap між Flash і Pro серед кодингових бенчмарків. Terminal Bench вимірює здатність агента самостійно виконувати тривалі задачі в терміналі: встановлювати залежності, запускати тести, виправляти помилки, взаємодіяти з файловою системою. Різниця в 11 пунктів тут — суттєва. Це означає що Flash-агент частіше "застрягає" на довгих autonomous tasks де немає людини поруч.
MCPAtlas: Flash-Max слабший. MCPAtlas оцінює роботу з великою кількістю зовнішніх інструментів через MCP (Model Context Protocol). Pro-Max набирає 73.6%, Flash-Max — помітно нижче. Якщо ваш агент повинен жонглювати десятками інструментів в одній сесії — Flash не найкращий вибір.
Knowledge і reasoning: HLE, SimpleQA, MMLU-Pro. Тут розмір моделі дається взнаки. Flash на MMLU-Pro набирає 86.4%, Pro — 87.5%. Різниця невелика, але на HLE (Humanity's Last Exam — найскладніші cross-domain питання) Flash відстає помітніше. Для задач де потрібна широка фактологічна база — Pro краще.
| Бенчмарк | Flash-Max | Pro-Max | Що вимірює |
|---|---|---|---|
| HLE (Humanity's Last Exam) | 34.8 | 37.7 | Найскладніші expert-level питання |
| MMLU-Pro | 86.4% | 87.5% | Широка академічна база знань |
| GPQA Diamond | 88.1 | 90.1 | PhD-рівень питань з науки |
| Terminal Bench 2.0 | 56.9% | 67.9% | Автономні агентні задачі |
Джерело цифр: huggingface.co/deepseek-ai/DeepSeek-V4-Flash та felloai.com/deepseek-v4/
Один нюанс по Flash якого немає в оглядах
Більшість матеріалів порівнюють Flash і Pro за загальними числами. Але є важлива технічна деталь з tech report: Flash при контексті 1M токенів використовує лише 10% FLOPs і 7% KV-кешу від V3.2. У Pro це 27% і 10% відповідно.
Тобто Flash ефективніший за Pro навіть у відносному вимірі при довгих контекстах — і саме тому він може конкурувати за якістю при значно меншому розмірі. Маленька модель, яка не витрачає ресурси на "зайву" увагу в довгому контексті, може обходити більшу модель зі стандартною архітектурою на задачах де важливий контекст, а не параметрів кількість.
Математика: де Flash несподівано сильний
Це менш відомий факт, але на формальній математиці Flash-Max показує результати близькі до Pro. На Putnam-200 Pass@8 Flash-Max набирає 81.0 — значно вище за Seed-2.0-Pro (35.5) і Gemini-3-Pro (26.5). Це нестандартний бенчмарк і тут є питання щодо методології, але результат вражаючий.
На IMOAnswerBench Flash-Max також близький до Pro. Для задач де потрібне математичне міркування з великим thinking budget — Flash-Max може бути кращим за ціновою ефективністю навіть порівняно з дорожчими закритими моделями.
Загальна чесна оцінка: що V4 реально означає для ринку
DeepSeek самі написали у tech report, що V4 "trails state-of-the-art frontier models by approximately 3 to 6 months." Це рідкісна чесність від AI-лабораторії — більшість виробників не публікують такі формулювання в офіційних матеріалах.
GPT-5.4 і Gemini 3.1 Pro попереду на knowledge і найскладніших reasoning задачах. Claude Opus 4.6 попереду на HLE і SWE-bench Verified (мінімально, але попереду). Це факти.
Але є інша сторона цього порівняння. Ось яка реальна різниця у вартості output між Flash і провідними закритими моделями:
| Модель | Output $/M | Дорожчий за Flash у разів |
|---|---|---|
| DeepSeek V4 Flash | $0.28 | — |
| GPT-5.4 Nano | ~$1.20 | 4.3× |
| Gemini 3.1 Flash | ~$1.05 | 3.75× |
| Claude Haiku 4.5 | ~$4.00 | 14.3× |
| Claude Opus 4.7 | ~$25.00 | 89× |
| GPT-5.5 | ~$30.00 | 107× |
Відкрита модель з MIT-ліцензією, яка відстає від закритого frontier на 3–6 місяців, при цьому коштує в 14 разів дешевше за Claude Haiku — це і є головний аргумент. Не "DeepSeek найкращий", а "DeepSeek змінює de facto розрахунок cost/quality для більшості продуктових задач".
Для мого RAG на практичне питання не "який бенчмарк вищий", а "де якість достатня для моїх користувачів при прийнятній вартості". Саме для такого вибору ці числа важливі — не як рейтинг переможців, а як вхідні дані для рішення.