Якщо ви досі думаєте, що LLM навчають так: "скопіювали весь інтернет → натиснули кнопку Train" – ви помиляєтесь на сотні мільйонів доларів.
ChatGPT, Claude і Gemini проходять три принципово різних етапи навчання. І найважливіший з них – не pre-training. Спойлер: у 2025–2026 людська оцінка відповідей поступово зникає, її замінюють автоматичні верифікатори. RLHF більше не в тренді.
Ось повний гайд, який пояснює, як це працює насправді – з цифрами, таблицями та посиланнями на першоджерела.
⚡ Коротко
- ✅ Pre-training: модель читає 10–15 трильйонів токенів і вчиться передбачати наступне слово — це фундамент усього
- ✅ Post-training (SFT + alignment): перетворює "передбачника тексту" на корисного асистента
- ✅ RLHF застарів: у 2025–2026 стандартом став модульний стек SFT → DPO → GRPO/RLVR
- ✅ Вартість: GPT-4 — ~$78M, Gemini Ultra — ~$191M у compute (Stanford AI Index 2025)
- 🎯 Ви отримаєте: розуміння повного циклу навчання LLM, реальні цифри та актуальний стек 2026
- 👇 Нижче — детальні пояснення, таблиці та посилання на першоджерела
📚 Зміст статті
🎯 Як навчають LLM — за 60 секунд
Кожна сучасна LLM проходить три послідовних етапи: pre-training (модель вчиться мові на трильйонах токенів), supervised fine-tuning або SFT (модель вчиться відповідати як асистент), і alignment (людська або автоматична оцінка відповідей формує фінальну поведінку). У 2025–2026 між pre-training і SFT з'явився четвертий етап — mid-training — для спеціалізованих даних.
Модель не "знає" мову після pre-training — вона просто дуже добре передбачає наступний токен. Перетворення на корисного асистента відбувається на наступних етапах.
Уявіть, що ви навчаєте нового співробітника. Спочатку він роками читає книги, статті й документацію — це pre-training. Потім він проходить стажування, де спостерігає за тим, як досвідчені колеги відповідають на запити — це SFT. Нарешті, менеджери оцінюють його роботу і дають фідбек — це alignment через RLHF або DPO. Без першого етапу неможливий другий. Без третього — модель технічно грамотна, але непередбачувана у поведінці.
Чому порядок етапів критичний
Якщо пропустити pre-training і одразу зробити fine-tuning — модель не матиме базового розуміння мови. Якщо пропустити alignment — модель може відповідати технічно правильно, але небезпечно або не так, як очікує користувач. Кожен етап будує на попередньому, і помилка на ранній стадії неможлива до виправлення без повторного навчання.
- ✔️ Pre-training: мова, факти, логіка — засвоєно з даних
- ✔️ SFT: формат відповідей асистента — засвоєно з прикладів
- ✔️ Alignment: цінності і поведінка — засвоєно з оцінок і порівнянь
Висновок: навчання LLM — це не одна операція, а послідовний конвеєр з чітко визначеними ролями кожного етапу.
📌 Scaling laws: чому більше — дійсно краще
Що таке scaling laws у LLM
Scaling laws — це емпіричні закономірності: якість моделі передбачувано зростає зі збільшенням кількості параметрів, обсягу даних і обчислень. За даними Epoch AI, training compute для помітних AI-моделей подвоюється приблизно кожні п'ять місяців. Це пояснює, чому навчання коштує $78–191M і чому лабораторії не зупиняються.
Scaling laws — це не оптимізм, а вимірювана математика. Якщо подвоїти compute, якість моделі зростає передбачувано.
У 2020 році OpenAI опублікувала перші scaling laws для нейромереж. Суть: loss (помилка моделі) зменшується за степеневим законом зі зростанням параметрів, даних і compute. Тобто, якщо ви хочете модель удвічі кращу — потрібно не вдвічі, а в десятки разів більше ресурсів.
У 2022 році DeepMind уточнила ці закони у роботі "Chinchilla" (Hoffmann et al., 2022). Висновок: попередні моделі, включно з GPT-3, були "недонавчені" — вони мали забагато параметрів відносно кількості токенів. Оптимальне співвідношення — приблизно 20 токенів на параметр. GPT-3 (175B параметрів) мав бути навчений на ~3.5T токенів, а не на 300B.
Чому це пояснює вартість навчання
Сучасні фронтирні моделі свідомо порушують Chinchilla-оптимум у бік більшої кількості токенів. Llama 3.3, наприклад, навчалась на ~15 трильйонах токенів — набагато більше, ніж "потрібно" для оптимального навчання. Причина прагматична: менша модель, навчена на більшій кількості токенів, дешевша в інференсі при тій самій якості.
- ✔️ Більше параметрів → краще запам'ятовує патерни
- ✔️ Більше токенів → краще узагальнює
- ✔️ Більше compute → швидше сходження до мінімуму loss
Висновок: scaling laws — це математична основа "гонки озброєнь" у AI, яка пояснює і мільярдні бюджети, і постійне зростання розмірів моделей.
📌 Pre-training: модель читає весь інтернет
Що відбувається під час pre-training LLM
Pre-training — це навчання передбачати наступний токен на масивних корпусах тексту: CommonCrawl (веб-сторінки), книги, код, Вікіпедія, наукові статті. Сучасні моделі обробляють 10–15 трильйонів токенів. Мета — не заучити факти, а засвоїти структуру мови, логіку та причинно-наслідкові зв'язки.
Pre-training — це не навчання "відповідати". Це навчання "розуміти текст" через нескінченне заповнення пропусків.
Задача pre-training технічно проста: модель бачить послідовність токенів і намагається передбачити наступний. Якщо написано "Київ — столиця", модель має передбачити "України". Помилка порівнюється з правильною відповіддю, ваги нейромережі коригуються. Цей процес повторюється трильйони разів.
Де беруть дані? Основне джерело — CommonCrawl: щомісячні знімки мільярдів веб-сторінок. До нього додають книги (Books3, Project Gutenberg), GitHub (код), Вікіпедію, наукові статті (ArXiv, PubMed), форуми (Reddit, Stack Overflow). Кожне джерело проходить фільтрацію: видаляють дублікати, спам, дорослий контент, тексти з помилками. Детальніше про те, як AI-платформи опрацьовують веб-дані — у нашій статті Як працює краулінг в епоху AI.
Чому "чисті дані" вичерпуються
Проблема 2025–2026: якісний унікальний текст в інтернеті закінчується. За оцінками дослідників, при поточних темпах споживання доступні якісні дані для pre-training можуть бути вичерпані до 2026–2028 року. Це одна з причин, чому індустрія перейшла до синтетичних даних (докладніше — у розділі 9).
- ✔️ CommonCrawl — основа, але потребує агресивної фільтрації
- ✔️ Код — особливо цінний: структурований, логічний, верифікований
- ✔️ Математичні тексти — покращують reasoning навіть для немат. задач
📌 Tokenization та Data Curation: як текст стає числами
Що таке токенізація та чому це важливо
Токенізація — це перший крок після збору даних: текст розбивається на маленькі шматки (токени), які модель зможе обробляти. Data curation — це фільтрація та очищення даних перед токенізацією. Без якісної токенізації навіть найбільша модель буде повільною та неточною.
Токен — це те, що модель реально "бачить". Людина бачить "привіт", модель бачить [243, 567, 12]. Розуміння токенів — ключ до розуміння вартості та обмежень LLM.
Токенізація — це процес перетворення тексту на числа. Оскільки нейронна мережа не може обробляти літери або слова напряму, весь текст спочатку розбивається на токени, а потім кожен токен отримує свій унікальний ID. Найпоширеніший алгоритм — Byte Pair Encoding (BPE), який використовують GPT, Llama, Claude та Gemini.
Data curation — це те, що відбувається до токенізації: видалення дублікатів, спаму, дорослого контенту, PII (персональних даних), нормалізація тексту. Для GPT-4, за оцінками, з 50+ трильйонів сирих токенів CommonCrawl залишилось ~13 трильйонів після фільтрації.
Чому це важливо для вартості та контексту
- 🔹 Вартість API рахується за токени. Український текст коштує в 2–3 рази дорожче за англійський — бо займає більше токенів.
- 🔹 Контекстне вікно обмежене токенами. Англійською влізе в 2–3 рази більше сенсу, ніж кирилицею.
- 🔹 Якість розуміння залежить від того, наскільки вдало текст розбитий на смислові одиниці.
Детальніше про те, як працює токенізація, чому одне слово може коштувати 1 або 10 токенів, що таке glitch-токени і як вони ламають GPT, а також повні таблиці цін на API у 2026 році — читайте в окремій статті:
Що таке токени у ChatGPT, Claude і Gemini: як AI бачить ваш текст і скільки це коштує (2026).
Висновок розділу: токенізація — це не технічна деталь, а основа економіки LLM. Розуміння токенів допомагає оптимізувати витрати на API, ефективніше використовувати контекстне вікно та уникати несподіваної поведінки моделі.
📌 Mid-training: прихований етап між pre і post
Що таке mid-training в LLM
Mid-training — відносно новий етап, що з'явився у 2024–2025 роках між pre-training і post-training. Модель опрацьовує вузькоспеціалізовані дані (математику, код, синтетичні reasoning-послідовності) за тим же алгоритмом, що і pre-training, але на менших і якісніших корпусах. Meta використовує окремий mid-training етап із синтетичними reasoning-даними для Llama 4.
Mid-training — це "доводка" після грубого pre-training: модель вже знає мову, тепер їй показують, як думати крок за кроком.
Концепція mid-training з'явилася як відповідь на практичну проблему: post-training (SFT + RLHF) ефективний для поведінки моделі, але погано розвиває глибокі reasoning-здібності. А додавати математичні задачі в pre-training — неефективно через їх малу частку в загальному корпусі.
Рішення: після основного pre-training запустити ще один раунд навчання — менший за обсягом, але більш якісний і тематичний. Саме так Meta готує Llama 4 до reasoning-задач: окремий mid-training на синтетичних покрокових розмірковуваннях перед фінальним post-training.
Чим mid-training відрізняється від fine-tuning
Fine-tuning змінює поведінку і формат відповідей. Mid-training змінює внутрішні представлення — те, "що" модель знає, а не "як" відповідає. Технічно це той самий алгоритм next-token prediction, але на інших даних і меншу кількість кроків.
Висновок розділу: mid-training — новий стандарт для фронтирних моделей, що дозволяє "вшити" reasoning-здібності без переробки всього pre-training.
📌 SFT: як "передбачник" стає асистентом
Що таке SFT у навчанні LLM
Supervised Fine-Tuning (SFT) — це навчання на парах "запит → якісна відповідь", підготовлених людьми або сильнішими моделями. Після pre-training модель вміє генерувати текст, але не знає формату асистента. SFT навчає її: відповідати на питання, а не продовжувати текст; бути корисною, а не просто правдоподібною.
SFT — це різниця між "модель, яка може написати що завгодно" і "модель, яка відповідає на ваш запит".
Після pre-training, якщо написати "Як зробити омлет?", модель може відповісти продовженням у стилі кулінарного блогу, або Wikipedia-статтею, або рецептом у форматі списку інгредієнтів — залежно від того, що найчастіше зустрічалось у тренувальних даних. SFT фіксує формат: відповідь має бути прямою, корисною, у форматі діалогу.
Дані для SFT — це тисячі або десятки тисяч пар "промпт → відповідь". Їх готують люди-анотатори (дорого) або генерують за допомогою сильніших моделей (дешевше, але з ризиком успадкування помилок). OpenAI використовувала ~13K прикладів SFT для першого InstructGPT. Сучасні моделі — сотні тисяч і більше.
Instruction tuning як різновид SFT
Instruction tuning — це SFT, де промпти сформульовані як явні інструкції ("Перекладіть цей текст", "Напишіть резюме", "Виправте помилки"). Саме це перетворює базову мовну модель на "корисного асистента". FLAN від Google і InstructGPT від OpenAI — перші масштабні приклади цього підходу.
- ✔️ SFT навчає формат і тон відповідей
- ✔️ Instruction tuning навчає слідувати конкретним командам
- ✔️ Без SFT модель технічно грамотна, але "не розуміє", що від неї хочуть
Висновок розділу: SFT — відносно дешевий етап (порівняно з pre-training), але критично важливий: саме він робить модель "асистентом", а не просто генератором тексту.
📌 RLHF: людська оцінка як сигнал для навчання
Як працює RLHF
RLHF (Reinforcement Learning from Human Feedback) — метод, де люди порівнюють кілька відповідей моделі і обирають кращу. З цих порівнянь тренується reward model — окрема нейромережа, що навчилась передбачати людські уподобання. Потім основна модель навчається через RL максимізувати оцінку reward model. Саме RLHF перетворив GPT-3 на ChatGPT.
RLHF вирішив проблему, яку SFT не вміє: навчити модель не просто "правильно відповідати", а відповідати так, як люди вважають корисним.
Механіка RLHF складається з трьох кроків. По-перше, анотатори бачать один і той самий запит з двома або більше варіантами відповіді моделі й обирають кращий. По-друге, reward model навчається на цих порівняннях — вона передбачає, яку відповідь людина обере. По-третє, основна модель навчається через алгоритм PPO (Proximal Policy Optimization) генерувати відповіді, які reward model оцінить високо.
OpenAI показала вражаючий результат: модель 1.3B параметрів, навчена через RLHF, перевершувала модель 175B параметрів, навчену тільки через SFT. Це означає, що alignment важливіший за розмір для практичної корисності.
Reward model — невидимий суддя
Reward model — це окрема нейромережа, навчена передбачати людські оцінки. Вона бачить запит і відповідь і видає число — наскільки ця відповідь "хороша". Під час RLHF основна модель намагається максимізувати цей score, не відхиляючись надто від базової SFT-версії (це контролює KL-divergence penalty).
Чому RLHF дорогий і складний
Класичний PPO-based RLHF вимагає одночасно тримати в пам'яті чотири великі моделі: основну (policy model), заморожену копію SFT-моделі (reference model), reward model і critic/value model. Для фронтирних моделей з мільярдами параметрів це вимагає тисячі GPU і спеціальної інфраструктури. Людські анотатори додають значні витрати: за оцінками, 600 якісних аннотацій коштує близько $60,000.
- ✔️ RLHF навчає модель людським уподобанням, а не просто правильним відповідям
- ✔️ Reward model замінює людей під час навчання — але сама навчена на людських оцінках
- ✔️ PPO вимагає 4 моделі в пам'яті — головна причина, чому шукають альтернативи
Коротке порівняння: RLHF vs RLVR
| Метод |
Що оптимізує |
Обмеження |
RLHF (Reinforcement Learning from Human Feedback) |
Людські уподобання (human preference) — суб'єктивна якість, тон, стиль, безпека |
Суб'єктивність Різні анотатори мають різні думки. Дорого і повільно. |
RLVR (Reinforcement Learning with Verifiable Rewards) |
Об'єктивна винагорода (objective reward) — правильність математики, коду, точних фактів |
Обмежені домени Працює тільки там, де є автоматичний верифікатор (математика, код, структуровані задачі). |
Висновок: RLHF кращий для творчих і суб'єктивних задач (написання текстів, tone of voice, безпека). RLVR — для задач з чітко правильною відповіддю (математика, програмування, логіка). У 2025–2026 індустрія рухається до комбінації обох підходів.
📌 DPO, GRPO і RLVR: пост-RLHF ера 2025–2026
Що замінює RLHF у 2026
У 2025–2026 класичний RLHF більше не є домінуючим методом. Сучасний стек: SFT для базового alignment → DPO або SimPO для вирівнювання з уподобаннями → GRPO/DAPO з верифікованими нагородами для reasoning. DPO прибирає необхідність окремої reward model. RLVR (Reinforcement Learning with Verifiable Rewards) замінює людських анотаторів автоматичними верифікаторами для математики і коду.
Рецепт "pretrain → RLHF з людськими мітками" перестав бути стандартом. Кожна велика модель 2025 року використовує інший post-training стек.
DPO: alignment без reward model
Direct Preference Optimization (Rafailov et al., 2023) вирішує ту саму задачу, що й RLHF, але без окремої reward model і без RL-оптимізації. DPO формулює задачу alignment як класифікацію: модель бачить пари (обрана відповідь, відхилена відповідь) і вчиться напряму підвищувати ймовірність обраної. Результат порівнянний з RLHF, але на 40–75% дешевший у compute. Meta використовує DPO як частину alignment-стеку Llama 4.
GRPO: RL без critic model
Group Relative Policy Optimization (DeepSeek, 2024) — алгоритм, що замінює PPO у RLHF. Замість окремої critic/value model GRPO сэмплює кілька відповідей на один запит і порівнює їх між собою. Це прибирає одну з чотирьох моделей у пам'яті, зберігаючи або покращуючи якість. GRPO вже використовується в Nemotron 3 Super від NVIDIA і DeepSeek R1.
RLVR: верифікатор замість людини
Reinforcement Learning with Verifiable Rewards — найважливіша зміна 2025 року. Ідея проста: для математики, коду і структурованих задач не потрібна людська оцінка — достатньо автоматичного верифікатора. Юніт-тест або математичний перевірник дає бінарний сигнал (правильно/неправильно) — швидший, дешевший і стабільніший за людський фідбек. DeepSeek R1-Zero навчили через чисте RLVR без жодного SFT-прикладу — і модель самостійно розвинула здатність до self-reflection і chain-of-thought.
DAPO: RLVR для довгих відповідей
DAPO від ByteDance/Tsinghua (2025) вирішує специфічну проблему: нестабільність GRPO при навчанні reasoning-моделей із довгими chain-of-thought відповідями. DAPO навчив Qwen2.5-32B до 50 балів на AIME 2024, перевершивши DeepSeek-R1-Zero при на 50% менших кроках навчання. Система повністю відкрита.
| Метод |
Reward model |
Critic model |
Людські мітки |
Застосування 2026 |
| PPO-RLHF |
✅ Потрібна |
✅ Потрібна |
✅ Потрібні |
Рідко, тільки у великих лабах |
| DPO |
❌ Не потрібна |
❌ Не потрібна |
✅ Потрібні (пари) |
Стандарт для alignment |
| GRPO |
✅ Потрібна |
❌ Не потрібна |
Частково |
Reasoning-моделі |
| RLVR |
❌ Верифікатор |
❌ Не потрібна |
❌ Не потрібні |
Математика, код, reasoning |
Висновок: сучасний alignment-стек модульний: SFT → DPO → GRPO/RLVR. Кожен компонент вирішує окрему задачу і може бути замінений залежно від бюджету і цілей.
📌 Data contamination: коли тест потрапляє в навчання
Що таке data contamination в LLM
Data contamination — це ситуація, коли тестові приклади з бенчмарків потрапляють у тренувальні дані моделі. Результат: модель показує високі бали не тому, що "розумна", а тому, що "бачила відповіді". Це серйозна проблема для оцінки реальних здібностей LLM у 2025–2026.
MMLU 95% не завжди означає "розумна модель". Іноді це означає "модель бачила ці питання під час навчання".
Проблема системна: CommonCrawl містить мільярди сторінок, серед яких — форуми, де люди обговорюють питання з бенчмарків, академічні сайти зі зразками тестів, репозиторії з наборами даних. Якісна фільтрація складна: формально тест MMLU може бути процитований у статті, яка проходить усі фільтри якості.
До речі, сам Common Crawl (звідки беруть дані для навчання GPT-5, Gemini та інших моделей) активно сканує сайти через свого бота CCBot. Якщо ви хочете, щоб ваш контент потрапив у бази знань ШІ, а не тільки в contamination-тести, варто розуміти, як працює цей краулер. Детальніше про те, чому CCBot приходить навіть на молоді сайти, як Harmonic Centrality впливає на пріоритети індексації та чи варто блокувати ШІ-ботів — читайте в моїй статті: Епоха ШІ-краулерів: як CCBot перетворює ваш сайт на базу знань для GPT-5 та Gemini.
У 2024–2025 роках кілька незалежних досліджень знайшли ознаки contamination у топових моделей. Meta і Google публікують "contamination reports" разом із релізами Llama і Gemini — але методологія виявлення залишається предметом дискусій.
Як перевірити contamination самостійно
Ви не потребуєте доступу до тренувальних даних моделі, щоб запідозрити contamination. Ось три практичні методи:
- 🔍 n-gram overlap: якщо відповідь моделі на тестове питання містить унікальні фрази з тренувального датасету (наприклад, точне формулювання з arXiv або GitHub), це червоний прапорець. Чим довший збіг — тим вища ймовірність contamination.
- 📅 Питання після knowledge cutoff: задайте моделі питання про подію, яка точно відбулася після її заявленого cutoff. Якщо вона відповідає з точними датами, деталями або цитатами — значить, щось нечисте. "Чиста" модель мала б сказати "Я не знаю" або "Це після моєї дати навчання".
- 🎯 Membership inference attacks: складніший метод: порівняйте поведінку моделі на питаннях, які майже напевно були в тренувальних даних (наприклад, перші рядки "Гамлета"), з тими, що точно не були (свіжі наукові препринти). Різниця в упевненості або точності може вказувати на contamination.
Як з цим борються розробники
Рішення: нові бенчмарки, що оновлюються після кожного major-релізу (LiveBench), "dynamic benchmarks" з генерацією нових задач (LiveCodeBench), приватні тестові сети, які не публікуються до оцінки. Детальніше про те, як AI-платформи обробляють і фільтрують дані — у статті Як AI-платформи вибирають джерела.
Що робити, якщо ви підозрюєте contamination
По-перше, не довіряйте одному бенчмарку. Порівнюйте моделі за 3-5 різними тестами, бажано з різних доменів. По-друге, тестуйте модель на власних, непублічних даних. По-третє, звертайте увагу на моделі, які публікують свої contamination reports (Meta, Google) — це ознака доброчесності, але не гарантія чистоти.
Висновок розділу: data contamination — системна проблема, що ускладнює об'єктивне порівняння моделей. Орієнтуватись тільки на бенчмарки — помилкова стратегія. Завжди перевіряйте модель на своїх даних і використовуйте кілька незалежних джерел оцінки.
📌 Синтетичні дані: нове паливо для LLM
Навіщо LLM синтетичні дані
Синтетичні дані — це тренувальні приклади, згенеровані іншими AI-моделями, а не написані людьми. Вони вирішують дефіцит якісних реальних даних, дозволяють генерувати нескінченно багато прикладів для рідкісних задач і є основою нової ери навчання 2025–2026. Але чиста синтетика не перевершує реальні дані — оптимальні суміші Real + Synthetic.
Синтетичні дані не замінюють реальні — вони доповнюють їх там, де реальних бракує.
Phi-серія від Microsoft (Phi-1, Phi-2, Phi-3) першою показала, що невелика модель, навчена на "textbook-quality" синтетичних даних, може конкурувати з набагато більшими моделями на реальних даних. Phi-4 (14B параметрів) перевершує моделі в 3–4 рази більші на багатьох reasoning-бенчмарках.
Дослідження Demystifying Synthetic Data in LLM Pre-training (2025) дає практичний висновок: суміш синтетичних і реальних даних (33–67% синтетики) стабільно перевершує як чисту синтетику, так і чисті реальні дані окремо. Повна заміна реальних даних синтетикою призводить до "model collapse" — поступової деградації якості.
RLVR + синтетика = замкнений цикл
Найперспективніший напрям 2026: модель генерує власні тренувальні задачі, оцінює відповіді через верифікатор (RLVR) і навчається на результатах. Жодних людей у циклі. Саме так DeepSeek R1 досяг результатів, порівнянних з o1, при значно менших витратах на людську розмітку.
Висновок: синтетичні дані — не замінник реальних, а необхідне доповнення. Оптимальний підхід 2026 — curated реальні дані + цільова синтетика для слабких місць моделі.
📌 Скільки коштує навчання: реальні цифри
Скільки коштує навчання фронтирної LLM
За даними Stanford AI Index 2025 і Epoch AI: GPT-4 коштував ~$78M у compute, Gemini Ultra — ~$191M, Meta Llama 3.1 405B — ~$170M. Це тільки compute; з урахуванням R&D-персоналу і інфраструктури реальні цифри вищі.
Вартість compute подвоюється кожні п'ять місяців. Але вартість інференсу падає в 9–900 разів на рік — завдяки quantization та MoE.
| Модель |
Compute cost (оцінка) |
Параметри |
Джерело |
| Original Transformer (2017) |
~$900 |
65M |
Stanford AI Index |
| GPT-3 (2020) |
~$4.6M |
175B |
OpenAI / Epoch AI |
| GPT-4 (2023) |
~$78M |
Невідомо (≈1.8T) |
Stanford AI Index 2025 |
| Gemini Ultra (2023) |
~$191M |
Невідомо |
Stanford AI Index 2025 |
| Llama 3.1 405B (2024) |
~$170M |
405B dense |
Epoch AI |
| DeepSeek V3 (2024) |
$5.6M (заявлено)* |
671B MoE (37B active) |
DeepSeek |
*Це тільки вартість compute для фінального запуску pre-training на кластері H800 GPU. Не включає витрати на попередні експерименти, невдалі запуски, R&D персонал, інфраструктуру та data curation. За оцінками незалежних аналітиків, реальна повна вартість у 3–5 разів вища.
Чому inference дешевшає, а training — дорожчає
Парадокс індустрії: вартість навчання фронтирних моделей зростає на 2–3× на рік, але вартість запиту до моделі падає катастрофічно. За даними Stanford AI Index 2025, запит до моделі рівня GPT-3.5 подешевшав з $20 за мільйон токенів у листопаді 2022 до $0.07 у жовтні 2024 — падіння у 280 разів за 18 місяців.
Як quantization змінює економіку LLM
Quantization — це зберігання ваг моделі не у 16-бітній (FP16), а у 4- або 8-бітній точності (методи GPTQ, AWQ, GGUF). Це дозволяє:
- 🚀 Запускати Llama 3 70B на одному споживчому GPU (24GB VRAM) замість кластера з 8×A100
- 🚀 Зменшити вартість інференсу в 5–10 разів при мінімальній втраті якості (1-2% на бенчмарках)
- 🚀 Запускати LLM на CPU (через llama.cpp) для задач без вимог до латентності
Саме завдяки quantization вартість інференсу впала у 280 разів — той самий hardware тепер запускає моделі, які рік тому були недоступні.
Чому DeepSeek V3 такий дешевий: MoE + оптимізації
DeepSeek V3 досяг $5.6M завдяки трьом факторам:
- ⚡ MoE архітектура: 671B параметрів, але активується лише ~37B на токен — менше compute на крок
- ⚡ FP8 training: використання 8-бітної точності замість стандартної FP16/BF16 — вдвічі менше пам'яті та compute
- ⚡ Китайські ціни на електроенергію та обладнання: H800 там дешевші, ніж H100 в США/Європі
Про те, скільки коштує використання різних моделей через API у 2026, — детально у нашій статті про вартість AI (посилання буде після публікації).
- ✔️ Training frontier моделей: $78–191M і більше тільки за compute
- ✔️ Fine-tuning відкритих моделей: $50K–$500K (або $10–100 з LoRA на одному GPU)
- ✔️ Inference: від $0.03 (DeepSeek V3) до $15 (o1) за мільйон токенів залежно від моделі
Висновок розділу: навчання фронтирних моделей стає дорожчим, але доступ до вже навчених моделей — дешевшим завдяки quantization та MoE. Для більшості бізнесів важливіший inference cost, ніж training cost. А якщо ви хочете зробити fine-tuning, LoRA на одному GPU коштує дешевше за вечерю в ресторані.
📌 Knowledge cutoff: чому AI "заморожений у часі"
Що таке knowledge cutoff у LLM
Knowledge cutoff — дата, після якої модель не має знань про події у світі. Це прямий наслідок pre-training: модель навчається на статичному датасеті, зібраному до певного моменту. Після завершення навчання ваги заморожуються. ChatGPT не знає про вчорашні новини так само, як книга, надрукована рік тому.
Knowledge cutoff — не баг, а архітектурна особливість. Модель не "забула" нові події — вона їх просто ніколи не бачила.
Після pre-training модель "заморожена": її ваги фіксовані, і нова інформація в них не потрапляє автоматично. Якщо відбувається важлива подія — вибори, наукове відкриття, новий продукт — модель про неї не знає, якщо ця інформація з'явилась після cutoff.
Актуальні knowledge cutoffs станом на 2026: Claude Sonnet 4.5 — початок 2025 року, GPT-4o — жовтень 2023, Gemini 2.5 Pro — початок 2025. Моделі оновлюються не безперервно — новий major release виходить раз на кілька місяців або рідше.
Як вирішують проблему: RAG і веб-пошук
Два основних рішення. Перше — Retrieval-Augmented Generation (RAG): перед відповіддю модель отримує релевантні документи з актуальної бази знань і використовує їх у контексті. Друге — веб-пошук: модель може шукати інформацію в реальному часі (як ChatGPT з увімкненим Search або Perplexity). Детальніше про різницю між LLM і RAG — у статті LLM vs RAG у 2026 році.
Висновок: knowledge cutoff — фундаментальне обмеження статичного навчання. Для задач, де потрібна актуальна інформація, потрібен або RAG, або веб-пошук поверх LLM.
📌 Open-source vs закриті моделі: коли що обирати
Оpen-source чи закрита LLM — що краще
Вибір залежить від задачі, бюджету і вимог до приватності. Закриті моделі (GPT, Claude, Gemini) — кращий out-of-the-box результат, але дорожчий inference і залежність від провайдера. Open-source (Llama 4, Mistral, DeepSeek, Qwen) — повний контроль, можливість локального деплою, нульовий inference cost, але потребує технічної команди.
У 2026 розрив у якості між open і closed моделями суттєво скоротився. Llama 4 Scout конкурує з GPT-4o класу на багатьох задачах.
Ще у 2022 році відкриті моделі були значно слабшими за закриті. У 2023–2024 Llama 2, Mistral і DeepSeek суттєво скоротили розрив. У 2025–2026 Llama 4 від Meta і DeepSeek V3/R1 конкурують з топовими закритими моделями на більшості практичних задач.
| Критерій |
Open-source (Llama 4, DeepSeek, Mistral) |
Закриті (GPT, Claude, Gemini) |
| Вартість inference |
$0 (local) або дуже дешево (API) |
$1.25–$15 / 1M tokens |
| Приватність даних |
Повна (локальний деплой) |
Дані проходять через провайдера |
| Кастомізація |
Fine-tuning, повний контроль |
Обмежена (prompt-рівень або fine-tuning API) |
| Якість out-of-the-box |
Дуже хороша (2026) |
Найкраща (frontier моделі) |
| Технічні вимоги |
Потрібна команда DevOps/ML |
API key + кілька рядків коду |
Коли обирати open-source
Локальний деплой через Ollama виправданий, якщо у вас є вимоги до приватності (медицина, фінанси, юриспруденція), великий обсяг запитів де inference cost критичний, або потреба у fine-tuning під специфічну domain-задачу.
Для бюджетних конфігурацій: навіть на скромному залізі можна запустити корисні моделі. Детально про те, які моделі працюють на ноутбуках з 8 ГБ RAM, які задачі вони вирішують (код, текст, reasoning) і як вичавити максимум з обмежених ресурсів — читайте у статті Ollama на 8 ГБ RAM: які моделі працюють у 2026.
Загальний огляд локального AI, порівняння з хмарними рішеннями та сценарії використання — у статті Ollama у 2026.
Висновок розділу: у 2026 немає однозначного переможця — є правильний інструмент для конкретної задачі. Закриті моделі — для швидкого старту і максимальної якості. Open-source — для контролю, приватності і масштабу.
📌 Mixture of Experts (MoE): чому більше параметрів не означає дорожчий інференс
Що таке MoE в LLM
Mixture of Experts (MoE) — архітектура, де модель складається з багатьох "експертів" (окремих MLP-блоків), але для кожного токена активується лише їх невелика підмножина. Це дозволяє мати модель із сотнями мільярдів параметрів (DeepSeek V3 — 671B), але інференс коштує як для моделі у 5–10 разів меншої. MoE — одна з головних причин, чому вартість інференсу падає швидше, ніж зростає розмір моделей.
Без MoE ми б давно вперлися в стелю: модель із трильйоном параметрів коштувала б $1000 за мільйон токенів. MoE робить великі моделі економічно доцільними.
Уявіть, що замість одного гігантського мозку у вас є 100 спеціалістів. Для питання з фізики ви активуєте тільки 2-3 фізиків, а не всіх 100. Так само MoE: для кожного токена "gating network" вирішує, які 1-2 експерти (з десятків або сотень) отримають дані. Інші залишаються неактивними.
Хто використовує MoE у 2026:
- ✔️ DeepSeek V3 / R1 — 671B параметрів, активовано ~37B на токен
- ✔️ Mixtral 8x7B / 8x22B — 8 експертів, активовано 2
- ✔️ GPT-4 (за непідтвердженими даними) — 16 експертів, 111B параметрів, активовано 2
- ✔️ Qwen 2.5-MoE — 64 експерти, 14B активовано
Чому MoE змінює правила гри
До MoE, якщо ви хотіли кращу модель, ви збільшували параметри (GPT-3: 175B) і отримували лінійне зростання вартості інференсу. MoE розриває цей зв'язок: ви можете мати 671B параметрів (DeepSeek V3), але інференс коштує як для ~37B параметрів. Це різниця в 5–18 разів дешевше.
Простий приклад: якби DeepSeek V3 був щільною (dense) моделлю, його інференс коштував би ~$15-20 за мільйон токенів. Реальна ціна DeepSeek API — ~$0.27 (вхідні) / $1.10 (вихідні). Саме завдяки MoE.
Зворотний бік: навчання MoE складніше
MoE чудова для інференсу, але створює проблеми під час навчання:
- ⚡ Нерівномірне навантаження: одні експерти можуть бути "популярнішими" за інші, що вимагає додаткових loss-функцій для балансування
- ⚡ Більша пам'ять: всі 671B параметрів все одно мають поміститися в GPU (або бути розподілені між девайсами)
- ⚡ Тонке налаштування: стандартний fine-tuning працює гірше; потрібні спеціальні методи (MoE-specific LoRA, або fine-tuning тільки gating network)
Висновок: MoE — це "секретна зброя" великих моделей 2025–2026. Вона пояснює, як DeepSeek конкурує з GPT-4o за ціною в 10× менше, і чому відкриті моделі можуть бути величезними, але доступними.
❓ Часті питання (FAQ)
Скільки часу займає навчання GPT-подібної моделі?
Pre-training фронтирної моделі займає від кількох тижнів до кількох місяців на кластері з тисячами GPU. GPT-4, за оцінками, навчали кілька місяців на тисячах A100. Повний цикл від початку pre-training до релізу — 6–18 місяців з урахуванням post-training, evaluations і safety-тестів.
Чи можна навчити свою LLM з нуля?
Технічно — так, але економічно доступно лише для великих організацій. Pre-training малої моделі (7B параметрів) коштує від $50K до $500K. Для більшості бізнесів раціональніше брати відкриту базову модель (Llama 4, Mistral) і робити fine-tuning під свою задачу — це коштує від кількох сотень до кількох тисяч доларів.
Що таке fine-tuning і чим він відрізняється від навчання з нуля?
Fine-tuning — це донавчання вже навченої моделі на новому, вузькому датасеті. Модель зберігає знання з pre-training, але адаптується до нової задачі або стилю. На відміну від навчання з нуля, fine-tuning потребує на порядки менше даних і compute. LoRA і QLoRA дозволяють робити fine-tuning навіть на споживчих GPU.
Чому ChatGPT не знає актуальних новин?
Через knowledge cutoff: модель навчена на даних до певної дати і не отримує нових знань автоматично. ChatGPT вирішує це через інтеграцію веб-пошуку (Search), але базова модель залишається "замороженою". Без пошуку або RAG LLM не знатиме про події після cutoff.
Чи безпечні синтетичні дані для навчання?
Синтетичні дані безпечні при правильному використанні — як доповнення до реальних. Повна заміна реальних даних синтетикою призводить до "model collapse": кожне наступне покоління моделі трохи деградує, бо навчається на виходах попереднього. Оптимальне рішення — суміш реальних і синтетичних даних у пропорції 33–67% синтетики.
Що таке RLVR і чим він кращий за RLHF?
RLVR (Reinforcement Learning with Verifiable Rewards) використовує автоматичний верифікатор замість людських оцінювачів. Для задач з чіткою правильною відповіддю (математика, код, логіка) верифікатор швидший, дешевший і стабільніший за людину. RLHF залишається необхідним для задач без чіткої "правильної відповіді" — творче письмо, суб'єктивні уподобання, нюанси тону.
Навіщо навчати модель на коді, якщо вона текстова?
Код — особливо цінні дані навіть для загальних LLM. Він структурований, логічний, верифікований (код або працює, або ні) і містить концентровані причинно-наслідкові зв'язки. Моделі, навчені на більшій частці коду, показують кращі результати на reasoning-задачах навіть поза програмуванням.
✅ Висновки
- 🔹 Навчання LLM — це конвеєр із чотирьох етапів: pre-training (мова) → mid-training (спеціалізація) → SFT (формат) → alignment (поведінка). Жоден не можна пропустити.
- 🔹 Класичний RLHF помер у 2025. Йому на зміну прийшов модульний стек: DPO для alignment, GRPO/RLVR для reasoning — дешевше, швидше і стабільніше.
- 🔹 Вартість навчання фронтирних моделей: $78–191M у compute (Stanford AI Index 2025). Але вартість інференсу падає в 9–900 разів на рік — завдяки quantization та MoE.
- 🔹 Синтетичні дані — не панацея. Оптимальна суміш: 33–67% синтетики + решта реальних даних. Чиста синтетика веде до "model collapse".
- 🔹 Knowledge cutoff — не баг, а особливість. Модель не "забуває" новини — вона їх ніколи не бачила. Вирішується через RAG або веб-пошук.
- 🔹 Open-source майже наздогнали закриті. Llama 4, DeepSeek і Qwen конкурують із GPT-4o та Claude на більшості практичних задач.
Головна думка: навчання LLM у 2026 — це не монолітний процес, а модульний стек, де кожен компонент еволюціонує окремо. Розуміння цього стеку дозволяє не лише обирати правильну модель для задачі, а й критично оцінювати маркетингові заяви про "найкращу модель у світі".
🎯 Гострий тезис для запам'ятовування: Якби не safety-регулювання та юридичні ризики, закриті моделі вже втратили б сенс для 80% бізнес-задач. Open-source дешевший, контрольований і майже такий самий якісний. Вибір закритої моделі сьогодні — це часто вибір зручності та бренду, а не технічної переваги.
Наступна стаття серії: Контекстне вікно LLM — чому AI забуває і скільки це коштує.
Також читайте:
Embeddings простими словами: як AI розуміє сенс, а не просто слова — фундаментальний гайд про те, як текст перетворюється на числа і чому це лежить в основі RAG та семантичного пошуку.
Embedding-моделі для RAG у 2026 — повний гайд по вибору з порівнянням 10+ моделей, цінами та реальним кейсом.