AI_TOOLS 03 квітня 2026 26 хв читання 1 944 перегляд

Як навчають LLM: від pre-training до RLVR — повний гайд 2026

Оновлено: 24 June 2026

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

Як навчають LLM: від pre-training до RLVR — повний гайд 2026

Якщо ви досі думаєте, що LLM навчають так: "скопіювали весь інтернет → натиснули кнопку Train" – ви помиляєтесь на сотні мільйонів доларів.

ChatGPT, Claude і Gemini проходять три принципово різних етапи навчання. І найважливіший з них – не pre-training. Спойлер: у 2025–2026 людська оцінка відповідей поступово зникає, її замінюють автоматичні верифікатори. RLHF більше не в тренді.

Ось повний гайд, який пояснює, як це працює насправді – з цифрами, таблицями та посиланнями на першоджерела.

⚡ Коротко

✅ Pre-training: модель читає 10–15 трильйонів токенів і вчиться передбачати наступне слово — це фундамент усього
✅ Post-training (SFT + alignment): перетворює "передбачника тексту" на корисного асистента
✅ RLHF застарів: у 2025–2026 стандартом став модульний стек SFT → DPO → GRPO/RLVR
✅ Вартість: GPT-4 — ~$78M, Gemini Ultra — ~$191M у compute (Stanford AI Index 2025)
🎯 Ви отримаєте: розуміння повного циклу навчання LLM, реальні цифри та актуальний стек 2026
👇 Нижче — детальні пояснення, таблиці та посилання на першоджерела

📚 Зміст статті

📌 Три етапи навчання — за 60 секунд
📌 Scaling laws: чому більше — дійсно краще
📌 Pre-training: модель читає весь інтернет
📌 Mid-training: прихований етап між pre і post
📌 SFT: як "передбачник" стає асистентом
📌 RLHF: людська оцінка як сигнал для навчання
📌 DPO, GRPO і RLVR: пост-RLHF ера 2025–2026
📌 Data contamination: коли тест потрапляє в навчання
📌 Синтетичні дані: нове паливо для LLM
📌 Скільки коштує навчання: реальні цифри
📌 Knowledge cutoff: чому AI "заморожений у часі"
📌 Open-source vs закриті моделі: коли що обирати
📌 Mixture of Experts (MoE): більше параметрів — дешевший інференс
❓ Часті питання (FAQ)
✅ Висновки

🎯 Як навчають LLM — за 60 секунд

Кожна сучасна LLM проходить три послідовних етапи: pre-training (модель вчиться мові на трильйонах токенів), supervised fine-tuning або SFT (модель вчиться відповідати як асистент), і alignment (людська або автоматична оцінка відповідей формує фінальну поведінку). У 2025–2026 між pre-training і SFT з'явився четвертий етап — mid-training — для спеціалізованих даних.

Модель не "знає" мову після pre-training — вона просто дуже добре передбачає наступний токен. Перетворення на корисного асистента відбувається на наступних етапах.

Уявіть, що ви навчаєте нового співробітника. Спочатку він роками читає книги, статті й документацію — це pre-training. Потім він проходить стажування, де спостерігає за тим, як досвідчені колеги відповідають на запити — це SFT. Нарешті, менеджери оцінюють його роботу і дають фідбек — це alignment через RLHF або DPO. Без першого етапу неможливий другий. Без третього — модель технічно грамотна, але непередбачувана у поведінці.

Чому порядок етапів критичний

Якщо пропустити pre-training і одразу зробити fine-tuning — модель не матиме базового розуміння мови. Якщо пропустити alignment — модель може відповідати технічно правильно, але небезпечно або не так, як очікує користувач. Кожен етап будує на попередньому, і помилка на ранній стадії неможлива до виправлення без повторного навчання.

✔️ Pre-training: мова, факти, логіка — засвоєно з даних
✔️ SFT: формат відповідей асистента — засвоєно з прикладів
✔️ Alignment: цінності і поведінка — засвоєно з оцінок і порівнянь

Висновок: навчання LLM — це не одна операція, а послідовний конвеєр з чітко визначеними ролями кожного етапу.

📌 Scaling laws: чому більше — дійсно краще

Що таке scaling laws у LLM

Scaling laws — це емпіричні закономірності: якість моделі передбачувано зростає зі збільшенням кількості параметрів, обсягу даних і обчислень. За даними Epoch AI, training compute для помітних AI-моделей подвоюється приблизно кожні п'ять місяців. Це пояснює, чому навчання коштує $78–191M і чому лабораторії не зупиняються.

Scaling laws — це не оптимізм, а вимірювана математика. Якщо подвоїти compute, якість моделі зростає передбачувано.

У 2020 році OpenAI опублікувала перші scaling laws для нейромереж. Суть: loss (помилка моделі) зменшується за степеневим законом зі зростанням параметрів, даних і compute. Тобто, якщо ви хочете модель удвічі кращу — потрібно не вдвічі, а в десятки разів більше ресурсів.

У 2022 році DeepMind уточнила ці закони у роботі "Chinchilla" (Hoffmann et al., 2022). Висновок: попередні моделі, включно з GPT-3, були "недонавчені" — вони мали забагато параметрів відносно кількості токенів. Оптимальне співвідношення — приблизно 20 токенів на параметр. GPT-3 (175B параметрів) мав бути навчений на ~3.5T токенів, а не на 300B.

Чому це пояснює вартість навчання

Сучасні фронтирні моделі свідомо порушують Chinchilla-оптимум у бік більшої кількості токенів. Llama 3.3, наприклад, навчалась на ~15 трильйонах токенів — набагато більше, ніж "потрібно" для оптимального навчання. Причина прагматична: менша модель, навчена на більшій кількості токенів, дешевша в інференсі при тій самій якості.

✔️ Більше параметрів → краще запам'ятовує патерни
✔️ Більше токенів → краще узагальнює
✔️ Більше compute → швидше сходження до мінімуму loss

Висновок: scaling laws — це математична основа "гонки озброєнь" у AI, яка пояснює і мільярдні бюджети, і постійне зростання розмірів моделей.

📌 Pre-training: модель читає весь інтернет

Що відбувається під час pre-training LLM

Pre-training — це навчання передбачати наступний токен на масивних корпусах тексту: CommonCrawl (веб-сторінки), книги, код, Вікіпедія, наукові статті. Сучасні моделі обробляють 10–15 трильйонів токенів. Мета — не заучити факти, а засвоїти структуру мови, логіку та причинно-наслідкові зв'язки.

Pre-training — це не навчання "відповідати". Це навчання "розуміти текст" через нескінченне заповнення пропусків.

Задача pre-training технічно проста: модель бачить послідовність токенів і намагається передбачити наступний. Якщо написано "Київ — столиця", модель має передбачити "України". Помилка порівнюється з правильною відповіддю, ваги нейромережі коригуються. Цей процес повторюється трильйони разів.

Де беруть дані? Основне джерело — CommonCrawl: щомісячні знімки мільярдів веб-сторінок. До нього додають книги (Books3, Project Gutenberg), GitHub (код), Вікіпедію, наукові статті (ArXiv, PubMed), форуми (Reddit, Stack Overflow). Кожне джерело проходить фільтрацію: видаляють дублікати, спам, дорослий контент, тексти з помилками. Детальніше про те, як AI-платформи опрацьовують веб-дані — у нашій статті Як працює краулінг в епоху AI.

Чому "чисті дані" вичерпуються

Проблема 2025–2026: якісний унікальний текст в інтернеті закінчується. За оцінками дослідників, при поточних темпах споживання доступні якісні дані для pre-training можуть бути вичерпані до 2026–2028 року. Це одна з причин, чому індустрія перейшла до синтетичних даних (докладніше — у розділі 9).

✔️ CommonCrawl — основа, але потребує агресивної фільтрації
✔️ Код — особливо цінний: структурований, логічний, верифікований
✔️ Математичні тексти — покращують reasoning навіть для немат. задач

📌 Tokenization та Data Curation: як текст стає числами

Що таке токенізація та чому це важливо

Токенізація — це перший крок після збору даних: текст розбивається на маленькі шматки (токени), які модель зможе обробляти. Data curation — це фільтрація та очищення даних перед токенізацією. Без якісної токенізації навіть найбільша модель буде повільною та неточною.

Токен — це те, що модель реально "бачить". Людина бачить "привіт", модель бачить [243, 567, 12]. Розуміння токенів — ключ до розуміння вартості та обмежень LLM.

Токенізація — це процес перетворення тексту на числа. Оскільки нейронна мережа не може обробляти літери або слова напряму, весь текст спочатку розбивається на токени, а потім кожен токен отримує свій унікальний ID. Найпоширеніший алгоритм — Byte Pair Encoding (BPE), який використовують GPT, Llama, Claude та Gemini.

Data curation — це те, що відбувається до токенізації: видалення дублікатів, спаму, дорослого контенту, PII (персональних даних), нормалізація тексту. Для GPT-4, за оцінками, з 50+ трильйонів сирих токенів CommonCrawl залишилось ~13 трильйонів після фільтрації.

Чому це важливо для вартості та контексту

🔹 Вартість API рахується за токени. Український текст коштує в 2–3 рази дорожче за англійський — бо займає більше токенів.
🔹 Контекстне вікно обмежене токенами. Англійською влізе в 2–3 рази більше сенсу, ніж кирилицею.
🔹 Якість розуміння залежить від того, наскільки вдало текст розбитий на смислові одиниці.

Детальніше про те, як працює токенізація, чому одне слово може коштувати 1 або 10 токенів, що таке glitch-токени і як вони ламають GPT, а також повні таблиці цін на API у 2026 році — читайте в окремій статті: Що таке токени у ChatGPT, Claude і Gemini: як AI бачить ваш текст і скільки це коштує (2026).

Висновок розділу: токенізація — це не технічна деталь, а основа економіки LLM. Розуміння токенів допомагає оптимізувати витрати на API, ефективніше використовувати контекстне вікно та уникати несподіваної поведінки моделі.

📌 Mid-training: прихований етап між pre і post

Що таке mid-training в LLM

Mid-training — відносно новий етап, що з'явився у 2024–2025 роках між pre-training і post-training. Модель опрацьовує вузькоспеціалізовані дані (математику, код, синтетичні reasoning-послідовності) за тим же алгоритмом, що і pre-training, але на менших і якісніших корпусах. Meta використовує окремий mid-training етап із синтетичними reasoning-даними для Llama 4.

Mid-training — це "доводка" після грубого pre-training: модель вже знає мову, тепер їй показують, як думати крок за кроком.

Концепція mid-training з'явилася як відповідь на практичну проблему: post-training (SFT + RLHF) ефективний для поведінки моделі, але погано розвиває глибокі reasoning-здібності. А додавати математичні задачі в pre-training — неефективно через їх малу частку в загальному корпусі.

Рішення: після основного pre-training запустити ще один раунд навчання — менший за обсягом, але більш якісний і тематичний. Саме так Meta готує Llama 4 до reasoning-задач: окремий mid-training на синтетичних покрокових розмірковуваннях перед фінальним post-training.

Чим mid-training відрізняється від fine-tuning

Fine-tuning змінює поведінку і формат відповідей. Mid-training змінює внутрішні представлення — те, "що" модель знає, а не "як" відповідає. Технічно це той самий алгоритм next-token prediction, але на інших даних і меншу кількість кроків.

Висновок розділу: mid-training — новий стандарт для фронтирних моделей, що дозволяє "вшити" reasoning-здібності без переробки всього pre-training.

📌 SFT: як "передбачник" стає асистентом

Що таке SFT у навчанні LLM

Supervised Fine-Tuning (SFT) — це навчання на парах "запит → якісна відповідь", підготовлених людьми або сильнішими моделями. Після pre-training модель вміє генерувати текст, але не знає формату асистента. SFT навчає її: відповідати на питання, а не продовжувати текст; бути корисною, а не просто правдоподібною.

SFT — це різниця між "модель, яка може написати що завгодно" і "модель, яка відповідає на ваш запит".

Після pre-training, якщо написати "Як зробити омлет?", модель може відповісти продовженням у стилі кулінарного блогу, або Wikipedia-статтею, або рецептом у форматі списку інгредієнтів — залежно від того, що найчастіше зустрічалось у тренувальних даних. SFT фіксує формат: відповідь має бути прямою, корисною, у форматі діалогу.

Дані для SFT — це тисячі або десятки тисяч пар "промпт → відповідь". Їх готують люди-анотатори (дорого) або генерують за допомогою сильніших моделей (дешевше, але з ризиком успадкування помилок). OpenAI використовувала ~13K прикладів SFT для першого InstructGPT. Сучасні моделі — сотні тисяч і більше.

Instruction tuning як різновид SFT

Instruction tuning — це SFT, де промпти сформульовані як явні інструкції ("Перекладіть цей текст", "Напишіть резюме", "Виправте помилки"). Саме це перетворює базову мовну модель на "корисного асистента". FLAN від Google і InstructGPT від OpenAI — перші масштабні приклади цього підходу.

✔️ SFT навчає формат і тон відповідей
✔️ Instruction tuning навчає слідувати конкретним командам
✔️ Без SFT модель технічно грамотна, але "не розуміє", що від неї хочуть

Висновок розділу: SFT — відносно дешевий етап (порівняно з pre-training), але критично важливий: саме він робить модель "асистентом", а не просто генератором тексту.

📌 RLHF: людська оцінка як сигнал для навчання

Як працює RLHF

RLHF (Reinforcement Learning from Human Feedback) — метод, де люди порівнюють кілька відповідей моделі і обирають кращу. З цих порівнянь тренується reward model — окрема нейромережа, що навчилась передбачати людські уподобання. Потім основна модель навчається через RL максимізувати оцінку reward model. Саме RLHF перетворив GPT-3 на ChatGPT.

RLHF вирішив проблему, яку SFT не вміє: навчити модель не просто "правильно відповідати", а відповідати так, як люди вважають корисним.

Механіка RLHF складається з трьох кроків. По-перше, анотатори бачать один і той самий запит з двома або більше варіантами відповіді моделі й обирають кращий. По-друге, reward model навчається на цих порівняннях — вона передбачає, яку відповідь людина обере. По-третє, основна модель навчається через алгоритм PPO (Proximal Policy Optimization) генерувати відповіді, які reward model оцінить високо.

OpenAI показала вражаючий результат: модель 1.3B параметрів, навчена через RLHF, перевершувала модель 175B параметрів, навчену тільки через SFT. Це означає, що alignment важливіший за розмір для практичної корисності.

Reward model — невидимий суддя

Reward model — це окрема нейромережа, навчена передбачати людські оцінки. Вона бачить запит і відповідь і видає число — наскільки ця відповідь "хороша". Під час RLHF основна модель намагається максимізувати цей score, не відхиляючись надто від базової SFT-версії (це контролює KL-divergence penalty).

Чому RLHF дорогий і складний

Класичний PPO-based RLHF вимагає одночасно тримати в пам'яті чотири великі моделі: основну (policy model), заморожену копію SFT-моделі (reference model), reward model і critic/value model. Для фронтирних моделей з мільярдами параметрів це вимагає тисячі GPU і спеціальної інфраструктури. Людські анотатори додають значні витрати: за оцінками, 600 якісних аннотацій коштує близько $60,000.

✔️ RLHF навчає модель людським уподобанням, а не просто правильним відповідям
✔️ Reward model замінює людей під час навчання — але сама навчена на людських оцінках
✔️ PPO вимагає 4 моделі в пам'яті — головна причина, чому шукають альтернативи

Коротке порівняння: RLHF vs RLVR

Метод	Що оптимізує	Обмеження
RLHF (Reinforcement Learning from Human Feedback)	Людські уподобання (human preference) — суб'єктивна якість, тон, стиль, безпека	Суб'єктивність Різні анотатори мають різні думки. Дорого і повільно.
RLVR (Reinforcement Learning with Verifiable Rewards)	Об'єктивна винагорода (objective reward) — правильність математики, коду, точних фактів	Обмежені домени Працює тільки там, де є автоматичний верифікатор (математика, код, структуровані задачі).

Висновок: RLHF кращий для творчих і суб'єктивних задач (написання текстів, tone of voice, безпека). RLVR — для задач з чітко правильною відповіддю (математика, програмування, логіка). У 2025–2026 індустрія рухається до комбінації обох підходів.

📌 DPO, GRPO і RLVR: пост-RLHF ера 2025–2026

Що замінює RLHF у 2026

У 2025–2026 класичний RLHF більше не є домінуючим методом. Сучасний стек: SFT для базового alignment → DPO або SimPO для вирівнювання з уподобаннями → GRPO/DAPO з верифікованими нагородами для reasoning. DPO прибирає необхідність окремої reward model. RLVR (Reinforcement Learning with Verifiable Rewards) замінює людських анотаторів автоматичними верифікаторами для математики і коду.

Рецепт "pretrain → RLHF з людськими мітками" перестав бути стандартом. Кожна велика модель 2025 року використовує інший post-training стек.

DPO: alignment без reward model

Direct Preference Optimization (Rafailov et al., 2023) вирішує ту саму задачу, що й RLHF, але без окремої reward model і без RL-оптимізації. DPO формулює задачу alignment як класифікацію: модель бачить пари (обрана відповідь, відхилена відповідь) і вчиться напряму підвищувати ймовірність обраної. Результат порівнянний з RLHF, але на 40–75% дешевший у compute. Meta використовує DPO як частину alignment-стеку Llama 4.

GRPO: RL без critic model

Group Relative Policy Optimization (DeepSeek, 2024) — алгоритм, що замінює PPO у RLHF. Замість окремої critic/value model GRPO сэмплює кілька відповідей на один запит і порівнює їх між собою. Це прибирає одну з чотирьох моделей у пам'яті, зберігаючи або покращуючи якість. GRPO вже використовується в Nemotron 3 Super від NVIDIA і DeepSeek R1.

RLVR: верифікатор замість людини

Reinforcement Learning with Verifiable Rewards — найважливіша зміна 2025 року. Ідея проста: для математики, коду і структурованих задач не потрібна людська оцінка — достатньо автоматичного верифікатора. Юніт-тест або математичний перевірник дає бінарний сигнал (правильно/неправильно) — швидший, дешевший і стабільніший за людський фідбек. DeepSeek R1-Zero навчили через чисте RLVR без жодного SFT-прикладу — і модель самостійно розвинула здатність до self-reflection і chain-of-thought.

DAPO: RLVR для довгих відповідей

DAPO від ByteDance/Tsinghua (2025) вирішує специфічну проблему: нестабільність GRPO при навчанні reasoning-моделей із довгими chain-of-thought відповідями. DAPO навчив Qwen2.5-32B до 50 балів на AIME 2024, перевершивши DeepSeek-R1-Zero при на 50% менших кроках навчання. Система повністю відкрита.

Метод	Reward model	Critic model	Людські мітки	Застосування 2026
PPO-RLHF	✅ Потрібна	✅ Потрібна	✅ Потрібні	Рідко, тільки у великих лабах
DPO	❌ Не потрібна	❌ Не потрібна	✅ Потрібні (пари)	Стандарт для alignment
GRPO	✅ Потрібна	❌ Не потрібна	Частково	Reasoning-моделі
RLVR	❌ Верифікатор	❌ Не потрібна	❌ Не потрібні	Математика, код, reasoning

Висновок: сучасний alignment-стек модульний: SFT → DPO → GRPO/RLVR. Кожен компонент вирішує окрему задачу і може бути замінений залежно від бюджету і цілей.

📌 Data contamination: коли тест потрапляє в навчання

Що таке data contamination в LLM

Data contamination — це ситуація, коли тестові приклади з бенчмарків потрапляють у тренувальні дані моделі. Результат: модель показує високі бали не тому, що "розумна", а тому, що "бачила відповіді". Це серйозна проблема для оцінки реальних здібностей LLM у 2025–2026.

MMLU 95% не завжди означає "розумна модель". Іноді це означає "модель бачила ці питання під час навчання".

Проблема системна: CommonCrawl містить мільярди сторінок, серед яких — форуми, де люди обговорюють питання з бенчмарків, академічні сайти зі зразками тестів, репозиторії з наборами даних. Якісна фільтрація складна: формально тест MMLU може бути процитований у статті, яка проходить усі фільтри якості.

До речі, сам Common Crawl (звідки беруть дані для навчання GPT-5, Gemini та інших моделей) активно сканує сайти через свого бота CCBot. Якщо ви хочете, щоб ваш контент потрапив у бази знань ШІ, а не тільки в contamination-тести, варто розуміти, як працює цей краулер. Детальніше про те, чому CCBot приходить навіть на молоді сайти, як Harmonic Centrality впливає на пріоритети індексації та чи варто блокувати ШІ-ботів — читайте в моїй статті: Епоха ШІ-краулерів: як CCBot перетворює ваш сайт на базу знань для GPT-5 та Gemini.

У 2024–2025 роках кілька незалежних досліджень знайшли ознаки contamination у топових моделей. Meta і Google публікують "contamination reports" разом із релізами Llama і Gemini — але методологія виявлення залишається предметом дискусій.

Як перевірити contamination самостійно

Ви не потребуєте доступу до тренувальних даних моделі, щоб запідозрити contamination. Ось три практичні методи:

🔍 n-gram overlap: якщо відповідь моделі на тестове питання містить унікальні фрази з тренувального датасету (наприклад, точне формулювання з arXiv або GitHub), це червоний прапорець. Чим довший збіг — тим вища ймовірність contamination.
📅 Питання після knowledge cutoff: задайте моделі питання про подію, яка точно відбулася після її заявленого cutoff. Якщо вона відповідає з точними датами, деталями або цитатами — значить, щось нечисте. "Чиста" модель мала б сказати "Я не знаю" або "Це після моєї дати навчання".
🎯 Membership inference attacks: складніший метод: порівняйте поведінку моделі на питаннях, які майже напевно були в тренувальних даних (наприклад, перші рядки "Гамлета"), з тими, що точно не були (свіжі наукові препринти). Різниця в упевненості або точності може вказувати на contamination.

Як з цим борються розробники

Рішення: нові бенчмарки, що оновлюються після кожного major-релізу (LiveBench), "dynamic benchmarks" з генерацією нових задач (LiveCodeBench), приватні тестові сети, які не публікуються до оцінки. Детальніше про те, як AI-платформи обробляють і фільтрують дані — у статті Як AI-платформи вибирають джерела.

Що робити, якщо ви підозрюєте contamination

По-перше, не довіряйте одному бенчмарку. Порівнюйте моделі за 3-5 різними тестами, бажано з різних доменів. По-друге, тестуйте модель на власних, непублічних даних. По-третє, звертайте увагу на моделі, які публікують свої contamination reports (Meta, Google) — це ознака доброчесності, але не гарантія чистоти.

Висновок розділу: data contamination — системна проблема, що ускладнює об'єктивне порівняння моделей. Орієнтуватись тільки на бенчмарки — помилкова стратегія. Завжди перевіряйте модель на своїх даних і використовуйте кілька незалежних джерел оцінки.

📌 Синтетичні дані: нове паливо для LLM

Навіщо LLM синтетичні дані

Синтетичні дані — це тренувальні приклади, згенеровані іншими AI-моделями, а не написані людьми. Вони вирішують дефіцит якісних реальних даних, дозволяють генерувати нескінченно багато прикладів для рідкісних задач і є основою нової ери навчання 2025–2026. Але чиста синтетика не перевершує реальні дані — оптимальні суміші Real + Synthetic.

Синтетичні дані не замінюють реальні — вони доповнюють їх там, де реальних бракує.

Phi-серія від Microsoft (Phi-1, Phi-2, Phi-3) першою показала, що невелика модель, навчена на "textbook-quality" синтетичних даних, може конкурувати з набагато більшими моделями на реальних даних. Phi-4 (14B параметрів) перевершує моделі в 3–4 рази більші на багатьох reasoning-бенчмарках.

Дослідження Demystifying Synthetic Data in LLM Pre-training (2025) дає практичний висновок: суміш синтетичних і реальних даних (33–67% синтетики) стабільно перевершує як чисту синтетику, так і чисті реальні дані окремо. Повна заміна реальних даних синтетикою призводить до "model collapse" — поступової деградації якості.

RLVR + синтетика = замкнений цикл

Найперспективніший напрям 2026: модель генерує власні тренувальні задачі, оцінює відповіді через верифікатор (RLVR) і навчається на результатах. Жодних людей у циклі. Саме так DeepSeek R1 досяг результатів, порівнянних з o1, при значно менших витратах на людську розмітку.

Висновок: синтетичні дані — не замінник реальних, а необхідне доповнення. Оптимальний підхід 2026 — curated реальні дані + цільова синтетика для слабких місць моделі.

📌 Скільки коштує навчання: реальні цифри

Скільки коштує навчання фронтирної LLM

За даними Stanford AI Index 2025 і Epoch AI: GPT-4 коштував ~$78M у compute, Gemini Ultra — ~$191M, Meta Llama 3.1 405B — ~$170M. Це тільки compute; з урахуванням R&D-персоналу і інфраструктури реальні цифри вищі.

Вартість compute подвоюється кожні п'ять місяців. Але вартість інференсу падає в 9–900 разів на рік — завдяки quantization та MoE.

Модель	Compute cost (оцінка)	Параметри	Джерело
Original Transformer (2017)	~$900	65M	Stanford AI Index
GPT-3 (2020)	~$4.6M	175B	OpenAI / Epoch AI
GPT-4 (2023)	~$78M	Невідомо (≈1.8T)	Stanford AI Index 2025
Gemini Ultra (2023)	~$191M	Невідомо	Stanford AI Index 2025
Llama 3.1 405B (2024)	~$170M	405B dense	Epoch AI
DeepSeek V3 (2024)	$5.6M (заявлено)*	671B MoE (37B active)	DeepSeek

*Це тільки вартість compute для фінального запуску pre-training на кластері H800 GPU. Не включає витрати на попередні експерименти, невдалі запуски, R&D персонал, інфраструктуру та data curation. За оцінками незалежних аналітиків, реальна повна вартість у 3–5 разів вища.

Чому inference дешевшає, а training — дорожчає

Парадокс індустрії: вартість навчання фронтирних моделей зростає на 2–3× на рік, але вартість запиту до моделі падає катастрофічно. За даними Stanford AI Index 2025, запит до моделі рівня GPT-3.5 подешевшав з $20 за мільйон токенів у листопаді 2022 до $0.07 у жовтні 2024 — падіння у 280 разів за 18 місяців.

Як quantization змінює економіку LLM

Quantization — це зберігання ваг моделі не у 16-бітній (FP16), а у 4- або 8-бітній точності (методи GPTQ, AWQ, GGUF). Це дозволяє:

🚀 Запускати Llama 3 70B на одному споживчому GPU (24GB VRAM) замість кластера з 8×A100
🚀 Зменшити вартість інференсу в 5–10 разів при мінімальній втраті якості (1-2% на бенчмарках)
🚀 Запускати LLM на CPU (через llama.cpp) для задач без вимог до латентності

Саме завдяки quantization вартість інференсу впала у 280 разів — той самий hardware тепер запускає моделі, які рік тому були недоступні.

Чому DeepSeek V3 такий дешевий: MoE + оптимізації

DeepSeek V3 досяг $5.6M завдяки трьом факторам:

⚡ MoE архітектура: 671B параметрів, але активується лише ~37B на токен — менше compute на крок
⚡ FP8 training: використання 8-бітної точності замість стандартної FP16/BF16 — вдвічі менше пам'яті та compute
⚡ Китайські ціни на електроенергію та обладнання: H800 там дешевші, ніж H100 в США/Європі

Про те, скільки коштує використання різних моделей через API у 2026, — детально у нашій статті про вартість AI (посилання буде після публікації).

✔️ Training frontier моделей: $78–191M і більше тільки за compute
✔️ Fine-tuning відкритих моделей: $50K–$500K (або $10–100 з LoRA на одному GPU)
✔️ Inference: від $0.03 (DeepSeek V3) до $15 (o1) за мільйон токенів залежно від моделі

Висновок розділу: навчання фронтирних моделей стає дорожчим, але доступ до вже навчених моделей — дешевшим завдяки quantization та MoE. Для більшості бізнесів важливіший inference cost, ніж training cost. А якщо ви хочете зробити fine-tuning, LoRA на одному GPU коштує дешевше за вечерю в ресторані.

📌 Knowledge cutoff: чому AI "заморожений у часі"

Що таке knowledge cutoff у LLM

Knowledge cutoff — дата, після якої модель не має знань про події у світі. Це прямий наслідок pre-training: модель навчається на статичному датасеті, зібраному до певного моменту. Після завершення навчання ваги заморожуються. ChatGPT не знає про вчорашні новини так само, як книга, надрукована рік тому.

Knowledge cutoff — не баг, а архітектурна особливість. Модель не "забула" нові події — вона їх просто ніколи не бачила.

Після pre-training модель "заморожена": її ваги фіксовані, і нова інформація в них не потрапляє автоматично. Якщо відбувається важлива подія — вибори, наукове відкриття, новий продукт — модель про неї не знає, якщо ця інформація з'явилась після cutoff.

Актуальні knowledge cutoffs станом на 2026: Claude Sonnet 4.5 — початок 2025 року, GPT-4o — жовтень 2023, Gemini 2.5 Pro — початок 2025. Моделі оновлюються не безперервно — новий major release виходить раз на кілька місяців або рідше.

Як вирішують проблему: RAG і веб-пошук

Два основних рішення. Перше — Retrieval-Augmented Generation (RAG): перед відповіддю модель отримує релевантні документи з актуальної бази знань і використовує їх у контексті. Друге — веб-пошук: модель може шукати інформацію в реальному часі (як ChatGPT з увімкненим Search або Perplexity). Детальніше про різницю між LLM і RAG — у статті LLM vs RAG у 2026 році.

Висновок: knowledge cutoff — фундаментальне обмеження статичного навчання. Для задач, де потрібна актуальна інформація, потрібен або RAG, або веб-пошук поверх LLM.

📌 Open-source vs закриті моделі: коли що обирати

Оpen-source чи закрита LLM — що краще

Вибір залежить від задачі, бюджету і вимог до приватності. Закриті моделі (GPT, Claude, Gemini) — кращий out-of-the-box результат, але дорожчий inference і залежність від провайдера. Open-source (Llama 4, Mistral, DeepSeek, Qwen) — повний контроль, можливість локального деплою, нульовий inference cost, але потребує технічної команди.

У 2026 розрив у якості між open і closed моделями суттєво скоротився. Llama 4 Scout конкурує з GPT-4o класу на багатьох задачах.

Ще у 2022 році відкриті моделі були значно слабшими за закриті. У 2023–2024 Llama 2, Mistral і DeepSeek суттєво скоротили розрив. У 2025–2026 Llama 4 від Meta і DeepSeek V3/R1 конкурують з топовими закритими моделями на більшості практичних задач.

Критерій	Open-source (Llama 4, DeepSeek, Mistral)	Закриті (GPT, Claude, Gemini)
Вартість inference	$0 (local) або дуже дешево (API)	$1.25–$15 / 1M tokens
Приватність даних	Повна (локальний деплой)	Дані проходять через провайдера
Кастомізація	Fine-tuning, повний контроль	Обмежена (prompt-рівень або fine-tuning API)
Якість out-of-the-box	Дуже хороша (2026)	Найкраща (frontier моделі)
Технічні вимоги	Потрібна команда DevOps/ML	API key + кілька рядків коду

Коли обирати open-source

Локальний деплой через Ollama виправданий, якщо у вас є вимоги до приватності (медицина, фінанси, юриспруденція), великий обсяг запитів де inference cost критичний, або потреба у fine-tuning під специфічну domain-задачу.

Для бюджетних конфігурацій: навіть на скромному залізі можна запустити корисні моделі. Детально про те, які моделі працюють на ноутбуках з 8 ГБ RAM, які задачі вони вирішують (код, текст, reasoning) і як вичавити максимум з обмежених ресурсів — читайте у статті Ollama на 8 ГБ RAM: які моделі працюють у 2026.

Загальний огляд локального AI, порівняння з хмарними рішеннями та сценарії використання — у статті Ollama у 2026.

Висновок розділу: у 2026 немає однозначного переможця — є правильний інструмент для конкретної задачі. Закриті моделі — для швидкого старту і максимальної якості. Open-source — для контролю, приватності і масштабу.

📌 Mixture of Experts (MoE): чому більше параметрів не означає дорожчий інференс

Що таке MoE в LLM

Mixture of Experts (MoE) — архітектура, де модель складається з багатьох "експертів" (окремих MLP-блоків), але для кожного токена активується лише їх невелика підмножина. Це дозволяє мати модель із сотнями мільярдів параметрів (DeepSeek V3 — 671B), але інференс коштує як для моделі у 5–10 разів меншої. MoE — одна з головних причин, чому вартість інференсу падає швидше, ніж зростає розмір моделей.

Без MoE ми б давно вперлися в стелю: модель із трильйоном параметрів коштувала б $1000 за мільйон токенів. MoE робить великі моделі економічно доцільними.

Уявіть, що замість одного гігантського мозку у вас є 100 спеціалістів. Для питання з фізики ви активуєте тільки 2-3 фізиків, а не всіх 100. Так само MoE: для кожного токена "gating network" вирішує, які 1-2 експерти (з десятків або сотень) отримають дані. Інші залишаються неактивними.

Хто використовує MoE у 2026:

✔️ DeepSeek V3 / R1 — 671B параметрів, активовано ~37B на токен
✔️ Mixtral 8x7B / 8x22B — 8 експертів, активовано 2
✔️ GPT-4 (за непідтвердженими даними) — 16 експертів, 111B параметрів, активовано 2
✔️ Qwen 2.5-MoE — 64 експерти, 14B активовано

Чому MoE змінює правила гри

До MoE, якщо ви хотіли кращу модель, ви збільшували параметри (GPT-3: 175B) і отримували лінійне зростання вартості інференсу. MoE розриває цей зв'язок: ви можете мати 671B параметрів (DeepSeek V3), але інференс коштує як для ~37B параметрів. Це різниця в 5–18 разів дешевше.

Простий приклад: якби DeepSeek V3 був щільною (dense) моделлю, його інференс коштував би ~$15-20 за мільйон токенів. Реальна ціна DeepSeek API — ~$0.27 (вхідні) / $1.10 (вихідні). Саме завдяки MoE.

Зворотний бік: навчання MoE складніше

MoE чудова для інференсу, але створює проблеми під час навчання:

⚡ Нерівномірне навантаження: одні експерти можуть бути "популярнішими" за інші, що вимагає додаткових loss-функцій для балансування
⚡ Більша пам'ять: всі 671B параметрів все одно мають поміститися в GPU (або бути розподілені між девайсами)
⚡ Тонке налаштування: стандартний fine-tuning працює гірше; потрібні спеціальні методи (MoE-specific LoRA, або fine-tuning тільки gating network)

Висновок: MoE — це "секретна зброя" великих моделей 2025–2026. Вона пояснює, як DeepSeek конкурує з GPT-4o за ціною в 10× менше, і чому відкриті моделі можуть бути величезними, але доступними.

❓ Часті питання (FAQ)

Скільки часу займає навчання GPT-подібної моделі?

Pre-training фронтирної моделі займає від кількох тижнів до кількох місяців на кластері з тисячами GPU. GPT-4, за оцінками, навчали кілька місяців на тисячах A100. Повний цикл від початку pre-training до релізу — 6–18 місяців з урахуванням post-training, evaluations і safety-тестів.

Чи можна навчити свою LLM з нуля?

Технічно — так, але економічно доступно лише для великих організацій. Pre-training малої моделі (7B параметрів) коштує від $50K до $500K. Для більшості бізнесів раціональніше брати відкриту базову модель (Llama 4, Mistral) і робити fine-tuning під свою задачу — це коштує від кількох сотень до кількох тисяч доларів.

Що таке fine-tuning і чим він відрізняється від навчання з нуля?

Fine-tuning — це донавчання вже навченої моделі на новому, вузькому датасеті. Модель зберігає знання з pre-training, але адаптується до нової задачі або стилю. На відміну від навчання з нуля, fine-tuning потребує на порядки менше даних і compute. LoRA і QLoRA дозволяють робити fine-tuning навіть на споживчих GPU.

Чому ChatGPT не знає актуальних новин?

Через knowledge cutoff: модель навчена на даних до певної дати і не отримує нових знань автоматично. ChatGPT вирішує це через інтеграцію веб-пошуку (Search), але базова модель залишається "замороженою". Без пошуку або RAG LLM не знатиме про події після cutoff.

Чи безпечні синтетичні дані для навчання?

Синтетичні дані безпечні при правильному використанні — як доповнення до реальних. Повна заміна реальних даних синтетикою призводить до "model collapse": кожне наступне покоління моделі трохи деградує, бо навчається на виходах попереднього. Оптимальне рішення — суміш реальних і синтетичних даних у пропорції 33–67% синтетики.

Що таке RLVR і чим він кращий за RLHF?

RLVR (Reinforcement Learning with Verifiable Rewards) використовує автоматичний верифікатор замість людських оцінювачів. Для задач з чіткою правильною відповіддю (математика, код, логіка) верифікатор швидший, дешевший і стабільніший за людину. RLHF залишається необхідним для задач без чіткої "правильної відповіді" — творче письмо, суб'єктивні уподобання, нюанси тону.

Навіщо навчати модель на коді, якщо вона текстова?

Код — особливо цінні дані навіть для загальних LLM. Він структурований, логічний, верифікований (код або працює, або ні) і містить концентровані причинно-наслідкові зв'язки. Моделі, навчені на більшій частці коду, показують кращі результати на reasoning-задачах навіть поза програмуванням.

✅ Висновки

🔹 Навчання LLM — це конвеєр із чотирьох етапів: pre-training (мова) → mid-training (спеціалізація) → SFT (формат) → alignment (поведінка). Жоден не можна пропустити.
🔹 Класичний RLHF помер у 2025. Йому на зміну прийшов модульний стек: DPO для alignment, GRPO/RLVR для reasoning — дешевше, швидше і стабільніше.
🔹 Вартість навчання фронтирних моделей: $78–191M у compute (Stanford AI Index 2025). Але вартість інференсу падає в 9–900 разів на рік — завдяки quantization та MoE.
🔹 Синтетичні дані — не панацея. Оптимальна суміш: 33–67% синтетики + решта реальних даних. Чиста синтетика веде до "model collapse".
🔹 Knowledge cutoff — не баг, а особливість. Модель не "забуває" новини — вона їх ніколи не бачила. Вирішується через RAG або веб-пошук.
🔹 Open-source майже наздогнали закриті. Llama 4, DeepSeek і Qwen конкурують із GPT-4o та Claude на більшості практичних задач.

Головна думка: навчання LLM у 2026 — це не монолітний процес, а модульний стек, де кожен компонент еволюціонує окремо. Розуміння цього стеку дозволяє не лише обирати правильну модель для задачі, а й критично оцінювати маркетингові заяви про "найкращу модель у світі".

🎯 Гострий тезис для запам'ятовування: Якби не safety-регулювання та юридичні ризики, закриті моделі вже втратили б сенс для 80% бізнес-задач. Open-source дешевший, контрольований і майже такий самий якісний. Вибір закритої моделі сьогодні — це часто вибір зручності та бренду, а не технічної переваги.

Наступна стаття серії: Контекстне вікно LLM — чому AI забуває і скільки це коштує.

Також читайте: Embeddings простими словами: як AI розуміє сенс, а не просто слова — фундаментальний гайд про те, як текст перетворюється на числа і чому це лежить в основі RAG та семантичного пошуку.

Embedding-моделі для RAG у 2026 — повний гайд по вибору з порівнянням 10+ моделей, цінами та реальним кейсом.

Категорії