Як навчають LLM: від pre-training до RLVR — повний гайд 2026

Updated:
Як навчають LLM: від pre-training до RLVR — повний гайд 2026

Якщо ви досі думаєте, що LLM навчають так: "скопіювали весь інтернет → натиснули кнопку Train" – ви помиляєтесь на сотні мільйонів доларів.

ChatGPT, Claude і Gemini проходять три принципово різних етапи навчання. І найважливіший з них – не pre-training. Спойлер: у 2025–2026 людська оцінка відповідей поступово зникає, її замінюють автоматичні верифікатори. RLHF більше не в тренді.

Ось повний гайд, який пояснює, як це працює насправді – з цифрами, таблицями та посиланнями на першоджерела.

⚡ Коротко

  • Pre-training: модель читає 10–15 трильйонів токенів і вчиться передбачати наступне слово — це фундамент усього
  • Post-training (SFT + alignment): перетворює "передбачника тексту" на корисного асистента
  • RLHF застарів: у 2025–2026 стандартом став модульний стек SFT → DPO → GRPO/RLVR
  • Вартість: GPT-4 — ~$78M, Gemini Ultra — ~$191M у compute (Stanford AI Index 2025)
  • 🎯 Ви отримаєте: розуміння повного циклу навчання LLM, реальні цифри та актуальний стек 2026
  • 👇 Нижче — детальні пояснення, таблиці та посилання на першоджерела

📚 Зміст статті

🎯 Як навчають LLM — за 60 секунд

Кожна сучасна LLM проходить три послідовних етапи: pre-training (модель вчиться мові на трильйонах токенів), supervised fine-tuning або SFT (модель вчиться відповідати як асистент), і alignment (людська або автоматична оцінка відповідей формує фінальну поведінку). У 2025–2026 між pre-training і SFT з'явився четвертий етап — mid-training — для спеціалізованих даних.

Модель не "знає" мову після pre-training — вона просто дуже добре передбачає наступний токен. Перетворення на корисного асистента відбувається на наступних етапах.

Уявіть, що ви навчаєте нового співробітника. Спочатку він роками читає книги, статті й документацію — це pre-training. Потім він проходить стажування, де спостерігає за тим, як досвідчені колеги відповідають на запити — це SFT. Нарешті, менеджери оцінюють його роботу і дають фідбек — це alignment через RLHF або DPO. Без першого етапу неможливий другий. Без третього — модель технічно грамотна, але непередбачувана у поведінці.

Чому порядок етапів критичний

Якщо пропустити pre-training і одразу зробити fine-tuning — модель не матиме базового розуміння мови. Якщо пропустити alignment — модель може відповідати технічно правильно, але небезпечно або не так, як очікує користувач. Кожен етап будує на попередньому, і помилка на ранній стадії неможлива до виправлення без повторного навчання.

  • ✔️ Pre-training: мова, факти, логіка — засвоєно з даних
  • ✔️ SFT: формат відповідей асистента — засвоєно з прикладів
  • ✔️ Alignment: цінності і поведінка — засвоєно з оцінок і порівнянь

Висновок: навчання LLM — це не одна операція, а послідовний конвеєр з чітко визначеними ролями кожного етапу.

📌 Scaling laws: чому більше — дійсно краще

Що таке scaling laws у LLM

Scaling laws — це емпіричні закономірності: якість моделі передбачувано зростає зі збільшенням кількості параметрів, обсягу даних і обчислень. За даними Epoch AI, training compute для помітних AI-моделей подвоюється приблизно кожні п'ять місяців. Це пояснює, чому навчання коштує $78–191M і чому лабораторії не зупиняються.

Scaling laws — це не оптимізм, а вимірювана математика. Якщо подвоїти compute, якість моделі зростає передбачувано.

У 2020 році OpenAI опублікувала перші scaling laws для нейромереж. Суть: loss (помилка моделі) зменшується за степеневим законом зі зростанням параметрів, даних і compute. Тобто, якщо ви хочете модель удвічі кращу — потрібно не вдвічі, а в десятки разів більше ресурсів.

У 2022 році DeepMind уточнила ці закони у роботі "Chinchilla" (Hoffmann et al., 2022). Висновок: попередні моделі, включно з GPT-3, були "недонавчені" — вони мали забагато параметрів відносно кількості токенів. Оптимальне співвідношення — приблизно 20 токенів на параметр. GPT-3 (175B параметрів) мав бути навчений на ~3.5T токенів, а не на 300B.

Чому це пояснює вартість навчання

Сучасні фронтирні моделі свідомо порушують Chinchilla-оптимум у бік більшої кількості токенів. Llama 3.3, наприклад, навчалась на ~15 трильйонах токенів — набагато більше, ніж "потрібно" для оптимального навчання. Причина прагматична: менша модель, навчена на більшій кількості токенів, дешевша в інференсі при тій самій якості.

  • ✔️ Більше параметрів → краще запам'ятовує патерни
  • ✔️ Більше токенів → краще узагальнює
  • ✔️ Більше compute → швидше сходження до мінімуму loss

Висновок: scaling laws — це математична основа "гонки озброєнь" у AI, яка пояснює і мільярдні бюджети, і постійне зростання розмірів моделей.

📌 Pre-training: модель читає весь інтернет

Що відбувається під час pre-training LLM

Pre-training — це навчання передбачати наступний токен на масивних корпусах тексту: CommonCrawl (веб-сторінки), книги, код, Вікіпедія, наукові статті. Сучасні моделі обробляють 10–15 трильйонів токенів. Мета — не заучити факти, а засвоїти структуру мови, логіку та причинно-наслідкові зв'язки.

Pre-training — це не навчання "відповідати". Це навчання "розуміти текст" через нескінченне заповнення пропусків.

Задача pre-training технічно проста: модель бачить послідовність токенів і намагається передбачити наступний. Якщо написано "Київ — столиця", модель має передбачити "України". Помилка порівнюється з правильною відповіддю, ваги нейромережі коригуються. Цей процес повторюється трильйони разів.

Де беруть дані? Основне джерело — CommonCrawl: щомісячні знімки мільярдів веб-сторінок. До нього додають книги (Books3, Project Gutenberg), GitHub (код), Вікіпедію, наукові статті (ArXiv, PubMed), форуми (Reddit, Stack Overflow). Кожне джерело проходить фільтрацію: видаляють дублікати, спам, дорослий контент, тексти з помилками. Детальніше про те, як AI-платформи опрацьовують веб-дані — у нашій статті Як працює краулінг в епоху AI.

Чому "чисті дані" вичерпуються

Проблема 2025–2026: якісний унікальний текст в інтернеті закінчується. За оцінками дослідників, при поточних темпах споживання доступні якісні дані для pre-training можуть бути вичерпані до 2026–2028 року. Це одна з причин, чому індустрія перейшла до синтетичних даних (докладніше — у розділі 9).

  • ✔️ CommonCrawl — основа, але потребує агресивної фільтрації
  • ✔️ Код — особливо цінний: структурований, логічний, верифікований
  • ✔️ Математичні тексти — покращують reasoning навіть для немат. задач

📌 Tokenization та Data Curation: як текст стає числами

Що таке токенізація та чому це важливо

Токенізація — це перший крок після збору даних: текст розбивається на маленькі шматки (токени), які модель зможе обробляти. Data curation — це фільтрація та очищення даних перед токенізацією. Без якісної токенізації навіть найбільша модель буде повільною та неточною.

Токен — це те, що модель реально "бачить". Людина бачить "привіт", модель бачить [243, 567, 12]. Розуміння токенів — ключ до розуміння вартості та обмежень LLM.

Токенізація — це процес перетворення тексту на числа. Оскільки нейронна мережа не може обробляти літери або слова напряму, весь текст спочатку розбивається на токени, а потім кожен токен отримує свій унікальний ID. Найпоширеніший алгоритм — Byte Pair Encoding (BPE), який використовують GPT, Llama, Claude та Gemini.

Data curation — це те, що відбувається до токенізації: видалення дублікатів, спаму, дорослого контенту, PII (персональних даних), нормалізація тексту. Для GPT-4, за оцінками, з 50+ трильйонів сирих токенів CommonCrawl залишилось ~13 трильйонів після фільтрації.

Чому це важливо для вартості та контексту

  • 🔹 Вартість API рахується за токени. Український текст коштує в 2–3 рази дорожче за англійський — бо займає більше токенів.
  • 🔹 Контекстне вікно обмежене токенами. Англійською влізе в 2–3 рази більше сенсу, ніж кирилицею.
  • 🔹 Якість розуміння залежить від того, наскільки вдало текст розбитий на смислові одиниці.

Детальніше про те, як працює токенізація, чому одне слово може коштувати 1 або 10 токенів, що таке glitch-токени і як вони ламають GPT, а також повні таблиці цін на API у 2026 році — читайте в окремій статті: Що таке токени у ChatGPT, Claude і Gemini: як AI бачить ваш текст і скільки це коштує (2026).

Висновок розділу: токенізація — це не технічна деталь, а основа економіки LLM. Розуміння токенів допомагає оптимізувати витрати на API, ефективніше використовувати контекстне вікно та уникати несподіваної поведінки моделі.

📌 Mid-training: прихований етап між pre і post

Що таке mid-training в LLM

Mid-training — відносно новий етап, що з'явився у 2024–2025 роках між pre-training і post-training. Модель опрацьовує вузькоспеціалізовані дані (математику, код, синтетичні reasoning-послідовності) за тим же алгоритмом, що і pre-training, але на менших і якісніших корпусах. Meta використовує окремий mid-training етап із синтетичними reasoning-даними для Llama 4.

Mid-training — це "доводка" після грубого pre-training: модель вже знає мову, тепер їй показують, як думати крок за кроком.

Концепція mid-training з'явилася як відповідь на практичну проблему: post-training (SFT + RLHF) ефективний для поведінки моделі, але погано розвиває глибокі reasoning-здібності. А додавати математичні задачі в pre-training — неефективно через їх малу частку в загальному корпусі.

Рішення: після основного pre-training запустити ще один раунд навчання — менший за обсягом, але більш якісний і тематичний. Саме так Meta готує Llama 4 до reasoning-задач: окремий mid-training на синтетичних покрокових розмірковуваннях перед фінальним post-training.

Чим mid-training відрізняється від fine-tuning

Fine-tuning змінює поведінку і формат відповідей. Mid-training змінює внутрішні представлення — те, "що" модель знає, а не "як" відповідає. Технічно це той самий алгоритм next-token prediction, але на інших даних і меншу кількість кроків.

Висновок розділу: mid-training — новий стандарт для фронтирних моделей, що дозволяє "вшити" reasoning-здібності без переробки всього pre-training.

📌 SFT: як "передбачник" стає асистентом

Що таке SFT у навчанні LLM

Supervised Fine-Tuning (SFT) — це навчання на парах "запит → якісна відповідь", підготовлених людьми або сильнішими моделями. Після pre-training модель вміє генерувати текст, але не знає формату асистента. SFT навчає її: відповідати на питання, а не продовжувати текст; бути корисною, а не просто правдоподібною.

SFT — це різниця між "модель, яка може написати що завгодно" і "модель, яка відповідає на ваш запит".

Після pre-training, якщо написати "Як зробити омлет?", модель може відповісти продовженням у стилі кулінарного блогу, або Wikipedia-статтею, або рецептом у форматі списку інгредієнтів — залежно від того, що найчастіше зустрічалось у тренувальних даних. SFT фіксує формат: відповідь має бути прямою, корисною, у форматі діалогу.

Дані для SFT — це тисячі або десятки тисяч пар "промпт → відповідь". Їх готують люди-анотатори (дорого) або генерують за допомогою сильніших моделей (дешевше, але з ризиком успадкування помилок). OpenAI використовувала ~13K прикладів SFT для першого InstructGPT. Сучасні моделі — сотні тисяч і більше.

Instruction tuning як різновид SFT

Instruction tuning — це SFT, де промпти сформульовані як явні інструкції ("Перекладіть цей текст", "Напишіть резюме", "Виправте помилки"). Саме це перетворює базову мовну модель на "корисного асистента". FLAN від Google і InstructGPT від OpenAI — перші масштабні приклади цього підходу.

  • ✔️ SFT навчає формат і тон відповідей
  • ✔️ Instruction tuning навчає слідувати конкретним командам
  • ✔️ Без SFT модель технічно грамотна, але "не розуміє", що від неї хочуть

Висновок розділу: SFT — відносно дешевий етап (порівняно з pre-training), але критично важливий: саме він робить модель "асистентом", а не просто генератором тексту.

📌 RLHF: людська оцінка як сигнал для навчання

Як працює RLHF

RLHF (Reinforcement Learning from Human Feedback) — метод, де люди порівнюють кілька відповідей моделі і обирають кращу. З цих порівнянь тренується reward model — окрема нейромережа, що навчилась передбачати людські уподобання. Потім основна модель навчається через RL максимізувати оцінку reward model. Саме RLHF перетворив GPT-3 на ChatGPT.

RLHF вирішив проблему, яку SFT не вміє: навчити модель не просто "правильно відповідати", а відповідати так, як люди вважають корисним.

Механіка RLHF складається з трьох кроків. По-перше, анотатори бачать один і той самий запит з двома або більше варіантами відповіді моделі й обирають кращий. По-друге, reward model навчається на цих порівняннях — вона передбачає, яку відповідь людина обере. По-третє, основна модель навчається через алгоритм PPO (Proximal Policy Optimization) генерувати відповіді, які reward model оцінить високо.

OpenAI показала вражаючий результат: модель 1.3B параметрів, навчена через RLHF, перевершувала модель 175B параметрів, навчену тільки через SFT. Це означає, що alignment важливіший за розмір для практичної корисності.

Reward model — невидимий суддя

Reward model — це окрема нейромережа, навчена передбачати людські оцінки. Вона бачить запит і відповідь і видає число — наскільки ця відповідь "хороша". Під час RLHF основна модель намагається максимізувати цей score, не відхиляючись надто від базової SFT-версії (це контролює KL-divergence penalty).

Чому RLHF дорогий і складний

Класичний PPO-based RLHF вимагає одночасно тримати в пам'яті чотири великі моделі: основну (policy model), заморожену копію SFT-моделі (reference model), reward model і critic/value model. Для фронтирних моделей з мільярдами параметрів це вимагає тисячі GPU і спеціальної інфраструктури. Людські анотатори додають значні витрати: за оцінками, 600 якісних аннотацій коштує близько $60,000.

  • ✔️ RLHF навчає модель людським уподобанням, а не просто правильним відповідям
  • ✔️ Reward model замінює людей під час навчання — але сама навчена на людських оцінках
  • ✔️ PPO вимагає 4 моделі в пам'яті — головна причина, чому шукають альтернативи

Коротке порівняння: RLHF vs RLVR

Метод Що оптимізує Обмеження
RLHF
(Reinforcement Learning from Human Feedback)
Людські уподобання (human preference)
— суб'єктивна якість, тон, стиль, безпека
Суб'єктивність
Різні анотатори мають різні думки. Дорого і повільно.
RLVR
(Reinforcement Learning with Verifiable Rewards)
Об'єктивна винагорода (objective reward)
— правильність математики, коду, точних фактів
Обмежені домени
Працює тільки там, де є автоматичний верифікатор (математика, код, структуровані задачі).

Висновок: RLHF кращий для творчих і суб'єктивних задач (написання текстів, tone of voice, безпека). RLVR — для задач з чітко правильною відповіддю (математика, програмування, логіка). У 2025–2026 індустрія рухається до комбінації обох підходів.

📌 DPO, GRPO і RLVR: пост-RLHF ера 2025–2026

Що замінює RLHF у 2026

У 2025–2026 класичний RLHF більше не є домінуючим методом. Сучасний стек: SFT для базового alignment → DPO або SimPO для вирівнювання з уподобаннями → GRPO/DAPO з верифікованими нагородами для reasoning. DPO прибирає необхідність окремої reward model. RLVR (Reinforcement Learning with Verifiable Rewards) замінює людських анотаторів автоматичними верифікаторами для математики і коду.

Рецепт "pretrain → RLHF з людськими мітками" перестав бути стандартом. Кожна велика модель 2025 року використовує інший post-training стек.

DPO: alignment без reward model

Direct Preference Optimization (Rafailov et al., 2023) вирішує ту саму задачу, що й RLHF, але без окремої reward model і без RL-оптимізації. DPO формулює задачу alignment як класифікацію: модель бачить пари (обрана відповідь, відхилена відповідь) і вчиться напряму підвищувати ймовірність обраної. Результат порівнянний з RLHF, але на 40–75% дешевший у compute. Meta використовує DPO як частину alignment-стеку Llama 4.

GRPO: RL без critic model

Group Relative Policy Optimization (DeepSeek, 2024) — алгоритм, що замінює PPO у RLHF. Замість окремої critic/value model GRPO сэмплює кілька відповідей на один запит і порівнює їх між собою. Це прибирає одну з чотирьох моделей у пам'яті, зберігаючи або покращуючи якість. GRPO вже використовується в Nemotron 3 Super від NVIDIA і DeepSeek R1.

RLVR: верифікатор замість людини

Reinforcement Learning with Verifiable Rewards — найважливіша зміна 2025 року. Ідея проста: для математики, коду і структурованих задач не потрібна людська оцінка — достатньо автоматичного верифікатора. Юніт-тест або математичний перевірник дає бінарний сигнал (правильно/неправильно) — швидший, дешевший і стабільніший за людський фідбек. DeepSeek R1-Zero навчили через чисте RLVR без жодного SFT-прикладу — і модель самостійно розвинула здатність до self-reflection і chain-of-thought.

DAPO: RLVR для довгих відповідей

DAPO від ByteDance/Tsinghua (2025) вирішує специфічну проблему: нестабільність GRPO при навчанні reasoning-моделей із довгими chain-of-thought відповідями. DAPO навчив Qwen2.5-32B до 50 балів на AIME 2024, перевершивши DeepSeek-R1-Zero при на 50% менших кроках навчання. Система повністю відкрита.

Метод Reward model Critic model Людські мітки Застосування 2026
PPO-RLHF ✅ Потрібна ✅ Потрібна ✅ Потрібні Рідко, тільки у великих лабах
DPO ❌ Не потрібна ❌ Не потрібна ✅ Потрібні (пари) Стандарт для alignment
GRPO ✅ Потрібна ❌ Не потрібна Частково Reasoning-моделі
RLVR ❌ Верифікатор ❌ Не потрібна ❌ Не потрібні Математика, код, reasoning

Висновок: сучасний alignment-стек модульний: SFT → DPO → GRPO/RLVR. Кожен компонент вирішує окрему задачу і може бути замінений залежно від бюджету і цілей.

📌 Data contamination: коли тест потрапляє в навчання

Що таке data contamination в LLM

Data contamination — це ситуація, коли тестові приклади з бенчмарків потрапляють у тренувальні дані моделі. Результат: модель показує високі бали не тому, що "розумна", а тому, що "бачила відповіді". Це серйозна проблема для оцінки реальних здібностей LLM у 2025–2026.

MMLU 95% не завжди означає "розумна модель". Іноді це означає "модель бачила ці питання під час навчання".

Проблема системна: CommonCrawl містить мільярди сторінок, серед яких — форуми, де люди обговорюють питання з бенчмарків, академічні сайти зі зразками тестів, репозиторії з наборами даних. Якісна фільтрація складна: формально тест MMLU може бути процитований у статті, яка проходить усі фільтри якості.

До речі, сам Common Crawl (звідки беруть дані для навчання GPT-5, Gemini та інших моделей) активно сканує сайти через свого бота CCBot. Якщо ви хочете, щоб ваш контент потрапив у бази знань ШІ, а не тільки в contamination-тести, варто розуміти, як працює цей краулер. Детальніше про те, чому CCBot приходить навіть на молоді сайти, як Harmonic Centrality впливає на пріоритети індексації та чи варто блокувати ШІ-ботів — читайте в моїй статті: Епоха ШІ-краулерів: як CCBot перетворює ваш сайт на базу знань для GPT-5 та Gemini.

У 2024–2025 роках кілька незалежних досліджень знайшли ознаки contamination у топових моделей. Meta і Google публікують "contamination reports" разом із релізами Llama і Gemini — але методологія виявлення залишається предметом дискусій.

Як перевірити contamination самостійно

Ви не потребуєте доступу до тренувальних даних моделі, щоб запідозрити contamination. Ось три практичні методи:

  • 🔍 n-gram overlap: якщо відповідь моделі на тестове питання містить унікальні фрази з тренувального датасету (наприклад, точне формулювання з arXiv або GitHub), це червоний прапорець. Чим довший збіг — тим вища ймовірність contamination.
  • 📅 Питання після knowledge cutoff: задайте моделі питання про подію, яка точно відбулася після її заявленого cutoff. Якщо вона відповідає з точними датами, деталями або цитатами — значить, щось нечисте. "Чиста" модель мала б сказати "Я не знаю" або "Це після моєї дати навчання".
  • 🎯 Membership inference attacks: складніший метод: порівняйте поведінку моделі на питаннях, які майже напевно були в тренувальних даних (наприклад, перші рядки "Гамлета"), з тими, що точно не були (свіжі наукові препринти). Різниця в упевненості або точності може вказувати на contamination.

Як з цим борються розробники

Рішення: нові бенчмарки, що оновлюються після кожного major-релізу (LiveBench), "dynamic benchmarks" з генерацією нових задач (LiveCodeBench), приватні тестові сети, які не публікуються до оцінки. Детальніше про те, як AI-платформи обробляють і фільтрують дані — у статті Як AI-платформи вибирають джерела.

Що робити, якщо ви підозрюєте contamination

По-перше, не довіряйте одному бенчмарку. Порівнюйте моделі за 3-5 різними тестами, бажано з різних доменів. По-друге, тестуйте модель на власних, непублічних даних. По-третє, звертайте увагу на моделі, які публікують свої contamination reports (Meta, Google) — це ознака доброчесності, але не гарантія чистоти.

Висновок розділу: data contamination — системна проблема, що ускладнює об'єктивне порівняння моделей. Орієнтуватись тільки на бенчмарки — помилкова стратегія. Завжди перевіряйте модель на своїх даних і використовуйте кілька незалежних джерел оцінки.

📌 Синтетичні дані: нове паливо для LLM

Навіщо LLM синтетичні дані

Синтетичні дані — це тренувальні приклади, згенеровані іншими AI-моделями, а не написані людьми. Вони вирішують дефіцит якісних реальних даних, дозволяють генерувати нескінченно багато прикладів для рідкісних задач і є основою нової ери навчання 2025–2026. Але чиста синтетика не перевершує реальні дані — оптимальні суміші Real + Synthetic.

Синтетичні дані не замінюють реальні — вони доповнюють їх там, де реальних бракує.

Phi-серія від Microsoft (Phi-1, Phi-2, Phi-3) першою показала, що невелика модель, навчена на "textbook-quality" синтетичних даних, може конкурувати з набагато більшими моделями на реальних даних. Phi-4 (14B параметрів) перевершує моделі в 3–4 рази більші на багатьох reasoning-бенчмарках.

Дослідження Demystifying Synthetic Data in LLM Pre-training (2025) дає практичний висновок: суміш синтетичних і реальних даних (33–67% синтетики) стабільно перевершує як чисту синтетику, так і чисті реальні дані окремо. Повна заміна реальних даних синтетикою призводить до "model collapse" — поступової деградації якості.

RLVR + синтетика = замкнений цикл

Найперспективніший напрям 2026: модель генерує власні тренувальні задачі, оцінює відповіді через верифікатор (RLVR) і навчається на результатах. Жодних людей у циклі. Саме так DeepSeek R1 досяг результатів, порівнянних з o1, при значно менших витратах на людську розмітку.

Висновок: синтетичні дані — не замінник реальних, а необхідне доповнення. Оптимальний підхід 2026 — curated реальні дані + цільова синтетика для слабких місць моделі.

📌 Скільки коштує навчання: реальні цифри

Скільки коштує навчання фронтирної LLM

За даними Stanford AI Index 2025 і Epoch AI: GPT-4 коштував ~$78M у compute, Gemini Ultra — ~$191M, Meta Llama 3.1 405B — ~$170M. Це тільки compute; з урахуванням R&D-персоналу і інфраструктури реальні цифри вищі.

Вартість compute подвоюється кожні п'ять місяців. Але вартість інференсу падає в 9–900 разів на рік — завдяки quantization та MoE.

Модель Compute cost (оцінка) Параметри Джерело
Original Transformer (2017) ~$900 65M Stanford AI Index
GPT-3 (2020) ~$4.6M 175B OpenAI / Epoch AI
GPT-4 (2023) ~$78M Невідомо (≈1.8T) Stanford AI Index 2025
Gemini Ultra (2023) ~$191M Невідомо Stanford AI Index 2025
Llama 3.1 405B (2024) ~$170M 405B dense Epoch AI
DeepSeek V3 (2024) $5.6M (заявлено)* 671B MoE (37B active) DeepSeek

*Це тільки вартість compute для фінального запуску pre-training на кластері H800 GPU. Не включає витрати на попередні експерименти, невдалі запуски, R&D персонал, інфраструктуру та data curation. За оцінками незалежних аналітиків, реальна повна вартість у 3–5 разів вища.

Чому inference дешевшає, а training — дорожчає

Парадокс індустрії: вартість навчання фронтирних моделей зростає на 2–3× на рік, але вартість запиту до моделі падає катастрофічно. За даними Stanford AI Index 2025, запит до моделі рівня GPT-3.5 подешевшав з $20 за мільйон токенів у листопаді 2022 до $0.07 у жовтні 2024 — падіння у 280 разів за 18 місяців.

Як quantization змінює економіку LLM

Quantization — це зберігання ваг моделі не у 16-бітній (FP16), а у 4- або 8-бітній точності (методи GPTQ, AWQ, GGUF). Це дозволяє:

  • 🚀 Запускати Llama 3 70B на одному споживчому GPU (24GB VRAM) замість кластера з 8×A100
  • 🚀 Зменшити вартість інференсу в 5–10 разів при мінімальній втраті якості (1-2% на бенчмарках)
  • 🚀 Запускати LLM на CPU (через llama.cpp) для задач без вимог до латентності

Саме завдяки quantization вартість інференсу впала у 280 разів — той самий hardware тепер запускає моделі, які рік тому були недоступні.

Чому DeepSeek V3 такий дешевий: MoE + оптимізації

DeepSeek V3 досяг $5.6M завдяки трьом факторам:

  • MoE архітектура: 671B параметрів, але активується лише ~37B на токен — менше compute на крок
  • FP8 training: використання 8-бітної точності замість стандартної FP16/BF16 — вдвічі менше пам'яті та compute
  • Китайські ціни на електроенергію та обладнання: H800 там дешевші, ніж H100 в США/Європі

Про те, скільки коштує використання різних моделей через API у 2026, — детально у нашій статті про вартість AI (посилання буде після публікації).

  • ✔️ Training frontier моделей: $78–191M і більше тільки за compute
  • ✔️ Fine-tuning відкритих моделей: $50K–$500K (або $10–100 з LoRA на одному GPU)
  • ✔️ Inference: від $0.03 (DeepSeek V3) до $15 (o1) за мільйон токенів залежно від моделі

Висновок розділу: навчання фронтирних моделей стає дорожчим, але доступ до вже навчених моделей — дешевшим завдяки quantization та MoE. Для більшості бізнесів важливіший inference cost, ніж training cost. А якщо ви хочете зробити fine-tuning, LoRA на одному GPU коштує дешевше за вечерю в ресторані.

📌 Knowledge cutoff: чому AI "заморожений у часі"

Що таке knowledge cutoff у LLM

Knowledge cutoff — дата, після якої модель не має знань про події у світі. Це прямий наслідок pre-training: модель навчається на статичному датасеті, зібраному до певного моменту. Після завершення навчання ваги заморожуються. ChatGPT не знає про вчорашні новини так само, як книга, надрукована рік тому.

Knowledge cutoff — не баг, а архітектурна особливість. Модель не "забула" нові події — вона їх просто ніколи не бачила.

Після pre-training модель "заморожена": її ваги фіксовані, і нова інформація в них не потрапляє автоматично. Якщо відбувається важлива подія — вибори, наукове відкриття, новий продукт — модель про неї не знає, якщо ця інформація з'явилась після cutoff.

Актуальні knowledge cutoffs станом на 2026: Claude Sonnet 4.5 — початок 2025 року, GPT-4o — жовтень 2023, Gemini 2.5 Pro — початок 2025. Моделі оновлюються не безперервно — новий major release виходить раз на кілька місяців або рідше.

Як вирішують проблему: RAG і веб-пошук

Два основних рішення. Перше — Retrieval-Augmented Generation (RAG): перед відповіддю модель отримує релевантні документи з актуальної бази знань і використовує їх у контексті. Друге — веб-пошук: модель може шукати інформацію в реальному часі (як ChatGPT з увімкненим Search або Perplexity). Детальніше про різницю між LLM і RAG — у статті LLM vs RAG у 2026 році.

Висновок: knowledge cutoff — фундаментальне обмеження статичного навчання. Для задач, де потрібна актуальна інформація, потрібен або RAG, або веб-пошук поверх LLM.

📌 Open-source vs закриті моделі: коли що обирати

Оpen-source чи закрита LLM — що краще

Вибір залежить від задачі, бюджету і вимог до приватності. Закриті моделі (GPT, Claude, Gemini) — кращий out-of-the-box результат, але дорожчий inference і залежність від провайдера. Open-source (Llama 4, Mistral, DeepSeek, Qwen) — повний контроль, можливість локального деплою, нульовий inference cost, але потребує технічної команди.

У 2026 розрив у якості між open і closed моделями суттєво скоротився. Llama 4 Scout конкурує з GPT-4o класу на багатьох задачах.

Ще у 2022 році відкриті моделі були значно слабшими за закриті. У 2023–2024 Llama 2, Mistral і DeepSeek суттєво скоротили розрив. У 2025–2026 Llama 4 від Meta і DeepSeek V3/R1 конкурують з топовими закритими моделями на більшості практичних задач.

Критерій Open-source (Llama 4, DeepSeek, Mistral) Закриті (GPT, Claude, Gemini)
Вартість inference $0 (local) або дуже дешево (API) $1.25–$15 / 1M tokens
Приватність даних Повна (локальний деплой) Дані проходять через провайдера
Кастомізація Fine-tuning, повний контроль Обмежена (prompt-рівень або fine-tuning API)
Якість out-of-the-box Дуже хороша (2026) Найкраща (frontier моделі)
Технічні вимоги Потрібна команда DevOps/ML API key + кілька рядків коду

Коли обирати open-source

Локальний деплой через Ollama виправданий, якщо у вас є вимоги до приватності (медицина, фінанси, юриспруденція), великий обсяг запитів де inference cost критичний, або потреба у fine-tuning під специфічну domain-задачу.

Для бюджетних конфігурацій: навіть на скромному залізі можна запустити корисні моделі. Детально про те, які моделі працюють на ноутбуках з 8 ГБ RAM, які задачі вони вирішують (код, текст, reasoning) і як вичавити максимум з обмежених ресурсів — читайте у статті Ollama на 8 ГБ RAM: які моделі працюють у 2026.

Загальний огляд локального AI, порівняння з хмарними рішеннями та сценарії використання — у статті Ollama у 2026.

Висновок розділу: у 2026 немає однозначного переможця — є правильний інструмент для конкретної задачі. Закриті моделі — для швидкого старту і максимальної якості. Open-source — для контролю, приватності і масштабу.

📌 Mixture of Experts (MoE): чому більше параметрів не означає дорожчий інференс

Що таке MoE в LLM

Mixture of Experts (MoE) — архітектура, де модель складається з багатьох "експертів" (окремих MLP-блоків), але для кожного токена активується лише їх невелика підмножина. Це дозволяє мати модель із сотнями мільярдів параметрів (DeepSeek V3 — 671B), але інференс коштує як для моделі у 5–10 разів меншої. MoE — одна з головних причин, чому вартість інференсу падає швидше, ніж зростає розмір моделей.

Без MoE ми б давно вперлися в стелю: модель із трильйоном параметрів коштувала б $1000 за мільйон токенів. MoE робить великі моделі економічно доцільними.

Уявіть, що замість одного гігантського мозку у вас є 100 спеціалістів. Для питання з фізики ви активуєте тільки 2-3 фізиків, а не всіх 100. Так само MoE: для кожного токена "gating network" вирішує, які 1-2 експерти (з десятків або сотень) отримають дані. Інші залишаються неактивними.

Хто використовує MoE у 2026:

  • ✔️ DeepSeek V3 / R1 — 671B параметрів, активовано ~37B на токен
  • ✔️ Mixtral 8x7B / 8x22B — 8 експертів, активовано 2
  • ✔️ GPT-4 (за непідтвердженими даними) — 16 експертів, 111B параметрів, активовано 2
  • ✔️ Qwen 2.5-MoE — 64 експерти, 14B активовано

Чому MoE змінює правила гри

До MoE, якщо ви хотіли кращу модель, ви збільшували параметри (GPT-3: 175B) і отримували лінійне зростання вартості інференсу. MoE розриває цей зв'язок: ви можете мати 671B параметрів (DeepSeek V3), але інференс коштує як для ~37B параметрів. Це різниця в 5–18 разів дешевше.

Простий приклад: якби DeepSeek V3 був щільною (dense) моделлю, його інференс коштував би ~$15-20 за мільйон токенів. Реальна ціна DeepSeek API — ~$0.27 (вхідні) / $1.10 (вихідні). Саме завдяки MoE.

Зворотний бік: навчання MoE складніше

MoE чудова для інференсу, але створює проблеми під час навчання:

  • Нерівномірне навантаження: одні експерти можуть бути "популярнішими" за інші, що вимагає додаткових loss-функцій для балансування
  • Більша пам'ять: всі 671B параметрів все одно мають поміститися в GPU (або бути розподілені між девайсами)
  • Тонке налаштування: стандартний fine-tuning працює гірше; потрібні спеціальні методи (MoE-specific LoRA, або fine-tuning тільки gating network)

Висновок: MoE — це "секретна зброя" великих моделей 2025–2026. Вона пояснює, як DeepSeek конкурує з GPT-4o за ціною в 10× менше, і чому відкриті моделі можуть бути величезними, але доступними.

❓ Часті питання (FAQ)

Скільки часу займає навчання GPT-подібної моделі?

Pre-training фронтирної моделі займає від кількох тижнів до кількох місяців на кластері з тисячами GPU. GPT-4, за оцінками, навчали кілька місяців на тисячах A100. Повний цикл від початку pre-training до релізу — 6–18 місяців з урахуванням post-training, evaluations і safety-тестів.

Чи можна навчити свою LLM з нуля?

Технічно — так, але економічно доступно лише для великих організацій. Pre-training малої моделі (7B параметрів) коштує від $50K до $500K. Для більшості бізнесів раціональніше брати відкриту базову модель (Llama 4, Mistral) і робити fine-tuning під свою задачу — це коштує від кількох сотень до кількох тисяч доларів.

Що таке fine-tuning і чим він відрізняється від навчання з нуля?

Fine-tuning — це донавчання вже навченої моделі на новому, вузькому датасеті. Модель зберігає знання з pre-training, але адаптується до нової задачі або стилю. На відміну від навчання з нуля, fine-tuning потребує на порядки менше даних і compute. LoRA і QLoRA дозволяють робити fine-tuning навіть на споживчих GPU.

Чому ChatGPT не знає актуальних новин?

Через knowledge cutoff: модель навчена на даних до певної дати і не отримує нових знань автоматично. ChatGPT вирішує це через інтеграцію веб-пошуку (Search), але базова модель залишається "замороженою". Без пошуку або RAG LLM не знатиме про події після cutoff.

Чи безпечні синтетичні дані для навчання?

Синтетичні дані безпечні при правильному використанні — як доповнення до реальних. Повна заміна реальних даних синтетикою призводить до "model collapse": кожне наступне покоління моделі трохи деградує, бо навчається на виходах попереднього. Оптимальне рішення — суміш реальних і синтетичних даних у пропорції 33–67% синтетики.

Що таке RLVR і чим він кращий за RLHF?

RLVR (Reinforcement Learning with Verifiable Rewards) використовує автоматичний верифікатор замість людських оцінювачів. Для задач з чіткою правильною відповіддю (математика, код, логіка) верифікатор швидший, дешевший і стабільніший за людину. RLHF залишається необхідним для задач без чіткої "правильної відповіді" — творче письмо, суб'єктивні уподобання, нюанси тону.

Навіщо навчати модель на коді, якщо вона текстова?

Код — особливо цінні дані навіть для загальних LLM. Він структурований, логічний, верифікований (код або працює, або ні) і містить концентровані причинно-наслідкові зв'язки. Моделі, навчені на більшій частці коду, показують кращі результати на reasoning-задачах навіть поза програмуванням.

✅ Висновки

  • 🔹 Навчання LLM — це конвеєр із чотирьох етапів: pre-training (мова) → mid-training (спеціалізація) → SFT (формат) → alignment (поведінка). Жоден не можна пропустити.
  • 🔹 Класичний RLHF помер у 2025. Йому на зміну прийшов модульний стек: DPO для alignment, GRPO/RLVR для reasoning — дешевше, швидше і стабільніше.
  • 🔹 Вартість навчання фронтирних моделей: $78–191M у compute (Stanford AI Index 2025). Але вартість інференсу падає в 9–900 разів на рік — завдяки quantization та MoE.
  • 🔹 Синтетичні дані — не панацея. Оптимальна суміш: 33–67% синтетики + решта реальних даних. Чиста синтетика веде до "model collapse".
  • 🔹 Knowledge cutoff — не баг, а особливість. Модель не "забуває" новини — вона їх ніколи не бачила. Вирішується через RAG або веб-пошук.
  • 🔹 Open-source майже наздогнали закриті. Llama 4, DeepSeek і Qwen конкурують із GPT-4o та Claude на більшості практичних задач.

Головна думка: навчання LLM у 2026 — це не монолітний процес, а модульний стек, де кожен компонент еволюціонує окремо. Розуміння цього стеку дозволяє не лише обирати правильну модель для задачі, а й критично оцінювати маркетингові заяви про "найкращу модель у світі".

🎯 Гострий тезис для запам'ятовування: Якби не safety-регулювання та юридичні ризики, закриті моделі вже втратили б сенс для 80% бізнес-задач. Open-source дешевший, контрольований і майже такий самий якісний. Вибір закритої моделі сьогодні — це часто вибір зручності та бренду, а не технічної переваги.

Наступна стаття серії: Контекстне вікно LLM — чому AI забуває і скільки це коштує.

Також читайте: Embeddings простими словами: як AI розуміє сенс, а не просто слова — фундаментальний гайд про те, як текст перетворюється на числа і чому це лежить в основі RAG та семантичного пошуку.

Embedding-моделі для RAG у 2026 — повний гайд по вибору з порівнянням 10+ моделей, цінами та реальним кейсом.

Останні статті

Читайте більше цікавих матеріалів

Як навчають LLM: від pre-training до RLVR — повний гайд 2026

Як навчають LLM: від pre-training до RLVR — повний гайд 2026

Якщо ви досі думаєте, що LLM навчають так: "скопіювали весь інтернет → натиснули кнопку Train" – ви помиляєтесь на сотні мільйонів доларів. ChatGPT, Claude і Gemini проходять три принципово різних етапи навчання. І найважливіший з них – не pre-training. Спойлер: у 2025–2026...

AI coding не принесе вам грошей. І ось чому

AI coding не принесе вам грошей. І ось чому

Кілька днів тому мій друг написав мені в месенджер: «Слухай, я тут роблю проєкт через Gemini. Код сам пишеться, все швидко. Думаю за 3-4 дні запущу і почну заробляти.» Я — розробник. І я знав, що зараз почнеться той самий розмова, яку я вже мав десятки разів. Але цього разу я вирішив не...

Я додав BM25 до свого RAG-сервісу — і vector search перестав губити точні запити

Я додав BM25 до свого RAG-сервісу — і vector search перестав губити точні запити

Чистий vector search втрачає точні терміни, ціни і номери документів. Я це виправив за один день — без зміни LLM, без GPU, без нових залежностей. Мій RAG-сервіс працював. Vector search знаходив релевантні чанки, LLM генерувала відповіді українською. Але коли клієнт запитав "консультація...

Hybrid Search та Reranking: як підняти якість RAG на 15–40% без зміни моделі

Hybrid Search та Reranking: як підняти якість RAG на 15–40% без зміни моделі

Ваш RAG-пайплайн працює. Відповіді генеруються, retrieval повертає результати. Але користувач шукає get_user_v2 — і замість документації отримує статтю про user management. Або питає про "стаття 42 ЗУ про захист персональних даних" — і vector search повертає три чанки про...

Embeddings простими словами: як AI розуміє сенс, а не просто слова

Embeddings простими словами: як AI розуміє сенс, а не просто слова

Ви коли-небудь дивувались, чому ChatGPT знаходить зв'язок між "автомобілем" і "машиною" — хоча це різні слова? Або чому RAG-система знаходить потрібний документ навіть якщо у запиті немає жодного слова з тексту? Спойлер: за цим стоїть одна технологія — embedding. Це спосіб...

Як виміряти якість RAG: метрики, інструменти та перший evaluation pipeline — гайд 2026

Як виміряти якість RAG: метрики, інструменти та перший evaluation pipeline — гайд 2026

Ви побудували RAG-систему, відповіді генеруються, retrieval працює. Але як дізнатися, чи працює він на 90% запитів чи на 55%? Eyeball evaluation не скейлиться: variance між ревьюерами, нульове покриття edge cases, неможливість відловити регресії. Спойлер: п'ять метрик + 50...