Як працює AI: токени, трансформери і навчання LLM

Updated:
Як працює AI: токени, трансформери і навчання LLM

Щоразу, коли ви відправляєте повідомлення в ChatGPT, Claude або Gemini, за лічені секунди відбувається щось неймовірно складне: система, навчена на трильйонах слів, прогнозує наступний токен, зважує контекст тисяч попередніх слів і генерує відповідь, яка здається осмисленою. Але як саме це працює всередині?

Спойлер: жодна з цих моделей нічого не «розуміє» у людському сенсі — але математика, яка за ними стоїть, дозволяє їм поводитись так, ніби розуміють.

⚡ Коротко

  • Токени, не слова: LLM бачать текст як послідовність числових фрагментів — не букв і не слів
  • Attention — серце моделі: механізм, який дозволяє кожному токену «дивитись» на всі інші і зважувати їх важливість
  • Контекстне вікно — жорсткий ліміт: Gemini 2.5 Pro тримає 1M токенів, GPT-4o — 128K, Claude Sonnet — 200K
  • Навчання коштує мільйони: GPT-4 — ~$78M, Gemini Ultra — ~$191M лише на обчислення (Stanford AI Index 2025)
  • Temperature керує «креативністю»: один параметр визначає, чи буде відповідь передбачуваною або несподіваною
  • 🎯 Ви отримаєте: чітке розуміння того, як влаштовані найпопулярніші AI-моделі світу — без зайвої математики
  • 👇 Нижче — детальні пояснення, аналогії та таблиці порівнянь

📚 Зміст статті

1. Токени: як AI бачить твій текст

Перш ніж ChatGPT, Claude або Gemini обробляють ваше повідомлення, вони перетворюють його на числа. Але не побуквено і не послівно — через токени.

Токен — це фрагмент тексту, який може відповідати цілому слову, частині слова або навіть одному символу. Наприклад, слово «нейронна» може бути розбите на токени «нейрон» і «на», тоді як коротке англійське слово «cat» стає одним токеном.

Чому токени, а не слова?

Словниковий підхід (один токен = одне слово) має очевидну проблему: у будь-якій мові десятки тисяч слів, а нових слів і термінів з'являється постійно. Токенізація через Byte Pair Encoding (BPE) вирішує це елегантно: алгоритм аналізує весь навчальний корпус і виділяє найпоширеніші послідовності символів як окремі токени. У результаті словник становить 50 000–100 000 токенів, якими можна описати будь-який текст.

Чому одні мови «дорожчі» за інші?

Токенізатори тренуються переважно на англомовних даних, тому англійські слова зазвичай відповідають 1–2 токенам. Мови з меншою представленістю у навчальному корпусі розбиваються на більшу кількість фрагментів — той самий зміст коштує більше при використанні платного API.

МоваПриклад словаТокенів (GPT-4o)
Англійськаhello1
Іспанськаhola1
Українськапривіт3
Арабськаمرحبا4
Японськаこんにちは5

Практичний наслідок: той самий текст японською може коштувати в API у 3–5 разів дорожче, ніж англійською. Саме тому при розробці мультимовних продуктів вартість токенів розраховують окремо для кожної цільової мови.

Скільки токенів у вашому тексті?

Орієнтовне правило: 1000 токенів ≈ 750 слів англійською або ≈ 500–600 слів українською. Перевірити точно можна в офіційному інструменті OpenAI — platform.openai.com/tokenizer.

МодельРозмір словникаМетод токенізації
GPT-4o100 277 токенівtiktoken (BPE)
Claude 3.x / Sonnet~100 000 токенівBPE
Gemini 2.5256 000 токенівSentencePiece
Llama 4~200 000 токенівBPE + early fusion (текст + зображення)

Llama 4 від Meta використовує підхід «early fusion» — токени тексту і зображень об'єднуються вже на рівні токенізації, а не на пізніших шарах моделі. Це дозволяє мультимодальній моделі глибше розуміти зв'язок між текстом і зображеннями.

Детальніше про токени, їхню вартість у різних API та практичні наслідки для розробників — у нашій статті Що таке токени: як ChatGPT бачить твій текст.

2. Трансформери і attention: чому AI розуміє контекст

До 2017 року нейронні мережі обробляли текст послідовно — слово за словом. Такі архітектури (RNN, LSTM) мали фундаментальну проблему: до моменту, коли модель доходила до кінця довгого речення, інформація з його початку вже «розчинялась» у внутрішньому стані мережі.

У 2017 році дослідники Google опублікували роботу «Attention Is All You Need», яка змінила все. Вони запропонували архітектуру Transformer, засновану виключно на механізмі уваги (attention) — без будь-якої рекурентності.

Що таке attention простими словами?

Уявіть, що ви читаєте речення: «Банк оголосив про підвищення ставок після того, як річка вийшла з берегів». Щоб зрозуміти, яке значення має слово «банк» (фінансова установа чи берег річки), потрібно враховувати весь контекст речення.

Механізм attention дозволяє кожному токену «запитати» всі інші токени в послідовності: «Наскільки ти важливий для мого розуміння?» — і отримати зважену відповідь. Цей процес відбувається паралельно для всіх токенів одночасно, що робить трансформери значно швидшими за рекурентні мережі.

Self-attention: кожне слово дивиться на всі інші

Технічно self-attention працює через три вектори для кожного токена: Query (Q) — «що я шукаю», Key (K) — «що я пропоную», Value (V) — «що я несу в собі». Скалярний добуток Q і K дає оцінку релевантності, яка після нормалізації через softmax визначає, скільки «уваги» один токен приділяє іншому.

Multi-head attention: кілька точок зору одночасно

Сучасні моделі використовують multi-head attention — кілька паралельних механізмів уваги, кожен з яких навчається фокусуватись на різних аспектах: синтаксичних зв'язках, семантичній схожості, позиційних залежностях тощо. GPT-4 має 96 «голів» уваги в кожному шарі.

АрхітектураРікГоловна проблемаВирішення
RNN / LSTM1997–2014Забуває початок довгих послідовностейЧасткове (LSTM gates)
Transformer2017Немає прямого доступу до всіх токенівSelf-attention вирішує повністю
Сучасні LLM2022+Квадратична складність attentionFlash Attention, sparse attention

Революція трансформерів пояснює, чому сучасні LLM здатні враховувати контекст на сотні тисяч токенів назад — щось принципово недосяжне для попередніх архітектур. Детальніше про будову трансформерів — у статті Трансформери і механізм attention: чому AI розуміє контекст.

Джерело: Vaswani et al., «Attention Is All You Need», 2017, arXiv:1706.03762

3. Контекстне вікно: чому AI забуває і скільки це коштує

Одна з найпоширеніших скарг на LLM: «ChatGPT забув, про що ми говорили на початку розмови». Це не баг і не випадковість — це наслідок фундаментального обмеження, яке називається контекстним вікном.

Що таке контекстне вікно?

Контекстне вікно — це максимальна кількість токенів, яку модель може «тримати в голові» одночасно під час генерації відповіді. Все, що виходить за межі вікна, модель просто не бачить — так само, як людина не може утримати в оперативній пам'яті нескінченний обсяг тексту.

Порівняння контекстних вікон у 2026 році

МодельКонтекстне вікноЕквівалент
Gemini 2.5 Pro1 000 000 токенів~10 романів по 300 сторінок
Claude Sonnet (Anthropic)200 000 токенів~150 000 слів, великий роман
GPT-4o (OpenAI)128 000 токенів~96 000 слів
Llama 4 Scout10 000 000 токенівЕкспериментальний рекорд

Чому великий контекст — це дорого?

Механізм self-attention має квадратичну складність відносно довжини контексту: подвоїти кількість токенів означає учетверити обчислювальні витрати. Саме тому запити з великим контекстом коштують значно більше в API — і саме тому компанії витрачають мільярди на розробку ефективніших архітектур (Flash Attention, sparse attention, Mamba).

Ми детально розібрали цю тему з реальними прикладами та порівняннями вартості в статті Контекстне вікно LLM: чому AI забуває і скільки це коштує.

Як працює AI: токени, трансформери і навчання LLM

4. Навчання: звідки AI знає те, що знає

ChatGPT не «шукає» відповіді в інтернеті в момент запиту. Все, що він знає, закодовано в мільярдах числових параметрів (вагах), які були отримані під час тривалого навчання на величезних масивах тексту. Цей процес складається з трьох принципово різних етапів.

Етап 1: Pre-training — модель читає інтернет

На першому етапі модель навчається на трильйонах токенів: тексти з інтернету, книги, наукові статті, код. Завдання просте: передбачити наступний токен. Але масштаб колосальний — GPT-3 навчався на 300 мільярдах токенів, сучасні моделі — на 10–15 трильйонах.

У процесі передбачення наступного токена модель мимоволі засвоює граматику, факти, логічні зв'язки, стилістику і навіть певні форми міркування — просто тому, що все це закодовано в статистичних патернах мови.

Етап 2: Fine-tuning (SFT) — вчать відповідати як помічник

Після pre-training модель вміє продовжувати текст, але не веде діалог. На етапі supervised fine-tuning (SFT) її навчають на прикладах «запитання — відповідь», підготовлених людьми-аннотаторами. Саме тут модель набуває формату асистента.

Етап 3: RLHF і DPO — люди оцінюють, модель вчиться

Reinforcement Learning from Human Feedback (RLHF) — ключовий крок, який перетворює корисну модель на безпечну та слухняну. Аннотатори порівнюють різні відповіді моделі і визначають кращу. На основі цих оцінок тренується окрема «модель винагороди», яка потім використовується для донавчання основної моделі через RL.

У 2024–2025 роках індустрія масово перейшла на Direct Preference Optimization (DPO) — простіший і дешевший альтернативний підхід, який досягає схожих результатів без окремої моделі винагороди.

Скільки це коштує?

МодельРікОцінка вартості навчанняДжерело
Transformer (оригінал)2017~$900Stanford HAI
GPT-32020~$4.6MEpoch AI
GPT-42023~$78MStanford AI Index 2025
Gemini Ultra2023~$191MStanford AI Index 2025
DeepSeek V32024~$5.6M (заявлено)DeepSeek

Knowledge cutoff: чому AI не знає вчорашніх новин

Pre-training відбувається один раз на конкретному зрізі даних. Після цього модель «заморожується» — вона не отримує нових знань автоматично. Дата, після якої модель не має інформації, називається knowledge cutoff. Саме тому ChatGPT може не знати про події, що відбулись після певної дати, якщо не має доступу до інтернету через інструменти.

Детальніше про всі етапи навчання, RLHF і відмінності між open-source та закритими моделями — у статті Як навчають LLM: від тексту з інтернету до ChatGPT.

Джерела: Stanford HAI, AI Index 2025 · Epoch AI, Training Cost Analysis

5. Temperature і параметри: чому AI відповідає по-різному

Ви, напевно, помічали: якщо задати одне й те саме питання ChatGPT двічі поспіль, відповіді будуть різними. Це не помилка — це наслідок навмисного механізму, який контролюється параметром temperature.

Як LLM обирає наступне слово?

Після обробки контексту модель генерує розподіл вірогідностей по всьому словнику: наприклад, «кіт» — 40%, «собака» — 25%, «птах» — 10%, і так далі для ще 99 000+ токенів. Далі модель вибирає один токен — і тут вступають у гру параметри генерації.

Temperature: від «бухгалтера» до «поета»

Temperature ділить логіти (числові оцінки до нормалізації) перед застосуванням функції softmax. Низьке значення загострює розподіл — найвірогідніший токен отримує ще більшу перевагу, відповіді стають передбачуваними. Високе значення вирівнює розподіл — модель частіше обирає менш очікувані токени, відповіді стають різноманітнішими і «креативнішими».

ЗадачаTemperatureЧому
Генерація коду0.1–0.2Потрібна точність, не варіативність
Технічні відповіді / Q&A0.3–0.5Баланс між точністю та природністю
Чат-асистент (дефолт OpenAI)0.7Природна варіативність без хаосу
Копірайтинг / контент0.9–1.1Різноманітність формулювань
Брейнстормінг / ідеї1.2–1.5Максимум несподіваних варіантів
Reasoning-моделі (o1, o3, DeepSeek R1)0 (фіксовано)Відтворюваність результатів

Top-P і Top-K: що ще впливає на генерацію

Top-P (nucleus sampling) — модель розглядає лише ті токени, сукупна вірогідність яких не перевищує P. При Top-P=0.9 модель ігнорує «хвіст» розподілу, зосереджуючись на 90% найбільш реалістичних варіантів.

Top-K — жорстке обмеження: модель розглядає лише K найвірогідніших токенів. Менш гнучкий, ніж Top-P, але простіший у налаштуванні.

Детальніше — включно з практичним налаштуванням в Ollama через Modelfile і в API OpenAI та Anthropic — у статті Temperature, Top-P і параметри генерації: чому AI відповідає по-різному.

6. Reasoning: як AI навчився думати крок за кроком

До 2024 року стандартна LLM отримувала питання і відразу генерувала відповідь — без жодних проміжних кроків. Це добре працювало для простих запитів, але давало помилки на задачах, де потрібне багатоетапне міркування: складна математика, логічні ланцюжки, планування.

Chain-of-Thought: покрокове мислення

Перший прорив — техніка Chain-of-Thought (CoT): модель заохочують пояснювати хід міркувань перед фінальною відповіддю. Виявилось, що явна вербалізація проміжних кроків суттєво покращує точність на складних задачах.

Революція DeepSeek R1: reasoning через RL

У 2025 році DeepSeek опублікував роботу в Nature, яка показала: здатність до складного міркування можна розвинути через чисте навчання з підкріпленням, без жодних людських анотацій reasoning-траєкторій.

Модель DeepSeek-R1-Zero самостійно виробила поведінку самоперевірки та повернення до попередніх кроків — просто через RL на задачах, де результат можна автоматично верифікувати (математика, код). Процес думок розмежовується тегами <think> та </think>, що робить хід міркувань явним.

Порівняння reasoning-моделей 2025–2026

МодельПідхідВидимий reasoningOpen-source
OpenAI o1 / o3RL + синтетичні CoT-даніНі (прихований)Ні
DeepSeek R1RLVR (чисте RL)Так (<think> теги)Так
Claude Extended ThinkingВласний підхід AnthropicЧастковоНі

Детальніше — у статті Reasoning у LLM: як AI навчився думати крок за кроком.

Джерело: DeepSeek-AI, «DeepSeek-R1», Nature, вересень 2025

7. Embeddings і RAG: як AI працює з вашими даними

LLM знають тільки те, на чому навчались — і ці знання заморожені на дату тренування. Але що робити, якщо потрібно, щоб модель відповідала на питання про ваші внутрішні документи, вчорашні новини або корпоративну базу знань із тисячами сторінок? Завантажити все це в контекстне вікно — дорого і фізично обмежено. Саме тут на допомогу приходять embeddings і архітектура RAG (Retrieval-Augmented Generation).

Що таке embeddings?

Embedding — це перетворення будь-якого тексту на вектор чисел фіксованої довжини. Наприклад, модель text-embedding-3-small від OpenAI перетворює речення на вектор із 1536 чисел. Семантично схожі тексти отримують близькі вектори в цьому багатовимірному просторі: «кіт» і «кошеня» виявляться поруч, «кіт» і «реактивний двигун» — далеко. Це дозволяє шукати не за точним збігом слів, а за змістом — навіть якщо запит і документ сформульовані по-різному.

Як працює RAG крок за кроком?

RAG поєднує пошук і генерацію в одному пайплайні. Спочатку всі ваші документи перетворюються на embeddings і зберігаються у векторній базі даних (Pinecone, Weaviate, pgvector). Коли надходить запит користувача, система перетворює його на вектор і знаходить найближчі фрагменти документів через косинусну схожість. Ці фрагменти передаються в контекст LLM разом із запитом — і модель відповідає, спираючись на актуальні дані, а не на застарілі знання з навчання.

Результат: AI, який «знає» ваші документи, не потребує дорогого fine-tuning і завжди працює з актуальною інформацією.

ПідхідКоли підходитьГоловний мінус
Великий контекст (1M токенів)Невеликий фіксований корпусДорого, «lost in the middle»
Fine-tuningЗміна поведінки моделіНе оновлює знання, дорого
RAGДинамічні дані, великі базиСкладніша інфраструктура

Детальне порівняння підходів, архітектурні рішення і практичні кейси — у наших матеріалах: LLM vs RAG у 2026 році та RAG у 2026: від PoC до production.

8. Галюцинації: чому AI впевнено помиляється

Одна з найнебезпечніших особливостей LLM — галюцинації: модель генерує правдоподібно звучачі, але фактично хибні твердження з повною впевненістю. Вона може вигадати неіснуючу наукову статтю з реальними іменами авторів і правдоподібним DOI, назвати хибну дату історичної події або детально процитувати закон, якого не існує. Найнебезпечніше — модель не «знає», що помиляється, і не попереджає про це.

Чому це відбувається структурно?

LLM не зберігає факти як базу даних — вона кодує статистичні патерни мови в мільярдах числових параметрів. Коли модель генерує відповідь, вона обирає наступний токен, який найвірогідніше продовжує контекст, а не той, який відповідає реальності. Якщо модель ніколи не зустрічала точної інформації про малознаний факт, вона згенерує правдоподібне «заповнення» — і зробить це з такою самою впевненістю, як і достовірну відповідь.

Саме тому галюцинації частіше виникають на специфічних темах: маловідомі особи, локальні події, точні цифри, нові дослідження після knowledge cutoff.

Як мінімізувати ризик на практиці?

МетодСутьЕфективність
RAGМодель відповідає лише на основі переданих документівВисока для фактів із бази
Grounding (пошук)Модель перевіряє відповідь через веб-пошукВисока для актуальних даних
Temperature = 0Детермінована генерація, менше «фантазії»Середня
Перевірка першоджерелВерифікація критичних фактів вручнуЗавжди необхідна

Детально про механізми галюцинацій — у статті Галюцинації AI: чому штучний інтелект впевнено бреше.

9. Локальні vs хмарні моделі: що обрати

Поруч із хмарними GPT-4o, Claude та Gemini існує повноцінна екосистема локальних моделей, які запускаються безпосередньо на вашому комп'ютері без відправки даних у хмару. Завдяки інструментам на кшталт Ollama запустити Llama 4, Mistral або DeepSeek R1 локально сьогодні займає буквально кілька хвилин — навіть на звичайному ноутбуці з 8 ГБ RAM.

Хмарні vs локальні: головні відмінності

ПараметрХмарні (GPT-4o, Claude, Gemini)Локальні (Ollama + Llama/Mistral)
Вартість$0.002–$0.06 за 1K токенів$0 після покупки обладнання
ПриватністьДані йдуть на сервери провайдераПовна — нічого не залишає пристрій
ЯкістьНайвища (frontier models)Залежить від моделі й заліза
НалаштуванняОбмеженеПовне (Modelfile, температура, параметри)
ІнтернетОбов'язковийНе потрібен
Швидкість стартуМиттєвоПотрібне завантаження моделі (2–8 ГБ)

Коли обирати локальні моделі?

Локальний AI виправданий у трьох сценаріях: приватність (медичні, юридичні, фінансові дані, які не можна відправляти у хмару), висока частота запитів (при великих обсягах хмарне API швидко стає дорожчим за власне залізо) і офлайн-середовища (польові умови, закриті корпоративні мережі).

Хмарні моделі залишаються кращим вибором, коли потрібна максимальна якість, мультимодальність або швидкий старт без інвестицій в інфраструктуру.

Детальніше — у наших матеріалах про локальний AI:

❓ Часті питання (FAQ)

Чи розуміє ChatGPT те, що він пише?

Ні — принаймні не у тому сенсі, в якому розуміє людина. LLM генерує статистично вірогідні послідовності токенів на основі патернів, засвоєних під час навчання. Результат часто виглядає як розуміння, але механізм принципово інший.

Чому ChatGPT і Claude дають різні відповіді на одне питання?

Вони навчені на різних даних, мають різні архітектурні рішення і різні підходи до fine-tuning. Крім того, параметри генерації (temperature) за замовчуванням різняться між провайдерами.

Чи можна довіряти відповідям LLM?

З обережністю. Для добре відомих фактів — переважно так. Для специфічних дат, цитат і малознаних фактів — завжди перевіряйте першоджерела. Саме для цього існують RAG-системи, які прив'язують модель до верифікованих документів.

Що таке мультимодальна модель?

Модель, яка обробляє не лише текст, а й зображення, аудіо або відео. GPT-4o, Gemini 2.5 і Llama 4 є мультимодальними — вони можуть аналізувати зображення і відповідати на питання про візуальний контент.

Навіщо потрібен RAG, якщо є великі контекстні вікна?

Великий контекст дорогий (квадратична складність) і має обмеження якості — явище «lost in the middle» означає, що модель гірше засвоює інформацію з середини дуже довгого контексту. RAG дозволяє вибірково подавати лише релевантні фрагменти.

✅ Висновки

ChatGPT, Claude і Gemini — це не «розумні пошукові системи» і не бази знань. Це статистичні системи передбачення токенів, які навчились відтворювати патерни людської мови в такому масштабі, що результат часто виглядає як розуміння.

Ключові речі, які варто запам'ятати:

  • Модель бачить текст як токени — числові фрагменти, а не слова.
  • Механізм attention дозволяє враховувати весь контекст одночасно — революція 2017 року, яка зробила сучасні LLM можливими.
  • Контекстне вікно — жорсткий ліміт: модель не пам'ятає те, що за його межами.
  • Навчання коштує десятки і сотні мільйонів доларів — і ця цифра зростає щороку.
  • Temperature та інші параметри визначають, наскільки передбачуваними будуть відповіді.
  • Reasoning-моделі думають повільніше, але точніше — через явну вербалізацію проміжних кроків.
  • Галюцинації — структурна особливість, а не баг: модель завжди генерує правдоподібне, не завжди достовірне.

Розуміння цих принципів допомагає краще формулювати запити, правильно інтерпретувати відповіді і приймати зважені рішення про те, де і як використовувати AI у реальних проєктах.

Джерела: Stanford AI Index 2025 · Epoch AI, Training Cost Analysis · Vaswani et al., Attention Is All You Need, 2017 · DeepSeek-R1, Nature, вересень 2025

Останні статті

Читайте більше цікавих матеріалів

Як працює AI: токени, трансформери і навчання LLM

Як працює AI: токени, трансформери і навчання LLM

Щоразу, коли ви відправляєте повідомлення в ChatGPT, Claude або Gemini, за лічені секунди відбувається щось неймовірно складне: система, навчена на трильйонах слів, прогнозує наступний токен, зважує контекст тисяч попередніх слів і генерує відповідь, яка здається осмисленою. Але як саме це працює...

Spring AI + pgvector: 6 помилок які я зробив будуючи RAG для блогу

Spring AI + pgvector: 6 помилок які я зробив будуючи RAG для блогу

Перша година після підключення Spring AI — і застосунок не стартує. NoUniqueBeanDefinitionException: expected single matching bean but found 2: ollamaChatModel, openAiChatModel. Гугл каже додати spring.ai.openai.chat.enabled=false. Не працює. Документація мовчить. Це була тільки...

RAG з Ollama: як навчити AI відповідати по твоїх документах — від пайплайну до продакшну

RAG з Ollama: як навчити AI відповідати по твоїх документах — від пайплайну до продакшну

RAG з Ollama: навчи AI відповідати по твоїх документах У тебе є документи — PDF, статті, нотатки, база знань. Ти хочеш задавати питання і отримувати відповіді саме по цих документах, а не по загальних знаннях моделі. І все це — локально, без відправки даних у хмару. Саме...

Comet проти Safari та Chrome: чи варто переходити на AI-браузер у 2026

Comet проти Safari та Chrome: чи варто переходити на AI-браузер у 2026

Щороку з'являються десятки нових браузерів — і майже всі зникають непомітно. Але Comet від Perplexity — інший випадок. Це не чергова косметична надбудова над Chrome. Це спроба переосмислити саму роль браузера у твоєму житті. Спойлер: Comet не замінить Safari чи Chrome для...

Браузер Comet від Perplexity вийшов на iOS

Браузер Comet від Perplexity вийшов на iOS

Ми звикли до того, що браузер — це просто вікно в інтернет. Ти відкриваєш сторінку, читаєш, закриваєш. Але що, якщо браузер сам читає сторінку за тебе, знаходить потрібне і виконує завдання? Саме таку ідею просуває Perplexity зі своїм новим браузером Comet, який 18...

Контекстне вікно LLM: чому AI забуває і скільки це коштує

Контекстне вікно LLM: чому AI забуває і скільки це коштує

Ти коли-небудь помічав, що ChatGPT або Claude на початку розмови пам'ятає все ідеально, а через годину починає плутати деталі або перепитувати те, що ти вже пояснював? Це не баг — це фундаментальне обмеження, яке визначає, скільки AI може "тримати в голові" одночасно. Називається воно...