Щоразу, коли ви відправляєте повідомлення в ChatGPT, Claude або Gemini, за лічені секунди відбувається щось неймовірно складне: система, навчена на трильйонах слів, прогнозує наступний токен, зважує контекст тисяч попередніх слів і генерує відповідь, яка здається осмисленою. Але як саме це працює всередині?
Спойлер: жодна з цих моделей нічого не «розуміє» у людському сенсі — але математика, яка за ними стоїть, дозволяє їм поводитись так, ніби розуміють.
⚡ Коротко
- ✅ Токени, не слова: LLM бачать текст як послідовність числових фрагментів — не букв і не слів
- ✅ Attention — серце моделі: механізм, який дозволяє кожному токену «дивитись» на всі інші і зважувати їх важливість
- ✅ Контекстне вікно — жорсткий ліміт: Gemini 2.5 Pro тримає 1M токенів, GPT-4o — 128K, Claude Sonnet — 200K
- ✅ Навчання коштує мільйони: GPT-4 — ~$78M, Gemini Ultra — ~$191M лише на обчислення (Stanford AI Index 2025)
- ✅ Temperature керує «креативністю»: один параметр визначає, чи буде відповідь передбачуваною або несподіваною
- 🎯 Ви отримаєте: чітке розуміння того, як влаштовані найпопулярніші AI-моделі світу — без зайвої математики
- 👇 Нижче — детальні пояснення, аналогії та таблиці порівнянь
📚 Зміст статті
1. Токени: як AI бачить твій текст
Перш ніж ChatGPT, Claude або Gemini обробляють ваше повідомлення, вони перетворюють його на числа. Але не побуквено і не послівно — через токени.
Токен — це фрагмент тексту, який може відповідати цілому слову, частині слова або навіть одному символу. Наприклад, слово «нейронна» може бути розбите на токени «нейрон» і «на», тоді як коротке англійське слово «cat» стає одним токеном.
Чому токени, а не слова?
Словниковий підхід (один токен = одне слово) має очевидну проблему: у будь-якій мові десятки тисяч слів, а нових слів і термінів з'являється постійно. Токенізація через Byte Pair Encoding (BPE) вирішує це елегантно: алгоритм аналізує весь навчальний корпус і виділяє найпоширеніші послідовності символів як окремі токени. У результаті словник становить 50 000–100 000 токенів, якими можна описати будь-який текст.
Чому одні мови «дорожчі» за інші?
Токенізатори тренуються переважно на англомовних даних, тому англійські слова зазвичай відповідають 1–2 токенам. Мови з меншою представленістю у навчальному корпусі розбиваються на більшу кількість фрагментів — той самий зміст коштує більше при використанні платного API.
| Мова | Приклад слова | Токенів (GPT-4o) |
|---|
| Англійська | hello | 1 |
| Іспанська | hola | 1 |
| Українська | привіт | 3 |
| Арабська | مرحبا | 4 |
| Японська | こんにちは | 5 |
Практичний наслідок: той самий текст японською може коштувати в API у 3–5 разів дорожче, ніж англійською. Саме тому при розробці мультимовних продуктів вартість токенів розраховують окремо для кожної цільової мови.
Скільки токенів у вашому тексті?
Орієнтовне правило: 1000 токенів ≈ 750 слів англійською або ≈ 500–600 слів українською. Перевірити точно можна в офіційному інструменті OpenAI — platform.openai.com/tokenizer.
| Модель | Розмір словника | Метод токенізації |
|---|
| GPT-4o | 100 277 токенів | tiktoken (BPE) |
| Claude 3.x / Sonnet | ~100 000 токенів | BPE |
| Gemini 2.5 | 256 000 токенів | SentencePiece |
| Llama 4 | ~200 000 токенів | BPE + early fusion (текст + зображення) |
Llama 4 від Meta використовує підхід «early fusion» — токени тексту і зображень об'єднуються вже на рівні токенізації, а не на пізніших шарах моделі. Це дозволяє мультимодальній моделі глибше розуміти зв'язок між текстом і зображеннями.
Детальніше про токени, їхню вартість у різних API та практичні наслідки для розробників — у нашій статті Що таке токени: як ChatGPT бачить твій текст.
До 2017 року нейронні мережі обробляли текст послідовно — слово за словом. Такі архітектури (RNN, LSTM) мали фундаментальну проблему: до моменту, коли модель доходила до кінця довгого речення, інформація з його початку вже «розчинялась» у внутрішньому стані мережі.
У 2017 році дослідники Google опублікували роботу «Attention Is All You Need», яка змінила все. Вони запропонували архітектуру Transformer, засновану виключно на механізмі уваги (attention) — без будь-якої рекурентності.
Що таке attention простими словами?
Уявіть, що ви читаєте речення: «Банк оголосив про підвищення ставок після того, як річка вийшла з берегів». Щоб зрозуміти, яке значення має слово «банк» (фінансова установа чи берег річки), потрібно враховувати весь контекст речення.
Механізм attention дозволяє кожному токену «запитати» всі інші токени в послідовності: «Наскільки ти важливий для мого розуміння?» — і отримати зважену відповідь. Цей процес відбувається паралельно для всіх токенів одночасно, що робить трансформери значно швидшими за рекурентні мережі.
Self-attention: кожне слово дивиться на всі інші
Технічно self-attention працює через три вектори для кожного токена: Query (Q) — «що я шукаю», Key (K) — «що я пропоную», Value (V) — «що я несу в собі». Скалярний добуток Q і K дає оцінку релевантності, яка після нормалізації через softmax визначає, скільки «уваги» один токен приділяє іншому.
Multi-head attention: кілька точок зору одночасно
Сучасні моделі використовують multi-head attention — кілька паралельних механізмів уваги, кожен з яких навчається фокусуватись на різних аспектах: синтаксичних зв'язках, семантичній схожості, позиційних залежностях тощо. GPT-4 має 96 «голів» уваги в кожному шарі.
| Архітектура | Рік | Головна проблема | Вирішення |
|---|
| RNN / LSTM | 1997–2014 | Забуває початок довгих послідовностей | Часткове (LSTM gates) |
| Transformer | 2017 | Немає прямого доступу до всіх токенів | Self-attention вирішує повністю |
| Сучасні LLM | 2022+ | Квадратична складність attention | Flash Attention, sparse attention |
Революція трансформерів пояснює, чому сучасні LLM здатні враховувати контекст на сотні тисяч токенів назад — щось принципово недосяжне для попередніх архітектур. Детальніше про будову трансформерів — у статті Трансформери і механізм attention: чому AI розуміє контекст.
Джерело: Vaswani et al., «Attention Is All You Need», 2017, arXiv:1706.03762
3. Контекстне вікно: чому AI забуває і скільки це коштує
Одна з найпоширеніших скарг на LLM: «ChatGPT забув, про що ми говорили на початку розмови». Це не баг і не випадковість — це наслідок фундаментального обмеження, яке називається контекстним вікном.
Що таке контекстне вікно?
Контекстне вікно — це максимальна кількість токенів, яку модель може «тримати в голові» одночасно під час генерації відповіді. Все, що виходить за межі вікна, модель просто не бачить — так само, як людина не може утримати в оперативній пам'яті нескінченний обсяг тексту.
Порівняння контекстних вікон у 2026 році
| Модель | Контекстне вікно | Еквівалент |
|---|
| Gemini 2.5 Pro | 1 000 000 токенів | ~10 романів по 300 сторінок |
| Claude Sonnet (Anthropic) | 200 000 токенів | ~150 000 слів, великий роман |
| GPT-4o (OpenAI) | 128 000 токенів | ~96 000 слів |
| Llama 4 Scout | 10 000 000 токенів | Експериментальний рекорд |
Чому великий контекст — це дорого?
Механізм self-attention має квадратичну складність відносно довжини контексту: подвоїти кількість токенів означає учетверити обчислювальні витрати. Саме тому запити з великим контекстом коштують значно більше в API — і саме тому компанії витрачають мільярди на розробку ефективніших архітектур (Flash Attention, sparse attention, Mamba).
Ми детально розібрали цю тему з реальними прикладами та порівняннями вартості в статті Контекстне вікно LLM: чому AI забуває і скільки це коштує.
4. Навчання: звідки AI знає те, що знає
ChatGPT не «шукає» відповіді в інтернеті в момент запиту. Все, що він знає, закодовано в мільярдах числових параметрів (вагах), які були отримані під час тривалого навчання на величезних масивах тексту. Цей процес складається з трьох принципово різних етапів.
Етап 1: Pre-training — модель читає інтернет
На першому етапі модель навчається на трильйонах токенів: тексти з інтернету, книги, наукові статті, код. Завдання просте: передбачити наступний токен. Але масштаб колосальний — GPT-3 навчався на 300 мільярдах токенів, сучасні моделі — на 10–15 трильйонах.
У процесі передбачення наступного токена модель мимоволі засвоює граматику, факти, логічні зв'язки, стилістику і навіть певні форми міркування — просто тому, що все це закодовано в статистичних патернах мови.
Етап 2: Fine-tuning (SFT) — вчать відповідати як помічник
Після pre-training модель вміє продовжувати текст, але не веде діалог. На етапі supervised fine-tuning (SFT) її навчають на прикладах «запитання — відповідь», підготовлених людьми-аннотаторами. Саме тут модель набуває формату асистента.
Етап 3: RLHF і DPO — люди оцінюють, модель вчиться
Reinforcement Learning from Human Feedback (RLHF) — ключовий крок, який перетворює корисну модель на безпечну та слухняну. Аннотатори порівнюють різні відповіді моделі і визначають кращу. На основі цих оцінок тренується окрема «модель винагороди», яка потім використовується для донавчання основної моделі через RL.
У 2024–2025 роках індустрія масово перейшла на Direct Preference Optimization (DPO) — простіший і дешевший альтернативний підхід, який досягає схожих результатів без окремої моделі винагороди.
Скільки це коштує?
| Модель | Рік | Оцінка вартості навчання | Джерело |
|---|
| Transformer (оригінал) | 2017 | ~$900 | Stanford HAI |
| GPT-3 | 2020 | ~$4.6M | Epoch AI |
| GPT-4 | 2023 | ~$78M | Stanford AI Index 2025 |
| Gemini Ultra | 2023 | ~$191M | Stanford AI Index 2025 |
| DeepSeek V3 | 2024 | ~$5.6M (заявлено) | DeepSeek |
Knowledge cutoff: чому AI не знає вчорашніх новин
Pre-training відбувається один раз на конкретному зрізі даних. Після цього модель «заморожується» — вона не отримує нових знань автоматично. Дата, після якої модель не має інформації, називається knowledge cutoff. Саме тому ChatGPT може не знати про події, що відбулись після певної дати, якщо не має доступу до інтернету через інструменти.
Детальніше про всі етапи навчання, RLHF і відмінності між open-source та закритими моделями — у статті Як навчають LLM: від тексту з інтернету до ChatGPT.
Джерела: Stanford HAI, AI Index 2025 · Epoch AI, Training Cost Analysis
5. Temperature і параметри: чому AI відповідає по-різному
Ви, напевно, помічали: якщо задати одне й те саме питання ChatGPT двічі поспіль, відповіді будуть різними. Це не помилка — це наслідок навмисного механізму, який контролюється параметром temperature.
Як LLM обирає наступне слово?
Після обробки контексту модель генерує розподіл вірогідностей по всьому словнику: наприклад, «кіт» — 40%, «собака» — 25%, «птах» — 10%, і так далі для ще 99 000+ токенів. Далі модель вибирає один токен — і тут вступають у гру параметри генерації.
Temperature: від «бухгалтера» до «поета»
Temperature ділить логіти (числові оцінки до нормалізації) перед застосуванням функції softmax. Низьке значення загострює розподіл — найвірогідніший токен отримує ще більшу перевагу, відповіді стають передбачуваними. Високе значення вирівнює розподіл — модель частіше обирає менш очікувані токени, відповіді стають різноманітнішими і «креативнішими».
| Задача | Temperature | Чому |
|---|
| Генерація коду | 0.1–0.2 | Потрібна точність, не варіативність |
| Технічні відповіді / Q&A | 0.3–0.5 | Баланс між точністю та природністю |
| Чат-асистент (дефолт OpenAI) | 0.7 | Природна варіативність без хаосу |
| Копірайтинг / контент | 0.9–1.1 | Різноманітність формулювань |
| Брейнстормінг / ідеї | 1.2–1.5 | Максимум несподіваних варіантів |
| Reasoning-моделі (o1, o3, DeepSeek R1) | 0 (фіксовано) | Відтворюваність результатів |
Top-P і Top-K: що ще впливає на генерацію
Top-P (nucleus sampling) — модель розглядає лише ті токени, сукупна вірогідність яких не перевищує P. При Top-P=0.9 модель ігнорує «хвіст» розподілу, зосереджуючись на 90% найбільш реалістичних варіантів.
Top-K — жорстке обмеження: модель розглядає лише K найвірогідніших токенів. Менш гнучкий, ніж Top-P, але простіший у налаштуванні.
Детальніше — включно з практичним налаштуванням в Ollama через Modelfile і в API OpenAI та Anthropic — у статті Temperature, Top-P і параметри генерації: чому AI відповідає по-різному.
6. Reasoning: як AI навчився думати крок за кроком
До 2024 року стандартна LLM отримувала питання і відразу генерувала відповідь — без жодних проміжних кроків. Це добре працювало для простих запитів, але давало помилки на задачах, де потрібне багатоетапне міркування: складна математика, логічні ланцюжки, планування.
Chain-of-Thought: покрокове мислення
Перший прорив — техніка Chain-of-Thought (CoT): модель заохочують пояснювати хід міркувань перед фінальною відповіддю. Виявилось, що явна вербалізація проміжних кроків суттєво покращує точність на складних задачах.
Революція DeepSeek R1: reasoning через RL
У 2025 році DeepSeek опублікував роботу в Nature, яка показала: здатність до складного міркування можна розвинути через чисте навчання з підкріпленням, без жодних людських анотацій reasoning-траєкторій.
Модель DeepSeek-R1-Zero самостійно виробила поведінку самоперевірки та повернення до попередніх кроків — просто через RL на задачах, де результат можна автоматично верифікувати (математика, код). Процес думок розмежовується тегами <think> та </think>, що робить хід міркувань явним.
Порівняння reasoning-моделей 2025–2026
| Модель | Підхід | Видимий reasoning | Open-source |
|---|
| OpenAI o1 / o3 | RL + синтетичні CoT-дані | Ні (прихований) | Ні |
| DeepSeek R1 | RLVR (чисте RL) | Так (<think> теги) | Так |
| Claude Extended Thinking | Власний підхід Anthropic | Частково | Ні |
Детальніше — у статті Reasoning у LLM: як AI навчився думати крок за кроком.
Джерело: DeepSeek-AI, «DeepSeek-R1», Nature, вересень 2025
7. Embeddings і RAG: як AI працює з вашими даними
LLM знають тільки те, на чому навчались — і ці знання заморожені на дату тренування. Але що робити, якщо потрібно, щоб модель відповідала на питання про ваші внутрішні документи, вчорашні новини або корпоративну базу знань із тисячами сторінок? Завантажити все це в контекстне вікно — дорого і фізично обмежено. Саме тут на допомогу приходять embeddings і архітектура RAG (Retrieval-Augmented Generation).
Що таке embeddings?
Embedding — це перетворення будь-якого тексту на вектор чисел фіксованої довжини. Наприклад, модель text-embedding-3-small від OpenAI перетворює речення на вектор із 1536 чисел. Семантично схожі тексти отримують близькі вектори в цьому багатовимірному просторі: «кіт» і «кошеня» виявляться поруч, «кіт» і «реактивний двигун» — далеко. Це дозволяє шукати не за точним збігом слів, а за змістом — навіть якщо запит і документ сформульовані по-різному.
Як працює RAG крок за кроком?
RAG поєднує пошук і генерацію в одному пайплайні. Спочатку всі ваші документи перетворюються на embeddings і зберігаються у векторній базі даних (Pinecone, Weaviate, pgvector). Коли надходить запит користувача, система перетворює його на вектор і знаходить найближчі фрагменти документів через косинусну схожість. Ці фрагменти передаються в контекст LLM разом із запитом — і модель відповідає, спираючись на актуальні дані, а не на застарілі знання з навчання.
Результат: AI, який «знає» ваші документи, не потребує дорогого fine-tuning і завжди працює з актуальною інформацією.
| Підхід | Коли підходить | Головний мінус |
|---|
| Великий контекст (1M токенів) | Невеликий фіксований корпус | Дорого, «lost in the middle» |
| Fine-tuning | Зміна поведінки моделі | Не оновлює знання, дорого |
| RAG | Динамічні дані, великі бази | Складніша інфраструктура |
Детальне порівняння підходів, архітектурні рішення і практичні кейси — у наших матеріалах: LLM vs RAG у 2026 році та RAG у 2026: від PoC до production.
8. Галюцинації: чому AI впевнено помиляється
Одна з найнебезпечніших особливостей LLM — галюцинації: модель генерує правдоподібно звучачі, але фактично хибні твердження з повною впевненістю. Вона може вигадати неіснуючу наукову статтю з реальними іменами авторів і правдоподібним DOI, назвати хибну дату історичної події або детально процитувати закон, якого не існує. Найнебезпечніше — модель не «знає», що помиляється, і не попереджає про це.
Чому це відбувається структурно?
LLM не зберігає факти як базу даних — вона кодує статистичні патерни мови в мільярдах числових параметрів. Коли модель генерує відповідь, вона обирає наступний токен, який найвірогідніше продовжує контекст, а не той, який відповідає реальності. Якщо модель ніколи не зустрічала точної інформації про малознаний факт, вона згенерує правдоподібне «заповнення» — і зробить це з такою самою впевненістю, як і достовірну відповідь.
Саме тому галюцинації частіше виникають на специфічних темах: маловідомі особи, локальні події, точні цифри, нові дослідження після knowledge cutoff.
Як мінімізувати ризик на практиці?
| Метод | Суть | Ефективність |
|---|
| RAG | Модель відповідає лише на основі переданих документів | Висока для фактів із бази |
| Grounding (пошук) | Модель перевіряє відповідь через веб-пошук | Висока для актуальних даних |
| Temperature = 0 | Детермінована генерація, менше «фантазії» | Середня |
| Перевірка першоджерел | Верифікація критичних фактів вручну | Завжди необхідна |
Детально про механізми галюцинацій — у статті Галюцинації AI: чому штучний інтелект впевнено бреше.
9. Локальні vs хмарні моделі: що обрати
Поруч із хмарними GPT-4o, Claude та Gemini існує повноцінна екосистема локальних моделей, які запускаються безпосередньо на вашому комп'ютері без відправки даних у хмару. Завдяки інструментам на кшталт Ollama запустити Llama 4, Mistral або DeepSeek R1 локально сьогодні займає буквально кілька хвилин — навіть на звичайному ноутбуці з 8 ГБ RAM.
Хмарні vs локальні: головні відмінності
| Параметр | Хмарні (GPT-4o, Claude, Gemini) | Локальні (Ollama + Llama/Mistral) |
|---|
| Вартість | $0.002–$0.06 за 1K токенів | $0 після покупки обладнання |
| Приватність | Дані йдуть на сервери провайдера | Повна — нічого не залишає пристрій |
| Якість | Найвища (frontier models) | Залежить від моделі й заліза |
| Налаштування | Обмежене | Повне (Modelfile, температура, параметри) |
| Інтернет | Обов'язковий | Не потрібен |
| Швидкість старту | Миттєво | Потрібне завантаження моделі (2–8 ГБ) |
Коли обирати локальні моделі?
Локальний AI виправданий у трьох сценаріях: приватність (медичні, юридичні, фінансові дані, які не можна відправляти у хмару), висока частота запитів (при великих обсягах хмарне API швидко стає дорожчим за власне залізо) і офлайн-середовища (польові умови, закриті корпоративні мережі).
Хмарні моделі залишаються кращим вибором, коли потрібна максимальна якість, мультимодальність або швидкий старт без інвестицій в інфраструктуру.
Детальніше — у наших матеріалах про локальний AI:
❓ Часті питання (FAQ)
Чи розуміє ChatGPT те, що він пише?
Ні — принаймні не у тому сенсі, в якому розуміє людина. LLM генерує статистично вірогідні послідовності токенів на основі патернів, засвоєних під час навчання. Результат часто виглядає як розуміння, але механізм принципово інший.
Чому ChatGPT і Claude дають різні відповіді на одне питання?
Вони навчені на різних даних, мають різні архітектурні рішення і різні підходи до fine-tuning. Крім того, параметри генерації (temperature) за замовчуванням різняться між провайдерами.
Чи можна довіряти відповідям LLM?
З обережністю. Для добре відомих фактів — переважно так. Для специфічних дат, цитат і малознаних фактів — завжди перевіряйте першоджерела. Саме для цього існують RAG-системи, які прив'язують модель до верифікованих документів.
Що таке мультимодальна модель?
Модель, яка обробляє не лише текст, а й зображення, аудіо або відео. GPT-4o, Gemini 2.5 і Llama 4 є мультимодальними — вони можуть аналізувати зображення і відповідати на питання про візуальний контент.
Навіщо потрібен RAG, якщо є великі контекстні вікна?
Великий контекст дорогий (квадратична складність) і має обмеження якості — явище «lost in the middle» означає, що модель гірше засвоює інформацію з середини дуже довгого контексту. RAG дозволяє вибірково подавати лише релевантні фрагменти.
✅ Висновки
ChatGPT, Claude і Gemini — це не «розумні пошукові системи» і не бази знань. Це статистичні системи передбачення токенів, які навчились відтворювати патерни людської мови в такому масштабі, що результат часто виглядає як розуміння.
Ключові речі, які варто запам'ятати:
- Модель бачить текст як токени — числові фрагменти, а не слова.
- Механізм attention дозволяє враховувати весь контекст одночасно — революція 2017 року, яка зробила сучасні LLM можливими.
- Контекстне вікно — жорсткий ліміт: модель не пам'ятає те, що за його межами.
- Навчання коштує десятки і сотні мільйонів доларів — і ця цифра зростає щороку.
- Temperature та інші параметри визначають, наскільки передбачуваними будуть відповіді.
- Reasoning-моделі думають повільніше, але точніше — через явну вербалізацію проміжних кроків.
- Галюцинації — структурна особливість, а не баг: модель завжди генерує правдоподібне, не завжди достовірне.
Розуміння цих принципів допомагає краще формулювати запити, правильно інтерпретувати відповіді і приймати зважені рішення про те, де і як використовувати AI у реальних проєктах.
Джерела: Stanford AI Index 2025 · Epoch AI, Training Cost Analysis · Vaswani et al., Attention Is All You Need, 2017 · DeepSeek-R1, Nature, вересень 2025
Ключові слова:
gemini 3 chatgptпорівняння aigoogle gemini vs chatgptштучний інтелект 2026огляд geminiopenai vs googleai тести 2025