Ви пишете в ChatGPT "Привіт" — і думаєте, що надіслали одне слово.
Насправді AI отримав 3–4 числа. Саме так працюють токени — невидимі
одиниці, якими мислять усі великі мовні моделі.
Спойлер: одне слово кирилицею — це вже 3–4 токени
проти 1–2 для англійського, форматування коду з'їдає до чверті
токенів, а деякі слова буквально ламають GPT.
⚡ Коротко
- ✅ Токен ≠ слово: одне англійське слово — приблизно 1 токен, одне латиницею слово — 3–4 токени.
- ✅ BPE: токенізатор будує словник зі злиття частих пар символів — ефективно для англійської, дорого для кирилиці.
- ✅ Glitch-токени: ~4.3% словника GPT-4 і Llama 2 містять "зламані" токени, які викликають непередбачувану поведінку.
- ✅ Ціни 2026 падають: DeepSeek V3.2 коштує $0.14/1M input-токенів, GPT-4o — $2.50/1M.
- 🎯 Ви отримаєте: розуміння токенів від основ до практики API, плюс таблицю цін для вибору провайдера.
- 👇 Нижче — детальні пояснення, приклади та таблиці
📚 Зміст статті
🎯 1. Чому AI не читає слова — він читає токени
Що таке токен у LLM
Токен — це не слово і не символ, а фрагмент тексту довільної довжини: частина слова, ціле слово або навіть кілька слів разом.
GPT-5, Claude і Gemini бачать ваш запит як послідовність числових ідентифікаторів із власного словника.
Слово "Hello" — це 1 токен (id: 9906), а "authorization" — вже 2 токени, хоча теж одне слово.
Комп'ютер не вміє читати букви. Він вміє рахувати числа. Токен — це міст між людською мовою і числовим світом нейромережі.
Коли ви надсилаєте повідомлення в ChatGPT, воно не потрапляє безпосередньо до нейромережі.
Спочатку текст проходить через токенізатор — спеціальну програму, яка розбиває ваш рядок на фрагменти і замінює кожен числом зі словника моделі.
Наприклад, речення "The cat sat on the mat" модель бачить приблизно як: [791, 8415, 9137, 389, 279, 2450] — 6 чисел замість 6 слів.
Модель читає саме ці числа, обробляє їх через сотні шарів трансформера, і на виході знову через токенізатор перетворює числа назад у текст.
Чому не просто букви або слова?
Буквений підхід (один символ = одна одиниця) дає занадто довгі послідовності — нейромережа погано обробляє їх через квадратичну складність уваги (attention). Детальніше про це — у статті про контекстне вікно.
Словниковий підхід (одне слово = один токен) теж не працює: в англійській мові сотні тисяч слів, а ще є числа, імена, код, емодзі. Словник вийшов би нескінченним.
Тому переміг компроміс — субслівна токенізація: частини слів ("run", "ning", "##s"), цілі часті слова ("the", "is"), рідкісні слова розбиваються на частини. Саме цим займається алгоритм BPE (секція 3).
- ✔️ Словник GPT-5.4 / GPT-4o: ~200 000 токенів (
o200k_base)
- ✔️ Словник Llama 3 / 4: ~128 000 токенів
- ✔️ Словник DeepSeek V3: ~128 000 токенів
Висновок розділу: AI не читає ні букви, ні слова — він читає токени, і від того наскільки ефективно ваш текст токенізується залежить і якість відповіді, і ваш рахунок за API.
📌 2. Чому токен ≠ слово: аномалії довжини та спецтокени
Чому довжина токена непередбачувана
Довжина токена залежить не від граматики, а від частоти: чим частіше
певна послідовність символів зустрічалась у тренувальних даних — тим
більший шанс, що вона стала одним токеном. Звідси парадокси: "GPT-4" =
2 токени, "GPT4" = 1. Дефіс змінює все.
Токен — це не одиниця довжини, а одиниця частоти в тренувальних даних.
Найпростіший спосіб відчути це — перевірити знайомі слова в
токенізаторі OpenAI. Результати часто дивують навіть досвідчених розробників.
Приклади, які ламають інтуїцію
| Рядок |
Токенів |
Розбиття |
Чому так |
ChatGPT |
3 |
Chat + G + PT |
Назва нова, BPE не бачив її цілою |
OpenAI |
2 |
Open + AI |
Обидві частини часті окремо |
tokenization |
3 |
token + iz + ation |
Слово рідше ніж його частини |
GPT-4 |
2 |
GPT + -4 |
Дефіс розбиває злиття |
GPT4 |
1 |
GPT4 |
Без дефісу — один токен |
cat |
1 |
cat |
Часте слово |
cat (з пробілом) |
1 |
·cat |
Інший токен, ніж без пробілу |
Останній рядок — особливо важливий. У BPE пробіл на початку слова є
частиною токена, а не окремим символом. Тому cat
і cat мають різні числові id. Модель буквально бачить їх як
різні слова — і обробляє по-різному залежно від позиції в реченні.
Спецтокени: службові символи моделі
Окрім текстових токенів кожна модель має набір спецтокенів —
службових маркерів, які позначають структуру діалогу і керують поведінкою моделі:
| Токен |
Значення |
Де зустрічається |
<|endoftext|> |
Кінець документа |
GPT-4, GPT-4o |
[BOS] |
Початок послідовності |
Llama, Mistral |
[EOS] |
Кінець послідовності |
Llama, Mistral |
[PAD] |
Вирівнювання батчу |
Навчання моделей |
[INST] / [/INST] |
Початок/кінець інструкції |
Llama 2 Instruct |
<|im_start|> |
Початок повідомлення |
GPT-4, ChatML формат |
Спецтокени напряму впливають на поведінку моделі: якщо вони потрапляють
у користувацький ввід випадково або навмисно — модель може вийти з режиму
"асистента" і поводитись непередбачувано. Це один із векторів атак на
LLM-системи.
Висновок розділу: Токен — статистична одиниця, а не
лінгвістична. Пробіл, дефіс, регістр — все це змінює токенізацію.
Розуміння цього дає перевагу при написанні промптів і проектуванні
систем на базі LLM.
📌 3. Як працює BPE: злиття символів на пальцях
Алгоритм Byte Pair Encoding
BPE будує словник, починаючи з окремих байтів і ітеративно об'єднуючи найчастіші пари.
Це жадібний алгоритм стиснення: якщо "ing" зустрічається частіше за будь-яку іншу пару — вона стає одним токеном.
Процес повторюється тисячі разів, доки словник не досягне потрібного розміру.
BPE — це як складати слова з кубиків Lego: спочатку є тільки окремі кубики-букви, потім ви починаєте скріплювати найпопулярніші комбінації.
Коротка історія: від стиснення до GPT
BPE з'явився не в AI. У 1994 році Філіп Гейдж опублікував алгоритм як метод стиснення даних у журналі
The C Users Journal.
Ідея була простою: знайти найчастішу пару байтів у файлі, замінити її одним новим байтом, повторити.
У 2016 році дослідники Ріко Зенріх, Баррі Хеддоу та Александра Бірч адаптували BPE для машинного перекладу в роботі
"Neural Machine Translation of Rare Words with Subword Units" (Sennrich et al., 2016).
Замість стиснення байтів для зберігання — стиснення символів у субслова для нейромереж.
Ця робота стала фундаментом токенізації у всіх сучасних LLM.
У 2019 році OpenAI зробив наступний крок у GPT-2: перейшов від символьного BPE до byte-level BPE.
Різниця критична: замість окремих Unicode-символів алгоритм працює з 256 базовими байтами.
Це означає, що будь-який текст будь-якою мовою гарантовано кодується — немає "невідомих символів".
Усі сучасні моделі — GPT-4o, Claude, Llama 3, DeepSeek — використовують саме byte-level BPE або його варіації.
Покроковий приклад злиття
Уявіть, що ми будуємо токенізатор на одному реченні: "low low low lower lower".
Крок 0. Словник: l, o, w, e, r (кожна буква окремо)
Текст: l-o-w l-o-w l-o-w l-o-w-e-r l-o-w-e-r
Крок 1. Найчастіша пара: "l"+"o" зустрічається 5 разів → об'єднуємо в "lo"
Текст: lo-w lo-w lo-w lo-w-e-r lo-w-e-r
Крок 2. Найчастіша пара: "lo"+"w" зустрічається 5 разів → об'єднуємо в "low"
Текст: low low low low-e-r low-e-r
Крок 3. Найчастіша пара: "e"+"r" зустрічається 2 рази → об'єднуємо в "er"
Текст: low low low low-er low-er
Результат словника: l, o, w, e, r, lo, low, er, lower
Це класичний приклад із оригінальної роботи Зенріха. На реальних даних процес повторюється десятки тисяч разів на корпусі в сотні гігабайт.
Підсумковий словник містить від 30 000 до 200 000 токенів залежно від моделі.
Від BPE до реальних токенізаторів: що додають GPT і Llama
Жодна сучасна модель не використовує "голий" BPE. Кожен провайдер додає свої модифікації:
- ✔️ Regex pre-tokenization: перед запуском BPE текст розбивається регулярним виразом на категорії — букви, числа, пунктуація, пробіли.
Це запобігає "злиттю" через межі категорій: число і слово не стануть одним токеном. GPT-4 і GPT-4o використовують різні regex-патерни, що впливає на результат.
- ✔️ Предвизначений словник:
tiktoken (бібліотека OpenAI) додає часті слова безпосередньо у словник.
Якщо слово вже є у словнику — воно повертається цілим, навіть якщо правила злиття BPE його не створили б.
- ✔️ Зростання словника: GPT-2 мав ~50 000 токенів, GPT-4 — ~100 000 (
cl100k_base), а GPT-4o — ~200 000 (o200k_base).
Більший словник означає ефективнішу токенізацію, особливо для нелатинських мов і коду.
- ✔️ SentencePiece: Llama і Mistral використовують
SentencePiece від Google — альтернативну реалізацію, яка підтримує BPE і Unigram-алгоритми та працює безпосередньо з Unicode, без попереднього розбиття на слова.
Чому BPE успішний
Алгоритм автоматично виявляє морфологічні одиниці (коріння слів, суфікси, префікси) без жодного лінгвістичного знання.
Часті слова стають одним токеном, рідкісні розбиваються на відомі частини — модель ніколи не зустрічає "невідомого слова".
Це і є сила BPE: Open vocabulary з фіксованим словником.
Хочете побачити, як це працює в коді? Андрей Карпатий (ex-OpenAI) створив навчальну реалізацію
minBPE, а
Себастіан Рашка
написав детальний гайд з побудовою токенізатора з нуля — обидва ресурси ідеальні для глибшого розуміння.
Детальніше про те, як токени обробляються всередині трансформера, читайте в нашій статті про трансформери і attention (готується).
Висновок розділу: BPE — елегантний алгоритм стиснення 1994 року, який став основою токенізації всіх сучасних LLM. Його головний недолік — нерівномірне покриття мов, бо словник будується на англоцентричних даних. Але навіть з цим недоліком BPE залишається стандартом індустрії — альтернативи поки не довели масштабованість.
📌 4. Чому не-англійська мова "дорожча" в AI
Нерівномірність BPE для різних мов
BPE навчається на корпусі, де 90%+ тексту — англійська і код. Тому англійські слова отримують цілі токени, а слова іншими мовами — кирилицею, китайськими ієрогліфами, арабською в'яззю — розбиваються на дрібні частини.
Одне не-англійське слово в середньому коштує 2–5 токенів проти 1–2 для англійського еквіваленту.
На практиці це означає: той самий текст не-англійською мовою обробляється дорожче і займає більше місця в контекстному вікні.
Якщо контекстне вікно моделі — 128K токенів, то англійською в нього влізе в 2–3 рази більше тексту, ніж кирилицею, і в 3–4 рази більше, ніж арабською.
Чому так відбувається: три рівні проблеми
Мовна нерівність токенізації — це не випадковість, а результат трьох факторів, які підсилюють один одного:
1. Дисбаланс тренувальних даних.
Більшість LLM навчаються на англоцентричних корпусах. Наприклад, Llama 3 повідомляє, що
95% тренувальних даних — англійська і код, і лише 5% — всі інші мови разом.
BPE при навчанні просто не "бачив" достатньо тексту іншими мовами, щоб виділити великі блоки в окремі токени.
2. Перевага UTF-8 для латиниці.
Byte-level BPE працює з байтами, а UTF-8 кодує латинські літери одним байтом, кириличні — двома, а китайські ієрогліфи — трьома.
Навіть якби BPE був ідеально збалансований за мовами, латиниця мала б структурну перевагу на рівні кодування.
3. Морфологічна складність.
Мови з багатою морфологією (слов'янські, тюркські, фінно-угорські) генерують значно більше унікальних словоформ з одного кореня.
Англійське "run" має ~5 форм, а відповідний дієслово в турецькій чи фінській — десятки.
Для BPE кожна рідкісна форма — це потенційне розбиття на частини.
Порівняння токенізації: одне слово різними мовами
| Слово |
Мова |
Токенів (GPT-4o) |
| authorization | англійська | 2 |
| авторизація | кирилиця | 4–6 |
| 授权 | китайська | 2–3 |
| autorización | іспанська | 3 |
| Genehmigung | німецька | 3–4 |
| intelligence | англійська | 2 |
| інтелект | кирилиця | 4–5 |
| 智能 | китайська | 2 |
| inteligencia | іспанська | 3 |
| token | англійська | 1 |
| токен | кирилиця | 3–4 |
Перевірити свої слова можна в tokenizer.openai.com — він показує розбиття і точний підрахунок токенів для GPT-4o.
Скільки це коштує: "token tariff" на реальних цифрах
Дослідження
"Do All Languages Cost the Same?" (Ahia et al., EMNLP 2023)
проаналізувало 22 мови і показало: користувачі багатьох мов фактично переплачують за API, отримуючи при цьому гірші результати.
Деякі мови потребують до 5 разів більше токенів для того самого контенту.
Дослідження
"The Token Tax" (2025)
пішло далі: якщо мова потребує вдвічі більше токенів, це означає 4× зростання вартості навчання (через квадратичну складність attention O(n²)) і відповідне збільшення latency на інференсі.
Є й хороші новини: OpenAI суттєво покращив ситуацію з кожним новим токенізатором.
За даними аналізу 50 000 найчастіших слів у 12 мовах, для хінді кількість токенів на слово впала з 6.55 (GPT-2, 2021) до 1.89 (GPT-4o, 2024) — покращення на 71%.
Для російської — з 5.16 до 1.96 (−62%).
Але навіть після цього хінді все ще на 63% дорожча за англійську.
Що робити розробнику, який працює з не-англійськими мовами
- ✔️ Враховуйте коефіцієнт x2–4 при підрахунку бюджету API для нелатинських мов
- ✔️ Prompt engineering критичніший для не-англійських мов — кожне зайве слово коштує дорожче і з'їдає більше контексту
- ✔️ Вибирайте модель з кращим словником: GPT-4o (
o200k_base, 200K токенів) значно ефективніший для мультимовних задач, ніж старіші моделі з меншими словниками
- ✔️ Розгляньте спеціалізовані моделі: для конкретної мови локальні або multilingual моделі (наприклад,
Qwen для китайської чи
multilingual-e5-large для embedding-задач) часто мають кращу токенізацію
- ✔️ Prompt caching: якщо системний промпт не-англійською мовою великий — prompt caching зменшить вартість повторних запитів на 80–90%.
Детальніше — у нашій статті про LLM для бізнесу
Висновок: Мовна нерівність у токенізації — задокументована і вимірювана проблема, яка стосується всіх нелатинських мов. Вона прямо впливає на бюджет API, ефективне використання контекстного вікна і навіть якість відповідей моделі. Тренд позитивний — словники ростуть від 50K до 200K+ токенів, і розрив скорочується — але повна рівність поки не досягнута.
📌 5. Glitch-токени: чому "SolidGoldMagikarp" ламає GPT
Що таке glitch-токени
Glitch-токени — це токени зі словника моделі, для яких нейромережа не навчилась нормальної поведінки.
Вони потрапили в словник (бо були у тренувальних даних токенізатора), але були відсутні або надзвичайно рідкісні в основному корпусі навчання моделі.
Наслідок: при зустрічі з таким токеном модель генерує непередбачуваний, хаотичний або образливий вивід.
Уявіть бібліотеку, де є картка на книгу — але самої книги на полиці немає. Бібліотекар (модель) губить орієнтацію і каже щось нісенітне.
Відкриття 2023: SolidGoldMagikarp
У січні 2023 року дослідники Джессіка Рамбелоу та Меттью Ваткінс у рамках програми SERI-MATS
опублікували на LessWrong
несподіване відкриття: коли просиш ChatGPT повторити слово "SolidGoldMagikarp", модель відповідає "distribute".
Або взагалі відмовляється, кричить, ображає — поведінка абсолютно непередбачувана.
Причина виявилась такою: "SolidGoldMagikarp" — це нікнейм Reddit-користувача, який зробив сотні тисяч дописів у треді підрахунку чисел.
Токенізатор GPT "навчився" на цьому тексті й виділив нікнейм в окремий токен.
Але при навчанні самої моделі цей Reddit-контент був відфільтрований — і токен "завис" у словнику без жодного сенсу.
Ще більш дивно поводився токен petertodd (з пробілом на початку).
Коли GPT-3 просили його повторити, модель видавала хаотичні відповіді —
від містичних поем до агресивних вигуків.
Як з'ясувалось, Peter Todd — канадський криптограф, чиє ім'я було об'єктом масових атак на Reddit
через його роботу з Bitcoin. Ці коментарі потрапили в дані токенізатора, але не в тренувальний корпус моделі.
Детальне дослідження цього феномена описано на
LessWrong: The 'petertodd' phenomenon.
Чому це небезпечно: від курйозу до вразливості
На перший погляд glitch-токени — це кумедний артефакт. Але для production-систем вони створюють реальні ризики:
- ✔️ Обхід фільтрів безпеки: glitch-токен може "вибити" модель із режиму асистента, і вона ігнорує системний промпт та guardrails
- ✔️ Непередбачувані галюцинації: замість відмови модель генерує хаотичний контент — від нісенітниці до образливого тексту
- ✔️ Порушення детермінізму: навіть при temperature=0 glitch-токени ламають відтворюваність — одна й та сама модель дає різні відповіді на однаковий запит
- ✔️ Вектор атаки: зловмисник може навмисно вставити glitch-токени у вхідні дані, щоб порушити роботу LLM-системи
GlitchMiner: масштаб проблеми у 2026
У 2024–2025 роках дослідники розробили автоматичний фреймворк для пошуку glitch-токенів —
GlitchMiner (arXiv),
прийнятий на конференцію AAAI 2026.
Інструмент використовує градієнтну оптимізацію для пошуку токенів з аномально високою ентропією передбачень.
Результати: приблизно 4.3% токенів у словниках GPT-4, Llama 2 і DeepSeek є потенційними glitch-токенами.
Для словника в 100 000 токенів це ~4 300 "зламаних" одиниць.
Що зробили провайдери
OpenAI відреагувала швидко: вже 14 лютого 2023 року ChatGPT отримав патч, який запобігає прямому зіткненню з відомими glitch-токенами.
При переході від GPT-3 (r50k_base, ~50K токенів) до GPT-4 (cl100k_base, ~100K) і далі до GPT-4o (o200k_base, ~200K)
словник був повністю перебудований — старі glitch-токени зникли.
Але проблема не зникла разом з ними. Дослідження
нових glitch-токенів у GPT-4
показало, що кожен новий токенізатор створює свій набір аномальних токенів.
Такі токени як ForCanBeConverted, YYSTACK, JSBracketAccess
були знайдені у cl100k_base і демонструють аналогічну непередбачувану поведінку.
Це говорить про те, що glitch-токени — це системна властивість BPE-підходу, а не одноразовий баг.
Що робити розробнику
- ✔️ Тестуйте модель на glitch-токени перед production:
NVIDIA Garak —
open-source сканер вразливостей LLM, який включає спеціальний модуль
probes.glitch для автоматичного тестування
- ✔️ Фільтруйте вхідні дані: якщо ваша система приймає довільний текст від користувачів — додайте перевірку на відомі glitch-токени у вхідному pipeline
- ✔️ Використовуйте GlitchMiner для глибшого аналізу:
GlitchMiner на GitHub дозволяє знайти аномальні токени в будь-якій моделі з доступними вагами
- ✔️ Моніторте вивід: логуйте випадки, коли модель відповідає нетиповим чином — це може бути ознакою зіткнення з glitch-токеном
Висновок: Glitch-токени — не теоретична вразливість, а задокументована системна проблема, яка присутня у всіх великих моделях і відтворюється з кожним новим токенізатором. Провайдери патчать відомі випадки, але сам BPE-підхід генерує нові аномалії. Для production-систем тестування на glitch-токени має бути частиною pipeline безпеки.
📌 6. Форматування їсть токени
Як форматування впливає на кількість токенів
Пробіли, відступи, переноси рядків, дужки — всі вони токенізуються. У коді з відступами tabulation може займати значну частину токенів від усього файлу.
Markdown-розмітка (зірочки, решітки, тире) також додає токени. Це безпосередньо впливає на вартість API-запиту.
Кожен пробіл у вашому коді — це потенційно токен, за який ви платите.
Дослідження токенізації Python-коду показують: відступи, пробіли та спеціальні символи займають від 15 до 25% загальної кількості токенів у типовому файлі.
Для великих кодових баз це некривдні гроші при використанні API.
Практичні наслідки для розробників
- ✔️ Мінімізуйте відступи в системних промптах (4 пробіли → 2 пробіли або таб)
- ✔️ JSON без переносів рядків займає менше токенів, ніж pretty-printed JSON
- ✔️ Markdown-заголовки (###) і списки (- item) додають токени — уникайте в системних промптах де не потрібно
- ✔️ Повторювані шаблони (наприклад, однаковий prefix у кожному елементі масиву) ефективно стискаються BPE
Prompt caching — як заощадити
Всі великі провайдери (OpenAI, Anthropic, Google) підтримують prompt caching:
якщо prefix вашого промпту не змінюється між запитами, повторна обробка коштує 80–90% дешевше.
Для продуктів з великим системним промптом це найпростіший спосіб зменшити витрати.
Детальніше — у нашій статті про LLM для бізнесу.
Висновок розділу: Форматування — це не безкоштовно. Оптимізація промптів з урахуванням токенів може знизити витрати на 15–30% без втрати якості.
💼 7. Скільки коштує токен у API 2026
Ціни на токени у 2026
API LLM-провайдерів рахують окремо за input-токени (ваш запит) і output-токени (відповідь моделі).
Output коштує в 3–10 разів дорожче, бо генерація послідовна і дорожча за паралельне читання.
У 2026 ціни впали приблизно на 80% порівняно з 2025 завдяки конкуренції з боку DeepSeek і відкритих моделей.
DeepSeek підірвав ринок: frontier-якість за ціною, яка ще рік тому здавалась неможливою.
Актуальні ціни на березень 2026 (джерела:
TLDL LLM API Pricing, березень 2026,
CostGoat LLM Pricing,
PricePerToken.com):
Основні (chat) моделі
| Модель |
Input ($/1M) |
Output ($/1M) |
Контекст |
Коментар |
| GPT-5.4 (OpenAI) |
$2.50 |
$10.00 |
128K |
Флагман OpenAI, замінив GPT-4o |
| GPT-5 mini (OpenAI) |
$0.25 |
$2.00 |
128K |
Бюджетний варіант для простих задач |
| GPT-5 nano (OpenAI) |
$0.05 |
$0.40 |
128K |
Найдешевший від OpenAI |
| Claude Sonnet 4.6 (Anthropic) |
$3.00 |
$15.00 |
200K |
Топ для складних інструкцій і коду |
| Claude Haiku 4.5 (Anthropic) |
$0.25 |
$1.25 |
200K |
Бюджетний Claude, оновлена ціна |
| Gemini 2.5 Pro (Google) |
$1.25 |
$10.00 |
1M |
Найбільший контекст серед основних |
| Gemini 2.5 Flash (Google) |
$0.30 |
$2.50 |
1M |
Чудове співвідношення ціна/якість |
| Gemini 2.0 Flash-Lite (Google) |
$0.075 |
$0.30 |
1M |
Найдешевший серед великих провайдерів |
| DeepSeek V3.2 |
$0.14 |
$0.28 |
128K |
Chat + reasoning в одній моделі |
| Grok 3 mini (xAI) |
$0.30 |
$0.50 |
128K |
Найкраще output/input ratio |
Reasoning-моделі: думати дорожче
Reasoning-моделі (o3, DeepSeek R1) генерують "thinking tokens" — внутрішні роздуми, за які ви також платите.
Це означає, що output для reasoning-задачі може бути в 5–20 разів довшим, ніж фінальна відповідь.
Детальніше про reasoning — у нашій статті (готується).
| Модель |
Input ($/1M) |
Output ($/1M) |
Примітка |
| O3 Pro (OpenAI) |
$150.00 |
$600.00 |
Найдорожча модель на ринку |
| O3 (OpenAI) |
$10.00 |
$40.00 |
Reasoning-флагман |
| DeepSeek R1 |
$0.55 |
$2.19 |
Reasoning за ціною chat-моделі |
Як рахується реальний запит
Уявіть: ви надсилаєте системний промпт (500 токенів) + питання (50 токенів) і отримуєте відповідь (200 токенів).
На Claude Sonnet 4.6: (550 × $3.00 + 200 × $15.00) / 1 000 000 = ~$0.0047 за запит.
При 10 000 запитів на день — $47/день або ~$1 400/місяць.
Та сама задача на DeepSeek V3.2: (550 × $0.14 + 200 × $0.28) / 1 000 000 = ~$0.00013 за запит.
При 10 000 запитів/день — $1.3/день або ~$40/місяць. Різниця — 35 разів.
Важливо для нелатинських мов: якщо ваші запити кирилицею, китайською або арабською — множте токени на коефіцієнт 2–4×
(дивіться секцію 4 про мовну нерівність).
Це прямо збільшує ваш рахунок — і робить вибір дешевшої моделі ще критичнішим.
Як заощадити на API: 5 перевірених методів
- ✔️ Prompt caching — якщо системний промпт не змінюється між запитами, кешування зменшує вартість input на 80–90%. OpenAI, Anthropic і Google підтримують цю функцію.
DeepSeek пропонує cache hit за $0.028/1M — це 90% знижка від базової ціни
- ✔️ Batch API — відправляйте неінтерактивні запити пакетами. Anthropic дає 50% знижку на batch requests, OpenAI — аналогічно
- ✔️ Model routing — використовуйте дешеву модель (Gemini Flash, DeepSeek V3.2) для простих запитів і дорожчу (Claude Sonnet, GPT-5.4) тільки для складних. Router на базі класифікатора запитів може зекономити 60–80%
- ✔️ Стисніть промпти — приберіть зайве форматування, мінімізуйте JSON, уникайте повторів у системному промпті (детальніше — у секції 6 про форматування)
- ✔️ Локальний AI — для некритичних задач Ollama + відкрита модель (Llama 4 Maverick, DeepSeek V3) коштують $0/місяць за API. Детальніше — у нашій статті про Ollama
Інтерактивні калькулятори для розрахунку вартості:
LangCopilot Token Calculator (41 модель, оновлено березень 2026) та
LLM Pricing Calculator.
Детальний розрахунок вартості AI для різних бізнес-сценаріїв — у нашій статті про вартість AI (готується).
Також дивіться LLM vs RAG: правильна архітектура може скоротити кількість токенів на порядок.
Висновок: Ціни впали на ~80% за рік, але різниця між моделями може сягати 35–100× за однакову задачу. Reasoning-моделі коштують на порядок дорожче через thinking tokens. Для production-систем комбінація prompt caching + model routing + batch API зменшує витрати в 5–10 разів.
💼 8. Майбутнє токенізації: SuperBPE, BoundlessBPE, BLT
Куди рухається токенізація
У 2025–2026 роках з'явилось кілька конкурентних напрямків: мультислівні токени (SuperBPE, BoundlessBPE), очищення існуючих словників (LiteToken), і повна відмова від токенів на користь байтів (BLT від Meta).
Жоден ще не замінив BPE в production, але тиск зростає.
BPE — це як QWERTY-клавіатура: не оптимальна, але всі звикли. Альтернативи є, перехід іде повільно.
SuperBPE і BoundlessBPE — токени більше одного слова
Класичний BPE ніколи не об'єднує токени через межі слів: "New" і "York" завжди залишаються окремими.
Два нові підходи, прийняті на конференцію
COLM 2025, знімають це обмеження:
- ✔️ SuperBPE (Liu et al., 2025) — двопрохідний BPE: спочатку стандартне навчання субслів, потім другий прохід без обмежень на межі слів. Результат: на 33% менше токенів, +4.0% середнє покращення на 30 benchmark-ах, і +8.2% на MMLU — тільки завдяки кращій токенізації
- ✔️ BoundlessBPE (Schmidt et al., 2025) — однопрохідний варіант, де часті фрази ("of the", "machine learning") стають одним токеном. Покращення стиснення: до 20% більше байтів на токен
LiteToken — прибираємо сміття зі словника
LiteToken (arXiv, лютий 2026) —
легкий алгоритм для видалення "проміжних залишків злиття" з BPE-словників.
Це токени, які потрапили в словник під час навчання, але в реальному тексті ніколи не використовуються самостійно.
Для DeepSeek-V3 LiteToken скоротив 3-грамний словник на ~22% без перенавчання моделі — plug-and-play.
Менший словник = менше параметрів і менший ризик glitch-токенів (секція 5).
BLT від Meta — взагалі без токенізатора
Найрадикальніший підхід — Byte Latent Transformer (BLT, Meta AI).
Замість фіксованого словника BLT обробляє сирі байти і динамічно групує їх у "патчі" на основі ентропії наступного байту:
де текст передбачуваний — великий патч, де складний — дрібніший.
На тестах до 8B параметрів BLT відповідає Llama 3 за якістю при вдвічі менших inference FLOP.
Головна перевага для мультимовних задач: байти однакові для будь-якої мови, тому проблема мовної нерівності (секція 4) зникає на рівні архітектури.
Але нюанс залишається: UTF-8 кодує латиницю 1 байтом, а кирилицю — 2, тому повна рівність все ще не гарантована.
Код та ваги: GitHub facebookresearch/blt.
Висновок: BPE ще панує, але альтернативи вже показують конкретні результати: +8% на MMLU (SuperBPE), −22% словника (LiteToken), 2× менше FLOP (BLT). 2026–2027 можуть стати роками переходу — особливо якщо BLT доведе масштабованість на більших моделях.
📌 9. Практика: перевір свій текст
Найкращий спосіб зрозуміти токени — побачити їх на своєму тексті. Ось інструменти:
Спробуйте вставити одне й те саме речення українською та англійською і порівняйте кількість токенів — різниця вас здивує.
❓ Часті питання (FAQ)
Скільки токенів у одному слові?
Залежить від мови і частоти слова. Коротке часте англійське слово ("the", "is", "cat") — 1 токен.
Довге або рідкісне — 2–3. Українське або інше кириличне слово середньої довжини — 3–6 токенів у більшості моделей.
Середній токен для англійської відповідає приблизно 4 символам або ¾ слова.
Чому ChatGPT рахує токени, а не слова?
Слова — це людське поняття, яке залежить від мови. Токени — це операційна одиниця нейромережі, незалежна від будь-якої граматики.
З токенами простіше рахувати обчислювальну вартість, управляти контекстним вікном і порівнювати моделі між собою.
Що таке glitch token і чи небезпечний він для мого додатку?
Glitch-токен — це токен із словника, для якого модель не має нормальної поведінки (недонавчена вага embedding).
Для звичайного чат-застосунку ризик мінімальний — користувачі рідко вводять такі рядки.
Але для систем безпеки, класифікаторів і будь-чого, де вхід не контролюється — варто протестувати на відомі glitch-токени.
Інструмент: GlitchMiner на GitHub.
Як зменшити кількість токенів у запиті?
Найефективніші методи: прибрати зайве форматування (відступи, Markdown там де не потрібно), стиснути JSON (без pretty-print), прибрати надлишкові повтори в системному промпті, використати prompt caching для незмінних частин.
Для коду — мінімізувати коментарі і пусті рядки там де це можливо.
Чи однаково коштують input і output токени?
Ні. Output-токени коштують у 3–10 разів дорожче залежно від провайдера, бо генерація послідовна (кожен токен залежить від попереднього) і вимагає більше GPU-часу.
Наприклад, у Claude Sonnet 4.6: input — $3/1M, output — $15/1M (5x різниця).
У GPT-4o: input — $2.50/1M, output — $10/1M (4x різниця).
Що буде після BPE?
Найперспективніший напрямок — байтові моделі на зразок BLT від Meta, які взагалі не потребують токенізатора.
Але поки що BPE залишається стандартом у всіх top-моделях. Перехід, якщо відбудеться, займе кілька років після доведення масштабованості.
✅ Висновки
- 🔹 Токен — не слово і не символ, а статистична одиниця частоти. Всі LLM — ChatGPT, Claude, Gemini — бачать ваш текст як послідовність чисел.
- 🔹 BPE будує словник через ітеративне злиття частих пар — ефективно для англійської, дорого для кирилиці (x3–4).
- 🔹 ~4.3% токенів у словниках GPT-4, Llama 2 і DeepSeek — потенційні glitch-токени, що спричиняють непередбачувану поведінку (GlitchMiner, AAAI 2026).
- 🔹 Ціни на API впали ~80% за рік: від $10/1M (2025) до $0.14–2.50/1M (2026). Вибір моделі може різнитись у 20x за вартістю.
- 🔹 Майбутнє — BLT від Meta (без токенізатора взагалі) і LiteToken (чистіший BPE), але BPE домінує ще кілька років.
Головна думка:
Токени — фундамент, на якому стоїть все: контекстне вікно, вартість API, якість роботи з нелатинськими мовами і навіть безпека системи. Розуміти їх — значить розуміти, що насправді відбувається всередині AI.
Читайте також у серії "Як працюють LLM":