Контекстне вікно LLM: чому AI забуває і скільки це коштує

Оновлено:
Контекстне вікно LLM: чому AI забуває і скільки це коштує

Ти коли-небудь помічав, що ChatGPT або Claude на початку розмови пам'ятає все ідеально, а через годину починає плутати деталі або перепитувати те, що ти вже пояснював? Це не баг — це фундаментальне обмеження, яке визначає, скільки AI може "тримати в голові" одночасно. Називається воно контекстне вікно — і саме від нього залежить якість, швидкість і вартість кожної відповіді.

Якщо ще не знайомий з основами роботи LLM — почни з якорної статті "Як працюють ChatGPT, Claude і Gemini: повний гайд 2026"(скоро).

📌 TL;DR — головне за 30 секунд:

Контекстне вікно — це максимум тексту, який AI може бачити одночасно. У Claude це 200K токенів (~500 сторінок), у GPT-5 — 400K, у Gemini — до 1M+. Але більше — не завжди краще: подвоєння контексту збільшує витрати пам'яті вчетверо (квадратична складність), AI гірше пам'ятає інформацію з середини тексту (lost in the middle), а кожен додатковий токен коштує реальних грошей. Саме тому RAG і досі актуальний — навіть в епоху мільйонних контекстних вікон.

📚 Зміст статті

🎯 Що таке контекстне вікно і чому воно обмежене

Коротка відповідь: Контекстне вікно (context window) — це максимальна кількість токенів, яку модель може обробити за один запит. Це включає і те, що ти написав, і те, що модель відповіла, і всю попередню історію чату. Коли вікно заповнюється — найстаріші повідомлення "випадають".

Уявіть робочий стіл. Все, що AI може бачити одночасно, — розкладено на цьому столі. Розмір стола — це контекстне вікно. Нові документи кладуться зверху, старі падають на підлогу.

Коли ти пишеш повідомлення в ChatGPT або Claude, на "стіл" кладеться: системний промпт (інструкції для моделі) + вся історія вашої розмови + твій новий запит. Модель "дивиться" на все це одночасно і генерує відповідь.

Важлива деталь: контекстне вікно вимірюється не в словах, а в токенах. Токен — це фрагмент тексту: слово, частина слова або навіть один символ. В англійській мові одне слово ≈ 1.3 токени. В українській — складніше: через багату морфологію одне слово зазвичай розбивається на 2–4 токени. Це означає, що українського тексту в контекстне вікно поміщається менше, ніж англійського.

Детальніше про токени і токенізацію — у статті Що таке токени: як ChatGPT бачить твій текст.

Я відчув це обмеження на практиці, коли робив RAG-чатбот для WebsCraft. Поки розмова коротка — бот відповідає швидко і точно. Але коли користувач задає 10-15 питань підряд, контекст наповнюється попередніми повідомленнями, і якість відповідей поступово знижується. Саме тоді я зрозумів, наскільки контекстне вікно впливає на все — від швидкості до вартості.

Чому вікно не може бути нескінченним

Три фундаментальні обмеження:

  • ✔️ Пам'ять (RAM/VRAM): кожен токен у контексті потребує зберігання KV-кеша (key-value cache). Більше токенів = більше пам'яті GPU. При контексті 200K токенів KV-кеш може займати десятки гігабайт.
  • ✔️ Швидкість: кожен новий токен "дивиться" на всі попередні. Більше контекст = повільніше генерація кожного наступного слова.
  • ✔️ Вартість: API-провайдери беруть плату за кожен токен. Довша розмова = дорожчий кожен наступний запит.

Але головна причина — математична, і вона заслуговує окремої секції.

Висновок: Контекстне вікно — це не технічна деталь, а фундаментальний компроміс між якістю, швидкістю і вартістю. Кожна модель вирішує цей компроміс по-своєму.

🎯 Квадратична складність: чому подвоїти контекст = в 4 рази дорожче

Коротка відповідь: В основі LLM лежить механізм attention, де кожен токен "дивиться" на кожен інший. Це створює квадратичну залежність: подвоєння контексту збільшує обчислення і пам'ять не в 2, а в 4 рази. Саме це — головна стіна на шляху до нескінченного контексту.

1,000 токенів = 1 мільйон операцій attention. 10,000 токенів = 100 мільйонів. 200,000 токенів = 40 мільярдів. Зростання не лінійне — воно квадратичне.

Аналогія: кімната з людьми

Уяви кімнату з людьми. Кожна людина — це токен. Щоб кожен зрозумів повний контекст розмови, кожна людина має поговорити з кожною іншою. Якщо в кімнаті 10 людей — це 100 розмов (10 × 10). Якщо 100 людей — це вже 10,000 розмов. Якщо 1,000 — мільйон. Подвоїв кількість людей — кількість розмов зросла вчетверо. Це і є квадратична складність: O(n²).

Тепер уяви, що кожна "розмова" — це обчислення на GPU, яке займає час і пам'ять. Стає зрозуміло, чому збільшення контексту з 4K до 200K токенів — це не просто "в 50 разів більше", а в 2,500 разів дорожче за обчисленнями.

Що відбувається всередині: self-attention

В технічних термінах це відбувається в механізмі self-attention, який є серцем архітектури трансформера. Для кожного токена модель обчислює три вектори — Query (запит), Key (ключ) і Value (значення). Потім Query кожного токена "порівнюється" з Key кожного іншого токена, щоб визначити, на що звернути увагу. Результат — матриця attention scores розміром n × n, де n — кількість токенів.

Ця матриця зберігається в так званому KV-кеші (key-value cache) — спеціальній області GPU-пам'яті. З кожним новим токеном кеш росте, і саме він стає "вузьким місцем" на системах з обмеженою пам'яттю.

Детальніше про механізм attention — у статті Трансформери і механізм attention: чому AI розуміє контекст.

Що це означає на практиці: таблиця масштабування

Контекст (токени) Операцій attention ~Обсяг KV-кешу Відносна вартість
4,000 (GPT-3, 2022) 16 мільйонів ~100 МБ 1x
32,000 1 мільярд ~800 МБ 64x
200,000 (Claude) 40 мільярдів ~5 ГБ 2,500x
1,000,000 (Gemini) 1 трильйон ~25+ ГБ 62,500x

Примітка: обсяги KV-кешу орієнтовні та залежать від конкретної архітектури моделі, кількості шарів attention і точності обчислень.

Як це відчувається на реальному залізі

Я відчув це на практиці, коли працював з Ollama на своєму Mac M1. Збільшив контекстне вікно з 2K до 8K токенів — і модель помітно сповільнилася, а Activity Monitor показав стрибок використання пам'яті на кілька гігабайт. При спробі встановити 16K контекст на 7B-моделі система почала свопити на диск — і відповідь замість секунди займала 30+.

Це та сама квадратична складність, тільки на масштабі одного ноутбука замість дата-центру Google. Детальніше про обмеження пам'яті на слабкому залізі — у статті Ollama на 8 ГБ RAM: які моделі реально працюють.

Три стіни, які створює квадратичність

  • ✔️ Стіна пам'яті: KV-кеш для 1M токенів може займати 25+ ГБ GPU-пам'яті — більше, ніж вся VRAM більшості споживацьких відеокарт. Навіть на дата-центровому GPU A100 (80 ГБ) це суттєва частка ресурсу.
  • ✔️ Стіна швидкості: кожен новий токен відповіді потребує "перегляду" всіх попередніх токенів контексту. При 200K контексті генерація кожного слова займає помітно більше часу, ніж при 4K. Користувач це відчуває як затримку перед початком відповіді (time to first token).
  • ✔️ Стіна грошей: більше обчислень = більше GPU-часу = вища ціна за запит. Саме тому API-провайдери беруть плату за input-токени, а деякі (наприклад Anthropic) стягують подвійну ціну, коли контекст перевищує певний поріг.

Висновок: Квадратична складність — це не проблема, яку можна вирішити просто додаванням серверів. Це фундаментальна математична властивість архітектури трансформера, яка діє однаково і на ноутбуці з 8 ГБ RAM, і в дата-центрі Google з тисячами GPU. Саме тому компанії витрачають мільйони на дослідження альтернативних архітектур — і саме тому RAG залишається практичнішим рішенням, ніж нескінченне нарощування контексту.

Контекстне вікно LLM: чому AI забуває і скільки це коштує

🎯 Lost in the middle: чому AI краще пам'ятає початок і кінець

Коротка відповідь: Навіть якщо модель технічно може обробити 200K або 1M токенів, інформація в середині контексту запам'ятовується гірше, ніж на початку або в кінці. Дослідження показують падіння точності на 20–50% для інформації з середини довгого контексту. Це не баг конкретної моделі — це фундаментальна властивість архітектури трансформера.

Уявіть, що вам дали книгу на 500 сторінок і попросили знайти одну конкретну фразу. Ви добре пам'ятаєте вступ і останній розділ — але що було на сторінці 247? Те саме відбувається з AI. Психологи називають це "ефектом серійної позиції" — і виявляється, LLM страждають від нього так само, як і люди.

Це явище отримало назву "lost in the middle" після фундаментального дослідження Стенфорда і Університету Вашингтона (Liu et al., 2023). Автори тестували моделі на двох задачах: пошук відповіді серед кількох документів і витягування пар ключ-значення з довгого списку. В обох випадках вони виявили U-подібну криву: точність найвища, коли релевантна інформація знаходиться на початку або в кінці контексту, і суттєво падає, коли вона опиняється посередині. Причому ефект спостерігався у всіх протестованих моделях — від GPT-3.5 до GPT-4 і Claude.

Конкретні цифри: наскільки серйозна проблема

За даними Chroma Research (2025), яке тестувало 18 фронтірних моделей включаючи GPT-4.1, Claude Opus 4 і Gemini 2.5:

  • ✔️ Інформація на початку і в кінці контексту: точність 85–95%
  • ⚠️ Інформація в середині: точність падає до 76–82%
  • ❌ При контексті 100K+ токенів: загальне падіння точності 20–50% порівняно з 10K
  • ✔️ Claude-моделі деградують найповільніше, але жодна модель не є імунною

Окреме дослідження Du et al. (2025) довело ще тривожніший факт: навіть коли нерелевантні токени замінювали порожніми пробілами і модель змушували "дивитися" лише на релевантну інформацію — продуктивність все одно падала на 13.9–85% зі збільшенням довжини контексту. Це означає, що проблема не лише у "відволіканні" — сам обсяг токенів заважає моделі мислити ефективно.

Чому це відбувається: архітектурні причини

Дослідники MIT (2025) знайшли конкретний механізм. Вони створили теоретичний фреймворк для аналізу потоку інформації у трансформері і виявили дві причини:

  • ✔️ Маски уваги (attention masking): каузальна маска в трансформері дозволяє токенам "дивитися" лише на попередні. Це створює природне упередження — останні токени мають доступ до найбільшої кількості контексту, перші — отримують найбільше уваги від наступних.
  • ✔️ Позиційні кодування (positional encodings): методи типу RoPE (Rotary Position Embedding) поступово "згасають" з відстанню — чим далі два токени один від одного, тим слабший їхній зв'язок. Токени в середині виявляються достатньо далеко і від початку, і від кінця.

Результат — U-подібна крива уваги: сильний фокус на початку (primacy bias), сильний фокус на кінці (recency bias), і "сліпа зона" посередині.

Чому це важливо для практики

Коли ти ведеш довгу розмову з Claude або ChatGPT, твої ранні повідомлення поступово "провалюються" в середину контексту. Нові повідомлення завжди в кінці, системний промпт — на початку. А от важливі деталі, які ти пояснив на 15-му повідомленні — опиняються саме в тій зоні, де модель працює найгірше.

Я помітив це на власному досвіді: під час довгих сесій роботи з Claude, коли ми обговорювали архітектуру Spring Boot проєкту, модель починала "забувати" рішення, прийняті на початку розмови. Допомагало одне — періодично повторювати ключові деталі або починати нову розмову з резюме попередньої.

Практичні рекомендації

  • ✔️ Для довгих розмов: періодично нагадуйте моделі ключові деталі або починайте нову розмову з короткого резюме
  • ✔️ Для RAG-систем: якщо завантажуєте кілька документів у контекст, ставте найважливіші першими або останніми — ніколи не в середину
  • ✔️ Для промптів: основну інструкцію — на початку (системний промпт), конкретне завдання — в кінці (user message). Середину залишайте для допоміжного контексту, який менш критичний
  • ✔️ Для розробників: використовуйте re-ranking у RAG-пайплайні — переупорядковуйте документи за релевантністю перед вставкою в контекст

Детальніше про різницю між підходами і коли що обирати — у статті LLM vs RAG у 2026 році: чому це не одне й те саме і коли що використовувати.

Висновок: Рекламоване контекстне вікно і реальна ефективність — це різні речі. Модель з 200K контексту, яка стабільно працює на всьому діапазоні, на практиці цінніша за модель з 1M, яка "губить" середину. А найкращий спосіб боротися з проблемою — не збільшувати контекст, а зменшувати його через RAG і стиснення, подаючи моделі лише те, що їй дійсно потрібно.

🎯 Порівняння: Claude vs GPT vs Gemini — хто скільки пам'ятає

Коротка відповідь: Розміри контекстних вікон у 2026 році: Claude Opus 4.6 — 200K токенів (1M у бета), GPT-5.4 — до 1M, Gemini 3 Pro — до 2M+. Але рекламований розмір і реальна ефективність — різні речі.

Більше контекстне вікно — як більший рюкзак. Ти можеш покласти більше речей, але знайти потрібну стає все складніше.
Модель Контекст Ефективний діапазон* Ціна (input/1M токенів) Сильна сторона
Claude Opus 4.6 200K ~190K (стабільно) ~$15 Найменша деградація якості
Claude Sonnet 4 200K (1M бета) ~180K ~$3 Баланс ціни і якості
GPT-5.4 1M (API) ~400K ~$1.50 Великий обсяг, доступна ціна
GPT-4.1 1M (API) ~600K ~$2 Кодинг, великі кодові бази
Gemini 2.5 Pro 1M ~700K ~$1.25 Мультимодальність
Gemini 3 Pro 2M+ ~1M ~$12 Максимальний обсяг
Llama 4 Scout 10M залежить від інфраструктури безкоштовно (self-hosted) Open-source, data sovereignty

* "Ефективний діапазон" — приблизний обсяг, на якому модель зберігає стабільну якість без значної деградації. Базується на даних Elvex, AIMultiple та Morph. Реальна продуктивність залежить від задачі і типу контенту.

Важливий нюанс: прихована доплата за довгий контекст

Деякі провайдери стягують підвищену ціну, коли контекст перевищує певний поріг. Наприклад, за даними Morph, Anthropic бере подвійну ціну за input-токени і 1.5x за output, коли контекст Claude перевищує 200K у бета-режимі 1M. Це логічно — довший контекст потребує більше обчислень.

Висновок: Обирай модель не за максимальним розміром контексту, а за ефективним діапазоном і стабільністю на твоїх задачах. 200K стабільних токенів часто корисніші за 1M з деградацією якості.

🎯 Чотири способи обійти обмеження контексту

Коротка відповідь: Замість того, щоб чекати нескінченного контексту, індустрія розробила кілька підходів: RAG (зберігати інформацію зовні і підтягувати за запитом), стиснення контексту, оптимізовані архітектури attention і принципово нові архітектури без attention взагалі. Кожен підхід має свої trade-off — і на практиці найкращий результат дає їхня комбінація.

1. RAG (Retrieval-Augmented Generation) — зовнішня пам'ять

Ідея проста: замість того, щоб засовувати все в контекст, інформація зберігається у векторній базі даних. Коли приходить запит — з бази витягуються лише релевантні фрагменти і вставляються в контекст. Вікно залишається маленьким, але модель "знає" потрібне.

Я реалізував саме такий підхід на WebsCraft: замість того, щоб завантажити всі 500 статей блогу в контекст моделі, я зберігаю їх у pgvector і підтягую лише 3–5 найрелевантніших фрагментів на кожен запит. Контекст залишається ~2000 токенів замість мільйонів — і відповідь приходить за секунду, а не за хвилину.

Переваги: дешево (маленький контекст = менше токенів = менше грошей), швидко (менше обчислень), точно (модель бачить лише релевантне, немає "шуму" від нерелевантної інформації).

Обмеження: якість залежить від якості пошуку. Якщо система витягне неправильні фрагменти — модель дасть неправильну відповідь. Потрібна ретельна настройка чанкінгу, ембедінгів і порогу релевантності.

Детальніше про різницю між підходами — у статті LLM vs RAG у 2026 році: чому це не одне й те саме і коли що використовувати. А про архітектуру production-ready RAG-систем — у повному гайді по RAG.

2. Стиснення контексту (Context Compression)

Не всі токени в контексті однаково корисні. Слова типу "і", "в", "також" несуть мінімум інформації, але займають місце в контекстному вікні. Методи стиснення знаходять і видаляють такі неінформативні токени, залишаючи лише суть.

Найвідоміший метод — LLMLingua від Microsoft. Він використовує малу мовну модель (наприклад GPT-2) для оцінки "сюрпризності" (perplexity) кожного токена. Токени з низькою інформативністю видаляються. Результат — стиснення до 20x з мінімальною втратою якості.

Для RAG-систем існує розширена версія — LongLLMLingua. Вона додатково враховує запит користувача при стисненні і переупорядковує документи в контексті — ставлячи найрелевантніші на початок і кінець. Це безпосередньо допомагає з проблемою "lost in the middle", про яку ми говорили у розділі 3. За даними дослідників, точність зросла на 21.4% при використанні в 4 рази меншої кількості токенів.

Переваги: працює з будь-якою моделлю без зміни архітектури, суттєво зменшує витрати на API.

Обмеження: додає етап обробки перед кожним запитом, є ризик видалити важливий токен, який виглядає "неважливим" для малої моделі-компресора.

3. Оптимізований Attention (Flash Attention, Sparse Attention, Ring Attention)

Цей підхід не змінює архітектуру трансформера — він оптимізує обчислення всередині неї. Три основних методи:

Flash Attention — перебудовує порядок обчислень attention, щоб мінімізувати обмін даними між GPU-пам'яттю і кешем процесора. На практиці це дає прискорення в 2–4 рази і значне зменшення споживання пам'яті — без жодної зміни в якості відповідей. Flash Attention вже вбудований у більшість сучасних моделей.

Sparse Attention — замість того, щоб кожен токен "дивився" на кожен інший (повний attention), дозволяє дивитися лише на підмножину: сусідні токени + кілька "глобальних" опорних точок. Це знижує складність з O(n²) до O(n√n) або навіть O(n log n). Компроміс: модель може пропустити далекі, але важливі зв'язки.

Ring Attention — розподіляє довгу послідовність між кількома GPU, де кожен GPU обробляє свій фрагмент і передає результати по кільцю. Це дозволяє масштабувати контекст пропорційно до кількості GPU. Саме цей підхід стоїть за мільйонними контекстними вікнами Gemini.

Переваги: не змінюють якість моделі, працюють з існуючими архітектурами, дають суттєве прискорення.

Обмеження: не вирішують фундаментальну проблему квадратичної складності — лише зсувають стіну далі. При достатньо великому контексті O(n²) все одно переможе.

4. Нові архітектури без attention (Mamba, RWKV, State Space Models)

Найрадикальніший підхід — відмовитися від attention взагалі і побудувати модель на іншій математичній основі.

Mamba (State Space Models) — обробляє послідовності лінійно: O(n) замість O(n²). Кожен токен оброблюється один раз, і модель підтримує "стан" (state), який акумулює інформацію про попередні токени. Це схоже на те, як людина читає книгу — не перечитуючи кожну сторінку при кожному новому абзаці, а тримаючи "резюме прочитаного" в голові.

RWKV — рекурентна архітектура з продуктивністю трансформера. Поєднує переваги RNN (лінійна складність) і трансформерів (якість генерації). Модель може працювати навіть на слабкому залізі завдяки низьким вимогам до пам'яті.

Переваги: теоретично необмежений контекст, лінійне масштабування, значно менше споживання пам'яті.

Обмеження: поки поступаються трансформерам за якістю на складних задачах — reasoning, аналіз довгих документів, кодинг. Це активна область досліджень. Деякі нові моделі (Jamba від AI21) комбінують Mamba з трансформерними шарами, намагаючись отримати найкраще з обох світів.

Зведена таблиця підходів

Підхід Складність Якість Зрілість Найкраще для
RAG Не залежить від контексту Висока (якщо добрий retrieval) Production-ready Великі бази знань, документи
Стиснення O(n) на стиснення Висока (до 20x стиснення) Production-ready Довгі розмови, оптимізація витрат
Flash/Sparse Attention O(n²) → O(n√n) Без втрат Вбудовано в моделі Загальне прискорення
Mamba/RWKV O(n) Нижча на складних задачах Дослідження / ранній production Потенційно — все

Висновок: Жоден метод не є ідеальним. RAG — найпрактичніший прямо зараз і перевірений у production. Стиснення — ефективний доповнювач, який до того ж економить гроші. Оптимізований attention — вже вбудований у моделі, які ти використовуєш. Нові архітектури — потенційне майбутнє, яке може зробити все вищесказане неактуальним. Найефективніший підхід у 2026 — комбінація: RAG для основної інформації + оптимізований довгий контекст для поточної розмови.

Контекстне вікно LLM: чому AI забуває і скільки це коштує

🎯 Скільки це коштує: від одного запиту до Google у масштабі

Коротка відповідь: Кожен токен у контексті — це реальні обчислення на GPU, за які хтось платить. Один запит до ChatGPT коштує ~$0.001–0.01. Помножте на мільярди запитів Google AI Overviews — і ви зрозумієте, чому компанії так ретельно оптимізують розмір контексту.

Коли ти питаєш ChatGPT "яка погода?" — це коштує частку цента. Коли ти завантажуєш 100-сторінковий документ і задаєш 20 питань — це вже десятки центів. На масштабі Google — це мільйони доларів щодня.

Вартість одного запиту

Типовий запит до AI-чатбота — це приблизно 500–2000 input-токенів (твій запит + системний промпт + контекст) і 200–500 output-токенів (відповідь). При ціні Claude Sonnet ~$3 за 1M input-токенів:

  • ✔️ Простий запит (1K токенів): ~$0.003
  • ✔️ Запит з контекстом документа (10K токенів): ~$0.03
  • ✔️ Довга розмова (100K токенів): ~$0.30
  • ⚠️ Максимальний контекст (200K токенів): ~$0.60

Зверни увагу: та сама розмова стає дорожчою з кожним повідомленням, бо модель "перечитує" весь попередній контекст щоразу.

Google AI Overviews: масштаб витрат

Google обробляє приблизно 8.5 мільярдів пошукових запитів на день. AI Overviews (згенеровані AI-відповіді вгорі результатів) показуються орієнтовно на 10–15% запитів — це ~1 мільярд AI-генерацій щодня.

Навіть при внутрішній собівартості Google (власні TPU-чіпи, власна модель Gemini) — при $0.0001 за запит × 1 мільярд = приблизно $100,000 на день, або ~$36 мільйонів на рік лише на AI-відповіді у пошуку.

Для порівняння: я зробив RAG-бот для пошуку по статтях на WebsCraft — при 100 запитах на день він коштує мені ~$2 на місяць. Та сама технологія, що й у Google AI Overviews — різниця лише у масштабі в 10 мільйонів разів.

Чому локальний AI кардинально дешевший

Коли ти запускаєш модель через Ollama на своєму комп'ютері — контекстне вікно обмежене RAM, але вартість кожного запиту = $0. Ніяких API-тарифів, ніяких токенів для оплати. Ти вже "заплатив" за своє залізо — і можеш робити необмежену кількість запитів.

Саме тому для регулярних задач з конфіденційними даними локальний AI через Ollama — оптимальний вибір із точки зору вартості. Детальніше — у статті Скільки коштує AI: токени, GPU і чому Google витрачає мільйони.

Висновок: Контекстне вікно — це не лише технічне обмеження, а фінансовий множник. Чим довша розмова і більший контекст — тим дорожчий кожен наступний запит. Оптимізація розміру контексту (через RAG, стиснення, або розумний менеджмент розмови) — це не лише покращення якості, а й пряма економія грошей.

❓ Часті питання (FAQ)

Що таке контекстне вікно простими словами?

Це максимальна кількість тексту, яку AI може "бачити" одночасно. Включає твій запит, всю попередню розмову і системні інструкції. Вимірюється в токенах — фрагментах тексту, кожен з яких приблизно рівний 0.7 слова англійською або 0.3–0.5 слова українською.

Чому ChatGPT забуває те, що я сказав раніше?

Коли розмова перевищує контекстне вікно — найстаріші повідомлення "випадають". Навіть у межах вікна модель гірше пам'ятає інформацію з середини (ефект "lost in the middle"). Для довгих розмов допомагає періодично нагадувати ключові деталі або починати нову розмову з резюме попередньої.

Яке контекстне вікно у Claude, ChatGPT і Gemini?

Станом на березень 2026: Claude Opus 4.6 — 200K токенів (~500 сторінок), GPT-5.4 — до 1M через API, Gemini 2.5 Pro — 1M, Gemini 3 Pro — 2M+. Але рекламований розмір і ефективний діапазон — різні речі. Детальніше — у розділі 4 цієї статті.

Чому RAG все ще актуальний, якщо є мільйонні контексти?

Три причини: вартість (завантажувати мільйон токенів на кожен запит дорого), якість (lost in the middle знижує точність), швидкість (довший контекст = повільніша відповідь). RAG подає лише релевантні фрагменти — дешево, швидко, точно. Детальніше — у статті LLM vs RAG.

Чи можна збільшити контекстне вікно в Ollama?

Так, через параметр num_ctx у Modelfile або змінну OLLAMA_CTX_SIZE. Але на системі з 8 ГБ RAM збільшення контексту понад 4096 токенів може спричинити swap на диск і різке сповільнення. Детальніше — у статті Ollama на 8 ГБ RAM.

Скільки коштує довга розмова з ChatGPT через API?

Ціна зростає з кожним повідомленням, бо модель перечитує весь попередній контекст. Розмова на 100K токенів через Claude Sonnet коштує ~$0.30 за один запит. Через GPT-5.4 — ~$0.15. Для оптимізації витрат використовуй RAG або стиснення контексту.

✅ Висновки

Контекстне вікно — це фундаментальна характеристика LLM, яка впливає на все: якість відповідей, швидкість генерації і вартість кожного запиту. Ось головне:

  • ✔️ Контекстне вікно = "робочий стіл" AI: все, що модель може бачити одночасно. Коли стіл заповнюється — старе падає на підлогу.
  • ✔️ Квадратична складність: подвоєння контексту збільшує витрати в 4 рази, не в 2. Це фундаментальне обмеження архітектури трансформера.
  • ✔️ Lost in the middle: AI краще пам'ятає початок і кінець тексту. Інформація з середини може "загубитися" — падіння точності до 20–50%.
  • ✔️ Більше ≠ краще: 200K стабільних токенів (Claude) часто практичніше за 1M+ з деградацією (Gemini).
  • ✔️ RAG залишається актуальним: навіть з мільйонними контекстами, RAG дешевший, швидший і точніший для роботи з великими масивами даних.
  • ✔️ Кожен токен коштує грошей: довша розмова = дорожчий кожен наступний запит. Оптимізація контексту — це пряма економія.

Я сам використовую комбінований підхід: RAG для пошуку по статтях блогу (контекст ~2000 токенів), і довгий контекст для детальних розмов з Claude, де потрібна глибока історія. Це найефективніша стратегія у 2026 — не чекати нескінченного контексту, а розумно управляти тим, що є.

Якщо хочеш зрозуміти інші аспекти роботи LLM — як AI бачить текст через токени, як генерує відповіді за допомогою механізму attention, і чому RAG все ще актуальніший за довгий контекст — переходь до відповідних статей кластеру.

А якщо потрібен сайт або веб-застосунок з інтеграцією AI-функціональності — RAG-пошуком, чат-ботом або аналітикою — напиши нам у WebsCraft, допоможемо реалізувати.

📖 Джерела

Останні статті

Читайте більше цікавих матеріалів

Контекстне вікно LLM: чому AI забуває і скільки це коштує

Контекстне вікно LLM: чому AI забуває і скільки це коштує

Ти коли-небудь помічав, що ChatGPT або Claude на початку розмови пам'ятає все ідеально, а через годину починає плутати деталі або перепитувати те, що ти вже пояснював? Це не баг — це фундаментальне обмеження, яке визначає, скільки AI може "тримати в голові" одночасно. Називається воно...

Ollama на 8 ГБ RAM: які моделі працюють у 2026

Ollama на 8 ГБ RAM: які моделі працюють у 2026

Маєш ноутбук з 8 ГБ оперативної пам'яті і хочеш запустити AI локально? Ця стаття — розбір: що працює, що ледь тягне, а що навіть не варто завантажувати. Без ілюзій, з конкретними моделями та командами для кожної задачі. Якщо ще не знайомий з Ollama — почни з вступної статті про те, що таке...

Spring AI 2026: що це таке і як використовувати у Spring Boot

Spring AI 2026: що це таке і як використовувати у Spring Boot

Якщо ти Java-розробник — AI-інтеграція у твоїх проєктах рано чи пізно стане реальністю. Клієнти питають про чат-боти, семантичний пошук і автоматизацію на основі LLM. І перше що ти шукаєш — як це зробити в Spring Boot без переписування всього застосунку і без вивчення...

Яку модель Ollama вибрати у 2026 порівняння Llama, Qwen, DeepSeek і Mistral

Яку модель Ollama вибрати у 2026 порівняння Llama, Qwen, DeepSeek і Mistral

В офіційному реєстрі Ollama вже понад 200 моделей — і їх кількість зростає щотижня. Проблема не в тому, щоб знайти модель, а в тому, щоб вибрати правильну: для конкретної задачі і конкретного заліза. Неправильний вибір — і ти або чекаєш відповіді 30 секунд, або отримуєш...

Чому Google відключив медичний AI: архітектурний розбір збою RAG

Чому Google відключив медичний AI: архітектурний розбір збою RAG

Google тихо відкотив функцію What People Suggest для медичних запитів. Офіційне формулювання — «якість відповідей». Але за цим стоїть конкретна архітектурна проблема: retrieval-система витягала семантично схожі, але клінічно несумісні фрагменти — і модель...

Як встановити Ollama на Mac, Windows і Linux: повний гайд 2026

Як встановити Ollama на Mac, Windows і Linux: повний гайд 2026

ChatGPT і Claude працюють через браузер — відкрив вкладку і пишеш. Ollama працює інакше: спочатку встановлюєш програму на комп'ютер, потім завантажуєш модель — і після цього AI працює локально, без інтернету і без підписок. Увесь процес займає 5–10 хвилин. Ця...