OCR-first і Vision-first — не конкурентні підходи, а інструменти з різними trade-offs. Оптимум для більшості реальних архівів — гібрид.
VisRAG (ICLR 2025) показує 20–40% приріст end-to-end результату порівняно з TextRAG на мультимодальних документах.
Qwen2.5-VL-72B встановив SOTA на OmniDocBench; olmOCR-2 (жовтень 2025) набирає 82.4 на olmOCR-Bench — self-hosted рівень proprietary рішень річної давнини.
Vision-парсинг коштує у 10–30× дорожче за self-hosted OCR при масштабі. Для архівів 100 000+ сторінок це вирішальний фактор.
З появою GPT-4V у 2023 році і подальшим розвитком мультимодальних моделей у технічних дискусіях регулярно звучить питання: чи потрібен OCR взагалі, якщо Vision-модель може читати документ напряму як зображення? У 2025–2026 роках це питання стало практичним — інструменти є, бенчмарки є, реальні проекти є. Час підбити trade-offs.
Ця стаття — для архітекторів які проектують або оптимізують документні RAG-пайплайни і хочуть зрозуміти, який підхід підходить для їхнього сценарію. Якщо вам потрібен технічний розбір того, як OCR-помилки руйнують chunking і embeddings — читайте попередню статтю серії: «Як OCR впливає на якість RAG-систем: технічний розбір».
Чому обробка документів — нетривіальна задача для AI
«Підключити AI до документів компанії» звучить просто. На практиці між цією фразою і працюючою RAG-системою стоїть кілька нетривіальних проблем, кожна з яких впливає на вибір архітектурного підходу.
Проблема 1: документи не є текстом
70–80% корпоративних даних — неструктуровані: скани, PDF-зображення, паперові форми. Навіть «цифровий» PDF може містити таблиці як зображення, сторінки зі складною версткою або вбудовані схеми. Жоден текстовий парсер не читає пікселі.
Проблема 2: структура документа несе сенс
У рядку накладної «50 | Кабель | 120 грн» зміст визначається позицією у таблиці. Якщо таблиця розпалася в лінійний текст — «50 Кабель 120 грн» — зв'язок між кількістю, назвою і ціною втрачено. OCR традиційно ігнорує просторові відносини між елементами.
Проблема 3: різнорідність архівів
Реальний корпоративний архів рідко буває однорідним. Там є чисті цифрові PDF, скани різної якості, документи зі складними макетами, рукописні нотатки, змішані форми. Рішення, яке ідеально працює для одного типу, може повністю провалитись на іншому.
Саме ця різнорідність робить вибір між OCR-first і Vision-first не академічним питанням, а архітектурним рішенням з реальними наслідками для якості і вартості системи.
OCR-first архітектура: класичний підхід і його межі
OCR-first — стандартний підхід для документних RAG-систем останніх 3–4 років. Логіка проста: конвертуємо зображення в текст, далі працюємо зі стандартним текстовим RAG-пайплайном.
Архітектура OCR-first
Документ (скан / PDF)
↓
Препроцесинг зображення (deskew, denoise, орієнтація)
↓
OCR-движок → plain text
↓
Постпроцесинг (нормалізація, видалення мусору)
↓
Chunking
↓
Text Embeddings (text-embedding-3-small, BGE, E5)
↓
Vector DB → Retrieval → LLM
Переваги OCR-first
Перевага
Деталь
Масштаб і швидкість
Tesseract і PaddleOCR обробляють тисячі сторінок на хвилину на CPU. Немає rate limits зовнішніх API.
Вартість при великих обсягах
Self-hosted OCR — практично нуль (тільки compute). Критично при архівах 100 000+ сторінок.
GDPR / локальне розгортання
Дані не покидають інфраструктуру. Єдиний варіант для медицини, права, держсектору.
Зрілість і передбачуваність
Стандартний пайплайн з відомими failure modes. Легко дебажити, моніторити, оптимізувати.
Сумісність з усіма text embedding моделями
Вихід OCR — plain text, який підходить для будь-якої embedding-моделі без змін.
Системні межі OCR-first
Обмеження
Де проявляється
Наслідок для RAG
Втрата структури таблиць
Будь-яка таблиця з об'єднаними клітинками або вкладеними заголовками
Зв'язок між рядками і колонками втрачено; чанк з таблиці семантично некоректний
Лінійне читання багатоколонкового тексту
Газетна верстка, наукові статті, технічні специфікації
Речення з різних колонок змішуються; chunking ріже по неправильних межах
Нечитабельність схем і діаграм
Технічні креслення, org-chart, flow-діаграми
Візуальний контент повністю втрачається для retrieval
CER 3–5% на рукописному тексті
Заповнені від руки форми, нотатки на полях
Критичні поля (числа, прізвища, дати) можуть бути спотворені
Залежність від якості препроцесингу
Перевернуті скани, низький DPI, нерівний контраст
Без корекції орієнтації — 0% точності на перевернутих сторінках
Детальний розбір того, де і як ці обмеження ламають chunking, embeddings і retrieval — у попередній статті серії: «Як OCR впливає на якість RAG-систем».
Vision-first підхід замінює або обходить OCR-крок: документ передається у Vision-Language Model (VLM) як зображення, і модель сама витягує текст, структуру та контекст.
Архітектура Vision-first (TextRAG через Vision-парсинг)
Документ (скан / PDF / зображення)
↓
Рендеринг сторінок як зображень (pdf2image / PyMuPDF)
↓
VLM-парсинг → структурований текст (Markdown / JSON)
↓
Chunking (на основі збереженої структури)
↓
Text Embeddings → Vector DB → Retrieval → LLM
Архітектура VisRAG (embeddings з зображень)
Документ → сторінки як зображення
↓
Visual Embeddings (ColPali, ColQwen2, MuRAG-подібні моделі)
↓
Multimodal Vector DB (зображення + текстові запити)
↓
Retrieval → релевантні зображення сторінок
↓
VLM-генерація відповіді на основі знайдених зображень
У VisRAG-підході embedding рахується не з тексту, а з самого зображення сторінки. Retrieval відбувається у мультимодальному просторі: текстовий запит зіставляється з векторами зображень. Дослідження VisRAG (ICLR 2025) показує, що цей підхід дає 20–40% приріст end-to-end результату порівняно з традиційним TextRAG на мультимодальних документах — завдяки збереженню layout-інформації, яку текстовий OCR-пайплайн втрачає.
Огляд актуальних Vision-інструментів (2025–2026)
Інструмент
Тип
Ключова особливість
Ліцензія / розгортання
GPT-4o
Proprietary VLM
Найкраща якість на складних документах; розуміє контекст сторінки цілісно
Cloud API (OpenAI / Azure)
GPT-4o-mini
Proprietary VLM
Оптимальний баланс якість/вартість для Vision OCR fallback
Cloud API
Gemini 2.5 Pro / Flash
Proprietary VLM
Довгий контекст (1M токенів); сильний на таблицях і інфографіці
Побудований на Qwen2.5-VL-7B-Instruct; 82.4 ± 1.1 на olmOCR-Bench (жовтень 2025); high-throughput конвертація PDF у plain text зі збереженням reading order
DocLayNet для layout analysis + TableFormer (навчений на 1M+ таблицях) для структури таблиць; вивід у Markdown/JSON/HTML; 37 000+ GitHub stars; інтеграція з LangChain, LlamaIndex, Haystack
Markdown-таблиця зі збереженими колонками і об'єднаною клітинкою Q1–Q2
Запит «який прибуток за Q1–Q2 2024» у OCR-варіанті не матчиться: «Q1–Q2 2024» і «1 100 000» знаходяться в різних позиціях лінійного тексту без структурного зв'язку. У Vision-варіанті — таблиця збережена, retrieval знаходить правильний рядок.
Failure mode 2: багатоколонкова верстка
Двоколонковий документ (наприклад, медична картка або наукова стаття) читається OCR зліва направо по всій ширині сторінки. Результат: речення з лівої і правої колонки чергуються в одному потоці тексту. Sentence splitter ріже в неправильних місцях. Чанки містять змішаний контекст з двох несуміжних тем.
Vision-модель ідентифікує колонки як окремі текстові блоки і читає кожну незалежно. За порівняльним бенчмарком Procycons (2025), Docling з TableFormer коректно обробляє складні таблиці там, де Unstructured (OCR-based) дає column shifts і неповну ToC.
Failure mode 3: ієрархічні хедери і reading order
Технічна специфікація з розділами H1 → H2 → H3 → параграф після OCR перетворюється на суцільний текст без ієрархії. Semantic chunking не «знає» що цей параграф належить до розділу «4.2.1 Вимоги до безпеки» — бо структурна розмітка втрачена. Retrieval за запитом «вимоги до безпеки» може пропустити правильний чанк або повернути нерелевантний.
olmOCR і Docling зберігають reading order і ієрархію заголовків у виводі — це дозволяє chunk-стратегії орієнтуватись на структурні кордони документа, а не тільки на розмір тексту.
Де Vision-моделі виграють: складна верстка, схеми, рукописний текст
Сценарій
OCR результат
Vision результат
Різниця для RAG
Складні таблиці (фінансові, медичні, логістичні)
Лінійний текст без структури колонок
Markdown/HTML таблиця зі збереженими зв'язками
Retrieval знаходить правильний рядок, а не набір чисел
Технічні схеми і діаграми
Порожній результат або артефакти меж
Опис схеми або витяг числових даних з графіка
Контент, недоступний для OCR, потрапляє в індекс
Рукописний текст і заповнені форми
CER 3–5%; критичні поля спотворені
Краща точність на нестандартних почерках; все одно потребує верифікації
Зниження частки критичних помилок у числових полях
Перевернуті скани
Мусор або 0% читаності без OSD-корекції
Модель ідентифікує орієнтацію і читає коректно
Усуває найбільш катастрофічний failure mode OCR
Змішані документи (друк + рукопис + штамп)
Артефакти від штампів і рукопису змішуються з текстом
VLM розрізняє шари і читає кожен відповідно
Менше мусору в чанках; вищий Recall
Документи з формулами і кодом
LaTeX/код спотворюється або губиться
olmOCR і Docling зберігають LaTeX, code blocks, математичні вирази
Технічна документація індексується коректно
Кейс: медична документація зі змішаним контентом
У практиці AskYourDocs ми обробляли архів медичного центру: скановані картки пацієнтів, де кожна сторінка містила друкований шаблон, рукописні записи лікаря, штамп відділення і вставлені результати аналізів у вигляді зображень.
OCR-пайплайн давав задовільний результат лише на друкованій частині (~60% сторінки). Рукописні записи лікаря (критичні для клінічного контексту) розпізнавались з CER ~8–12% — гірше за середній показник через специфіку медичної термінології у рукописному вигляді. Вставлені результати аналізів як зображення — повністю недоступні.
Після переходу на GPT-4o-mini з деталізованим промптом для медичної документації: точність на рукописних полях зросла до прийнятного рівня, результати аналізів стали доступними для retrieval. Загальний Recall@5 на тестовому наборі клінічних питань зріс з 0.34 до 0.71.
Обмеження: вартість зросла у ~15×; обробка вимагала DPA з OpenAI і окремого юридичного погодження. Для невеликого архіву (3 000 карток) це було прийнятно. Для 50 000+ — потрібен self-hosted варіант.
Порівняння якості retrieval: TextRAG vs VisRAG
Обидва підходи принципово різняться не тільки на рівні парсингу, але й на рівні того, що саме векторизується і як відбувається retrieval.
TextRAG: текстові embeddings після OCR або Vision-парсингу
У TextRAG-пайплайні (незалежно від того, отримали ви текст через OCR або Vision-парсинг) — векторизується текст. Embedding-модель (text-embedding-3-small, BGE, E5) перетворює текстовий чанк на вектор. Retrieval — ANN-пошук у текстовому просторі.
Проблема: якщо layout-інформація (позиція елементів на сторінці, ієрархія, таблична структура) не збережена у тексті — вона втрачається для retrieval. OCR → text embeddings — два кроки з втратою інформації.
VisRAG: embeddings з зображень сторінок
VisRAG (arXiv 2410.10594, ICLR 2025) пропонує принципово інший підхід: embedding рахується не з тексту, а з самого зображення сторінки через Vision-Language Model (ColPali, ColQwen2 та аналоги). Retrieval — пошук у мультимодальному просторі: текстовий запит зіставляється з векторами зображень.
Перевага: layout, колір, позиція, шрифт, структура таблиці — все це закодовано у векторі зображення. Жодного кроку з втратою інформації між оригінальним документом і embeddings.
Результати ICLR 2025: VisRAG перевершує традиційний TextRAG як на етапі retrieval, так і на етапі генерації, досягаючи 20–40% end-to-end приросту на мультимодальних документах. VisRAG 2.0 (жовтень 2025) додатково показує 27% покращення на visual QA benchmarks через evidence-guided multi-image reasoning.
Порівняння підходів по ключових метриках
Критерій
OCR → TextRAG
Vision → TextRAG
VisRAG (visual embeddings)
Збереження layout у векторі
Ні — втрачається при OCR
Частково — залежить від якості Vision-парсингу
Так — layout закодований у зображенні
Retrieval на текстових документах
Добре (при чистому OCR)
Добре
Порівнянно або краще
Retrieval на документах з таблицями / схемами
Погано — структура втрачена
Краще — залежить від якості парсингу
Значно краще — 20–40% приріст (ICLR 2025)
Сумісність з існуючим RAG-стеком
Повна
Повна
Потребує спеціалізованих embedding моделей і multimodal vector DB
Складність впровадження
Низька
Середня
Висока — нова парадигма retrieval
Production-зрілість
Висока
Середня
Низька — активно розвивається; мало production-кейсів
Практичний висновок: VisRAG — перспективний напрям для мультимодальних документів, але у 2026 році він ще не є production-ready для більшості корпоративних сценаріїв. Vision → TextRAG (парсинг через VLM + текстові embeddings) — більш зрілий компроміс, що поєднує якість Vision-парсингу з передбачуваністю стандартного RAG-стеку.
Вартість: токени, латентність, інфраструктура
Для архітектора вартість — не тільки ціна API. Це сукупність compute, latency, operational complexity і scaling характеристик. Розберемо кожен вимір.
Різниця між self-hosted OCR і GPT-4o для 100 000 сторінок — від 60× до 600×. При щоденному потоці 10 000 нових документів за рік — це мільйони сторінок. На такому масштабі вартість Vision API стає основним архітектурним обмеженням.
Для систем реального часу — автоматична обробка вхідних накладних, індексація документів в момент надходження — Vision API практично непридатний без enterprise-рівня доступу.
Інфраструктурна складність
Аспект
OCR-first (self-hosted)
Vision API (cloud)
Self-hosted VLM (olmOCR / Qwen)
Вимоги до hardware
CPU достатньо
Жодних (cloud)
GPU обов'язковий (мін. 16GB VRAM для 7B)
GDPR compliance
Повна
Потребує DPA
Повна
Operational overhead
Низький
Мінімальний
Середній–Високий
Vendor lock-in
Ні
Так
Ні
Scaling
Горизонтальне, дешево
Автоматичне, дорого
Потребує GPU scaling
Гібридний підхід: коли і як поєднувати OCR + Vision
Для більшості реальних корпоративних архівів оптимальним є не вибір між OCR і Vision, а розумна маршрутизація між ними. Це знижує вартість у 5–10× порівняно з повним переходом на Vision, зберігаючи якість на проблемних документах.
Підозра на злиплі слова або перевернуту сторінку → Vision
langdetect confidence
< 0.70 або невідома мова
Vision fallback
Детектований тип документа: таблиці
Частка рядків з pipe/tab символами > 10%
Docling або Vision для збереження структури
DPI вхідного зображення
< 150 DPI
Vision (класичний OCR дасть поганий результат)
Self-hosted Vision як GDPR-сумісна альтернатива
Для організацій, де дані не можна відправляти у хмарні API, але якість класичного OCR недостатня — olmOCR-2 (82.4 на olmOCR-Bench) і Docling з TableFormer дають production-придатну якість при повному self-hosting. Qwen2.5-VL-7B — ще один варіант для середнього балансу якість/compute (потребує GPU ~16GB VRAM).
Granite-Docling-258M від IBM — компактна альтернатива для resource-constrained середовищ: 258M параметрів при точності on par з моделями у кілька разів більшими (Apache 2.0, self-hosted).
Рекомендації: матриця вибору по типу документів і бюджету
Сценарій
Рекомендований підхід
Інструменти
Обґрунтування
Великий архів (100 000+ сторінок), стандартні скани, GDPR
Self-hosted OCR як основа + Vision fallback для проблемних
PaddleOCR / Tesseract + olmOCR-2 або Docling
Вартість критична; GDPR не дозволяє хмарний API; self-hosted Vision для ~10–20% проблемних сторінок
Архів з переважно складними таблицями (фінанси, логістика)
Docling як основний парсер + OCR для простих сторінок
Docling (TableFormer) + Tesseract fallback для чистих сканів
TableFormer навчений на 1M+ таблицях; добре зберігає структуру; self-hosted; MIT license
Медична або юридична документація, GDPR строгий
Self-hosted VLM для складних + self-hosted OCR для простих
olmOCR-2 або Qwen2.5-VL-7B (self-hosted) + Tesseract
Жодних зовнішніх API; olmOCR-2 SOTA на olmOCR-Bench при повному self-hosting
Невеликий архів (< 5 000 сторінок), якість важливіша за вартість
GPT-4o-mini Vision парсинг для всього архіву
GPT-4o-mini + PyMuPDF для text-based PDF
При малому обсязі вартість ($50–100) прийнятна; якість максимальна без GPU
Документи зі схемами, кресленнями, інфографікою
Vision-first для всього архіву або VisRAG
GPT-4o / Gemini 2.5 Pro; для self-hosted — Qwen2.5-VL-72B
OCR не читає графічний контент; тільки VLM може описати і витягти дані зі схем
VisRAG (visual embeddings) як експеримент поруч з TextRAG
ColPali / ColQwen2 + мультимодальна Vector DB
20–40% приріст на мультимодальних документах (ICLR 2025); але низька production-зрілість у 2026
Короткий decision tree для архітектора
Питання
Так
Ні
Документи можна відправляти у хмарний API?
GPT-4o-mini або Azure Document Intelligence для складних
Self-hosted: olmOCR-2, Docling, Qwen2.5-VL
Архів > 50 000 сторінок?
Вартість Vision API критична → OCR-first з Vision fallback
Vision-first прийнятний за вартістю
Документи містять складні таблиці або схеми?
Docling / olmOCR / GPT-4o-mini для таких документів
Стандартний Tesseract/PaddleOCR з постпроцесингом
Є рукописний текст?
Vision OCR + верифікація критичних полів
OCR-first достатньо
Real-time обробка (<5 сек на документ)?
Self-hosted OCR або self-hosted VLM (GPU)
Cloud Vision API прийнятний
Висновки
Вибір між OCR і Vision у 2026 році — це не вибір між старим і новим. Це вибір trade-offs, які залежать від конкретного архіву, бюджету і compliance-вимог.
Ключові висновки
Теза
Деталь
OCR залишається оптимальним для масштабу і GDPR
Self-hosted OCR при 100 000+ сторінках коштує у 60–600× дешевше за Vision API. Єдиний варіант для строгих compliance-вимог.
Vision виграє на структурних і мультимодальних документах
Таблиці, схеми, рукопис, змішані документи — Vision дає кращий retrieval. VisRAG показує 20–40% приріст на мультимодальних документах (ICLR 2025).
Open-source Vision досяг production-рівня
olmOCR-2 (82.4 olmOCR-Bench), Qwen2.5-VL-72B (SOTA OmniDocBench), Docling (37 000+ GitHub stars, MIT) — self-hosted альтернативи proprietary API для більшості сценаріїв.
Гібрид — оптимум для більшості реальних архівів
OCR-first з Vision fallback для 10–20% проблемних сторінок знижує вартість у 5–10× при збереженні якості. Garbage detector + маршрутизація — обов'язковий компонент.
VisRAG перспективний, але не production-ready у 2026
Visual embeddings мають теоретичну перевагу, але потребують спеціалізованого стеку і мало реальних кейсів. Слідкуйте за ColPali / ColQwen2.
Наступне питання після вибору архітектури парсингу — як оптимально векторизувати отриманий текст. Розмірність embedding-вектора, вибір моделі і вплив на якість retrieval — тема наступної статті серії.