Як підготувати документи компанії для AI-асистента
Ви вирішили впровадити AI-асистента, але дивитеся на свої папки з файлами — і не розумієте, з чого починати. Три версії прайсу, інструкції в голові менеджера, а не в документах, сканований договір 2019 року і хаотичний Google Drive. Спойлер: підготовка даних — це 60% успіху вашого AI-проєкту. Але це не так складно, як здається. Цей чек-лист допоможе вам зробити все правильно — навіть без технічних знань.
⚡ Коротко для зайнятих
- 💰 Вартість підготовки: безкоштовно (якщо самостійно за нашим чек-листом) або $100–1000 (якщо доручити підряднику)
- ⏰ Терміни: від 2–3 днів (усе в порядку) до 3–4 тижнів (повний хаос у документах)
- ✅ Головний висновок: AI-асистент — лише настільки розумний, наскільки якісні ваші документи. «Сміття на вході — сміття на виході»
- ⚠️ На що звернути увагу: скановані PDF без розпізнавання тексту — головний «тихий вбивця» RAG-проєктів
- 👇 Нижче — покроковий чек-лист, порівняння форматів і типові помилки, яких варто уникнути
📚 Зміст
- 📌 Чому 70% AI-проєктів буксують через дані, а не через технології
- 📌 Які документи потрібні AI-асистенту — три категорії
- 📌 Порівняння форматів: що AI обробляє добре, а що — ні
- 📌 Скільки часу і грошей займає підготовка даних
- 📌 5 помилок при підготовці, які вбивають AI-проєкт
- 💼 Що має зробити підрядник на етапі аудиту даних
- 💼 Як ми готуємо дані в WebCraft
- ❓ Часті питання (FAQ)
- ✅ Висновки
- 🚀 Наступний крок
🎯 Чому 70% AI-проєктів буксують через дані, а не через технології
З нашого досвіду, більшість проєктів з впровадження AI-асистентів зупиняються або провалюються не через те, що технологія не працює, а через те, що дані компанії не готові. Хаос у папках, застарілі документи, знання «в голові менеджера» — усе це робить навіть найдорожчий AI-асистент безкорисним.
AI-асистент — лише настільки розумний, наскільки якісні документи, які ви йому дали. Це як найняти найкращого консультанта у світі — і вручити йому папку зі старими, суперечливими інструкціями.
У світі AI є принцип, який працює завжди: «garbage in — garbage out» — сміття на вході дає сміття на виході. Це стосується будь-якої RAG-системи. Якщо ви завантажите в базу знань застарілий прайс, три версії однієї інструкції та скановану копію договору, з якої AI не може прочитати текст — асистент буде відповідати неправильно, плутати дані або взагалі мовчати.
За оцінками експертів у галузі корпоративного AI, саме етап підготовки даних забирає найбільше ресурсів при впровадженні мовних моделей (FREEhost.UA — RAG та генерація з доповненням витягом). І це не технічна проблема — це організаційна. Документи розкидані по Google Drive, Notion, email-листуванню, WhatsApp-групах і головах окремих співробітників.
Чому це важливо для вашого бізнесу
Погана підготовка даних призводить до трьох конкретних проблем. Перша — AI-асистент дає неправильні відповіді, і клієнти втрачають довіру. Друга — ви витрачаєте час і гроші на доопрацювання, яке можна було уникнути. Третя — команда розчаровується в технології та повертається до ручної роботи. За нашим досвідом, кожна гривня, вкладена в підготовку даних, економить 3–5 гривень на етапі розробки та підтримки.
Приклад з нашої практики
До нас звернулася логістична компанія з Одеси. Вони хотіли AI-асистента для клієнтської підтримки: відповіді на питання про тарифи, терміни доставки, умови страхування вантажів. Ми почали аудит і виявили: тарифна сітка існувала у трьох версіях — одна в Excel на комп'ютері логіста, друга в PDF на сайті (застаріла на 8 місяців), третя — «в голові» комерційного директора. Умови страхування були лише у сканованому договорі з партнером — без розпізнавання тексту. Перш ніж писати хоча б рядок коду, ми провели 5 днів на структуризацію даних. Без цього AI-асистент називав би клієнтам ціни, які не існують.
Підсумок: технологія RAG працює відмінно — але лише з якісними, актуальними та структурованими даними. Підготовка даних — це не «домашнє завдання», а фундамент вашого AI-проєкту.
📌 Розділ 2. Які документи потрібні AI-асистенту — три категорії
Усі документи для AI-асистента діляться на три категорії: обов'язкові (без них асистент не працює), бажані (підвищують якість відповідей) та бонусні (роблять асистента по-справжньому розумним). Починайте з першої категорії — цього достатньо для запуску MVP.
Одна з найчастіших помилок — намагатися завантажити в AI «усе, що є». Десятки тисяч файлів, листування за 5 років, чернетки, дублікати. Це не працює. Чим більше «шуму» — тим гірше асистент знаходить правильну відповідь. Фахівці з побудови RAG-систем рекомендують починати з ключових джерел контенту і лише потім поступово розширювати базу (Kapa.ai — RAG Best Practices).
Категорія 1: Обов'язкові документи (без них не запускайтеся)
Це ядро бази знань — те, без чого AI-асистент просто не зможе відповідати на основні запити клієнтів або співробітників:
- ✔️ Прайс-лист / тарифна сітка — актуальна версія з конкретними цінами, пакетами, умовами
- ✔️ Опис послуг або продуктів — що ви робите, для кого, які результати. Не маркетинговий текст, а фактичний опис
- ✔️ FAQ / часті питання — якщо у вас є список типових запитів — це ідеальний матеріал для AI. Якщо немає — складіть його. Запитайте менеджерів: «Які 20 питань вам задають щодня?»
- ✔️ Умови роботи — доставка, оплата, повернення, гарантії. Усе, що клієнт має знати перед замовленням
- ✔️ Контактна інформація та графік роботи — здається очевидним, але якщо цього немає в базі, асистент не зможе відповісти на найпростіше питання
Категорія 2: Бажані документи (підвищують якість)
Ці документи роблять відповіді асистента глибшими, точнішими та кориснішими:
- ✔️ Внутрішні інструкції та регламенти — як обробляти замовлення, як працювати з рекламаціями, стандарти обслуговування
- ✔️ Технічна документація — специфікації продуктів, таблиці сумісності, інструкції з монтажу/використання
- ✔️ Шаблони документів — типові договори, акти, комерційні пропозиції (якщо асистент має допомагати з документами)
- ✔️ Навчальні матеріали — презентації для нових співробітників, онбординг-гайди, відеоскрипти
- ✔️ База знань підтримки — якщо у вас є Confluence, Notion або Google Docs з описами рішень типових проблем
Категорія 3: Бонусні джерела (роблять асистента розумнішим)
Ці дані не обов'язкові для старту, але значно покращують якість після запуску MVP:
- ✔️ Історія звернень клієнтів — тікети з підтримки, листування, чати. Показують реальні запити та формулювання клієнтів
- ✔️ Записи дзвінків та їх транскрипції — якщо є — це золото. AI бачить реальні діалоги і вчиться відповідати так, як відповідають ваші кращі менеджери
- ✔️ Відгуки та рецензії — що клієнти хвалять, на що скаржаться. Допомагає асистенту краще розуміти контекст
- ✔️ Статті з блогу та маркетингові матеріали — якщо вони фактичні, а не просто рекламні
Порада: почніть з 10–30 документів із Категорії 1. Цього достатньо для запуску MVP за 3–4 тижні. Потім поступово додавайте Категорію 2 та 3 за результатами тестування.
Підсумок: не намагайтеся завантажити все одразу. Краще 20 якісних, актуальних документів, ніж 2 000 застарілих файлів.
📊 Розділ 3. Порівняння форматів — що AI обробляє добре, а що ні
Найкраще AI працює з текстовими файлами: Word, Google Docs, Markdown, HTML. Добре — з цифровими PDF (створеними на комп'ютері). Погано — зі сканованими PDF без розпізнавання тексту. Таблиці в Excel потребують додаткової обробки.
Один із найбільших підводних каменів у RAG-проєктах — це формат документів. Якщо ви думаєте, що «PDF — це PDF», то ось неприємна правда: існує два принципово різних типи PDF, і один із них для AI — як порожня сторінка.
Цифровий PDF — це документ, створений на комп'ютері (наприклад, збережений із Word). Текст у ньому можна виділити, скопіювати, і AI його чудово розпізнає. Сканований PDF — це, по суті, фотографія паперового документа. Для людського ока він виглядає так само, але для AI — це просто зображення, з якого неможливо витягти текст без спеціальної обробки (OCR).
Як зазначають дослідники, парсери без OCR-можливостей повертають абсолютно порожній результат для сканованих документів — і, що критично, не повідомляють про це (The PDF Problem: Why AI Struggles to Read Business Documents). AI не скаже «я не можу це прочитати» — він просто проігнорує документ і відповідатиме без нього.
| Формат | Якість обробки AI | Що робити | Типові проблеми |
|---|---|---|---|
| Word (.docx) | ⭐⭐⭐⭐⭐ Відмінно | Завантажувати як є | Рідко — іноді складне форматування |
| Google Docs | ⭐⭐⭐⭐⭐ Відмінно | Експортувати в .docx або підключити через API | Потрібен доступ до документа |
| PDF (цифровий) | ⭐⭐⭐⭐ Добре | Завантажувати як є | Таблиці та багатоколонкова верстка можуть «поплисти» |
| PDF (сканований) | ⭐⭐ Погано без OCR | Пропустити через OCR (Google Document AI, Mistral OCR, Adobe Acrobat Pro) | Без OCR — AI бачить порожню сторінку. Після OCR — можливі помилки в тексті |
| Excel (.xlsx) | ⭐⭐⭐ Середньо | Конвертувати в структурований текст або JSON | AI погано «розуміє» складні таблиці зі зведеними формулами |
| PowerPoint (.pptx) | ⭐⭐⭐ Середньо | Витягти текст, ігнорувати графіку | Багато візуалу, мало тексту — AI не бачить картинки |
| HTML / сторінки сайту | ⭐⭐⭐⭐⭐ Відмінно | Парсити автоматично | Потрібно відсіяти навігацію, футери, рекламу |
| Notion / Confluence | ⭐⭐⭐⭐ Добре | Підключити через API або експортувати | Вкладені сторінки потребують рекурсивного обходу |
| Email-листування | ⭐⭐ Погано без обробки | Витягти ключові тези, ігнорувати підписи та ланцюжки | Багато «шуму»: підписи, привітання, цитування |
| Аудіо / відео | ⭐⭐ Потребує транскрипції | Транскрибувати (Whisper, Google Speech-to-Text) | Транскрипція не ідеальна — потрібна перевірка |
Як перевірити, який PDF у вас — цифровий чи сканований?
Відкрийте файл і спробуйте виділити текст курсором. Якщо текст виділяється — це цифровий PDF, AI його обробить. Якщо виділяється лише область (як на картинці) або не виділяється нічого — це скан. Його потрібно пропустити через OCR перед завантаженням у RAG-систему.
Підсумок: перед тим, як віддати документи підряднику, перевірте: чи є серед них скановані PDF? Чи актуальні ваші прайси? Чи читається текст у таблицях? 30 хвилин перевірки зараз збережуть дні роботи потім.
💰 Розділ 4. Скільки часу і грошей займає підготовка даних
Від 2–3 днів (якщо у вас порядок) до 3–4 тижнів (якщо хаос). Вартість: безкоштовно (якщо робите самі за чек-листом) або $200–2 000 (якщо підрядник бере підготовку на себе). У великих проєктах з тисячами документів — до $1 000–5 000.
Терміни і вартість залежать від одного простого фактора: наскільки у вас вже організовані документи. Ось три типових сценарії, які ми бачимо в 90% проєктів:
Сценарій 1: «У нас порядок» (2–3 дні, мінімальні витрати)
Документи зібрані в одному місці (Google Drive, Notion, SharePoint). Прайс актуальний. FAQ існує. Інструкції написані, а не «в голові у Олени». Файли в цифрових форматах (Word, Google Docs, цифровий PDF). У цьому випадку підготовка — це перевірка актуальності, видалення дублікатів і формування фінального списку. Ви можете зробити це самостійно за нашим чек-листом за 2–3 дні.
Сценарій 2: «Середній хаос» (1–2 тижні, $200 – 500)
Документи є, але розкидані по різних системах. Частина — в email, частина — у Telegram-групах, частина — на локальних комп'ютерах. Деякі файли застарілі, є дублікати. Є скановані PDF, які потрібно пропустити через OCR. У цьому сценарії вам знадобиться допомога: або виділити 1–2 людини з команди на тиждень, або доручити підряднику.
Сценарій 3: «Повний хаос» (3–4 тижні, $1 00–3 000)
Документації майже немає. Знання «живуть» у головах конкретних людей. Прайс давно не оновлювався. Інструкцій немає — є лише «Запитай у Сергія, він знає». У цьому випадку перший крок — не впровадження AI, а створення бази знань з нуля: інтерв'ю з ключовими співробітниками, фіксація процесів, написання документів. Це інвестиція, яка окупається навіть без AI — просто тому, що ви нарешті матимете задокументовані процеси.
Ціни в Україні vs Європа vs США
Аудит і підготовка даних в Україні — $200–1 000 для середнього проєкту. У Західній Європі аналогічна робота коштує €1 000–2 000, у США — $3 000–5 000. При цьому результат однаковий: структурована, очищена, готова до завантаження в RAG база знань. Для іноземних клієнтів це ще один аргумент на користь роботи з українськими командами.
Підсумок: підготовка даних — це 20–30% бюджету AI-проєкту. Це нормально. Це не «зайві витрати» — це фундамент, без якого все інше не працює.
⚠️ Розділ 5. 5 помилок при підготовці даних, які вбивають AI-проєкт
П'ять найчастіших помилок: застарілі документи, скановані PDF без OCR, дублікати, конфіденційні дані без фільтрації та відсутність структури. Кожна з них — це конкретні фінансові втрати або ризики для бізнесу.
Помилка 1: Застарілі документи в базі знань
Ви завантажили прайс 2024 року — і AI-асистент називає клієнтам старі ціни. Або в базі є стара версія інструкції, яка суперечить новій. AI не знає, яка версія актуальна — і може вибрати будь-яку. Рішення: перед завантаженням перевірте кожен документ на актуальність. Позначте дату останнього оновлення. Видаліть старі версії.
Помилка 2: Скановані PDF без розпізнавання тексту (OCR)
Це «тихий вбивця» RAG-проєктів. Документ виглядає нормально, коли ви його відкриваєте. Але для AI це просто зображення — він не може прочитати жодного слова. І він не скаже «я не бачу цей документ» — просто відповідатиме без нього. Ви можете місяцями не знати, що частина вашої бази знань «невидима» для асистента. Рішення: перевірте всі PDF (виділіть текст курсором). Скановані — пропустіть через OCR.
Помилка 3: Дублікати і суперечливі документи
Три версії одного й того самого FAQ. Два прайси — один для сайту, інший для менеджерів. Інструкція, яку оновили, але стару не видалили. AI знайде обидва документи і не зможе визначити, який правильний — результат буде випадковим. Рішення: один документ — одна версія. Перед завантаженням проведіть «дедублікацію».
Помилка 4: Конфіденційні дані без фільтрації
Ви завантажили в базу знань документи з персональними даними клієнтів, внутрішні фінансові звіти або конфіденційні умови з партнерами — і AI-асистент видає їх у відповідях зовнішнім клієнтам. Це не лише втрата довіри — це юридичний ризик. Рішення: розділіть документи на «публічні» та «внутрішні». Фахівці з RAG рекомендують підтримувати окремі бази даних для публічних і чутливих корпоративних документів (Kapa.ai — RAG Best Practices).
Помилка 5: Відсутність структури в документах
Документ без заголовків, підзаголовків і логічного розбиття — це суцільний потік тексту, у якому AI важко знайти конкретний фрагмент. Уявіть книгу без змісту та розділів — ви б теж не знайшли потрібну інформацію. Фахівці з побудови баз знань для RAG рекомендують розбивати документи за смисловими блоками, а не за кількістю символів, і зберігати єдиний формат для заголовків, списків та відступів (Astera — Building a Knowledge Base for RAG). Рішення: додайте заголовки до кожного розділу. Розбийте великі документи на логічні блоки. Використовуйте єдиний формат.
Підсумок: кожна з цих п'яти помилок — це не просто «неідеальність». Це конкретні ризики: неправильні ціни, витік даних, втрата клієнтів. 2–3 дні на перевірку — і ви їх усіх уникнете.
💼 Розділ 6. Що має зробити підрядник на етапі аудиту даних
Хороший підрядник не просто каже «скиньте всі файли у папку». Він проводить аудит: перевіряє формати, актуальність, наявність дублікатів, фільтрує конфіденційне — і дає вам звіт з рекомендаціями до початку розробки.
Етап аудиту даних — це «лакмусовий папірець» професіоналізму підрядника. Якщо виконавець каже «просто скиньте все в Google Drive, ми розберемось» — це червоний прапорець. Ось чек-лист того, що має зробити нормальний підрядник до початку розробки:
1. Провести інвентаризацію документів. Скласти повний список: що є, в якому форматі, де зберігається, коли востаннє оновлювалося. Це звучить нудно, але саме тут виявляються 90% проблем.
2. Перевірити формати і читабельність. Чи всі PDF цифрові? Чи є скановані? Чи читаються таблиці в Excel? Чи не «зламане» форматування у Word? Підрядник має перевірити це і дати звіт: «ці 15 файлів готові, ці 8 потребують конвертації, ці 3 — не читабельні».
3. Визначити пріоритетні документи для MVP. Не все потрібно завантажувати одразу. Підрядник має допомогти обрати 10–30 ключових документів для першого запуску, а решту — запланувати на наступні ітерації.
4. Перевірити актуальність і видалити дублікати. Якщо є три версії прайсу — підрядник має запитати: «Яка актуальна?». Якщо інструкція суперечить FAQ — допомогти узгодити.
5. Відфільтрувати конфіденційну інформацію. Якщо асистент буде публічним (для клієнтів) — у базі знань не повинно бути внутрішніх фінансових звітів, персональних даних або конфіденційних умов з партнерами. Підрядник має допомогти з цим розділенням.
6. Дати вам звіт і план підготовки. Результат аудиту — це конкретний документ: що готово, що потрібно доопрацювати, скільки це займе часу, хто відповідає за кожен пункт.
Підсумок: якщо підрядник починає розробку без аудиту даних — це як будівельник, який кладе стіни без фундаменту. Результат буде відповідний.
🏆 Розділ 7. Як ми готуємо дані в WebCraft
Ми починаємо кожен AI-проєкт із безкоштовного аудиту даних. Аналізуємо ваші документи, визначаємо проблеми, складаємо план підготовки — і лише після цього називаємо терміни та вартість розробки.
Наш підхід побудований на простому принципі: краще витратити 3–5 днів на аудит, ніж потім 3–5 тижнів на переробку асистента, який відповідає неправильно через погані дані.
Що входить у наш аудит (безкоштовно)
- ✔️ Інвентаризація: збираємо список усіх документів, які у вас є — і тих, яких немає, але потрібні
- ✔️ Перевірка форматів: знаходимо скановані PDF, «зламані» таблиці, нечитабельні файли
- ✔️ Оцінка актуальності: позначаємо застарілі документи, дублікати, суперечності
- ✔️ Фільтрація конфіденційного: допомагаємо розділити документи на «для клієнтів» і «тільки для внутрішнього використання»
- ✔️ План підготовки: конкретний документ — що зробити, хто робить, скільки часу
Кейс
Дистриб'юторська компанія побутової техніки — 400+ документів: каталоги виробників, прайси, гарантійні умови, інструкції з експлуатації. На першому аудиті ми виявили: 40% документів були застарілими (каталоги 2022–2023 року для моделей, яких вже немає у продажу), 15% — скановані PDF без OCR (гарантійні талони партнерів), 10% — дублікати. Ми відсіяли неактуальне, пропустили скани через OCR, структурували решту за категоріями (побутова техніка → бренд → тип → модель). Після очищення залишилося 120 документів — і на цій базі AI-асистент відповідає точно на 92% запитів клієнтів. Весь процес підготовки зайняв 8 робочих днів.
Підсумок: ми не починаємо розробку, поки дані не готові. Це наша принципова позиція — тому що ми відповідаємо за якість результату.
❓ Часті питання
А якщо у мене все «в голові», а не в документах?
Це найпоширеніша ситуація у малому бізнесі. Рішення — почати з інтерв'ю з ключовими співробітниками. Ми задаємо 20–30 питань, записуємо відповіді, структуруємо їх у документи — і вже ці документи стають базою знань для AI. Бонус: після цього процесу у вас з'являється задокументована база знань, яка корисна навіть без AI — для навчання нових співробітників, наприклад.
Чи можна використовувати сканований прайс?
Так, але його потрібно спочатку пропустити через OCR — програму, яка розпізнає текст на зображенні. Після OCR якість тексту буде не ідеальною (можуть бути помилки в цифрах, символах), тому потрібна ручна перевірка. Найкращий варіант — знайти оригінальний цифровий файл або створити новий прайс у Word/Google Docs.
Скільки документів мінімум потрібно для запуску?
Для MVP достатньо 10–30 ключових документів: актуальний прайс, опис послуг, FAQ, умови роботи. Це покриє 70–80% типових запитів клієнтів. Після запуску ви побачите, на які питання асистент не може відповісти — і додасте потрібні документи точково.
Хто відповідає за підготовку — ми чи підрядник?
Зазвичай — спільно. Підрядник проводить аудит, дає чек-лист і рекомендації. Ви — надаєте доступ до документів, підтверджуєте актуальність, відповідаєте на питання про бізнес-процеси. Деякі підрядники (включаючи WebCraft) можуть взяти підготовку повністю на себе — за додаткову оплату.
А якщо частина даних конфіденційна?
Є два підходи. Перший — розділити базу знань на «публічну» (для клієнтського AI-асистента) і «внутрішню» (для співробітників). Другий — використовувати приватний деплой, де дані зберігаються на вашому сервері і не передаються третім сторонам. Детальніше про безпеку — у нашій статті про безпеку даних при впровадженні AI.
Чи потрібно щось переписувати?
Не обов'язково. Якщо документ зрозумілий людині — він зрозумілий і AI. Головне — актуальність, відсутність дублікатів і читабельний формат. Переписувати потрібно лише якщо документ суперечить іншим або містить критично застарілу інформацію.
Як часто потрібно оновлювати базу знань?
Залежить від бізнесу. Якщо прайси змінюються щомісяця — база знань має оновлюватися щомісяця. Якщо документація стабільна — раз на квартал достатньо. Хороша RAG-система дозволяє оновлювати окремі документи, не перебудовуючи все з нуля: завантажили новий прайс — асистент одразу його знає.
✅ Висновки
- 💰 Вартість: підготовка даних — від безкоштовно (самостійно за чек-листом) до $200–1 000 (підрядник під ключ). Це 20–30% бюджету AI-проєкту
- 🎯 Головна рекомендація: починайте з 10–30 ключових документів Категорії 1. Не намагайтеся завантажити все одразу
- ⚠️ Головне застереження: скановані PDF, дублікати та застарілі документи — три «тихих вбивці» AI-проєктів. Перевірте їх до початку розробки
Головна думка: AI-асистент — лише настільки хороший, наскільки хороші ваші дані. Інвестуйте в підготовку документів — і технологія працюватиме на вас, а не проти вас.
🚀 Не знаєте, з чого почати? Ми допоможемо
Залиште заявку на безкоштовний аудит ваших даних — ми проаналізуємо ваші документи, покажемо, що готово, а що потрібно доопрацювати, і складемо план підготовки до впровадження AI-асистента.
Замовити безкоштовний аудит → WebCraft
Або напишіть нам у Telegram — відповімо протягом 3 годин.
📖 Читайте також
¿Desea contratar este servicio?
Nuestro equipo está listo para dar vida a su proyecto. Contáctenos para una consulta.
Contratar servicio