TUTORIALS 27 лютого 2026 16 хв читання 744 перегляд

PerplexityBot: що це, як себе ідентифікує та що індексує

Оновлено: 24 June 2026

Мова: 🇺🇦

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

✦ Запитати AI про цю статтю

PerplexityBot: що це, як себе ідентифікує та що індексує

Якщо ви помітили в логах сервера незнайомий user-agent із рядком PerplexityBot — це не аномалія і не загроза. Це краулер однієї з найбільш швидкозростаючих AI-платформ у світі, яка за один рік збільшила активність своїх ботів на 157 490%, за даними Cloudflare. Ігнорувати цей трафік — означає добровільно відмовлятися від нової аудиторії, яка вже зараз шукає відповіді через Perplexity.

У цій статті ми розберемо технічну сторону питання: як саме PerplexityBot ідентифікує себе, в яких режимах працює, які IP-адреси використовує та яку офіційну позицію займає Perplexity щодо використання зібраних даних.

Що таке PerplexityBot і навіщо він сканує ваш сайт

Perplexity — це так званий answer engine: на відміну від традиційного пошуковика, він не повертає список посилань, а генерує пряму структуровану відповідь із зазначенням джерел. Користувач бачить не десять синіх посилань, а готову відповідь із цитатами — і лише потім, за бажанням, переходить на першоджерела. Саме тому Perplexity називають "пошуком наступного покоління": він змінює не тільки формат результатів, але й поведінку користувача.

Щоб відповіді були актуальними та підкріпленими реальними матеріалами, система постійно збирає й оновлює контент з усього інтернету. Саме для цього існує PerplexityBot — веб-краулер, відповідальний за обхід сторінок, їх індексацію та підготовку до подальшої обробки через RAG-архітектуру (Retrieval-Augmented Generation).

Спрощена схема того, як це працює:

Ваш сайт
↓ HTTP запит (статичний HTML)
PerplexityBot
↓ векторизація тексту
Векторна база даних (індекс)
↓ semantic search при запиті користувача
RAG-система
↓ генерація відповідіКористувач отримує відповідь + посилання на ваш сайт

Тобто PerplexityBot — це не просто технічний бот, а перша ланка в ланцюжку, який може привести реального читача на ваш сайт. Якщо бот не зміг прочитати вашу сторінку — вона не потрапить у базу. Якщо не потрапила в базу — вона ніколи не буде процитована у відповіді.

Тепер до цифр. Perplexity зріс з 230 мільйонів до 780 мільйонів запитів на місяць за один рік — за публічними заявами CEO Арвінда Срінівасаса у виданнях Wall Street Journal та Bloomberg. Окремо — дані Cloudflare, які зафіксували зростання активності PerplexityBot на 157 490% за рік у своєму щорічному звіті Cloudflare Radar 2024.

Це не ніша для ранніх послідовників — це вже повноцінний канал трафіку, який більшість власників сайтів ще не відстежують і не оптимізують. І PerplexityBot — це вхідна точка в цей канал.

Офіційна документація Perplexity про роботу бота: docs.perplexity.ai/docs/perplexitybot

User-agent PerplexityBot: як ідентифікувати бот у логах

Перша практична річ, яку має знати будь-який технічний SEO-спеціаліст або власник сайту — точний рядок user-agent. Без нього неможливо ні правильно налаштувати robots.txt, ні написати правило для WAF, ні відфільтрувати бот у системі аналітики. PerplexityBot ідентифікує себе таким рядком:

Mozilla/5.0 AppleWebKit/537.36 (compatible; PerplexityBot/1.0; +https://docs.perplexity.ai/docs/perplexitybot)

Розберемо кожну частину рядка окремо, бо кожна несе практичне значення:

Mozilla/5.0 AppleWebKit/537.36 — стандартний браузерний префікс. Багато веб-серверів і CDN за замовчуванням блокують запити від нестандартних агентів або повертають інший контент. Цей префікс дозволяє PerplexityBot отримувати "повноцінну" версію сторінки, яку бачив би звичайний браузер. Це поширена практика: Googlebot також використовує схожий підхід.

PerplexityBot/1.0 — основний ідентифікатор. Саме за цим рядком ви налаштовуєте будь-які правила: у robots.txt це User-agent: PerplexityBot, у правилах nginx або Apache — умова if ($http_user_agent ~* "PerplexityBot"), у AWS WAF — рядковий патерн для фільтрації.

+https://docs.perplexity.ai/docs/perplexitybot — посилання на офіційну документацію. Це стандарт відповідальних краулерів: якщо адміністратор сервера бачить незнайомий бот, він може одразу перейти за посиланням і дізнатися, хто це і що робить.

Як знайти PerplexityBot у серверних логах

Щоб перевірити чи відвідував PerplexityBot ваш сайт — виконайте пошук по логах. Для Nginx:

grep -iE "PerplexityBot|Perplexity-User" /var/log/nginx/access.log | wc -l

Для Apache замініть шлях на /var/log/apache2/access.log. Щоб побачити топ-20 сторінок, які бот відвідував найчастіше:

grep -i "PerplexityBot" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20

Якщо бот регулярно повертається до певних сторінок — система вважає їх актуальними та потенційно цінними для відповідей.

Відмінність у логах: PerplexityBot vs Perplexity-User

У логах ви можете зустріти два різні рядки. Поруч із PerplexityBot/1.0 може з'являтися:

Mozilla/5.0 AppleWebKit/537.36 (compatible; Perplexity-User/1.0; +https://docs.perplexity.ai/docs/perplexitybot)

Це тригерний режим — бот, що запускається в реальному часі у відповідь на конкретний запит користувача. Якщо ви бачите Perplexity-User у логах — хтось прямо зараз поставив Perplexity запитання, яке стосується вашого сайту. Це реальний сигнал попиту. Детальніше про два режими роботи — у наступному розділі.

Джерело: Офіційна документація PerplexityBot — тут також міститься актуальний список IP-адрес і рекомендації щодо robots.txt.

Два режими роботи PerplexityBot: проактивний і тригерний

Це один із найважливіших технічних нюансів, який часто залишається поза увагою. PerplexityBot існує в двох принципово різних режимах — і розуміння різниці між ними має пряме практичне значення: для налаштування robots.txt, для інтерпретації логів і для розуміння того, як саме Perplexity знаходить і використовує ваш контент.

Офіційно обидва режими описані в документації Perplexity: docs.perplexity.ai/docs/perplexitybot.

Режим 1: Проактивний краулінг (PerplexityBot)

Перший режим — це традиційний асинхронний веб-краулінг, аналогічний Googlebot або Bingbot. Бот самостійно обходить сторінки за власним внутрішнім розкладом, не чекаючи на жодні запити користувачів. Мета — сформувати та постійно оновлювати індекс контенту, щоб він був доступний у базі знань системи до моменту, коли хтось поставить відповідне запитання.

Саме цей режим відповідає за більшість слідів у ваших серверних логах. Якщо ви регулярно публікуєте новий контент і бачите PerplexityBot у логах — це ознака того, що система вважає ваш сайт достатньо авторитетним, щоб перевіряти його регулярно.

Ключові характеристики проактивного режиму:

Регулярні візити незалежно від активності користувачів — бот приходить за власним розкладом, а не у відповідь на конкретний пошуковий запит.

Дотримується директив robots.txt — це офіційно підтверджено Perplexity. Якщо ви заблокували User-agent: PerplexityBot у robots.txt, проактивний режим зупиниться.

Використовує фіксований пул IP-адрес — ці IP опубліковані Perplexity у файлі perplexitybot.json і є верифікованими.

Не виконує JavaScript — читає виключно статичний HTML, отриманий при першому запиті.

Crawl rate обмежений — якщо сервер повертає статус 429 (Too Many Requests), бот автоматично знизить частоту запитів.

Режим 2: Тригерний краулінг (Perplexity-User)

Другий режим активується в реальному часі, коли конкретний користувач Perplexity ставить запитання і система вирішує, що для якісної відповіді потрібно отримати свіжі дані безпосередньо з певного сайту. У цьому випадку бот використовує інший user-agent — Perplexity-User/1.0 замість PerplexityBot/1.0. Це не технічна деталь — це сигнал про зовсім іншу логіку роботи.

Ключові характеристики тригерного режиму:

Запускається синхронно — у момент запиту користувача, а не у фоні. Час відповіді вашого сервера безпосередньо впливає на якість відповіді Perplexity.

Мета — свіжість, а не індексація — система хоче отримати актуальну версію сторінки "прямо зараз", оминаючи кешовані дані.

IP-адреси можуть відрізнятися від проактивного бота — тригерний краулінг може здійснюватися з інших вузлів інфраструктури Perplexity.

Поведінка з robots.txt — дискусійне питання. У 2024 році низка видавців зафіксувала, що Perplexity-User продовжував відвідувати сторінки, заблоковані для PerplexityBot. Perplexity офіційно не підтвердив і не спростував цю поведінку. .

Порівняльна таблиця: PerplexityBot vs Perplexity-User

Параметр	PerplexityBot (проактивний)	Perplexity-User (тригерний)
Коли запускається	За внутрішнім розкладом	У момент запиту користувача
Мета	Формування індексу	Отримання свіжих даних
User-agent	`PerplexityBot/1.0`	`Perplexity-User/1.0`
Дотримання robots.txt	Так (офіційно підтверджено)	Невизначено (спірне питання)
IP-адреси	З офіційного списку perplexitybot.json	Можуть відрізнятися
Що означає у логах	Планова індексація сайту	Активний запит користувача прямо зараз

Практичний висновок: якщо ви бачите Perplexity-User у логах — це не технічний шум, це сигнал попиту. Хтось реально шукає інформацію через Perplexity, і система вирішила, що ваш сайт може дати відповідь. Відстежуйте ці запити — вони показують, під які теми ваш контент уже починає ранжуватися.

IP-адреси PerplexityBot: де знайти актуальний список і як його використовувати

Perplexity публікує офіційний список IP-діапазонів, з яких працює PerplexityBot. Це стандартна практика відповідальних краулерів — Google, Bing та інші також публікують свої IP-листи для верифікації.

Актуальний список доступний за офіційною адресою perplexity.ai/perplexitybot.json — JSON-файл із переліком CIDR-блоків. IP-блоки належать переважно до інфраструктури Amazon Web Services (AWS). Це важливо розуміти при налаштуванні firewall: широкі блокування AWS-діапазонів можуть ненавмисно заблокувати PerplexityBot.

Щоб переглянути поточний список у зручному форматі:

curl -s https://www.perplexity.ai/perplexitybot.json | python3 -m json.tool

Важливе застереження: IP-верифікація не є надійною сама по собі

Верифікація PerplexityBot виключно за IP має два слабких місця: IP-діапазони можуть змінюватися, а будь-який скрипт може підставити рядок PerplexityBot у user-agent. Найнадійніший метод — зворотний DNS-запит, який рекомендує також Google для верифікації Googlebot:

# Крок 1: зворотний DNS (IP → hostname) host 18.188.x.x # Очікуваний результат: hostname у домені .perplexity.ai # Крок 2: прямий DNS (hostname → IP) host crawl-18-x-x-x.perplexity.ai

# Має повернути той самий IP — інакше верифікація не пройдена

Для більшості практичних задач (моніторинг, базова фільтрація) IP-список із perplexitybot.json цілком достатній. Для задач безпеки або диференційованого доступу — використовуйте повний ланцюжок верифікації.

Що саме індексує PerplexityBot: пріоритети та обмеження

PerplexityBot — не загальний архіватор інтернету на кшталт Common Crawl або Wayback Machine. Його завдання вузьке та конкретне: зібрати контент, який буде корисний для генерації точних відповідей на запитання користувачів. Це формує специфічну логіку пріоритизації — і розуміння цієї логіки безпосередньо впливає на те, як варто готувати контент для потрапляння у видачу Perplexity.

Що PerplexityBot індексує активно

Текстовий контент у статичному HTML. Це найважливіший технічний пріоритет. PerplexityBot, як і переважна більшість AI-краулерів, не виконує JavaScript. Бот отримує HTML-відповідь від сервера і читає лише те, що в ній є — без запуску жодних скриптів, без очікування на динамічне завантаження контенту.

Практичний наслідок: якщо ваш сайт побудований на React, Vue, Angular або будь-якому іншому JS-фреймворку без серверного рендерингу (SSR) або статичної генерації (SSG) — PerplexityBot бачить порожню або майже порожню сторінку. Це підтверджується незалежним дослідженням Benson SEO, яке показало, що AI-краулери читають виключно статичний HTML і ігнорують JS-залежний контент.

Структуровані фактичні матеріали. RAG-система Perplexity витягує з проіндексованих сторінок конкретні фрагменти — пасажі, абзаци, блоки — а не сторінки цілком. Ефективніше витягуються ті фрагменти, які є самодостатніми: містять конкретний факт, число, дату, визначення або чітку відповідь на запитання. Матеріали з розмитими формулюваннями типу "це залежить від багатьох факторів" потрапляють у видачу значно рідше.

Типи контенту, які індексуються найкраще: аналітичні статті з конкретними даними, інструкції та how-to матеріали, довідкові матеріали та глосарії, звіти з числовими показниками, відповіді у форматі Q&A.

Свіжі публікації. Свіжість — один із задокументованих факторів ранжування в Perplexity. Бот активніше обходить нещодавно опубліковані або оновлені сторінки. Perplexity регулярно посилається на матеріали, опубліковані в межах останніх кількох днів або тижнів, навіть якщо сайт-джерело відносно молодий. Детально про "вікно свіжості" та стратегію перших 48 годин після публікації .

Авторитетні домени. Домени з сильним профілем зворотних посилань, присутністю у Wikidata, Crunchbase або Publishers Program Perplexity отримують більший crawl budget і частіші повторні візити. За даними аналізу Ahrefs, топові домени у видачі Perplexity — YouTube, Wikipedia, Apple, Google — мають один із найвищих рейтингів авторитетності в мережі. Але нішеві авторитети також добре представлені: Perplexity частіше, ніж Google, цитує глибокі галузеві матеріали з менш відомих, але профільних джерел.

Структурована розмітка schema.org. Наявність коректної розмітки schema.org допомагає RAG-системі краще інтерпретувати тип контенту та його структуру. Особливо корисні типи: Article, FAQPage, HowTo, Dataset. Детально про structured data для Perplexity — у статті Як керувати PerplexityBot: robots.txt, WAF та швидкість індексації.

Що PerplexityBot індексує погано або не індексує

JavaScript-рендерений контент без SSR/SSG. Перевірити, що саме бачить краулер на вашій сторінці, можна інструментом Google Mobile-Friendly Test або через curl із підставленим UA PerplexityBot — якщо у відповіді мінімум тексту, бот бачить те саме.

Контент за авторизацією. Будь-яка сторінка, що потребує входу в обліковий запис — платний контент, особисті кабінети, закриті розділи — недоступна для будь-якого краулера.

PDF та нетекстові документи. Perplexity технічно може обробляти PDF, але значно менш ефективно, ніж HTML. Якщо у вас є важливі матеріали у форматі PDF (дослідження, звіти, white papers) — варто дублювати їх ключовий зміст у HTML-версії на сайті.

Сторінки, заблоковані в robots.txt. PerplexityBot у проактивному режимі дотримується директив robots.txt. Стандартний блок для повного блокування:

User-agent: PerplexityBotDisallow: /

Важливе застереження: блокування проактивного бота не гарантує блокування тригерного режиму (Perplexity-User). Якщо вам потрібне повне блокування — використовуйте комбінацію robots.txt і WAF. Детально у статті Як керувати PerplexityBot.

Повільні сторінки з високим TTFB. Time to First Byte (TTFB) — час від запиту до першого байта відповіді — прямо впливає на ефективність краулінгу. Сторінки з TTFB понад 2–3 секунди можуть пропускатися або індексуватися рідше. Орієнтир — TTFB нижче 800 мс відповідно до рекомендацій Google Web Vitals.

Дубльований і низькоякісний контент. RAG-система Perplexity орієнтована на унікальну інформаційну цінність. Сторінки, що є копіями або рерайтами інших матеріалів без додаткової цінності, індексуються, але рідко потрапляють у фінальну видачу — система обирає першоджерело або найбільш авторитетну версію.

Чи використовується ваш контент для навчання моделей Perplexity

Це питання, яке турбує багатьох видавців і власників сайтів — особливо після резонансних дискусій навколо OpenAI, Anthropic та інших AI-компаній щодо використання веб-контенту для тренування моделей. Офіційна позиція Perplexity однозначна: PerplexityBot не використовується для навчання AI-моделей.

Це прямо зазначено в офіційній документації PerplexityBot: зібраний контент призначений виключно для формування пошукового індексу, який використовується в реальному часі для відповідей на запити через RAG-механізм.

Індексація для відповідей (те, чим займається PerplexityBot). Контент сканується, перетворюється на векторні представлення та зберігається у векторній базі даних. Коли користувач ставить запитання, система знаходить найрелевантніші фрагменти з індексу та передає їх у контекст мовної моделі для генерації відповіді. Ваш контент використовується як джерело інформації в реальному часі — аналогічно до того, як пошуковик показує результати зі своїх проіндексованих сторінок.

Навчання моделей (окремий процес). Тренування великих мовних моделей (LLM) — це одноразовий або рідкісний процес, що потребує масивних датасетів і значних обчислювальних ресурсів. Perplexity офіційно стверджує, що PerplexityBot до цього процесу не залучений. Для порівняння: GPTBot від OpenAI також розмежовує краулінг для відповідей та збір даних для тренування, а Common Crawl — це вже принципово інша система, створена саме для тренування моделей.

Контекст: суперечки навколо Perplexity та авторських прав

Варто бути чесними: у 2024 році Perplexity опинився в центрі кількох публічних суперечок щодо використання контенту. Видання Forbes та Wired публікували матеріали про те, що Perplexity відтворює значні фрагменти статей у своїх відповідях без достатнього атрибутування. News Corp та інші медіакомпанії висловлювали претензії.

Ці питання стосуються не навчання моделей, а обсягу цитування та компенсації видавцям. Perplexity у відповідь запустив Publishers Program — партнерську програму для медіа з розподілом доходів від реклами.

Якщо ви хочете повністю заблокувати Perplexity — і краулінг, і цитування — це технічно можливо. Але наслідок однозначний: ваш сайт повністю зникає з видачі Perplexity.

Масштаб зростання PerplexityBot: чому це важливо зараз

157 490% — це не помилка друку. Саме такий відсоток зростання активності PerplexityBot зафіксував Cloudflare у своєму щорічному звіті Cloudflare Radar 2024. Для порівняння: GPTBot (OpenAI) за той самий період виріс на 305%, а ClaudeBot (Anthropic) скоротився на 46%. PerplexityBot — абсолютний лідер серед AI-краулерів за темпами зростання.

Perplexity як платформа: від стартапу до масового продукту

У 2023 році Perplexity обробляв близько 230 мільйонів запитів на місяць. До кінця 2024 року цей показник досяг 780 мільйонів запитів на місяць — зростання більше ніж утричі за рік. Для контексту: 780 мільйонів запитів на місяць — це приблизно 26 мільйонів запитів на день. Це не нішева аудиторія технічних ентузіастів, а масовий продукт із реальними користувачами — і частина їхніх запитань стосується вашої теми.

Оцінка компанії на момент останнього раунду фінансування склала 9 мільярдів доларів (Bloomberg, листопад 2024). Серед інвесторів — Jeff Bezos, NVIDIA, SoftBank. Це не ознаки компанії, що збирається зникнути.

Ключова відмінність: Perplexity реально відправляє трафік

Зростання краулінгу нічого не варте, якщо не конвертується в реальні переходи. І тут Perplexity виділяється серед AI-платформ разюче. За даними дослідження Conductor (2025), відношення між кількістю сканувань краулером і реальними реферальними переходами у Perplexity становить менше 200:1 — тобто на кожні 200 запитів краулера припадає щонайменше 1 реальний перехід на сайт-джерело.

Для порівняння: Anthropic (ClaudeBot) має показник ~100 000:1 — практично нульовий реферальний трафік попри активний краулінг. OpenAI покращив ситуацію після запуску ChatGPT Search, але все ще значно поступається Perplexity. Висновок простий: Perplexity — єдина AI-платформа, яка сьогодні є реальним джерелом реферального трафіку.

Якість трафіку з Perplexity: чому він цінніший за середній

Користувач, який переходить із Perplexity на ваш сайт, вже отримав коротку відповідь і вирішив дізнатися більше, побачив ваш сайт як надійне джерело підтверджене AI-системою, і має конкретний намір — а не просто "серфить" результати. Ранні дані від паблішерів показують нижчий показник відмов і вищий середній час на сторінці порівняно із середніми показниками органічного трафіку.

Три практичних висновки

По-перше: якщо ви ще не бачили PerplexityBot у своїх логах — перевірте зараз. Або ваш сайт заблокований (навмисно чи випадково), або логи просто не переглядалися.

По-друге: канал ще не конкурентний. Більшість власників сайтів не оптимізують контент під Perplexity — увійти в топ цитованих джерел зараз значно простіше, ніж через рік-два.

По-третє: оптимізація під Perplexity збігається з оптимізацією під якість контенту загалом — структурованість, фактологічність, свіжість. Це не окрема стратегія, а підсилення того, що вже варто робити.

Як верифікувати PerplexityBot: захист від підробки user-agent

Будь-який зловмисний скрипт може підставити рядок PerplexityBot у заголовок запиту — це займає одну секунду і не потребує жодних технічних знань. Тому покладатися виключно на user-agent при прийнятті рішень про доступ — помилка. Надійна верифікація будується на трьох рівнях.

Рівень 1: Перевірка user-agent

Наявність рядка PerplexityBot/1.0 або Perplexity-User/1.0 у заголовку запиту — необхідна, але не достатня умова. Використовуйте як перший фільтр, але не як єдиний.

Рівень 2: Звіряння з офіційним IP-листом

Завантажте актуальний список IP із perplexity.ai/perplexitybot.json та перевірте, чи належить IP запиту до одного з опублікованих CIDR-блоків. Для більшості практичних задач цього достатньо.

Рівень 3: Зворотний DNS-запит (найнадійніший)

Це золотий стандарт верифікації краулерів — той самий метод, який Google рекомендує для верифікації Googlebot:

# Крок 1: зворотний DNS (IP → hostname) host 18.x.x.x # Очікуваний результат: hostname у домені .perplexity.ai # Крок 2: прямий DNS (hostname → IP) host crawl-18-x-x-x.perplexity.ai

# Має повернути той самий IP — інакше верифікація не пройдена

Підробити user-agent надзвичайно просто, а підробити зворотний DNS — неможливо без контролю над DNS-записами домену. Якщо обидва кроки збіглися — це справжній PerplexityBot.

Коли потрібна повна верифікація

Для більшості сайтів достатньо моніторингу user-agent у логах. Повна тристороння перевірка потрібна лише якщо ви надаєте PerplexityBot диференційований доступ до закритого контенту, налаштовуєте whitelist у WAF, або розслідуєте підозріло високу частоту запитів.

PerplexityBot у контексті інших AI-краулерів

Краулер	Компанія	User-agent	Зростання 2024	Реферальний трафік	Документація
PerplexityBot	Perplexity AI	`PerplexityBot/1.0`	+157 490%	Так (<200:1)	docs.perplexity.ai
GPTBot	OpenAI	`GPTBot/1.1`	+305%	Так (ChatGPT Search)	openai.com
OAI-SearchBot	OpenAI	`OAI-SearchBot/1.0`	Новий (2024)	Так (ChatGPT Search)	openai.com
ClaudeBot	Anthropic	`ClaudeBot/0.5`	-46%	Мінімальний (~100 000:1)	support.anthropic.com
Googlebot	Google	`Googlebot/2.1`	Стабільний	Так (основний канал)	developers.google.com

OAI-SearchBot — окремий краулер OpenAI для ChatGPT Search, запущений у 2024 році. На відміну від GPTBot (збір даних для тренування моделей), OAI-SearchBot є прямим аналогом PerplexityBot. Обидва потрібно враховувати в robots.txt окремо.

ClaudeBot демонструє від'ємну динаміку і мінімальний реферальний трафік — наразі оптимізація під нього має найнижчий практичний пріоритет серед усіх AI-краулерів.

Практичні висновки: що робити прямо зараз

Ось мінімальний чекліст для початку роботи з PerplexityBot. Кожен пункт займає не більше 15–30 хвилин.

1. Перевірте логи

Пошукайте рядки PerplexityBot та Perplexity-User у серверних логах (Nginx: /var/log/nginx/access.log, Apache: /var/log/apache2/access.log). Якщо бот активний — ви побачите які сторінки він сканує і як часто. Якщо записів немає зовсім — переходьте до пункту 2.

2. Перевірте robots.txt на випадкове блокування

Відкрийте https://yoursite.com/robots.txt і перевірте чи немає правила User-agent: * / Disallow: / або явного блокування PerplexityBot. Для явного дозволу додайте:

User-agent: PerplexityBotAllow: /

Пам'ятайте: повне блокування PerplexityBot = повна відсутність у видачі Perplexity.

3. Оцініть JS-залежність контенту

Відкрийте ключову сторінку через Google Mobile-Friendly Test і перегляньте отриманий HTML. Якщо основний текст статті відсутній — PerplexityBot бачить те саме. У такому випадку SSR або SSG є пріоритетним технічним завданням.

4. Налаштуйте моніторинг у GA4

Reports → Acquisition → Traffic acquisition → Add filter → Session source → contains → perplexity.ai..

5. Перевірте TTFB

Сторінки з Time to First Byte понад 2–3 секунди можуть пропускатися краулером. Перевірте показники через PageSpeed Insights або DevTools. Орієнтир — TTFB нижче 800 мс.

6. Не панікуйте через частоту візитів

PerplexityBot може відвідувати популярні сторінки кілька разів на день — це ознака цінності контенту, а не проблема. Якщо частота створює навантаження на сервер, додайте в robots.txt:

User-agent: PerplexityBot
Allow: /Crawl-delay: 10

Підсумок: ключове про PerplexityBot в одному місці

PerplexityBot — це веб-краулер Perplexity AI, відповідальний за збір та індексацію контенту для системи відповідей на запити. Він існує в двох режимах: проактивному (регулярний фоновий обхід, PerplexityBot/1.0) та тригерному (відповідь на конкретний запит користувача в реальному часі, Perplexity-User/1.0).

Технічні факти, які варто запам'ятати:

Не виконує JavaScript — читає лише статичний HTML

Поважає robots.txt у проактивному режимі (поведінка тригерного режиму — дискусійна)

Публікує офіційний список IP: perplexity.ai/perplexitybot.json

Офіційно не використовує контент для навчання моделей — лише для RAG-індексу

Зріс на 157 490% за рік — найвищий показник серед усіх AI-краулерів

Забезпечує реальний реферальний трафік із показником crawl/traffic нижче 200:1

Канал ще не конкурентний, вхід відносно простий, а трафік — якісний. Оптимізуватися варто вже зараз.

Категорії