PerplexityBot: що це, як себе ідентифікує та що індексує

Оновлено:
PerplexityBot: що це, як себе ідентифікує та що індексує

Якщо ви помітили в логах сервера незнайомий user-agent із рядком PerplexityBot — це не аномалія і не загроза. Це краулер однієї з найбільш швидкозростаючих AI-платформ у світі, яка за один рік збільшила активність своїх ботів на 157 490%, за даними Cloudflare. Ігнорувати цей трафік — означає добровільно відмовлятися від нової аудиторії, яка вже зараз шукає відповіді через Perplexity.

У цій статті ми розберемо технічну сторону питання: як саме PerplexityBot ідентифікує себе, в яких режимах працює, які IP-адреси використовує та яку офіційну позицію займає Perplexity щодо використання зібраних даних.

Що таке PerplexityBot і навіщо він сканує ваш сайт

Perplexity — це так званий answer engine: на відміну від традиційного пошуковика, він не повертає список посилань, а генерує пряму структуровану відповідь із зазначенням джерел. Користувач бачить не десять синіх посилань, а готову відповідь із цитатами — і лише потім, за бажанням, переходить на першоджерела. Саме тому Perplexity називають "пошуком наступного покоління": він змінює не тільки формат результатів, але й поведінку користувача.

Щоб відповіді були актуальними та підкріпленими реальними матеріалами, система постійно збирає й оновлює контент з усього інтернету. Саме для цього існує PerplexityBot — веб-краулер, відповідальний за обхід сторінок, їх індексацію та підготовку до подальшої обробки через RAG-архітектуру (Retrieval-Augmented Generation).

Спрощена схема того, як це працює:

Ваш сайт

↓ HTTP запит (статичний HTML)

PerplexityBot

↓ векторизація тексту

Векторна база даних (індекс)

↓ semantic search при запиті користувача

RAG-система

↓ генерація відповіді

Користувач отримує відповідь + посилання на ваш сайт

Тобто PerplexityBot — це не просто технічний бот, а перша ланка в ланцюжку, який може привести реального читача на ваш сайт. Якщо бот не зміг прочитати вашу сторінку — вона не потрапить у базу. Якщо не потрапила в базу — вона ніколи не буде процитована у відповіді.

Тепер до цифр. Perplexity зріс з 230 мільйонів до 780 мільйонів запитів на місяць за один рік — за публічними заявами CEO Арвінда Срінівасаса у виданнях Wall Street Journal та Bloomberg. Окремо — дані Cloudflare, які зафіксували зростання активності PerplexityBot на 157 490% за рік у своєму щорічному звіті Cloudflare Radar 2024.

Це не ніша для ранніх послідовників — це вже повноцінний канал трафіку, який більшість власників сайтів ще не відстежують і не оптимізують. І PerplexityBot — це вхідна точка в цей канал.

Офіційна документація Perplexity про роботу бота: docs.perplexity.ai/docs/perplexitybot

User-agent PerplexityBot: як ідентифікувати бот у логах

Перша практична річ, яку має знати будь-який технічний SEO-спеціаліст або власник сайту — точний рядок user-agent. Без нього неможливо ні правильно налаштувати robots.txt, ні написати правило для WAF, ні відфільтрувати бот у системі аналітики. PerplexityBot ідентифікує себе таким рядком:

Mozilla/5.0 AppleWebKit/537.36 (compatible; PerplexityBot/1.0; +https://docs.perplexity.ai/docs/perplexitybot)

Розберемо кожну частину рядка окремо, бо кожна несе практичне значення:

Mozilla/5.0 AppleWebKit/537.36 — стандартний браузерний префікс. Багато веб-серверів і CDN за замовчуванням блокують запити від нестандартних агентів або повертають інший контент. Цей префікс дозволяє PerplexityBot отримувати "повноцінну" версію сторінки, яку бачив би звичайний браузер. Це поширена практика: Googlebot також використовує схожий підхід.

PerplexityBot/1.0 — основний ідентифікатор. Саме за цим рядком ви налаштовуєте будь-які правила: у robots.txt це User-agent: PerplexityBot, у правилах nginx або Apache — умова if ($http_user_agent ~* "PerplexityBot"), у AWS WAF — рядковий патерн для фільтрації.

+https://docs.perplexity.ai/docs/perplexitybot — посилання на офіційну документацію. Це стандарт відповідальних краулерів: якщо адміністратор сервера бачить незнайомий бот, він може одразу перейти за посиланням і дізнатися, хто це і що робить.

Як знайти PerplexityBot у серверних логах

Щоб перевірити чи відвідував PerplexityBot ваш сайт — виконайте пошук по логах. Для Nginx:

grep -iE "PerplexityBot|Perplexity-User" /var/log/nginx/access.log | wc -l

Для Apache замініть шлях на /var/log/apache2/access.log. Щоб побачити топ-20 сторінок, які бот відвідував найчастіше:

grep -i "PerplexityBot" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20

Якщо бот регулярно повертається до певних сторінок — система вважає їх актуальними та потенційно цінними для відповідей.

Відмінність у логах: PerplexityBot vs Perplexity-User

У логах ви можете зустріти два різні рядки. Поруч із PerplexityBot/1.0 може з'являтися:

Mozilla/5.0 AppleWebKit/537.36 (compatible; Perplexity-User/1.0; +https://docs.perplexity.ai/docs/perplexitybot)

Це тригерний режим — бот, що запускається в реальному часі у відповідь на конкретний запит користувача. Якщо ви бачите Perplexity-User у логах — хтось прямо зараз поставив Perplexity запитання, яке стосується вашого сайту. Це реальний сигнал попиту. Детальніше про два режими роботи — у наступному розділі.

Джерело: Офіційна документація PerplexityBot — тут також міститься актуальний список IP-адрес і рекомендації щодо robots.txt.

Два режими роботи PerplexityBot: проактивний і тригерний

Це один із найважливіших технічних нюансів, який часто залишається поза увагою. PerplexityBot існує в двох принципово різних режимах — і розуміння різниці між ними має пряме практичне значення: для налаштування robots.txt, для інтерпретації логів і для розуміння того, як саме Perplexity знаходить і використовує ваш контент.

Офіційно обидва режими описані в документації Perplexity: docs.perplexity.ai/docs/perplexitybot.

Режим 1: Проактивний краулінг (PerplexityBot)

Перший режим — це традиційний асинхронний веб-краулінг, аналогічний Googlebot або Bingbot. Бот самостійно обходить сторінки за власним внутрішнім розкладом, не чекаючи на жодні запити користувачів. Мета — сформувати та постійно оновлювати індекс контенту, щоб він був доступний у базі знань системи до моменту, коли хтось поставить відповідне запитання.

Саме цей режим відповідає за більшість слідів у ваших серверних логах. Якщо ви регулярно публікуєте новий контент і бачите PerplexityBot у логах — це ознака того, що система вважає ваш сайт достатньо авторитетним, щоб перевіряти його регулярно.

Ключові характеристики проактивного режиму:

  • Регулярні візити незалежно від активності користувачів — бот приходить за власним розкладом, а не у відповідь на конкретний пошуковий запит.
  • Дотримується директив robots.txt — це офіційно підтверджено Perplexity. Якщо ви заблокували User-agent: PerplexityBot у robots.txt, проактивний режим зупиниться.
  • Використовує фіксований пул IP-адрес — ці IP опубліковані Perplexity у файлі perplexitybot.json і є верифікованими.
  • Не виконує JavaScript — читає виключно статичний HTML, отриманий при першому запиті.
  • Crawl rate обмежений — якщо сервер повертає статус 429 (Too Many Requests), бот автоматично знизить частоту запитів.

Режим 2: Тригерний краулінг (Perplexity-User)

Другий режим активується в реальному часі, коли конкретний користувач Perplexity ставить запитання і система вирішує, що для якісної відповіді потрібно отримати свіжі дані безпосередньо з певного сайту. У цьому випадку бот використовує інший user-agent — Perplexity-User/1.0 замість PerplexityBot/1.0. Це не технічна деталь — це сигнал про зовсім іншу логіку роботи.

Ключові характеристики тригерного режиму:

  • Запускається синхронно — у момент запиту користувача, а не у фоні. Час відповіді вашого сервера безпосередньо впливає на якість відповіді Perplexity.
  • Мета — свіжість, а не індексація — система хоче отримати актуальну версію сторінки "прямо зараз", оминаючи кешовані дані.
  • IP-адреси можуть відрізнятися від проактивного бота — тригерний краулінг може здійснюватися з інших вузлів інфраструктури Perplexity.
  • Поведінка з robots.txt — дискусійне питання. У 2024 році низка видавців зафіксувала, що Perplexity-User продовжував відвідувати сторінки, заблоковані для PerplexityBot. Perplexity офіційно не підтвердив і не спростував цю поведінку. .

Порівняльна таблиця: PerplexityBot vs Perplexity-User

ПараметрPerplexityBot (проактивний)Perplexity-User (тригерний)
Коли запускаєтьсяЗа внутрішнім розкладомУ момент запиту користувача
МетаФормування індексуОтримання свіжих даних
User-agentPerplexityBot/1.0Perplexity-User/1.0
Дотримання robots.txtТак (офіційно підтверджено)Невизначено (спірне питання)
IP-адресиЗ офіційного списку perplexitybot.jsonМожуть відрізнятися
Що означає у логахПланова індексація сайтуАктивний запит користувача прямо зараз

Практичний висновок: якщо ви бачите Perplexity-User у логах — це не технічний шум, це сигнал попиту. Хтось реально шукає інформацію через Perplexity, і система вирішила, що ваш сайт може дати відповідь. Відстежуйте ці запити — вони показують, під які теми ваш контент уже починає ранжуватися.

IP-адреси PerplexityBot: де знайти актуальний список і як його використовувати

Perplexity публікує офіційний список IP-діапазонів, з яких працює PerplexityBot. Це стандартна практика відповідальних краулерів — Google, Bing та інші також публікують свої IP-листи для верифікації.

Актуальний список доступний за офіційною адресою perplexity.ai/perplexitybot.json — JSON-файл із переліком CIDR-блоків. IP-блоки належать переважно до інфраструктури Amazon Web Services (AWS). Це важливо розуміти при налаштуванні firewall: широкі блокування AWS-діапазонів можуть ненавмисно заблокувати PerplexityBot.

Щоб переглянути поточний список у зручному форматі:

curl -s https://www.perplexity.ai/perplexitybot.json | python3 -m json.tool

Важливе застереження: IP-верифікація не є надійною сама по собі

Верифікація PerplexityBot виключно за IP має два слабких місця: IP-діапазони можуть змінюватися, а будь-який скрипт може підставити рядок PerplexityBot у user-agent. Найнадійніший метод — зворотний DNS-запит, який рекомендує також Google для верифікації Googlebot:

# Крок 1: зворотний DNS (IP → hostname)

host 18.188.x.x

# Очікуваний результат: hostname у домені .perplexity.ai

# Крок 2: прямий DNS (hostname → IP)

host crawl-18-x-x-x.perplexity.ai

# Має повернути той самий IP — інакше верифікація не пройдена

Для більшості практичних задач (моніторинг, базова фільтрація) IP-список із perplexitybot.json цілком достатній. Для задач безпеки або диференційованого доступу — використовуйте повний ланцюжок верифікації.

PerplexityBot: що це, як себе ідентифікує та що індексує

Що саме індексує PerplexityBot: пріоритети та обмеження

PerplexityBot — не загальний архіватор інтернету на кшталт Common Crawl або Wayback Machine. Його завдання вузьке та конкретне: зібрати контент, який буде корисний для генерації точних відповідей на запитання користувачів. Це формує специфічну логіку пріоритизації — і розуміння цієї логіки безпосередньо впливає на те, як варто готувати контент для потрапляння у видачу Perplexity.

Що PerplexityBot індексує активно

Текстовий контент у статичному HTML. Це найважливіший технічний пріоритет. PerplexityBot, як і переважна більшість AI-краулерів, не виконує JavaScript. Бот отримує HTML-відповідь від сервера і читає лише те, що в ній є — без запуску жодних скриптів, без очікування на динамічне завантаження контенту.

Практичний наслідок: якщо ваш сайт побудований на React, Vue, Angular або будь-якому іншому JS-фреймворку без серверного рендерингу (SSR) або статичної генерації (SSG) — PerplexityBot бачить порожню або майже порожню сторінку. Це підтверджується незалежним дослідженням Benson SEO, яке показало, що AI-краулери читають виключно статичний HTML і ігнорують JS-залежний контент.

Структуровані фактичні матеріали. RAG-система Perplexity витягує з проіндексованих сторінок конкретні фрагменти — пасажі, абзаци, блоки — а не сторінки цілком. Ефективніше витягуються ті фрагменти, які є самодостатніми: містять конкретний факт, число, дату, визначення або чітку відповідь на запитання. Матеріали з розмитими формулюваннями типу "це залежить від багатьох факторів" потрапляють у видачу значно рідше.

Типи контенту, які індексуються найкраще: аналітичні статті з конкретними даними, інструкції та how-to матеріали, довідкові матеріали та глосарії, звіти з числовими показниками, відповіді у форматі Q&A.

Свіжі публікації. Свіжість — один із задокументованих факторів ранжування в Perplexity. Бот активніше обходить нещодавно опубліковані або оновлені сторінки. Perplexity регулярно посилається на матеріали, опубліковані в межах останніх кількох днів або тижнів, навіть якщо сайт-джерело відносно молодий. Детально про "вікно свіжості" та стратегію перших 48 годин після публікації .

Авторитетні домени. Домени з сильним профілем зворотних посилань, присутністю у Wikidata, Crunchbase або Publishers Program Perplexity отримують більший crawl budget і частіші повторні візити. За даними аналізу Ahrefs, топові домени у видачі Perplexity — YouTube, Wikipedia, Apple, Google — мають один із найвищих рейтингів авторитетності в мережі. Але нішеві авторитети також добре представлені: Perplexity частіше, ніж Google, цитує глибокі галузеві матеріали з менш відомих, але профільних джерел.

Структурована розмітка schema.org. Наявність коректної розмітки schema.org допомагає RAG-системі краще інтерпретувати тип контенту та його структуру. Особливо корисні типи: Article, FAQPage, HowTo, Dataset. Детально про structured data для Perplexity — у статті Як керувати PerplexityBot: robots.txt, WAF та швидкість індексації.

Що PerplexityBot індексує погано або не індексує

JavaScript-рендерений контент без SSR/SSG. Перевірити, що саме бачить краулер на вашій сторінці, можна інструментом Google Mobile-Friendly Test або через curl із підставленим UA PerplexityBot — якщо у відповіді мінімум тексту, бот бачить те саме.

Контент за авторизацією. Будь-яка сторінка, що потребує входу в обліковий запис — платний контент, особисті кабінети, закриті розділи — недоступна для будь-якого краулера.

PDF та нетекстові документи. Perplexity технічно може обробляти PDF, але значно менш ефективно, ніж HTML. Якщо у вас є важливі матеріали у форматі PDF (дослідження, звіти, white papers) — варто дублювати їх ключовий зміст у HTML-версії на сайті.

Сторінки, заблоковані в robots.txt. PerplexityBot у проактивному режимі дотримується директив robots.txt. Стандартний блок для повного блокування:

User-agent: PerplexityBot

Disallow: /

Важливе застереження: блокування проактивного бота не гарантує блокування тригерного режиму (Perplexity-User). Якщо вам потрібне повне блокування — використовуйте комбінацію robots.txt і WAF. Детально у статті Як керувати PerplexityBot.

Повільні сторінки з високим TTFB. Time to First Byte (TTFB) — час від запиту до першого байта відповіді — прямо впливає на ефективність краулінгу. Сторінки з TTFB понад 2–3 секунди можуть пропускатися або індексуватися рідше. Орієнтир — TTFB нижче 800 мс відповідно до рекомендацій Google Web Vitals.

Дубльований і низькоякісний контент. RAG-система Perplexity орієнтована на унікальну інформаційну цінність. Сторінки, що є копіями або рерайтами інших матеріалів без додаткової цінності, індексуються, але рідко потрапляють у фінальну видачу — система обирає першоджерело або найбільш авторитетну версію.

Чи використовується ваш контент для навчання моделей Perplexity

Це питання, яке турбує багатьох видавців і власників сайтів — особливо після резонансних дискусій навколо OpenAI, Anthropic та інших AI-компаній щодо використання веб-контенту для тренування моделей. Офіційна позиція Perplexity однозначна: PerplexityBot не використовується для навчання AI-моделей.

Це прямо зазначено в офіційній документації PerplexityBot: зібраний контент призначений виключно для формування пошукового індексу, який використовується в реальному часі для відповідей на запити через RAG-механізм.

Індексація для відповідей (те, чим займається PerplexityBot). Контент сканується, перетворюється на векторні представлення та зберігається у векторній базі даних. Коли користувач ставить запитання, система знаходить найрелевантніші фрагменти з індексу та передає їх у контекст мовної моделі для генерації відповіді. Ваш контент використовується як джерело інформації в реальному часі — аналогічно до того, як пошуковик показує результати зі своїх проіндексованих сторінок.

Навчання моделей (окремий процес). Тренування великих мовних моделей (LLM) — це одноразовий або рідкісний процес, що потребує масивних датасетів і значних обчислювальних ресурсів. Perplexity офіційно стверджує, що PerplexityBot до цього процесу не залучений. Для порівняння: GPTBot від OpenAI також розмежовує краулінг для відповідей та збір даних для тренування, а Common Crawl — це вже принципово інша система, створена саме для тренування моделей.

Контекст: суперечки навколо Perplexity та авторських прав

Варто бути чесними: у 2024 році Perplexity опинився в центрі кількох публічних суперечок щодо використання контенту. Видання Forbes та Wired публікували матеріали про те, що Perplexity відтворює значні фрагменти статей у своїх відповідях без достатнього атрибутування. News Corp та інші медіакомпанії висловлювали претензії.

Ці питання стосуються не навчання моделей, а обсягу цитування та компенсації видавцям. Perplexity у відповідь запустив Publishers Program — партнерську програму для медіа з розподілом доходів від реклами.

Якщо ви хочете повністю заблокувати Perplexity — і краулінг, і цитування — це технічно можливо. Але наслідок однозначний: ваш сайт повністю зникає з видачі Perplexity.

Масштаб зростання PerplexityBot: чому це важливо зараз

157 490% — це не помилка друку. Саме такий відсоток зростання активності PerplexityBot зафіксував Cloudflare у своєму щорічному звіті Cloudflare Radar 2024. Для порівняння: GPTBot (OpenAI) за той самий період виріс на 305%, а ClaudeBot (Anthropic) скоротився на 46%. PerplexityBot — абсолютний лідер серед AI-краулерів за темпами зростання.

Perplexity як платформа: від стартапу до масового продукту

У 2023 році Perplexity обробляв близько 230 мільйонів запитів на місяць. До кінця 2024 року цей показник досяг 780 мільйонів запитів на місяць — зростання більше ніж утричі за рік. Для контексту: 780 мільйонів запитів на місяць — це приблизно 26 мільйонів запитів на день. Це не нішева аудиторія технічних ентузіастів, а масовий продукт із реальними користувачами — і частина їхніх запитань стосується вашої теми.

Оцінка компанії на момент останнього раунду фінансування склала 9 мільярдів доларів (Bloomberg, листопад 2024). Серед інвесторів — Jeff Bezos, NVIDIA, SoftBank. Це не ознаки компанії, що збирається зникнути.

Ключова відмінність: Perplexity реально відправляє трафік

Зростання краулінгу нічого не варте, якщо не конвертується в реальні переходи. І тут Perplexity виділяється серед AI-платформ разюче. За даними дослідження Conductor (2025), відношення між кількістю сканувань краулером і реальними реферальними переходами у Perplexity становить менше 200:1 — тобто на кожні 200 запитів краулера припадає щонайменше 1 реальний перехід на сайт-джерело.

Для порівняння: Anthropic (ClaudeBot) має показник ~100 000:1 — практично нульовий реферальний трафік попри активний краулінг. OpenAI покращив ситуацію після запуску ChatGPT Search, але все ще значно поступається Perplexity. Висновок простий: Perplexity — єдина AI-платформа, яка сьогодні є реальним джерелом реферального трафіку.

Якість трафіку з Perplexity: чому він цінніший за середній

Користувач, який переходить із Perplexity на ваш сайт, вже отримав коротку відповідь і вирішив дізнатися більше, побачив ваш сайт як надійне джерело підтверджене AI-системою, і має конкретний намір — а не просто "серфить" результати. Ранні дані від паблішерів показують нижчий показник відмов і вищий середній час на сторінці порівняно із середніми показниками органічного трафіку.

Три практичних висновки

По-перше: якщо ви ще не бачили PerplexityBot у своїх логах — перевірте зараз. Або ваш сайт заблокований (навмисно чи випадково), або логи просто не переглядалися.

По-друге: канал ще не конкурентний. Більшість власників сайтів не оптимізують контент під Perplexity — увійти в топ цитованих джерел зараз значно простіше, ніж через рік-два.

По-третє: оптимізація під Perplexity збігається з оптимізацією під якість контенту загалом — структурованість, фактологічність, свіжість. Це не окрема стратегія, а підсилення того, що вже варто робити.

Як верифікувати PerplexityBot: захист від підробки user-agent

Будь-який зловмисний скрипт може підставити рядок PerplexityBot у заголовок запиту — це займає одну секунду і не потребує жодних технічних знань. Тому покладатися виключно на user-agent при прийнятті рішень про доступ — помилка. Надійна верифікація будується на трьох рівнях.

Рівень 1: Перевірка user-agent

Наявність рядка PerplexityBot/1.0 або Perplexity-User/1.0 у заголовку запиту — необхідна, але не достатня умова. Використовуйте як перший фільтр, але не як єдиний.

Рівень 2: Звіряння з офіційним IP-листом

Завантажте актуальний список IP із perplexity.ai/perplexitybot.json та перевірте, чи належить IP запиту до одного з опублікованих CIDR-блоків. Для більшості практичних задач цього достатньо.

Рівень 3: Зворотний DNS-запит (найнадійніший)

Це золотий стандарт верифікації краулерів — той самий метод, який Google рекомендує для верифікації Googlebot:

# Крок 1: зворотний DNS (IP → hostname)

host 18.x.x.x

# Очікуваний результат: hostname у домені .perplexity.ai

# Крок 2: прямий DNS (hostname → IP)

host crawl-18-x-x-x.perplexity.ai

# Має повернути той самий IP — інакше верифікація не пройдена

Підробити user-agent надзвичайно просто, а підробити зворотний DNS — неможливо без контролю над DNS-записами домену. Якщо обидва кроки збіглися — це справжній PerplexityBot.

Коли потрібна повна верифікація

Для більшості сайтів достатньо моніторингу user-agent у логах. Повна тристороння перевірка потрібна лише якщо ви надаєте PerplexityBot диференційований доступ до закритого контенту, налаштовуєте whitelist у WAF, або розслідуєте підозріло високу частоту запитів.

PerplexityBot у контексті інших AI-краулерів

КраулерКомпаніяUser-agentЗростання 2024Реферальний трафікДокументація
PerplexityBotPerplexity AIPerplexityBot/1.0+157 490%Так (<200:1)docs.perplexity.ai
GPTBotOpenAIGPTBot/1.1+305%Так (ChatGPT Search)openai.com
OAI-SearchBotOpenAIOAI-SearchBot/1.0Новий (2024)Так (ChatGPT Search)openai.com
ClaudeBotAnthropicClaudeBot/0.5-46%Мінімальний (~100 000:1)support.anthropic.com
GooglebotGoogleGooglebot/2.1СтабільнийТак (основний канал)developers.google.com

OAI-SearchBot — окремий краулер OpenAI для ChatGPT Search, запущений у 2024 році. На відміну від GPTBot (збір даних для тренування моделей), OAI-SearchBot є прямим аналогом PerplexityBot. Обидва потрібно враховувати в robots.txt окремо.

ClaudeBot демонструє від'ємну динаміку і мінімальний реферальний трафік — наразі оптимізація під нього має найнижчий практичний пріоритет серед усіх AI-краулерів.

Практичні висновки: що робити прямо зараз

Ось мінімальний чекліст для початку роботи з PerplexityBot. Кожен пункт займає не більше 15–30 хвилин.

1. Перевірте логи

Пошукайте рядки PerplexityBot та Perplexity-User у серверних логах (Nginx: /var/log/nginx/access.log, Apache: /var/log/apache2/access.log). Якщо бот активний — ви побачите які сторінки він сканує і як часто. Якщо записів немає зовсім — переходьте до пункту 2.

2. Перевірте robots.txt на випадкове блокування

Відкрийте https://yoursite.com/robots.txt і перевірте чи немає правила User-agent: * / Disallow: / або явного блокування PerplexityBot. Для явного дозволу додайте:

User-agent: PerplexityBot

Allow: /

Пам'ятайте: повне блокування PerplexityBot = повна відсутність у видачі Perplexity.

3. Оцініть JS-залежність контенту

Відкрийте ключову сторінку через Google Mobile-Friendly Test і перегляньте отриманий HTML. Якщо основний текст статті відсутній — PerplexityBot бачить те саме. У такому випадку SSR або SSG є пріоритетним технічним завданням.

4. Налаштуйте моніторинг у GA4

Reports → Acquisition → Traffic acquisition → Add filter → Session source → contains → perplexity.ai..

5. Перевірте TTFB

Сторінки з Time to First Byte понад 2–3 секунди можуть пропускатися краулером. Перевірте показники через PageSpeed Insights або DevTools. Орієнтир — TTFB нижче 800 мс.

6. Не панікуйте через частоту візитів

PerplexityBot може відвідувати популярні сторінки кілька разів на день — це ознака цінності контенту, а не проблема. Якщо частота створює навантаження на сервер, додайте в robots.txt:

User-agent: PerplexityBot

Allow: /

Crawl-delay: 10

Підсумок: ключове про PerplexityBot в одному місці

PerplexityBot — це веб-краулер Perplexity AI, відповідальний за збір та індексацію контенту для системи відповідей на запити. Він існує в двох режимах: проактивному (регулярний фоновий обхід, PerplexityBot/1.0) та тригерному (відповідь на конкретний запит користувача в реальному часі, Perplexity-User/1.0).

Технічні факти, які варто запам'ятати:

  • Не виконує JavaScript — читає лише статичний HTML
  • Поважає robots.txt у проактивному режимі (поведінка тригерного режиму — дискусійна)
  • Публікує офіційний список IP: perplexity.ai/perplexitybot.json
  • Офіційно не використовує контент для навчання моделей — лише для RAG-індексу
  • Зріс на 157 490% за рік — найвищий показник серед усіх AI-краулерів
  • Забезпечує реальний реферальний трафік із показником crawl/traffic нижче 200:1

Канал ще не конкурентний, вхід відносно простий, а трафік — якісний. Оптимізуватися варто вже зараз.

Останні статті

Читайте більше цікавих матеріалів

PerplexityBot: що це, як себе ідентифікує та що індексує

PerplexityBot: що це, як себе ідентифікує та що індексує

Якщо ви помітили в логах сервера незнайомий user-agent із рядком PerplexityBot — це не аномалія і не загроза. Це краулер однієї з найбільш швидкозростаючих AI-платформ у світі, яка за один рік збільшила активність своїх ботів на 157 490%, за даними Cloudflare. Ігнорувати цей трафік — означає...

Claude Dynamic Filtering: +11% Точності і -24% Токенів — Повний Розбір

Claude Dynamic Filtering: +11% Точності і -24% Токенів — Повний Розбір

⚡ Коротко✅ Ключова думка 1: Dynamic filtering — це не нова UI-фіча, а архітектурна зміна: Claude тепер пише та виконує код для фільтрації HTML до того, як результати потрапляють у context window.✅ Ключова думка 2: Результат — +11% точності на пошукових бенчмарках і -24% input токенів одночасно, що...

GLM-5 vs Claude Opus 4.6 vs GPT-5 повний огляд LLM 2026

GLM-5 vs Claude Opus 4.6 vs GPT-5 повний огляд LLM 2026

У 2026 році три моделі лідирують у сегменті frontier-LLM: китайська open-weight GLM-5, американська Claude Opus 4.6 та GPT-5 від OpenAI. Кожна має свої сильні сторони в архітектурі, reasoning та практичному застосуванні.Спойлер: GLM-5 виграє за ціною та open-weight доступністю, Claude Opus 4.6 — у...

Режим /agent в Z.ai — архітектура агентної моделі (2026)

Режим /agent в Z.ai — архітектура агентної моделі (2026)

Режим /agent у Z.ai — це автономний агентний інтерфейс на базі GLM-5, що переходить від простих відповідей до повноцінного виконання завдань з плануванням, викликом інструментів та генерацією кінцевих результатів.Спойлер: Agent-режим реалізує ітеративний цикл (plan → tool → observe → revise →...

Режим /chat в Z.ai — як працює та коли використовувати (2026)

Режим /chat в Z.ai — як працює та коли використовувати (2026)

Режим /chat у Z.ai — це базовий інтерфейс для швидких, інтерактивних розмов з моделлю GLM-5. Він забезпечує миттєві відповіді без додаткового overhead від інструментів чи планування.Спойлер: Chat — це lightweight completions з підтримкою історії, system prompt та streaming, ідеальний для RAG,...

GLM-5 2026 архітектура, бенчмарки, можливості та обмеження

GLM-5 2026 архітектура, бенчмарки, можливості та обмеження

GLM-5 від Zhipu AI (Z.ai) — це одна з найбільших open-weight моделей 2026 року, орієнтована на agentic engineering та long-horizon задачі. Реліз 11–12 лютого 2026 року став важливим кроком у розвитку автономних AI-систем. Спойлер: 744B MoE (40B active), 200K контекст, сильні результати в...