🧭 Як відрізнити бота від реального користувача: повний гайд з прикладами логів та IP

Уявіть ситуацію: ви відкриваете Google Analytics, бачите 10 000 візитів за день і радієте зростанню трафіку. Але конверсій немає. Замовлень немає. Форми не заповнюються. Чому? Тому що 60-70% вашого трафіку — це боти, які спотворюють всю статистику.

Я працюю з веб-аналітикою понад 8 років і регулярно стикаюся з ситуаціями, коли власники бізнесу впевнені у зростанні відвідуваності, але насправді їхні сервери атакують парсери, сканери та фейкові боти. У цій статті я детально розповім, як відрізнити справжнього користувача від бота, покажу реальні приклади з логів та навчу налаштовувати автоматичну фільтрацію.

📚 Так само читайте:

Чому боти сканують ваш сайт 24/7: неминуча реальність інтернету

Зміст статті:

Чому важливо розуміти, хто відвідує ваш сайт

Боти можуть серйозно спотворити вашу аналітику та бізнес-метрики. Ось що відбувається, коли ви не відстежуєте ботів:

  • CTR падає — Google Analytics показує тисячі візитів, але кліків по кнопках немає
  • Час на сторінці = 0 секунд — середня тривалість сесії штучно знижується
  • Показник відмов зростає — боти заходять на одну сторінку і зникають
  • Сервер перевантажується — агресивні сканери створюють сотні запитів за хвилину
  • Витрати на хостинг ростуть — трафік є, але користі немає

⚡ Наприклад: один мій клієнт бачив 50 000 візитів на місяць, але лише 200 реальних замовлень. Після аналізу логів виявилося, що 35 000 візитів — це китайські парсери, які копіювали опис товарів. Після блокування цих IP навантаження на сервер знизилось на 60%, а швидкість сайту зросла.

💡 Розуміння того, хто насправді відвідує ваш сайт — це основа технічного SEO та веб-безпеки. Без цього ви приймаєте рішення на основі хибних даних.

Хто такі боти: види і цілі

Не всі боти шкідливі. Існують "хороші боти" (Good Bots), які допомагають вашому сайту, та "погані боти" (Bad Bots), які крадуть контент або створюють навантаження.

Класифікація ботів за призначенням

1. Пошукові боти (Search Engine Crawlers)

  • Googlebot — індексує сайт для Google
  • Bingbot — для пошукової системи Bing
  • YandexBot — для Яндекс
  • DuckDuckBot — для DuckDuckGo

✅ Ці боти потрібні для SEO. Блокувати їх не можна.

2. SEO та аналітичні боти

  • AhrefsBot — збирає дані для платформи Ahrefs
  • SemrushBot — аналіз конкурентів
  • MJ12bot (Majestic) — аналіз зворотних посилань
  • DotBot (Moz) — SEO-метрики

⚠️ Можна обмежити частоту сканування, але повністю блокувати не варто.

3. Сканери безпеки

  • Shodan — пошуковик для IoT пристроїв та серверів
  • Censys — картографування інтернету
  • Nmap — сканування портів

⚠️ Можуть бути легітимними, але часто використовуються хакерами.

4. Парсери контенту (Content Scrapers)

  • Невідомі боти з Китаю, Індії, Росії
  • Копіюють тексти, ціни, зображення
  • Часто маскуються під звичайних користувачів

❌ Рекомендую блокувати повністю.

5. Uptime-монітори та технічні перевірки

  • UptimeRobot — перевіряє доступність сайту
  • Pingdom — моніторинг швидкості
  • GTmetrix — аналіз продуктивності

✅ Корисні сервіси, блокувати не потрібно.

Порівняльна таблиця типів ботів

Тип ботаМетаЧастота заходівЯк виглядає в логах
GooglebotІндексація контентуКілька разів на деньUser-Agent: Googlebot/2.1
IP: 66.249.*.* (Google LLC)
AhrefsBotSEO-аналітика10-50 запитів на годинуUser-Agent: AhrefsBot/7.0
IP: датацентри AWS
ShodanСканування портівРаз на тижденьUser-Agent: Mozilla/5.0 (compatible; Shodan)
IP: різні країни
Парсер контентуКрадіжка данихСотні разів за деньUser-Agent: Python-requests
IP: Tencent, Alibaba Cloud
UptimeRobotМоніторингКожні 5 хвилинUser-Agent: UptimeRobot/2.0
IP: статичні IP сервісу

Як відрізнити бота від людини: 5 основних ознак

Я використовую комплексний підхід для ідентифікації ботів. Жодна ознака сама по собі не дає 100% гарантії, але комбінація з 3-4 ознак дає точність понад 95%.

1. 🌍 IP-адреса: датацентр чи провайдер зв'язку?

Перша та найважливіша ознака — звідки прийшов запит. Реальні користувачі підключаються через мобільних операторів або домашній інтернет. Боти — з датацентрів.

👉 Приклади IP-адрес справжніх користувачів:

  • Vodafone Ukraine — 91.*.*.* (мобільний оператор)
  • Kyivstar — 93.*.*.* (мобільний)
  • Ukrtelecom — 109.*.*.* (домашній інтернет)
  • Turkcell — 88.*.*.* (Туреччина, мобільний)

👉 Приклади IP-адрес ботів:

  • DigitalOcean — 167.*.*.* (хмарний хостинг)
  • Amazon AWS — 3.*.*.*, 54.*.*.* (датацентри)
  • Tencent Cloud — 43.*.*.* (Китай, хмарні сервери)
  • Alibaba Cloud — 47.*.*.* (датацентри)
  • OVH — 51.*.*.* (Франція, хостинг)

⚡ Як перевірити: Використовуйте сервіси ipinfo.io або abuseipdb.com. Вони показують ASN (номер автономної системи) та організацію-власника IP.

2. 🧠 User-Agent: реальний чи підроблений?

User-Agent — це рядок, який браузер або бот відправляє серверу для ідентифікації. Реальні браузери мають складний та послідовний User-Agent.

👉 Приклад справжнього User-Agent (Chrome на Android):

Mozilla/5.0 (Linux; Android 13; SM-G998B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Mobile Safari/537.36

👉 Приклад User-Agent бота:

Python-requests/2.28.1

curl/7.68.0

Go-http-client/1.1

⚠️ Важливо: Деякі боти підробляють User-Agent під звичайний браузер. Наприклад:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36

Але якщо цей User-Agent приходить з IP-адреси Alibaba Cloud — це точно бот!

3. 🕒 Час на сторінці та поведінка

Реальна людина проводить на сторінці від 10 секунд до кількох хвилин. Бот відкриває сторінку, завантажує HTML та миттєво йде далі.

Ознаки бота:

  • Час на сторінці = 0-2 секунди
  • Немає скролінгу
  • Немає кліків по елементах
  • Лінійний обхід сторінок: page1 → page2 → page3 (без повернень)
  • Швидкість переходів: 10-20 сторінок за хвилину

✅ Реальний користувач: скролить, натискає кнопки, читає текст, повертається назад.

4. 🔁 Referer: джерело переходу

Referer (HTTP Referer) показує, звідки користувач перейшов на сайт. Реальні люди приходять з Google, соцмереж, реклами.

👉 Приклади легітимних Referer:

  • https://www.google.com/
  • https://www.facebook.com/
  • https://t.me/
  • Прямий вхід (без referer) — користувач ввів URL вручну

⚠️ Підозрілі Referer:

  • Порожній Referer при масових заходах
  • Фейковий Referer типу "http://google.com" (без https)
  • Спамні домени

5. ⚙️ HTTP-заголовки та відсутність Cookie

Реальні браузери відправляють багато додаткових заголовків:

  • Accept-Language: uk-UA,uk;q=0.9,en;q=0.8
  • Accept-Encoding: gzip, deflate, br
  • Cookie: session_id=xyz123
  • Connection: keep-alive

Боти часто пропускають ці заголовки або відправляють мінімальний набір. Також боти не зберігають cookies між запитами.

💡 Секрет від професіонала: Я завжди перевіряю комбінацію IP + User-Agent + поведінку. Якщо IP з датацентру, User-Agent підозрілий, а час на сторінці 0 секунд — це 100% бот.

Реальні приклади з логів серверів

Тут я покажу фрагменти реальних логів (з анонімізацією чутливих даних) та поясню, як розпізнати бота.

Приклад 1: Справжній користувач з України

91.XXX.XXX.142 - - [09/Oct/2025:14:23:45 +0300] "GET /blog/seo-tips HTTP/1.1" 200 15234

Referer: https://www.google.com/

User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.1 Mobile/15E148 Safari/604.1

Accept-Language: uk-UA,uk;q=0.9

✅ Аналіз:

  • IP 91.*.*.* — Vodafone Ukraine (мобільний оператор)
  • User-Agent — реальний iPhone з Safari
  • Referer — Google (природний трафік)
  • Accept-Language — українська мова

Висновок: Це реальний користувач.

Приклад 2: Googlebot (легітимний бот)

66.249.XXX.12 - - [09/Oct/2025:14:25:10 +0300] "GET /sitemap.xml HTTP/1.1" 200 8932

User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

✅ Аналіз:

  • IP 66.249.*.* — належить Google LLC
  • User-Agent — чітко вказує Googlebot
  • Запит до sitemap.xml — типова поведінка пошукового бота

Висновок: Це офіційний Googlebot. Блокувати не можна!

Приклад 3: Парсер контенту (шкідливий бот)

43.XXX.XXX.89 - - [09/Oct/2025:14:27:33 +0300] "GET /products/item-123 HTTP/1.1" 200 12456

User-Agent: Python-requests/2.28.1

Referer: -

Accept-Language: -

❌ Аналіз:

  • IP 43.*.*.* — Tencent Cloud (Китай, датацентр)
  • User-Agent — Python-requests (бібліотека для скриптів)
  • Немає Referer
  • Немає Accept-Language

Висновок: Це бот-парсер, який копіює дані товарів. Блокуємо!

Приклад 4: Бот під маскуванням

167.XXX.XXX.201 - - [09/Oct/2025:14:30:15 +0300] "GET / HTTP/1.1" 200 45123

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36

Referer: -

Connection: close

⚠️ Аналіз:

  • IP 167.*.*.* — DigitalOcean (хмарний хостинг, датацентр)
  • User-Agent — виглядає як Chrome на Windows
  • Але: немає Referer, Connection: close (бот закриває з'єднання після кожного запиту)
  • IP з датацентру, а не від провайдера

Висновок: Це бот, який намагається видати себе за браузер. Підозрілий трафік.

⚡ Наприклад: За мій досвід, близько 30% ботів використовують підроблений User-Agent. Тому завжди перевіряйте IP-адресу через сервіси whois або ipinfo.

Як автоматично фільтрувати ботів

Вручну аналізувати кожен запит нереально, коли у вас тисячі відвідувачів щодня. Я використовую автоматизацію на різних рівнях.

1. 🔧 Cloudflare Firewall Rules

Cloudflare — найпростіший спосіб фільтрації ботів на рівні CDN. Ви можете налаштувати правила без доступу до сервера.

👉 Приклади правил:

Блокування за ASN (автономною системою):

(ip.geoip.asnum in {45090 132203 37963}) - Block

Це заблокує трафік з Tencent Cloud, Alibaba Cloud та інших підозрілих датацентрів.

Блокування за User-Agent:

(http.user_agent contains "python" or http.user_agent contains "curl") - Block

Блокування за країною (якщо ви не працюєте в Китаї):

(ip.geoip.country eq "CN") - Challenge or Block

Дозвіл лише легітимним ботам:

(cf.client.bot and not cf.verified_bot) - Block

Це блокує всіх ботів, крім верифікованих (Googlebot, Bingbot тощо).

2. ⚙️ Налаштування в Nginx

Якщо ви користуєтесь Nginx, можна блокувати ботів через конфігураційний файл.

Блокування за User-Agent:

if ($http_user_agent ~* (python|curl|wget|scrapy)) {

return 403;

}

Блокування конкретних IP-діапазонів:

deny 43.0.0.0/8;

deny 47.0.0.0/8;

Створення whitelist для легітимних ботів:

if ($http_user_agent ~* (googlebot|bingbot|yandex)) {

set $allowed_bot 1;

}

if ($allowed_bot = 0) {

return 403;

}

3. 🔍 Фільтрація в Google Analytics

Google Analytics має вбудований фільтр ботів, але він не ідеальний.

👉 Як увімкнути:

  1. Відкрийте Google Analytics
  2. Admin → View Settings
  3. Увімкніть "Bot Filtering" (Exclude all hits from known bots and spiders)

⚠️ Але це не відфільтрує всіх ботів! Рекомендую додатково створити сегмент:

  • Audience → Add Segment → New Segment
  • Technology → Network Domain → exclude: amazonaws.com, digitalocean.com, alibaba.com

4. 🧮 Middleware у бекенді (PHP/Node.js/Python)

Для повного контролю я додаю перевірку безпосередньо в код.

Приклад на PHP:

function isBot() {

$user_agent = $_SERVER['HTTP_USER_AGENT'] ?? '';

$ip = $_SERVER['REMOTE_ADDR'];

// Перевірка User-Agent

$bot_patterns = ['python', 'curl', 'wget', 'scrapy', 'bot'];

foreach ($bot_patterns as $pattern) {

if (stripos($user_agent, $pattern) !== false) {

return true;

}

}

// Перевірка IP через API (наприклад, ipinfo.io)

$ip_info = json_decode(file_get_contents("https://ipinfo.io/{$ip}/json"), true);

if (isset($ip_info['org']) && stripos($ip_info['org'], 'hosting') !== false) {

return true;

}

return false;

}

if (isBot()) {

http_response_code(403);

die('Access denied');

}

💡 Порада: Не блокуйте відразу всіх підозрілих ботів. Спочатку логуйте їхні запити впродовж тижня, аналізуйте, а потім вже блокуйте. Інаке ризикуєте заблокувати легітимний трафік.

Googlebot який маскується: навіщо і як це перевірити

Часто у логах можна побачити запити з User-Agent "Googlebot", але IP-адреса виглядає підозріло. Це може бути:

  • Справжній Googlebot
  • Бот, який видає себе за Googlebot
  • Google Web Rendering Service (для JavaScript-сайтів)

Як Google рендерить сторінки

Google використовує двоетапне сканування:

  1. Googlebot — завантажує HTML
  2. Web Rendering Service — виконує JavaScript, рендерить сторінку

Web Rendering Service може заходити з інших IP-адрес, що виглядає підозріло.

Як перевірити справжній Googlebot

Google рекомендує використовувати зворотну DNS-перевірку.

Крок 1: Виконайте host команду для IP:

host 66.249.66.1

Результат має бути:

1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com

Крок 2: Перевірте зворотну відповідність:

host crawl-66-249-66-1.googlebot.com

Результат має повернути оригінальну IP:

crawl-66-249-66-1.googlebot.com has address 66.249.66.1

✅ Якщо обидві команди підтверджують домен googlebot.com або google.com — це справжній Googlebot.

❌ Якщо домен не містить googlebot.com — це фейковий бот!

Верифіковані домени Google

Справжні боти Google використовують лише ці домени:

  • googlebot.com
  • google.com
  • googleusercontent.com (для Web Rendering Service)

⚡ Наприклад: Я бачив випадок, коли бот заходив з IP китайського датацентру, але User-Agent був "Googlebot". Перевірка через host показала, що домен — alibaba.com. Це був фейк, який намагався обійти блокування.

Коли Google перевіряє рендеринг

Web Rendering Service активується в таких випадках:

  • Сайт інтенсивно використовує JavaScript (React, Vue, Angular)
  • Контент підвантажується динамічно (AJAX-запити)
  • Google перевіряє Core Web Vitals
  • Сайт щойно запущений або оновлений

👉 Як виглядає в логах:

User-Agent: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.6099.109 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

⚠️ Важливо: Не блокуйте Web Rendering Service! Якщо Google не зможе відрендерити вашу сторінку, це негативно вплине на позиції в пошуку.

Мій досвід

За 8 років роботи з технічним SEO я стикався з безліччю цікавих кейсів, пов'язаних з ботами. Розповім про найяскравіші.

Кейс 1: Інтернет-магазин втратив 40% трафіку через блокування Googlebot

Клієнт скаржився, що трафік з Google впав на 40% за місяць. Причина була в тому, що системний адміністратор налаштував Cloudflare і заблокував ВСІ запити з User-Agent "bot".

⚡ Результат:

  • Googlebot не міг сканувати сайт
  • Нові сторінки не індексувалися
  • Позиції падали

Після виправлення правил та повторного запиту на індексацію через Search Console, трафік відновився за 3 тижні.

💡 Урок: Завжди перевіряйте, чи не блокуєте ви легітимних ботів. Використовуйте Search Console → Settings → Crawl Stats для моніторингу.

Кейс 2: Китайські парсери завантажували сервер на 80%

Сайт новин про технології отримував 100 000+ запитів на день з IP-адрес Tencent Cloud та Alibaba Cloud. Парсери копіювали статті і публікували на китайських сайтах без посилань.

⚡ Що я зробив:

  1. Проаналізував логи Nginx за тиждень
  2. Виявив топ-20 ASN (автономних систем), звідки йшов трафік
  3. Налаштував Cloudflare Firewall для блокування цих ASN
  4. Додав rate limiting: не більше 20 запитів на хвилину з одного IP

⚡ Результати через 2 тижні:

  • Навантаження на сервер знизилось на 65%
  • Витрати на хостинг впали на 120$/місяць
  • Швидкість сайту зросла з 2.3с до 1.1с
  • Легітимний трафік НЕ постраждав

Кейс 3: Shodan шукав вразливості кожен день

Один з моїх клієнтів (фінтех-стартап) отримував щоденні сканування від Shodan. Це не завдавало шкоди, але створювало зайві записи в логах та тривожило команду безпеки.

⚡ Рішення:

  • Додав IP-адреси Shodan (198.20.69.0/24, 198.20.70.0/24) у deny-лист Nginx
  • Залишив відкритим доступ лише до robots.txt
  • Налаштував алерти, якщо хтось намагається сканувати порти

💡 Моя порада: Shodan — це пошуковик для хакерів. Якщо ви не хочете, щоб ваш сайт був у його базі, блокуйте його IP або використовуйте CloudFlare з увімкненою опцією "Bot Fight Mode".

Кейс 4: AhrefsBot створював 500+ запитів на годину

Сайт-каталог з 50 000 сторінок отримував агресивне сканування від AhrefsBot. Це сповільнювало сайт для реальних користувачів.

⚡ Що я зробив:

  • Не заблокував повністю (AhrefsBot корисний для SEO-аналітики)
  • Додав у robots.txt обмеження швидкості:

User-agent: AhrefsBot

Crawl-delay: 10

Це обмежило сканування до 6 сторінок на хвилину замість 50+.

⚡ Результат: Навантаження на сервер знизилось, а сайт залишився в базі Ahrefs для аналітики конкурентів.

💯 За мій досвід, правильна фільтрація ботів економить до 30-50% ресурсів сервера і покращує точність аналітики на 40-60%. Це критично важливо для масштабованих проєктів.

Поради для вебмайстрів

Підсумую свій досвід у вигляді практичних порад, які ви можете застосувати вже сьогодні.

✅ Що ПОТРІБНО робити

  1. Дозволяйте пошуковим ботам

    • Ніколи не блокуйте Googlebot, Bingbot, YandexBot
    • Перевіряйте Search Console на помилки сканування
    • Налаштуйте Crawl-delay у robots.txt для агресивних ботів

  2. Створіть Allow-list легітимних ботів

    • Пошукові системи: Google, Bing, Yandex, DuckDuckGo
    • SEO-інструменти: Ahrefs, Semrush, Moz (з обмеженням)
    • Uptime-монітори: UptimeRobot, Pingdom, GTmetrix
    • Соцмережі: Facebook, Twitter, LinkedIn (для preview)

  3. Моніторте логи регулярно

    • Щотижня переглядайте топ-20 User-Agent
    • Перевіряйте ASN та організації-власники IP
    • Аналізуйте частоту запитів від різних джерел

  4. Використовуйте rate limiting

    • Cloudflare Rate Limiting: не більше 100 запитів на 10 хвилин
    • Nginx limit_req_zone для захисту від DDoS
    • Блокування після перевищення ліміту на 1 годину

  5. Налаштуйте алерти

    • Сповіщення при різкому зростанні трафіку
    • Алерти при блокуванні Googlebot
    • Моніторинг навантаження на сервер

❌ Чого НЕ ПОТРІБНО робити

  1. Не блокуйте всіх ботів підряд

    Це може призвести до деіндексації сайту або втрати в SEO-інструментах.

  2. Не довіряйте лише User-Agent

    Його легко підробити. Завжди перевіряйте IP-адресу.

  3. Не ігноруйте легітимні SEO-боти

    Ahrefs, Semrush допомагають відстежувати позиції та бекліннки. Краще обмежити швидкість, ніж блокувати.

  4. Не блокуйте цілі країни без аналізу

    Ви можете втратити потенційних клієнтів. Блокуйте конкретні датацентри (ASN), а не країни.

  5. Не забувайте про false positives

    Інколи реальні користувачі можуть використовувати VPN або корпоративні мережі, які виглядають як датацентри.

🎯 Як створити власний Allow-list ботів

Я рекомендую використовувати підхід "заборонити все, дозволити вибране".

Приклад конфігурації Cloudflare:

  1. Створіть правило: заблокувати всіх ботів

    (cf.client.bot) - Challenge

  2. Додайте виняток для верифікованих ботів

    (cf.verified_bot) - Allow

  3. Додайте виняток для конкретних ASN (якщо потрібно)

    (ip.geoip.asnum eq 15169) - Allow

    (15169 — це ASN Google)

⚖️ Як балансувати між безпекою та SEO

Основний принцип: захищайте сайт, але не шкодьте SEO.

  • Для пошукових ботів: повний доступ, без обмежень
  • Для SEO-інструментів: дозволити, але з Crawl-delay
  • Для парсерів: блокувати або додати captcha
  • Для невідомих ботів: challenge (перевірка JavaScript)

💡 Goldfish principle: Якщо не впевнені, що це шкідливий бот — не блокуйте одразу. Логуйте, аналізуйте, а потім приймайте рішення.

Часто задавані питання (FAQ)

Чи можна довіряти GeoIP?

Ні, не завжди. GeoIP визначає розташування IP-адреси, але для датацентрів це може бути неточно.

⚡ Наприклад: Googlebot часто показує "Mountain View, California", але також може показувати інші локації, тому що Google використовує розподілені дата-центри по всьому світу. Я бачив Googlebot з геолокацією "Kyiv, Ukraine", але це був легітимний бот з американського IP.

Висновок: Використовуйте GeoIP як додатковий індикатор, але не як основний критерій для блокування.

Чому Googlebot показує "Kyiv", хоча це США?

Це відбувається з двох причин:

  1. GeoIP база застаріла — сервіси типу MaxMind оновлюють дані раз на місяць
  2. Google використовує проксі-сервери — для рендерингу сторінок може використовуватись локальна інфраструктура

Рішення: перевіряйте через команду host (зворотний DNS), а не через GeoIP.

Як відрізнити Good Bot від Bad Bot?

Основні критерії:

КритерійGood BotBad Bot
User-AgentЧітко вказує назву (Googlebot, AhrefsBot)Підроблений або загальний (Python, curl)
IP-адресаНалежить офіційній компанії (Google LLC)Датацентри (Alibaba, Tencent)
ПоведінкаДотримується robots.txt, Crawl-delayІгнорує правила, створює 100+ запитів/хв
МетаІндексація, аналітика, моніторингКрадіжка контенту, пошук вразливостей
ДокументаціяЄ офіційний сайт та документаціяНемає інформації про бота

Чи потрібно блокувати AhrefsBot та SemrushBot?

Ні, але можна обмежити швидкість.

Ці боти корисні для:

  • Відстеження позицій сайту
  • Аналізу бекліннків
  • Моніторингу конкурентів

Рекомендую додати у robots.txt:

User-agent: AhrefsBot

Crawl-delay: 10

User-agent: SemrushBot

Crawl-delay: 10

Що робити, якщо бот підробляє Googlebot?

Перевірте через зворотний DNS:

host [IP-адреса]

Якщо результат НЕ містить googlebot.com або google.com — це фейк. Заблокуйте цю IP-адресу.

Скільки ботів нормально для сайту?

Залежить від розміру сайту:

  • Малий сайт (до 100 сторінок): 10-20% трафіку від ботів
  • Середній (100-10 000 сторінок): 20-40%
  • Великий (10 000+ сторінок): 40-60%

Якщо більше 60% — варто перевірити логи на наявність шкідливих ботів.

Як боти впливають на Core Web Vitals?

Боти НЕ впливають на Core Web Vitals, тому що Google вимірює метрики лише для реальних користувачів через Chrome User Experience Report (CrUX).

Але боти можуть:

  • Перевантажити сервер → сповільнити сайт для реальних людей
  • Спотворити аналітику → ви будете бачити неправильні дані про швидкість

📚 Так само читайте:

Core Web Vitals: Три Кити Вашої Конверсії

Чи можна блокувати ботів через .htaccess?

Так, але це застарілий метод. Краще використовувати Cloudflare або Nginx.

Приклад для .htaccess:

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (python|curl|wget) [NC]

RewriteRule .* - [F,L]

⚠️ Проблема: .htaccess працює повільніше, ніж фільтрація на рівні CDN або веб-сервера.

Висновки

Відрізнити бота від реального користувача — це не просто технічна задача. Це важлива частина технічного SEO, безпеки та оптимізації ресурсів.

🎯 Ключові висновки:

  • Люди = поведінка, кліки, час на сторінці. Справжні користувачі скролять, читають, взаємодіють з контентом.
  • Боти = патерни, швидкість, датацентри. Вони заходять з хмарних хостингів, мають підозрілий User-Agent та нульовий час на сторінці.
  • Не всі боти шкідливі. Googlebot, Bingbot, AhrefsBot — це корисні боти для SEO.
  • Перевіряйте IP + User-Agent + поведінку. Жодна ознака окремо не дає 100% гарантії.
  • Автоматизуйте фільтрацію. Використовуйте Cloudflare, Nginx або middleware у коді.
  • Моніторте логи регулярно. Щотижня аналізуйте топ-20 джерел трафіку.

💯 За моїм досвідом, правильна фільтрація ботів може знизити навантаження на сервер на 40-70%, покращити точність аналітики на 50% та заощадити до 30% витрат на хостинг.

Інтелектуальне відстеження ботів — це не просто технічна деталь. Це фундамент для:

  • Точної веб-аналітики
  • Ефективного SEO
  • Захисту контенту
  • Оптимізації витрат

Готові замовити послугу?

Якщо ви хочете:

  • ✅ Провести аудит трафіку та виявити шкідливих ботів
  • ✅ Налаштувати автоматичну фільтрацію на Cloudflare/Nginx
  • ✅ Оптимізувати сервер та знизити витрати на хостинг
  • ✅ Покращити точність Google Analytics
  • ✅ Захистити контент від парсерів

Дякую за увагу! Якщо у вас залишились питання — пишіть, з радістю відповім. 👋

Цю статтю підготував наш провідний Java-Back-End розробник — Вадим Харов'юк.