Які технічні ознаки вказують на бота?

Боти часто використовують однакові user-agent, IP-адреси, заходять на сайт із підозрілих геолокацій, не завантажують всі сторінки повністю, імітують швидкі однотипні переходи або генерують аномально багато дій за короткий проміжок часу.

Як відрізнити поведінку бота від людини?

Користувач здійснює різноманітні й логічні дії — читає статті, переходить за посиланнями, заповнює форми та проводить на сайті більше часу, тоді як бот часто залишає сторінку одразу або повторює ті ж самі дії багато разів поспіль.

Чи впливають захисні механізми на виявлення ботів?

Так, впровадження CAPTCHA, валідації поведінки (mouse movement, scroll), перевірки cookies, аналізу fingerprint браузера допомагає ефективно фільтрувати більшість ботів.

Чому важливо відрізняти ботів від реальних відвідувачів?

Коректна ідентифікація захищає сайт від атак, нечесної конкуренції, викривлення аналітики та втрати рекламного бюджету через клік-фрод чи накрутку.

Як відрізнити бота від реального користувача: повний гайд

🧭 Як відрізнити бота від реального користувача: повний гайд з прикладами логів та IP

Уявіть ситуацію: ви відкриваете Google Analytics, бачите 10 000 візитів за день і радієте зростанню трафіку. Але конверсій немає. Замовлень немає. Форми не заповнюються. Чому? Тому що 60-70% вашого трафіку — це боти, які спотворюють всю статистику.

Я працюю з веб-аналітикою понад 8 років і регулярно стикаюся з ситуаціями, коли власники бізнесу впевнені у зростанні відвідуваності, але насправді їхні сервери атакують парсери, сканери та фейкові боти. У цій статті я детально розповім, як відрізнити справжнього користувача від бота, покажу реальні приклади з логів та навчу налаштовувати автоматичну фільтрацію.

📚 Так само читайте:

Чому боти сканують ваш сайт 24/7: неминуча реальність інтернету

⸻

Зміст статті:

Чому важливо розуміти, хто відвідує ваш сайт

Хто такі боти: види і цілі

Як відрізнити бота від людини: 5 основних ознак

Реальні приклади з логів серверів

Як автоматично фільтрувати ботів

Googlebot який маскується: як перевірити

Мій досвід

Поради для вебмайстрів

Часто задавані питання (FAQ)

Висновки

⸻

Чому важливо розуміти, хто відвідує ваш сайт

Боти можуть серйозно спотворити вашу аналітику та бізнес-метрики. Ось що відбувається, коли ви не відстежуєте ботів:

CTR падає — Google Analytics показує тисячі візитів, але кліків по кнопках немає

Час на сторінці = 0 секунд — середня тривалість сесії штучно знижується

Показник відмов зростає — боти заходять на одну сторінку і зникають

Сервер перевантажується — агресивні сканери створюють сотні запитів за хвилину

Витрати на хостинг ростуть — трафік є, але користі немає

⚡ Наприклад: один мій клієнт бачив 50 000 візитів на місяць, але лише 200 реальних замовлень. Після аналізу логів виявилося, що 35 000 візитів — це китайські парсери, які копіювали опис товарів. Після блокування цих IP навантаження на сервер знизилось на 60%, а швидкість сайту зросла.

💡 Розуміння того, хто насправді відвідує ваш сайт — це основа технічного SEO та веб-безпеки. Без цього ви приймаєте рішення на основі хибних даних.

⸻

Хто такі боти: види і цілі

Не всі боти шкідливі. Існують "хороші боти" (Good Bots), які допомагають вашому сайту, та "погані боти" (Bad Bots), які крадуть контент або створюють навантаження.

Класифікація ботів за призначенням

1. Пошукові боти (Search Engine Crawlers)

Googlebot — індексує сайт для Google

Bingbot — для пошукової системи Bing

YandexBot — для Яндекс

DuckDuckBot — для DuckDuckGo

✅ Ці боти потрібні для SEO. Блокувати їх не можна.

2. SEO та аналітичні боти

AhrefsBot — збирає дані для платформи Ahrefs

SemrushBot — аналіз конкурентів

MJ12bot (Majestic) — аналіз зворотних посилань

DotBot (Moz) — SEO-метрики

⚠️ Можна обмежити частоту сканування, але повністю блокувати не варто.

3. Сканери безпеки

Shodan — пошуковик для IoT пристроїв та серверів

Censys — картографування інтернету

Nmap — сканування портів

⚠️ Можуть бути легітимними, але часто використовуються хакерами.

4. Парсери контенту (Content Scrapers)

Невідомі боти з Китаю, Індії, Росії

Копіюють тексти, ціни, зображення

Часто маскуються під звичайних користувачів

❌ Рекомендую блокувати повністю.

5. Uptime-монітори та технічні перевірки

UptimeRobot — перевіряє доступність сайту

Pingdom — моніторинг швидкості

GTmetrix — аналіз продуктивності

✅ Корисні сервіси, блокувати не потрібно.

Порівняльна таблиця типів ботів

Тип бота	Мета	Частота заходів	Як виглядає в логах
Googlebot	Індексація контенту	Кілька разів на день	User-Agent: Googlebot/2.1 IP: 66.249.. (Google LLC)
AhrefsBot	SEO-аналітика	10-50 запитів на годину	User-Agent: AhrefsBot/7.0 IP: датацентри AWS
Shodan	Сканування портів	Раз на тиждень	User-Agent: Mozilla/5.0 (compatible; Shodan) IP: різні країни
Парсер контенту	Крадіжка даних	Сотні разів за день	User-Agent: Python-requests IP: Tencent, Alibaba Cloud
UptimeRobot	Моніторинг	Кожні 5 хвилин	User-Agent: UptimeRobot/2.0 IP: статичні IP сервісу

⸻

Як відрізнити бота від людини: 5 основних ознак

Я використовую комплексний підхід для ідентифікації ботів. Жодна ознака сама по собі не дає 100% гарантії, але комбінація з 3-4 ознак дає точність понад 95%.

1. 🌍 IP-адреса: датацентр чи провайдер зв'язку?

Перша та найважливіша ознака — звідки прийшов запит. Реальні користувачі підключаються через мобільних операторів або домашній інтернет. Боти — з датацентрів.

👉 Приклади IP-адрес справжніх користувачів:

Vodafone Ukraine — 91.*.*.* (мобільний оператор)

Kyivstar — 93.*.*.* (мобільний)

Ukrtelecom — 109.*.*.* (домашній інтернет)

Turkcell — 88.*.*.* (Туреччина, мобільний)

👉 Приклади IP-адрес ботів:

DigitalOcean — 167.*.*.* (хмарний хостинг)

Amazon AWS — 3.*.*.*, 54.*.*.* (датацентри)

Tencent Cloud — 43.*.*.* (Китай, хмарні сервери)

Alibaba Cloud — 47.*.*.* (датацентри)

OVH — 51.*.*.* (Франція, хостинг)

⚡ Як перевірити: Використовуйте сервіси ipinfo.io або abuseipdb.com. Вони показують ASN (номер автономної системи) та організацію-власника IP.

2. 🧠 User-Agent: реальний чи підроблений?

User-Agent — це рядок, який браузер або бот відправляє серверу для ідентифікації. Реальні браузери мають складний та послідовний User-Agent.

👉 Приклад справжнього User-Agent (Chrome на Android):

Mozilla/5.0 (Linux; Android 13; SM-G998B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Mobile Safari/537.36

👉 Приклад User-Agent бота:

Python-requests/2.28.1

curl/7.68.0

Go-http-client/1.1

⚠️ Важливо: Деякі боти підробляють User-Agent під звичайний браузер. Наприклад:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36

Але якщо цей User-Agent приходить з IP-адреси Alibaba Cloud — це точно бот!

3. 🕒 Час на сторінці та поведінка

Реальна людина проводить на сторінці від 10 секунд до кількох хвилин. Бот відкриває сторінку, завантажує HTML та миттєво йде далі.

Ознаки бота:

Час на сторінці = 0-2 секунди

Немає скролінгу

Немає кліків по елементах

Лінійний обхід сторінок: page1 → page2 → page3 (без повернень)

Швидкість переходів: 10-20 сторінок за хвилину

✅ Реальний користувач: скролить, натискає кнопки, читає текст, повертається назад.

4. 🔁 Referer: джерело переходу

Referer (HTTP Referer) показує, звідки користувач перейшов на сайт. Реальні люди приходять з Google, соцмереж, реклами.

👉 Приклади легітимних Referer:

https://www.google.com/

https://www.facebook.com/

https://t.me/

Прямий вхід (без referer) — користувач ввів URL вручну

⚠️ Підозрілі Referer:

Порожній Referer при масових заходах

Фейковий Referer типу "http://google.com" (без https)

Спамні домени

5. ⚙️ HTTP-заголовки та відсутність Cookie

Реальні браузери відправляють багато додаткових заголовків:

Accept-Language: uk-UA,uk;q=0.9,en;q=0.8

Accept-Encoding: gzip, deflate, br

Cookie: session_id=xyz123

Connection: keep-alive

Боти часто пропускають ці заголовки або відправляють мінімальний набір. Також боти не зберігають cookies між запитами.

💡 Секрет від професіонала: Я завжди перевіряю комбінацію IP + User-Agent + поведінку. Якщо IP з датацентру, User-Agent підозрілий, а час на сторінці 0 секунд — це 100% бот.

⸻

Реальні приклади з логів серверів

Тут я покажу фрагменти реальних логів (з анонімізацією чутливих даних) та поясню, як розпізнати бота.

Приклад 1: Справжній користувач з України


91.XXX.XXX.142 - - [09/Oct/2025:14:23:45 +0300] "GET /blog/seo-tips HTTP/1.1" 200 15234
Referer: https://www.google.com/
User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 17_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.1 Mobile/15E148 Safari/604.1
Accept-Language: uk-UA,uk;q=0.9

✅ Аналіз:

IP 91.*.*.* — Vodafone Ukraine (мобільний оператор)

User-Agent — реальний iPhone з Safari

Referer — Google (природний трафік)

Accept-Language — українська мова

Висновок: Це реальний користувач.

Приклад 2: Googlebot (легітимний бот)


66.249.XXX.12 - - [09/Oct/2025:14:25:10 +0300] "GET /sitemap.xml HTTP/1.1" 200 8932
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

✅ Аналіз:

IP 66.249.*.* — належить Google LLC

User-Agent — чітко вказує Googlebot

Запит до sitemap.xml — типова поведінка пошукового бота

Висновок: Це офіційний Googlebot. Блокувати не можна!

Приклад 3: Парсер контенту (шкідливий бот)

43.XXX.XXX.89 - - [09/Oct/2025:14:27:33 +0300] "GET /products/item-123 HTTP/1.1" 200 12456

User-Agent: Python-requests/2.28.1

Referer: -

Accept-Language: -

❌ Аналіз:

IP 43.*.*.* — Tencent Cloud (Китай, датацентр)

User-Agent — Python-requests (бібліотека для скриптів)

Немає Referer

Немає Accept-Language

Висновок: Це бот-парсер, який копіює дані товарів. Блокуємо!

Приклад 4: Бот під маскуванням


167.XXX.XXX.201 - - [09/Oct/2025:14:30:15 +0300] "GET / HTTP/1.1" 200 45123
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Referer: -
Connection: close

⚠️ Аналіз:

IP 167.*.*.* — DigitalOcean (хмарний хостинг, датацентр)

User-Agent — виглядає як Chrome на Windows

Але: немає Referer, Connection: close (бот закриває з'єднання після кожного запиту)

IP з датацентру, а не від провайдера

Висновок: Це бот, який намагається видати себе за браузер. Підозрілий трафік.

⚡ Наприклад: За мій досвід, близько 30% ботів використовують підроблений User-Agent. Тому завжди перевіряйте IP-адресу через сервіси whois або ipinfo.

⸻

Як автоматично фільтрувати ботів

Вручну аналізувати кожен запит нереально, коли у вас тисячі відвідувачів щодня. Я використовую автоматизацію на різних рівнях.

1. 🔧 Cloudflare Firewall Rules

Cloudflare — найпростіший спосіб фільтрації ботів на рівні CDN. Ви можете налаштувати правила без доступу до сервера.

👉 Приклади правил:

Блокування за ASN (автономною системою):

(ip.geoip.asnum in {45090 132203 37963}) - Block

Це заблокує трафік з Tencent Cloud, Alibaba Cloud та інших підозрілих датацентрів.

Блокування за User-Agent:

(http.user_agent contains "python" or http.user_agent contains "curl") - Block

Блокування за країною (якщо ви не працюєте в Китаї):

(ip.geoip.country eq "CN") - Challenge or Block

Дозвіл лише легітимним ботам:

(cf.client.bot and not cf.verified_bot) - Block

Це блокує всіх ботів, крім верифікованих (Googlebot, Bingbot тощо).

2. ⚙️ Налаштування в Nginx

Якщо ви користуєтесь Nginx, можна блокувати ботів через конфігураційний файл.

Блокування за User-Agent:


if ($http_user_agent ~* (python|curl|wget|scrapy)) {
return 403;
}

Блокування конкретних IP-діапазонів:


deny 43.0.0.0/8;
deny 47.0.0.0/8;

Створення whitelist для легітимних ботів:


if ($http_user_agent ~* (googlebot|bingbot|yandex)) {
set $allowed_bot 1;
}
if ($allowed_bot = 0) {
return 403;
}

3. 🔍 Фільтрація в Google Analytics

Google Analytics має вбудований фільтр ботів, але він не ідеальний.

👉 Як увімкнути:

Відкрийте Google Analytics

Admin → View Settings

Увімкніть "Bot Filtering" (Exclude all hits from known bots and spiders)

⚠️ Але це не відфільтрує всіх ботів! Рекомендую додатково створити сегмент:

Audience → Add Segment → New Segment

Technology → Network Domain → exclude: amazonaws.com, digitalocean.com, alibaba.com

4. 🧮 Middleware у бекенді (PHP/Node.js/Python)

Для повного контролю я додаю перевірку безпосередньо в код.

Приклад на PHP:


function isBot() {
$user_agent = $_SERVER['HTTP_USER_AGENT'] ?? '';
$ip = $_SERVER['REMOTE_ADDR'];
// Перевірка User-Agent
$bot_patterns = ['python', 'curl', 'wget', 'scrapy', 'bot'];
foreach ($bot_patterns as $pattern) {
if (stripos($user_agent, $pattern) !== false) {
return true;
}
}
// Перевірка IP через API (наприклад, ipinfo.io)
$ip_info = json_decode(file_get_contents("https://ipinfo.io/{$ip}/json"), true);
if (isset($ip_info['org']) && stripos($ip_info['org'], 'hosting') !== false) {
return true;
}
return false;
}
if (isBot()) {
http_response_code(403);
die('Access denied');
}

💡 Порада: Не блокуйте відразу всіх підозрілих ботів. Спочатку логуйте їхні запити впродовж тижня, аналізуйте, а потім вже блокуйте. Інаке ризикуєте заблокувати легітимний трафік.

Хочете сайт, який працює так само швидко?

Дізнатися про наші послуги

WebCraft портфоліо

FAQ - Поширені питання

Замовити безкоштовну 15-хв консультацію

⸻

Googlebot який маскується: навіщо і як це перевірити

Часто у логах можна побачити запити з User-Agent "Googlebot", але IP-адреса виглядає підозріло. Це може бути:

Справжній Googlebot

Бот, який видає себе за Googlebot

Google Web Rendering Service (для JavaScript-сайтів)

Як Google рендерить сторінки

Google використовує двоетапне сканування:

Googlebot — завантажує HTML

Web Rendering Service — виконує JavaScript, рендерить сторінку

Web Rendering Service може заходити з інших IP-адрес, що виглядає підозріло.

Як перевірити справжній Googlebot

Google рекомендує використовувати зворотну DNS-перевірку.

Крок 1: Виконайте host команду для IP:

host 66.249.66.1

Результат має бути:

1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com

Крок 2: Перевірте зворотну відповідність:

host crawl-66-249-66-1.googlebot.com

Результат має повернути оригінальну IP:

crawl-66-249-66-1.googlebot.com has address 66.249.66.1

✅ Якщо обидві команди підтверджують домен googlebot.com або google.com — це справжній Googlebot.

❌ Якщо домен не містить googlebot.com — це фейковий бот!

Верифіковані домени Google

Справжні боти Google використовують лише ці домени:

googlebot.com

google.com

googleusercontent.com (для Web Rendering Service)

⚡ Наприклад: Я бачив випадок, коли бот заходив з IP китайського датацентру, але User-Agent був "Googlebot". Перевірка через host показала, що домен — alibaba.com. Це був фейк, який намагався обійти блокування.

Коли Google перевіряє рендеринг

Web Rendering Service активується в таких випадках:

Сайт інтенсивно використовує JavaScript (React, Vue, Angular)

Контент підвантажується динамічно (AJAX-запити)

Google перевіряє Core Web Vitals

Сайт щойно запущений або оновлений

👉 Як виглядає в логах:


User-Agent: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.6099.109 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

⚠️ Важливо: Не блокуйте Web Rendering Service! Якщо Google не зможе відрендерити вашу сторінку, це негативно вплине на позиції в пошуку.

⸻

Мій досвід

За 8 років роботи з технічним SEO я стикався з безліччю цікавих кейсів, пов'язаних з ботами. Розповім про найяскравіші.

Кейс 1: Інтернет-магазин втратив 40% трафіку через блокування Googlebot

Клієнт скаржився, що трафік з Google впав на 40% за місяць. Причина була в тому, що системний адміністратор налаштував Cloudflare і заблокував ВСІ запити з User-Agent "bot".

⚡ Результат:

Googlebot не міг сканувати сайт

Нові сторінки не індексувалися

Позиції падали

Після виправлення правил та повторного запиту на індексацію через Search Console, трафік відновився за 3 тижні.

💡 Урок: Завжди перевіряйте, чи не блокуєте ви легітимних ботів. Використовуйте Search Console → Settings → Crawl Stats для моніторингу.

Кейс 2: Китайські парсери завантажували сервер на 80%

Сайт новин про технології отримував 100 000+ запитів на день з IP-адрес Tencent Cloud та Alibaba Cloud. Парсери копіювали статті і публікували на китайських сайтах без посилань.

⚡ Що я зробив:

Проаналізував логи Nginx за тиждень

Виявив топ-20 ASN (автономних систем), звідки йшов трафік

Налаштував Cloudflare Firewall для блокування цих ASN

Додав rate limiting: не більше 20 запитів на хвилину з одного IP

⚡ Результати через 2 тижні:

Навантаження на сервер знизилось на 65%

Витрати на хостинг впали на 120$/місяць

Швидкість сайту зросла з 2.3с до 1.1с

Легітимний трафік НЕ постраждав

Кейс 3: Shodan шукав вразливості кожен день

Один з моїх клієнтів (фінтех-стартап) отримував щоденні сканування від Shodan. Це не завдавало шкоди, але створювало зайві записи в логах та тривожило команду безпеки.

⚡ Рішення:

Додав IP-адреси Shodan (198.20.69.0/24, 198.20.70.0/24) у deny-лист Nginx

Залишив відкритим доступ лише до robots.txt

Налаштував алерти, якщо хтось намагається сканувати порти

💡 Моя порада: Shodan — це пошуковик для хакерів. Якщо ви не хочете, щоб ваш сайт був у його базі, блокуйте його IP або використовуйте CloudFlare з увімкненою опцією "Bot Fight Mode".

Кейс 4: AhrefsBot створював 500+ запитів на годину

Сайт-каталог з 50 000 сторінок отримував агресивне сканування від AhrefsBot. Це сповільнювало сайт для реальних користувачів.

⚡ Що я зробив:

Не заблокував повністю (AhrefsBot корисний для SEO-аналітики)

Додав у robots.txt обмеження швидкості:

User-agent: AhrefsBot

Crawl-delay: 10

Це обмежило сканування до 6 сторінок на хвилину замість 50+.

⚡ Результат: Навантаження на сервер знизилось, а сайт залишився в базі Ahrefs для аналітики конкурентів.

💯 За мій досвід, правильна фільтрація ботів економить до 30-50% ресурсів сервера і покращує точність аналітики на 40-60%. Це критично важливо для масштабованих проєктів.

⸻

Поради для вебмайстрів

Підсумую свій досвід у вигляді практичних порад, які ви можете застосувати вже сьогодні.

✅ Що ПОТРІБНО робити

Дозволяйте пошуковим ботам
- Ніколи не блокуйте Googlebot, Bingbot, YandexBot
- Перевіряйте Search Console на помилки сканування
- Налаштуйте Crawl-delay у robots.txt для агресивних ботів

Створіть Allow-list легітимних ботів
- Пошукові системи: Google, Bing, Yandex, DuckDuckGo
- SEO-інструменти: Ahrefs, Semrush, Moz (з обмеженням)
- Uptime-монітори: UptimeRobot, Pingdom, GTmetrix
- Соцмережі: Facebook, Twitter, LinkedIn (для preview)

Моніторте логи регулярно
- Щотижня переглядайте топ-20 User-Agent
- Перевіряйте ASN та організації-власники IP
- Аналізуйте частоту запитів від різних джерел

Використовуйте rate limiting
- Cloudflare Rate Limiting: не більше 100 запитів на 10 хвилин
- Nginx limit_req_zone для захисту від DDoS
- Блокування після перевищення ліміту на 1 годину

Налаштуйте алерти
- Сповіщення при різкому зростанні трафіку
- Алерти при блокуванні Googlebot
- Моніторинг навантаження на сервер

❌ Чого НЕ ПОТРІБНО робити

Не блокуйте всіх ботів підряд
Це може призвести до деіндексації сайту або втрати в SEO-інструментах.

Не довіряйте лише User-Agent
Його легко підробити. Завжди перевіряйте IP-адресу.

Не ігноруйте легітимні SEO-боти
Ahrefs, Semrush допомагають відстежувати позиції та бекліннки. Краще обмежити швидкість, ніж блокувати.

Не блокуйте цілі країни без аналізу
Ви можете втратити потенційних клієнтів. Блокуйте конкретні датацентри (ASN), а не країни.

Не забувайте про false positives
Інколи реальні користувачі можуть використовувати VPN або корпоративні мережі, які виглядають як датацентри.

🎯 Як створити власний Allow-list ботів

Я рекомендую використовувати підхід "заборонити все, дозволити вибране".

Приклад конфігурації Cloudflare:

Створіть правило: заблокувати всіх ботів
```
(cf.client.bot) - Challenge
```

Додайте виняток для верифікованих ботів
```
(cf.verified_bot) - Allow
```

Додайте виняток для конкретних ASN (якщо потрібно)
```
(ip.geoip.asnum eq 15169) - Allow
```
(15169 — це ASN Google)

⚖️ Як балансувати між безпекою та SEO

Основний принцип: захищайте сайт, але не шкодьте SEO.

Для пошукових ботів: повний доступ, без обмежень

Для SEO-інструментів: дозволити, але з Crawl-delay

Для парсерів: блокувати або додати captcha

Для невідомих ботів: challenge (перевірка JavaScript)

💡 Goldfish principle: Якщо не впевнені, що це шкідливий бот — не блокуйте одразу. Логуйте, аналізуйте, а потім приймайте рішення.

⸻

Часто задавані питання (FAQ)

Чи можна довіряти GeoIP?

Ні, не завжди. GeoIP визначає розташування IP-адреси, але для датацентрів це може бути неточно.

⚡ Наприклад: Googlebot часто показує "Mountain View, California", але також може показувати інші локації, тому що Google використовує розподілені дата-центри по всьому світу. Я бачив Googlebot з геолокацією "Kyiv, Ukraine", але це був легітимний бот з американського IP.

Висновок: Використовуйте GeoIP як додатковий індикатор, але не як основний критерій для блокування.

Чому Googlebot показує "Kyiv", хоча це США?

Це відбувається з двох причин:

GeoIP база застаріла — сервіси типу MaxMind оновлюють дані раз на місяць

Google використовує проксі-сервери — для рендерингу сторінок може використовуватись локальна інфраструктура

Рішення: перевіряйте через команду host (зворотний DNS), а не через GeoIP.

Як відрізнити Good Bot від Bad Bot?

Основні критерії:

Критерій	Good Bot	Bad Bot
User-Agent	Чітко вказує назву (Googlebot, AhrefsBot)	Підроблений або загальний (Python, curl)
IP-адреса	Належить офіційній компанії (Google LLC)	Датацентри (Alibaba, Tencent)
Поведінка	Дотримується robots.txt, Crawl-delay	Ігнорує правила, створює 100+ запитів/хв
Мета	Індексація, аналітика, моніторинг	Крадіжка контенту, пошук вразливостей
Документація	Є офіційний сайт та документація	Немає інформації про бота

Чи потрібно блокувати AhrefsBot та SemrushBot?

Ні, але можна обмежити швидкість.

Ці боти корисні для:

Відстеження позицій сайту

Аналізу бекліннків

Моніторингу конкурентів

Рекомендую додати у robots.txt:

User-agent: AhrefsBot

Crawl-delay: 10

User-agent: SemrushBot

Crawl-delay: 10

Що робити, якщо бот підробляє Googlebot?

Перевірте через зворотний DNS:


host [IP-адреса]

Якщо результат НЕ містить googlebot.com або google.com — це фейк. Заблокуйте цю IP-адресу.

Скільки ботів нормально для сайту?

Залежить від розміру сайту:

Малий сайт (до 100 сторінок): 10-20% трафіку від ботів

Середній (100-10 000 сторінок): 20-40%

Великий (10 000+ сторінок): 40-60%

Якщо більше 60% — варто перевірити логи на наявність шкідливих ботів.

Як боти впливають на Core Web Vitals?

Боти НЕ впливають на Core Web Vitals, тому що Google вимірює метрики лише для реальних користувачів через Chrome User Experience Report (CrUX).

Але боти можуть:

Перевантажити сервер → сповільнити сайт для реальних людей

Спотворити аналітику → ви будете бачити неправильні дані про швидкість

📚 Так само читайте:

Core Web Vitals: Три Кити Вашої Конверсії

Чи можна блокувати ботів через .htaccess?

Так, але це застарілий метод. Краще використовувати Cloudflare або Nginx.

Приклад для .htaccess:


RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (python|curl|wget) [NC]
RewriteRule .* - [F,L]

⚠️ Проблема: .htaccess працює повільніше, ніж фільтрація на рівні CDN або веб-сервера.

⸻

Висновки

Відрізнити бота від реального користувача — це не просто технічна задача. Це важлива частина технічного SEO, безпеки та оптимізації ресурсів.

🎯 Ключові висновки:

Люди = поведінка, кліки, час на сторінці. Справжні користувачі скролять, читають, взаємодіють з контентом.

Боти = патерни, швидкість, датацентри. Вони заходять з хмарних хостингів, мають підозрілий User-Agent та нульовий час на сторінці.

Не всі боти шкідливі. Googlebot, Bingbot, AhrefsBot — це корисні боти для SEO.

Перевіряйте IP + User-Agent + поведінку. Жодна ознака окремо не дає 100% гарантії.

Автоматизуйте фільтрацію. Використовуйте Cloudflare, Nginx або middleware у коді.

Моніторте логи регулярно. Щотижня аналізуйте топ-20 джерел трафіку.

💯 За моїм досвідом, правильна фільтрація ботів може знизити навантаження на сервер на 40-70%, покращити точність аналітики на 50% та заощадити до 30% витрат на хостинг.

Інтелектуальне відстеження ботів — це не просто технічна деталь. Це фундамент для:

Точної веб-аналітики

Ефективного SEO

Захисту контенту

Оптимізації витрат

Готові замовити послугу?

Якщо ви хочете:

✅ Провести аудит трафіку та виявити шкідливих ботів

✅ Налаштувати автоматичну фільтрацію на Cloudflare/Nginx

✅ Оптимізувати сервер та знизити витрати на хостинг

✅ Покращити точність Google Analytics

✅ Захистити контент від парсерів

Дізнатися про наші послуги

WebCraft портфоліо

FAQ - Поширені питання

Замовити безкоштовну 15-хв консультацію

⸻

Дякую за увагу! Якщо у вас залишились питання — пишіть, з радістю відповім. 👋

Цю статтю підготував наш провідний Java-Back-End розробник — Вадим Харов'юк.

Категорії

🧭 Як відрізнити бота від реального користувача: повний гайд з прикладами логів та IP

Зміст статті:

Чому важливо розуміти, хто відвідує ваш сайт

Хто такі боти: види і цілі

Класифікація ботів за призначенням

Порівняльна таблиця типів ботів

Читайте також:

Як відрізнити бота від людини: 5 основних ознак

1. 🌍 IP-адреса: датацентр чи провайдер зв'язку?

2. 🧠 User-Agent: реальний чи підроблений?

3. 🕒 Час на сторінці та поведінка

4. 🔁 Referer: джерело переходу

5. ⚙️ HTTP-заголовки та відсутність Cookie

Реальні приклади з логів серверів

Приклад 1: Справжній користувач з України

91.XXX.XXX.142 - - [09/Oct/2025:14:23:45 +0300] "GET /blog/seo-tips HTTP/1.1" 200 15234

Referer: https://www.google.com/

Accept-Language: uk-UA,uk;q=0.9

Приклад 2: Googlebot (легітимний бот)

66.249.XXX.12 - - [09/Oct/2025:14:25:10 +0300] "GET /sitemap.xml HTTP/1.1" 200 8932

Приклад 3: Парсер контенту (шкідливий бот)

43.XXX.XXX.89 - - [09/Oct/2025:14:27:33 +0300] "GET /products/item-123 HTTP/1.1" 200 12456

User-Agent: Python-requests/2.28.1

Referer: -

Accept-Language: -

Приклад 4: Бот під маскуванням

167.XXX.XXX.201 - - [09/Oct/2025:14:30:15 +0300] "GET / HTTP/1.1" 200 45123

Referer: -

Connection: close

Як автоматично фільтрувати ботів

1. 🔧 Cloudflare Firewall Rules

2. ⚙️ Налаштування в Nginx

3. 🔍 Фільтрація в Google Analytics

4. 🧮 Middleware у бекенді (PHP/Node.js/Python)

Хочете сайт, який працює так само швидко?

Googlebot який маскується: навіщо і як це перевірити

Як Google рендерить сторінки

Як перевірити справжній Googlebot

Верифіковані домени Google

Коли Google перевіряє рендеринг

Мій досвід

Кейс 1: Інтернет-магазин втратив 40% трафіку через блокування Googlebot

Кейс 2: Китайські парсери завантажували сервер на 80%

Кейс 3: Shodan шукав вразливості кожен день

Кейс 4: AhrefsBot створював 500+ запитів на годину

User-agent: AhrefsBot

Crawl-delay: 10

Читайте також:

Поради для вебмайстрів

✅ Що ПОТРІБНО робити

❌ Чого НЕ ПОТРІБНО робити

🎯 Як створити власний Allow-list ботів

⚖️ Як балансувати між безпекою та SEO

Часто задавані питання (FAQ)

Чи можна довіряти GeoIP?

Чому Googlebot показує "Kyiv", хоча це США?

Як відрізнити Good Bot від Bad Bot?

Чи потрібно блокувати AhrefsBot та SemrushBot?

User-agent: AhrefsBot

Crawl-delay: 10

User-agent: SemrushBot

Crawl-delay: 10

Що робити, якщо бот підробляє Googlebot?

Скільки ботів нормально для сайту?

Як боти впливають на Core Web Vitals?

Чи можна блокувати ботів через .htaccess?

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (python|curl|wget) [NC]

RewriteRule .* - [F,L]

Висновки

🎯 Ключові висновки:

Готові замовити послугу?

Ключові слова:

📬 Не пропустіть нові статті

Поділитися:

Готові створити сайт під ключ?

Останні статті

GPT-5.1 повний огляд нової моделі ChatGPT

Google Core Update листопад 2025 чому трафік падає, а офіційного оновлення немає