Как запретить доступ к сайту нейросетям
По разным причинам Вас может не устраивать тот факт, что ИИ, нейросети, LLM, генеративные модели (называйте как угодно) используют информацию с Вашего сайта для построения ответа. Возможно, Вам не нравится сам факт заимствования контента на который Вы потратили время, деньги и прочие ресурсы, а компенсацию от нейронок не получили.
Я предлагаю два решения, как можно запретить нейросетям заимствовать контент с сайта. Это можно либо организовать через запрет в .htaccess либо более мягкий вариант через robots.txt. Отмечу, что robots.txt не запрещает, а лишь предлагает следовать инструкциям, но лично я не думаю, что все AI ведут себя честно.
Как заблокировать популярных AI-ботов через .htaccess
# Включаем mod_rewrite
RewriteEngine On
# Блокировка OpenAI (GPTBot)
RewriteCond %{HTTP_USER_AGENT} GPTBot [NC,OR]
# Блокировка Anthropic (ClaudeBot)
RewriteCond %{HTTP_USER_AGENT} ClaudeBot [NC,OR]
# Блокировка Google AI (Google-Extended)
RewriteCond %{HTTP_USER_AGENT} Google-Extended [NC,OR]
# Блокировка Perplexity
RewriteCond %{HTTP_USER_AGENT} PerplexityBot [NC,OR]
# Блокировка CCBot (Common Crawl)
RewriteCond %{HTTP_USER_AGENT} CCBot [NC,OR]
# Блокировка Amazonbot
RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC,OR]
# Блокировка Bytespider (TikTok AI)
RewriteCond %{HTTP_USER_AGENT} Bytespider [NC]
RewriteRule .* - [F,L]
Альтернативный вариант блокировки так же через .htaccess
<IfModule mod_setenvif.c>
SetEnvIfNoCase User-Agent "GPTBot" bad_bot
SetEnvIfNoCase User-Agent "ClaudeBot" bad_bot
SetEnvIfNoCase User-Agent "Google-Extended" bad_bot
SetEnvIfNoCase User-Agent "PerplexityBot" bad_bot
SetEnvIfNoCase User-Agent "CCBot" bad_bot
SetEnvIfNoCase User-Agent "Amazonbot" bad_bot
SetEnvIfNoCase User-Agent "Bytespider" bad_bot
<RequireAll>
Require all granted
Require not env bad_bot
</RequireAll>
</IfModule>
Оба эти варианта запрета через .htaccess рабочие! Обращаю Ваше внимание, что эти конструкции работают если веб-сервер Apache.
Как заблокировать AI-ботов через robots.txt
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Applebot-Extended
Disallow: /
# ===============================
# Разрешаем обычную индексацию
# ===============================
User-agent: *
Allow: /
Sitemap: https://site.ru/sitemap.xml
Еще раз, robots.txt — это рекомендация, а не жёсткая блокировка. Добросовестные боты её соблюдают. Недобросовестные — нет. Это важно всегда держать в голове.
Если Вы уже попали в нейросетевые ответы и приняли меры только сейчас, то знайте, это не удаляет уже раннее собранные данные. Это ограничивает будущее сканирование. Нюанс: Google Search продолжит индексировать сайт (если ты не блокируешь Googlebot), аналогично с Яндексом.
А теперь подведём итог и проясним…
Что именно мы блокируем
| Бот | Для чего используется |
|---|---|
| GPTBot | Сбор данных для OpenAI |
| ClaudeBot | Anthropic (Claude) |
| Google-Extended | Использование данных для AI (не влияет на обычный поиск) |
| PerplexityBot | Perplexity AI |
| CCBot | Common Crawl (база для обучения многих моделей) |
| Amazonbot | Amazon AI |
| Bytespider | ByteDance / TikTok AI |
| Applebot-Extended | AI-обучение Apple |
