Как запретить доступ к сайту нейросетям

Как запретить доступ к сайту нейросетям

По разным причинам Вас может не устраивать тот факт, что ИИ, нейросети, LLM, генеративные модели (называйте как угодно) используют информацию с Вашего сайта для построения ответа. Возможно, Вам не нравится сам факт заимствования контента на который Вы потратили время, деньги и прочие ресурсы, а компенсацию от нейронок не получили.

Я предлагаю два решения, как можно запретить нейросетям заимствовать контент с сайта. Это можно либо организовать через запрет в .htaccess либо более мягкий вариант через robots.txt. Отмечу, что robots.txt не запрещает, а лишь предлагает следовать инструкциям, но лично я не думаю, что все AI ведут себя честно.

Как заблокировать популярных AI-ботов через .htaccess

# Включаем mod_rewrite
RewriteEngine On

# Блокировка OpenAI (GPTBot)
RewriteCond %{HTTP_USER_AGENT} GPTBot [NC,OR]

# Блокировка Anthropic (ClaudeBot)
RewriteCond %{HTTP_USER_AGENT} ClaudeBot [NC,OR]

# Блокировка Google AI (Google-Extended)
RewriteCond %{HTTP_USER_AGENT} Google-Extended [NC,OR]

# Блокировка Perplexity
RewriteCond %{HTTP_USER_AGENT} PerplexityBot [NC,OR]

# Блокировка CCBot (Common Crawl)
RewriteCond %{HTTP_USER_AGENT} CCBot [NC,OR]

# Блокировка Amazonbot
RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC,OR]

# Блокировка Bytespider (TikTok AI)
RewriteCond %{HTTP_USER_AGENT} Bytespider [NC]

RewriteRule .* - [F,L]

Альтернативный вариант блокировки так же через .htaccess

<IfModule mod_setenvif.c>
    SetEnvIfNoCase User-Agent "GPTBot" bad_bot
    SetEnvIfNoCase User-Agent "ClaudeBot" bad_bot
    SetEnvIfNoCase User-Agent "Google-Extended" bad_bot
    SetEnvIfNoCase User-Agent "PerplexityBot" bad_bot
    SetEnvIfNoCase User-Agent "CCBot" bad_bot
    SetEnvIfNoCase User-Agent "Amazonbot" bad_bot
    SetEnvIfNoCase User-Agent "Bytespider" bad_bot

    <RequireAll>
        Require all granted
        Require not env bad_bot
    </RequireAll>
</IfModule>

Оба эти варианта запрета через .htaccess рабочие! Обращаю Ваше внимание, что эти конструкции работают если веб-сервер Apache.

Как заблокировать AI-ботов через robots.txt

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# ===============================
# Разрешаем обычную индексацию
# ===============================

User-agent: *
Allow: /

Sitemap: https://site.ru/sitemap.xml

Еще раз, robots.txt — это рекомендация, а не жёсткая блокировка. Добросовестные боты её соблюдают. Недобросовестные — нет. Это важно всегда держать в голове.

Если Вы уже попали в нейросетевые ответы и приняли меры только сейчас, то знайте, это не удаляет уже раннее собранные данные. Это ограничивает будущее сканирование. Нюанс: Google Search продолжит индексировать сайт (если ты не блокируешь Googlebot), аналогично с Яндексом.

А теперь подведём итог и проясним…

Что именно мы блокируем

БотДля чего используется
GPTBotСбор данных для OpenAI
ClaudeBotAnthropic (Claude)
Google-ExtendedИспользование данных для AI (не влияет на обычный поиск)
PerplexityBotPerplexity AI
CCBotCommon Crawl (база для обучения многих моделей)
AmazonbotAmazon AI
BytespiderByteDance / TikTok AI
Applebot-ExtendedAI-обучение Apple

Роман Бондарь

Более 15 лет работаю с сайтами, SEO и веб-проектами. Параллельно всегда занимался безопасностью сайтов и цифровых активов, понимая, как легко потерять доход из-за ошибок, уязвимостей и неправильных решений. Пишу о деньгах, интернете и рисках так, как они выглядят в реальности — без теории, обещаний и иллюзий.