Как избавиться от дубликатов страниц в WordPress

Как избавиться от дубликатов страниц в WordPress

Как избавиться от дублей страниц в WordPress? Как можно выявить дубли страниц своими руками без помощи SEO-специалистов?

WordPress — один из самых популярных движков в мире и один из самых удобных, а так же простых в пользовательском освоении. Но и один из самых «дубликатогенерирующих». Без правильной настройки эта CMS может генерировать множество дублей страниц, которые мешают продвижению, съедают краулинговый бюджет и «размывают» вес страниц.

Наличие обильного количества дублей ведет к снижению качества сайта в глазах поисковой системы. В таких случаях поисковик понижает сайт в выдаче по всему спектру ключевых запросов, а в некоторых случаях можно получить бан за поисковый спам и исчезнуть из выдачи.

Если Вы знаете, при каких условиях на Вашем сайте начинают появляться дубли, то Вы сможете это легко предотвратить. Дело кроется в тонкой настройке сайта на WordPress, но давайте прямо сейчас перейдем к делу и разберемся с вопросом: «Почему появляются дубликаты, как их находить и как правильно убирать?».

Почему дубликаты вредны для SEO

Когда одна и та же страница доступна по разным URL, поисковик:

  • Не понимает, какая из одинаковых страниц «главная».
  • Делит ссылочный вес между дубликатами.
  • Может вовсе исключить оригинал из выдачи.
  • Занижает общее качество сайта (ИКС, Trust).

Где чаще всего появляются дубликаты в WordPress

1. Категории, метки, авторы

Одна и та же статья может быть доступна по таким типам URL:

  • /category/seo/
  • /tag/wordpress/
  • /author/admin/

Как видите, наша реальная страница содержится в разделе Category, однако эту же страницу дублируют «метки» (они же tag). Третий дубль создается из-за того, что у каждой статьи предполагается свой автор, если вы создаете обычную страницу, то «авторский» дубликат не предполагается, это возможно только со статьями имеющий тип «Запись» и которые после публикации доступны в ленте блога.

В итоге имеем как минимум 3 страницы с одинаковым контентом. И это если мы используем WordPress «из коробки», но а если мы еще установим множество плагинов, то тут придется проводить целое расследование по поиску всех дубликатов.

2. Архивы по датам

WordPress создает дубликаты по типу записей «архивы» например так:

  • месяцам (/2024/06/)
  • дням (/2024/06/22/)
  • годам (/2024/)

По идее это мусорные страницы, которые дублируют контент. По опыту скажу, что в подавляющем большинстве случаях архивы не нужны, но разработчики WordPress не отказываются от этого, так как в действительности сайты и их назначение может быть разным. По этому «архивы» можно смело назвать 4-м типом дубликатов.

3. Страницы пагинации

  • /category/seo/page/2/
  • /tag/seo/page/3/

Если пагинация не настроена правильно, поисковик индексирует «обрезки» без смысловой нагрузки. Вообще, если первыми 4-мя типа дубликатов всё понятно, то со страницами пагинаций могут запутаться даже опытные SEO-специалисты. Вы для себя должны определить как именно поисковик может выйти на ваши страницы. Имеется ли у поисковика прямой дуступ к странице не переходя на пагинацию? Потому что в большинстве случаях пагинацию можно закрыть от индексирования, но бывает так, что пагинация является единственным доступом для краулера к страницам, которые ушли в глубь сайта, тогда они станут недоступны и вылетят из индекса.

А обидней всего будет, если многие из этих страниц Вами продвигаются и на них тратится ссылочный бюджет. Будьте внимательны!

4. HTTP/HTTPS, с www и без www

  • https://site.ru
  • http://site.ru
  • https://www.site.ru
  • http://www.site.ru

Сейчас почти все сайты перешли на безопасный протокол HTTPS посредством установки специального сертификата SSL, который шифрует передачу пользовательских данных и делает эту передачу безопасной от перехвата третьими лицами. Однако, почему-то многие до сих пор не сделали 301-редирект с HTTP на HTTPS, из-за этого получается дубль зеркала сайта.

Если Вы перешли на HTTPS, то внесите необходимые директивы в системный файл .htaccess — настройте грамотное перенаправление, сегодня это прямо «must have».

Еще один важный момент. Поскольку интернет существует уже давно и современным браузерам не нужно указывать на то, что сейчас будет открыта веб-страница, то есть не нужно указывать впереди домена WWW. Современные браузеры и без WWW могут распознать страницу сайта. Однако, поскольку некоторые домены существуют более 30 лет и имеют огромную ссылочную массу, то переходить на адрес без WWW было бы для них катастрофой. По этому сегодня принято решить, будет ли Ваш новорег начинаться с WWW или без WWW. Определите для себя сами, но потом не забудьте настроить 301-редирект, и убедитесь что он корректно отрабатывает.

5. UTM-метки и параметры URL

  • /seo-guide/
  • /seo-guide/?utm_source=yandex
  • /seo-guide/?replytocom=122

UTM и прочие разметки, которые модифицируют исходный URL так же создают множество дублей. При установки плагинов проявите особую внимательность на то, как формируются теперь Ваши URL и исключите дубли в случае их возникновения.

Как найти дубликаты

Дубли страниц можно найти руками или при помощи автоматизированных сервисов, многие из которых являются платными:

  1. Google Search Console (GSC) → Отчет «Страницы, исключённые из индекса»
    • Причина: «Дубликат, без указания канонической»
    • Причина: «Альтернативная страница с канонической»
  2. Ahrefs / Screaming Frog / Netpeak Spider
    • Проверка тегов <title>, <meta description>, <canonical>
    • Повторяющиеся контенты
  3. site:yourdomain.com в Google/Яндекс
    • Смотрите, как выглядят заголовки и URL

Как устранить дубликаты в WordPress

1. Установка правильного плагина SEO

Используйте устанавливайте уже проверенные SEO-плагины, те, которые Вам хорошо знакомы, работу которых Вы знаете на 100%, чтобы потом не тратить время на расследование

Они позволяют:

  • Отключать индексацию меток, авторов и архивов
  • Добавлять теги <meta noindex, follow>
  • Настраивать канонические URL
  • Управлять XML-картой сайта

Пример (Yoast SEO):

SEO → Поиск → Таксономии → Метки: «noindex»

2. Отключение архивов

Если вы не используете:

  • Авторов
  • Архивы по дате

Отключите их полностью:

Yoast SEO → Архивы → Отключить архивы по авторам и датам

3. Настройка канонических URL

Добавляйте <link rel="canonical" href="https://site.ru/page/"> в каждую важную страницу.

Многие SEO-плагины делают это автоматически.

4. Настройка редиректов

Используйте 301-редиректы:

  • с HTTP на HTTPS
  • с www на без-www или наоборот

Плагины:

  • Redirection
  • Rank Math → вкладка «Редиректы»
  • Или через .htaccess

5. Удаление UTM-меток из индекса

📌 Не давайте поисковику индексировать URL с параметрами.

Решения:

Или настроить robots.txt:

Установить тег <meta name="robots" content="noindex, follow"> на такие URL

В GSC → Настройки → Параметры URL → указать их как «не влияющие на контент»

Disallow: /*?utm_source
Disallow: /*?replytocom

6. Оптимизация пагинации

Лучший способ:

  • Главная категория — index, follow
  • Страницы пагинации — rel=»next/prev» + каноникал на первую

Рекомендуемый чек-лист

✅ Установлен SEO-плагин (Yoast, Rank Math)
✅ Noindex на метки, архивы, авторов
✅ Правильные каноникалы
✅ Редиректы 301 (https, www)
✅ Очищены UTM-метки из индекса
✅ Протестировано в Google Search Console

Подведём итоги

WordPress удобен, чертовски удобен, но установка CMS «из коробки» создает массу дубликатов, которые мешают поисковому продвижению. Вам придется работать над сайтом и всячески его дорабатывать с каждым новым обновлением. Сильное SEO — это не только тексты и ссылки, но и чистая структура сайта без мусора и копий, а за чистотой нужно регулярно следить.

Роман Бондарь

Автор блога, SEO-специалист. Продвигаю сайты с 2011 года. Практик эффективного крауд-маркетинга и нестандартного линкбилдинга. Ведущий эксперт поисковой оптимизации в компании IMarketing (Казахстан). Автор книги "Пиратские войны. Моя история о пиратстве в России".