Robots.txt: что следует включить?

Сократите ненужную активность сканирования и раздувание индекса, обновив файл robots.txt WordPress. Вот что следует включить, исключить и никогда не блокировать.
Robots.txt: что следует включить?

Скромный файл robots.txt часто незаметно находится на заднем плане сайта WordPress, но его настройки по умолчанию довольно просты и не способствуют индивидуальным директивам, которые вы, возможно, захотите применить.

Где находится файл WordPress Robots.txt?

По умолчанию WordPress генерирует виртуальный файл robots.txt. Вы можете увидеть его, посетив /robots.txt вашей установки:

https://yoursite.com/robots.txt

Этот файл по умолчанию существует только в памяти и не представлен физическим файлом на вашем сервере.

Если вы хотите использовать пользовательский файл robots.txt, просто загрузите его в корневую папку установки. Это можно сделать либо с помощью FTP-приложения, либо плагина, например Yoast SEO (SEO → Инструменты → Редактор файлов).

Стандартный файл WordPress Robots.txt (и почему его недостаточно)

Если вы не создаете файл robots.txt вручную, вывод WordPress по умолчанию будет выглядеть следующим образом:

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

Хоть это и безопасно, но не оптимально. Давайте рассмотрим улучшения.

Всегда включайте XML-карты сайта

Убедитесь, что все XML-карты сайта указаны явно, так как это помогает поисковым системам обнаруживать все релевантные URL-адреса:

Sitemap: https://example.com/sitemap_index.xml Sitemap: https://example.com/sitemap2.xml

Что не следует блокировать

Существуют устаревшие рекомендации запрещать некоторые основные каталоги WordPress, такие как /wp-includes/, /wp-content/plugins/ или даже /wp-content/uploads/. Не делайте этого!

Почему их не следует блокировать:
  • Google достаточно умен, чтобы игнорировать нерелевантные файлы
  • Блокировка CSS и JavaScript может ухудшить рендеринг и вызвать проблемы с индексацией
  • Вы можете непреднамеренно заблокировать ценные медиафайлы в /wp-content/uploads/, которые должны быть доступны для сканирования

Вместо этого позвольте поисковым роботам извлекать CSS, JavaScript и изображения, необходимые для правильного отображения.

Управление промежуточными сайтами

Рекомендуется убедиться, что промежуточные (тестовые) сайты не сканируются ни в целях SEO, ни в целях общей безопасности. Лучше полностью запретить сканирование таких сайтов.

Используйте метатег noindex, но для дополнительной защиты рекомендуется применить оба варианта. В WordPress перейдите в Настройки > Чтение и отметьте опцию «Запретить поисковым системам индексировать этот сайт», или добавьте следующее в robots.txt:

User-agent: * Disallow: /
Важно: при переходе к боевой версии сайта обязательно проверьте этот параметр, чтобы убедиться, что вы отменили все запреты индексации.

Очистка необязательных путей WordPress

Многие пути по умолчанию не добавляют никакой ценности для SEO:

Disallow: /trackback/ Disallow: /comments/feed/ Disallow: */embed/ Disallow: /cgi-bin/ Disallow: /wp-login.php

Запрет определенных параметров запроса

Иногда полезно запретить поисковым системам сканировать URL-адреса с параметрами запроса с низкой ценностью:

User-agent: * Disallow: /*?*replytocom= Disallow: /*?*print=

Используйте инструмент «Параметры URL» в Google Search Console для мониторинга шаблонов индексации на основе параметров.

Запрет таксономий и SERP с низкой ценностью

Если на вашем сайте WordPress есть архивы тегов или внутренние страницы результатов поиска, вы можете их заблокировать:

User-agent: * Disallow: /tag/ Disallow: /page/ Disallow: /?s=

Учитывайте вашу контент-стратегию. Если страницы таксономий тегов являются частью контента, который вы хотите индексировать, то игнорируйте эти запреты.

Убедитесь, что внутренняя структура ссылок поддерживает ваше решение и сводит к минимуму внутренние ссылки на разделы, которые вы не собираетесь индексировать.

Мониторинг статистики сканирования

После настройки файла robots.txt отслеживайте статистику сканирования с помощью Google Search Console:

  1. Изучите статистику сканирования в разделе «Настройки», чтобы узнать, не тратят ли боты ресурсы впустую
  2. Используйте инструмент проверки URL-адресов, чтобы проверить, проиндексирован ли заблокированный URL-адрес
  3. Проверьте файлы Sitemap и убедитесь, что они ссылаются только на те страницы, которые должны сканироваться и индексироваться

Некоторые инструменты управления сервером, такие как Plesk, cPanel и Cloudflare, могут предоставлять подробную статистику сканирования, выходящую за рамки Google.

Используйте переопределение конфигурации Screaming Frog для имитации изменений и обратите внимание на функции оптимизации сканирования Yoast SEO, некоторые из которых решают вышеуказанные проблемы.

Заключение

Хотя WordPress — отличная CMS, в ней не предусмотрен идеальный файл robots.txt по умолчанию и отсутствует оптимизация сканирования из коробки.

Всего несколько строк кода и менее 30 минут вашего времени могут избавить вас от тысяч ненужных запросов на сканирование, а также предотвратить потенциальные проблемы масштабирования в будущем.

Комментарии