Скромный файл robots.txt часто незаметно находится на заднем плане сайта WordPress, но его настройки по умолчанию довольно просты и не способствуют индивидуальным директивам, которые вы, возможно, захотите применить.
Где находится файл WordPress Robots.txt?
По умолчанию WordPress генерирует виртуальный файл robots.txt. Вы можете увидеть его, посетив /robots.txt
вашей установки:
https://yoursite.com/robots.txt
Этот файл по умолчанию существует только в памяти и не представлен физическим файлом на вашем сервере.
Если вы хотите использовать пользовательский файл robots.txt, просто загрузите его в корневую папку установки. Это можно сделать либо с помощью FTP-приложения, либо плагина, например Yoast SEO (SEO → Инструменты → Редактор файлов).
Стандартный файл WordPress Robots.txt (и почему его недостаточно)
Если вы не создаете файл robots.txt вручную, вывод WordPress по умолчанию будет выглядеть следующим образом:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Хоть это и безопасно, но не оптимально. Давайте рассмотрим улучшения.
Всегда включайте XML-карты сайта
Убедитесь, что все XML-карты сайта указаны явно, так как это помогает поисковым системам обнаруживать все релевантные URL-адреса:
Sitemap: https://example.com/sitemap_index.xml Sitemap: https://example.com/sitemap2.xml
Что не следует блокировать
Существуют устаревшие рекомендации запрещать некоторые основные каталоги WordPress, такие как /wp-includes/
, /wp-content/plugins/
или даже /wp-content/uploads/
. Не делайте этого!
- Google достаточно умен, чтобы игнорировать нерелевантные файлы
- Блокировка CSS и JavaScript может ухудшить рендеринг и вызвать проблемы с индексацией
- Вы можете непреднамеренно заблокировать ценные медиафайлы в
/wp-content/uploads/
, которые должны быть доступны для сканирования
Вместо этого позвольте поисковым роботам извлекать CSS, JavaScript и изображения, необходимые для правильного отображения.
Управление промежуточными сайтами
Рекомендуется убедиться, что промежуточные (тестовые) сайты не сканируются ни в целях SEO, ни в целях общей безопасности. Лучше полностью запретить сканирование таких сайтов.
Используйте метатег noindex, но для дополнительной защиты рекомендуется применить оба варианта. В WordPress перейдите в Настройки > Чтение и отметьте опцию «Запретить поисковым системам индексировать этот сайт», или добавьте следующее в robots.txt:
User-agent: * Disallow: /
Очистка необязательных путей WordPress
Многие пути по умолчанию не добавляют никакой ценности для SEO:
Disallow: /trackback/ Disallow: /comments/feed/ Disallow: */embed/ Disallow: /cgi-bin/ Disallow: /wp-login.php
Запрет определенных параметров запроса
Иногда полезно запретить поисковым системам сканировать URL-адреса с параметрами запроса с низкой ценностью:
User-agent: * Disallow: /*?*replytocom= Disallow: /*?*print=
Используйте инструмент «Параметры URL» в Google Search Console для мониторинга шаблонов индексации на основе параметров.
Запрет таксономий и SERP с низкой ценностью
Если на вашем сайте WordPress есть архивы тегов или внутренние страницы результатов поиска, вы можете их заблокировать:
User-agent: * Disallow: /tag/ Disallow: /page/ Disallow: /?s=
Учитывайте вашу контент-стратегию. Если страницы таксономий тегов являются частью контента, который вы хотите индексировать, то игнорируйте эти запреты.
Убедитесь, что внутренняя структура ссылок поддерживает ваше решение и сводит к минимуму внутренние ссылки на разделы, которые вы не собираетесь индексировать.
Мониторинг статистики сканирования
После настройки файла robots.txt отслеживайте статистику сканирования с помощью Google Search Console:
- Изучите статистику сканирования в разделе «Настройки», чтобы узнать, не тратят ли боты ресурсы впустую
- Используйте инструмент проверки URL-адресов, чтобы проверить, проиндексирован ли заблокированный URL-адрес
- Проверьте файлы Sitemap и убедитесь, что они ссылаются только на те страницы, которые должны сканироваться и индексироваться
Некоторые инструменты управления сервером, такие как Plesk, cPanel и Cloudflare, могут предоставлять подробную статистику сканирования, выходящую за рамки Google.
Используйте переопределение конфигурации Screaming Frog для имитации изменений и обратите внимание на функции оптимизации сканирования Yoast SEO, некоторые из которых решают вышеуказанные проблемы.
Заключение
Хотя WordPress — отличная CMS, в ней не предусмотрен идеальный файл robots.txt по умолчанию и отсутствует оптимизация сканирования из коробки.
Всего несколько строк кода и менее 30 минут вашего времени могут избавить вас от тысяч ненужных запросов на сканирование, а также предотвратить потенциальные проблемы масштабирования в будущем.
Комментарии