Файл robots.txt: Полное руководство для SEO

Файл robots.txt управляет доступом поисковых роботов к сайту. Узнайте, как правильно настраивать его для SEO, защиты контента и оптимизации индексации.
Robots.txt

Файл robots.txt играет ключевую роль в управлении индексацией сайта поисковыми системами. Он позволяет ограничивать доступ к определённым разделам сайта, улучшать производительность и управлять бюджетом обхода. В этой статье мы подробно рассмотрим, как работает файл robots.txt, как его создавать, и какие практики применять для максимальной эффективности SEO.

Что такое robots.txt?

Robots.txt — это текстовый файл, размещённый в корневой директории сайта, который содержит инструкции для поисковых роботов (ботов). С его помощью веб-мастеры указывают, какие страницы можно индексировать, а какие — нет. Файл является частью Robots Exclusion Protocol, разработанного в 1994 году.

Пример URL файла: https://example.com/robots.txt

Зачем нужен robots.txt?

  • Управление индексированием контента
  • Экономия бюджета обхода (crawl budget)
  • Блокировка конфиденциальных или технических разделов
  • Противодействие нежелательным ботам, в том числе ИИ

Базовый синтаксис robots.txt

User-agent: * Disallow: /private/ Allow: /public/ 

Где:

  • User-agent — имя робота (например, Googlebot)
  • Disallow — запрещает доступ к указанному разделу
  • Allow — разрешает доступ (в приоритете перед Disallow)

Примеры правил

ЦельПример кода
Разрешить всёUser-agent: *
Disallow:
Запретить всёUser-agent: *
Disallow: /
Блокировать один файлDisallow: /private/data.html
Блокировать конкретного ботаUser-agent: BadBot
Disallow: /
Добавить SitemapSitemap: https://example.com/sitemap.xml

robots.txt и SEO

1. Оптимизация бюджета обхода

Файл позволяет исключать малозначимые страницы (например, корзина, логин, фильтры), чтобы поисковики сосредоточились на приоритетных разделах — контенте, товарах и статьях.

2. Контроль над индексацией

Хотя Disallow запрещает сканирование, но не индексирование. Для полной блокировки используйте <meta name="robots" content="noindex"> или X-Robots-Tag.

3. Защита от ИИ и копирования

Многие сайты блокируют доступ ботам от OpenAI (GPTBot) и Google-Extended, чтобы их данные не попадали в обучающие выборки LLM.

User-agent: GPTBot Disallow: / 

Технические ограничения

  • Максимальный размер файла — 500 КиБ (512000 байт)
  • Файл должен находиться в корне домена
  • Для поддоменов нужен отдельный файл
  • Файл должен быть доступен по HTTP (не блокируйте его в .htaccess)

Дополнительные директивы

Crawl-delay

Некоторые боты (Bing, Yandex) поддерживают директиву Crawl-delay, указывающую паузу между запросами:

User-agent: bingbot Crawl-delay: 10 

Поддержка Sitemap

Вы можете указать путь к XML-карте сайта прямо в файле:

Sitemap: https://example.com/sitemap.xml

Wildcards и регулярные шаблоны

  • * — заменяет любую последовательность символов
  • $ — обозначает конец URL
Disallow: /*.php$

Блокирует все PHP-страницы.

robots.txt vs meta robots vs X-Robots

МетодПрименениеУровень
robots.txtОграничение обходаНа уровне сайта
meta robotsОграничение индексацииНа уровне страницы
X-Robots-TagИндексация любых файлов (PDF, изображения)HTTP-заголовок

Как создать файл robots.txt

  1. Создайте файл в обычном текстовом редакторе
  2. Напишите правила в нужном формате
  3. Сохраните как robots.txt
  4. Загрузите в корневую директорию сайта

Проверка файла

Используйте Google Search Console или Semrush Site Audit для проверки корректности правил и отладки ошибок.

Лучшие практики

  • Не блокируйте CSS и JS — они нужны для рендеринга
  • Используйте комментарии # для пояснений
  • Проверяйте файл при каждом обновлении
  • Используйте Sitemap для индексации нужных страниц

Блокировка ИИ: стоит ли?

Если вы не хотите, чтобы ваш контент использовался в обучении LLM (например, GPT), заблокируйте их в robots.txt:

User-agent: GPTBot Disallow: / 

Также можно заблокировать другие боты: Google-Extended, AnthropicBot, PerplexityBot и т. д.

Заключение

robots.txt — это мощный, но чувствительный инструмент управления индексацией. Его неправильная настройка может повредить вашему SEO. Следуйте рекомендациям, проверяйте файл после изменений и консультируйтесь с SEO-специалистами при необходимости.

Правильное использование robots.txt помогает:

  • Сократить излишнюю индексацию
  • Оптимизировать краулинг
  • Защитить контент от копирования и ИИ
  • Повысить эффективность продвижения

Обновлено: июль 2025