Файл robots.txt
играет ключевую роль в управлении индексацией сайта поисковыми системами. Он позволяет ограничивать доступ к определённым разделам сайта, улучшать производительность и управлять бюджетом обхода. В этой статье мы подробно рассмотрим, как работает файл robots.txt, как его создавать, и какие практики применять для максимальной эффективности SEO.
Что такое robots.txt?
Robots.txt — это текстовый файл, размещённый в корневой директории сайта, который содержит инструкции для поисковых роботов (ботов). С его помощью веб-мастеры указывают, какие страницы можно индексировать, а какие — нет. Файл является частью Robots Exclusion Protocol, разработанного в 1994 году.
Пример URL файла: https://example.com/robots.txt
Зачем нужен robots.txt?
- Управление индексированием контента
- Экономия бюджета обхода (crawl budget)
- Блокировка конфиденциальных или технических разделов
- Противодействие нежелательным ботам, в том числе ИИ
Базовый синтаксис robots.txt
User-agent: * Disallow: /private/ Allow: /public/
Где:
- User-agent — имя робота (например, Googlebot)
- Disallow — запрещает доступ к указанному разделу
- Allow — разрешает доступ (в приоритете перед Disallow)
Примеры правил
Цель | Пример кода |
---|---|
Разрешить всё | User-agent: * |
Запретить всё | User-agent: * |
Блокировать один файл | Disallow: /private/data.html |
Блокировать конкретного бота | User-agent: BadBot |
Добавить Sitemap | Sitemap: https://example.com/sitemap.xml |
robots.txt и SEO
1. Оптимизация бюджета обхода
Файл позволяет исключать малозначимые страницы (например, корзина, логин, фильтры), чтобы поисковики сосредоточились на приоритетных разделах — контенте, товарах и статьях.
2. Контроль над индексацией
Хотя Disallow
запрещает сканирование, но не индексирование. Для полной блокировки используйте <meta name="robots" content="noindex">
или X-Robots-Tag
.
3. Защита от ИИ и копирования
Многие сайты блокируют доступ ботам от OpenAI (GPTBot) и Google-Extended, чтобы их данные не попадали в обучающие выборки LLM.
User-agent: GPTBot Disallow: /
Технические ограничения
- Максимальный размер файла — 500 КиБ (512000 байт)
- Файл должен находиться в корне домена
- Для поддоменов нужен отдельный файл
- Файл должен быть доступен по HTTP (не блокируйте его в .htaccess)
Дополнительные директивы
Crawl-delay
Некоторые боты (Bing, Yandex) поддерживают директиву Crawl-delay
, указывающую паузу между запросами:
User-agent: bingbot Crawl-delay: 10
Поддержка Sitemap
Вы можете указать путь к XML-карте сайта прямо в файле:
Sitemap: https://example.com/sitemap.xml
Wildcards и регулярные шаблоны
*
— заменяет любую последовательность символов$
— обозначает конец URL
Disallow: /*.php$
Блокирует все PHP-страницы.
robots.txt vs meta robots vs X-Robots
Метод | Применение | Уровень |
---|---|---|
robots.txt | Ограничение обхода | На уровне сайта |
meta robots | Ограничение индексации | На уровне страницы |
X-Robots-Tag | Индексация любых файлов (PDF, изображения) | HTTP-заголовок |
Как создать файл robots.txt
- Создайте файл в обычном текстовом редакторе
- Напишите правила в нужном формате
- Сохраните как
robots.txt
- Загрузите в корневую директорию сайта
Проверка файла
Используйте Google Search Console или Semrush Site Audit для проверки корректности правил и отладки ошибок.
Лучшие практики
- Не блокируйте CSS и JS — они нужны для рендеринга
- Используйте комментарии
#
для пояснений - Проверяйте файл при каждом обновлении
- Используйте
Sitemap
для индексации нужных страниц
Блокировка ИИ: стоит ли?
Если вы не хотите, чтобы ваш контент использовался в обучении LLM (например, GPT), заблокируйте их в robots.txt
:
User-agent: GPTBot Disallow: /
Также можно заблокировать другие боты: Google-Extended
, AnthropicBot
, PerplexityBot
и т. д.
Заключение
robots.txt — это мощный, но чувствительный инструмент управления индексацией. Его неправильная настройка может повредить вашему SEO. Следуйте рекомендациям, проверяйте файл после изменений и консультируйтесь с SEO-специалистами при необходимости.
Правильное использование robots.txt помогает:
- Сократить излишнюю индексацию
- Оптимизировать краулинг
- Защитить контент от копирования и ИИ
- Повысить эффективность продвижения
Обновлено: июль 2025