Файл robots.txt: Полное руководство для SEO

время чтения: 4мин.

Файл robots.txt управляет доступом поисковых роботов к сайту. Узнайте, как правильно настраивать его для SEO, защиты контента и оптимизации индексации.

Файл robots.txt играет ключевую роль в управлении индексацией сайта поисковыми системами. Он позволяет ограничивать доступ к определённым разделам сайта, улучшать производительность и управлять бюджетом обхода. В этой статье мы подробно рассмотрим, как работает файл robots.txt, как его создавать, и какие практики применять для максимальной эффективности SEO.

Что такое robots.txt?

Robots.txt — это текстовый файл, размещённый в корневой директории сайта, который содержит инструкции для поисковых роботов (ботов). С его помощью веб-мастеры указывают, какие страницы можно индексировать, а какие — нет. Файл является частью Robots Exclusion Protocol, разработанного в 1994 году.

Пример URL файла: https://example.com/robots.txt

Зачем нужен robots.txt?

Управление индексированием контента
Экономия бюджета обхода (crawl budget)
Блокировка конфиденциальных или технических разделов
Противодействие нежелательным ботам, в том числе ИИ

Базовый синтаксис robots.txt

User-agent: * Disallow: /private/ Allow: /public/

Где:

User-agent — имя робота (например, Googlebot)
Disallow — запрещает доступ к указанному разделу
Allow — разрешает доступ (в приоритете перед Disallow)

Примеры правил

Цель	Пример кода
Разрешить всё	`User-agent: * Disallow:`
Запретить всё	`User-agent: * Disallow: /`
Блокировать один файл	`Disallow: /private/data.html`
Блокировать конкретного бота	`User-agent: BadBot Disallow: /`
Добавить Sitemap	`Sitemap: https://example.com/sitemap.xml`

robots.txt и SEO

1. Оптимизация бюджета обхода

Файл позволяет исключать малозначимые страницы (например, корзина, логин, фильтры), чтобы поисковики сосредоточились на приоритетных разделах — контенте, товарах и статьях.

2. Контроль над индексацией

Хотя Disallow запрещает сканирование, но не индексирование. Для полной блокировки используйте <meta name="robots" content="noindex"> или X-Robots-Tag.

3. Защита от ИИ и копирования

Многие сайты блокируют доступ ботам от OpenAI (GPTBot) и Google-Extended, чтобы их данные не попадали в обучающие выборки LLM.

User-agent: GPTBot Disallow: /

Технические ограничения

Максимальный размер файла — 500 КиБ (512000 байт)
Файл должен находиться в корне домена
Для поддоменов нужен отдельный файл
Файл должен быть доступен по HTTP (не блокируйте его в .htaccess)

Дополнительные директивы

Crawl-delay

Некоторые боты (Bing, Yandex) поддерживают директиву Crawl-delay, указывающую паузу между запросами:

User-agent: bingbot Crawl-delay: 10

Поддержка Sitemap

Вы можете указать путь к XML-карте сайта прямо в файле:

Sitemap: https://example.com/sitemap.xml

Wildcards и регулярные шаблоны

* — заменяет любую последовательность символов
$ — обозначает конец URL

Disallow: /*.php$

Блокирует все PHP-страницы.

robots.txt vs meta robots vs X-Robots

Метод	Применение	Уровень
robots.txt	Ограничение обхода	На уровне сайта
meta robots	Ограничение индексации	На уровне страницы
X-Robots-Tag	Индексация любых файлов (PDF, изображения)	HTTP-заголовок

Как создать файл robots.txt

Создайте файл в обычном текстовом редакторе
Напишите правила в нужном формате
Сохраните как robots.txt
Загрузите в корневую директорию сайта

Проверка файла

Используйте Google Search Console или Semrush Site Audit для проверки корректности правил и отладки ошибок.

Лучшие практики

Не блокируйте CSS и JS — они нужны для рендеринга
Используйте комментарии # для пояснений
Проверяйте файл при каждом обновлении
Используйте Sitemap для индексации нужных страниц

Блокировка ИИ: стоит ли?

Если вы не хотите, чтобы ваш контент использовался в обучении LLM (например, GPT), заблокируйте их в robots.txt:

User-agent: GPTBot Disallow: /

Также можно заблокировать другие боты: Google-Extended, AnthropicBot, PerplexityBot и т. д.

Заключение

robots.txt — это мощный, но чувствительный инструмент управления индексацией. Его неправильная настройка может повредить вашему SEO. Следуйте рекомендациям, проверяйте файл после изменений и консультируйтесь с SEO-специалистами при необходимости.

Правильное использование robots.txt помогает:

Сократить излишнюю индексацию
Оптимизировать краулинг
Защитить контент от копирования и ИИ
Повысить эффективность продвижения

Обновлено: июль 2025

Breadcrumbs (хлебные крошки)

Google Search

Справочник по SEO