В этом посте
- Что такое краулинговый бюджет (и почему он важен)?
- Почему бюджет сканирования имеет значение и когда он действительно применим к вашему сайту.
- Как Google рассчитывает ваш краулинговый бюджет.
- Сигналы сканирования: как повлиять на приоритеты Googlebot.
- На что тратится бюджет сканирования (и как это исправить).
- Как проверить активность сканирования?
- Хотите увидеть то, что видит Google?
Как маркетолог, вы потратили часы на добавление ценности на свой сайт. Теперь представьте, что на ваш сайт регулярно заходит посетитель, чтобы проверить, что нового, и потом решить, стоит ли это показывать в поиске Google.
Что за посетитель? Он называется Googlebot, и это краулер, отвечающий за обнаружение и индексацию вашего контента. Он сканирует ваши страницы, чтобы решить, что следует включить в Google Search и как часто возвращаться за обновлениями.
Но Googlebot не обладает неограниченными ресурсами для постоянного глубокого сканирования. Каждый сайт получает установленный бюджет сканирования или квоту времени и пропускной способности, которую Googlebot тратит на изучение вашего сайта.
Чем эффективнее вы используете свой краулинговый бюджет, тем легче Googlebot находит и расставляет приоритеты в поисковой выдаче наиболее ценного контента, что может помочь вам повысить рейтинг.
Начнем с основ: что такое краулинговый бюджет и почему он важен?
Что такое краулинговый бюджет (и почему он важен)?
Бюджет сканирования — это ограничение на количество страниц, которые робот Googlebot готов «просканировать» на вашем сайте за определенный период времени.
Подумайте о Googlebot, который имеет определенное количество времени и энергии каждый день для исследования вашего сайта. Он пролистывает страницы вашего сайта, решая, что читать, а что пропустить.
Если на вашем сайте 10 000 URL-адресов, но у Googlebot сегодня есть силы просканировать только 2 000, ему нужно расставить приоритеты. И вы хотите, чтобы он расставил приоритеты правильно, потому что без руководства Googlebot может тратить время на страницы с низкой ценностью.
Вместо того чтобы проиндексировать ваш последний пост в блоге или целевую страницу новой кампании, он может застрять, сканируя 300 почти идентичных URL-адресов фильтров.
Допустим, вы управляете интернет-магазином с 6000 страниц. Теперь представьте, что половина этих страниц — это вариации: цветовые фильтры, варианты размеров, небольшие дубликаты.
Для клиента эти вариации полезны. Но для Googlebot они в основном одинаковы.
Итак, пока он занят ползанием:
- /продукт/красный
- /продукт/синий
- /продукт/xl
Он может пропускать такие страницы, как:
- Ваша недавно обновленная домашняя страница
- Новая сезонная целевая страница
- Ваша последняя запись в блоге уже набирает популярность в социальных сетях
Даже если контент готов, самые важные страницы могут не быть просканированы — или проиндексированы — достаточно быстро. Все потому, что ваш бюджет сканирования был потрачен в другом месте.
Сканируемость и бюджет сканирования: в чем разница?
Возможности сканирования и бюджет сканирования кажутся схожими, но это не одно и то же.
Оба фактора важны, поскольку без доступа и приоритета даже ваши лучшие страницы могут остаться незамеченными Google и никогда не появиться в результатах поиска.
1. Возможность сканирования = Доступ
Возможность сканирования отвечает на простой вопрос: может ли Googlebot получить доступ к этой странице?
Если ответ отрицательный, страница не будет просканирована, независимо от ее важности.
Пример: страница существует, но Googlebot не может получить к ней доступ. Он полностью пропускает страницу, освобождая бюджет сканирования для других областей.
2. Бюджет сканирования = Приоритет и выбор
Бюджет сканирования идет после возможности сканирования.
Это уже не «Могу ли я просканировать эту страницу?» — это:
«Хватит ли у меня времени и сил, чтобы в ближайшее время просмотреть эту страницу?»
Даже если страница доступна для сканирования, Googlebot может решить, что она не заслуживает его ограниченного внимания в данный момент.
Пример: у вас есть страница событий, которую можно сканировать с 2017 года, которая все еще жива. Она не заблокирована, но устарела и не получает трафика.
Googlebot может подумать: «Хм. Не срочно. Я вернусь к этому… со временем».
Таким образом, даже если страница доступна для сканирования, она может оставаться нетронутой в течение нескольких месяцев.
Вопрос: что важнее — доступность для краулинга или краулинговый бюджет? На самом деле, нужны оба фактора, и они должны работать вместе.
Если страница недоступна для сканирования, её не обнаружат.
Если она доступна для сканирования, но имеет низкий приоритет, её могут проигнорировать, пока не станет слишком поздно.
Это демонстрирует, что эти понятия связаны, но не взаимозаменяемы."
Почему бюджет сканирования имеет значение и когда он действительно применим к вашему сайту
Если Googlebot не просканировал вашу страницу, он не сможет ее ранжировать.
Он может даже не знать о его существовании или, что еще хуже, показывать устаревшую версию в результатах поиска.
Ваш краулинговый бюджет определяет, увидит ли Google вашу страницу и когда именно, а это напрямую влияет на ваши шансы появиться (и хорошо появиться) в результатах поиска.
Например, если вы запускаете новую страницу продукта, которая не была просканирована, она не появится в поиске. Или если вы обновили цены на страницах услуг, но у Googlebot не было возможности повторно просканировать, пользователи все равно могут видеть устаревшие цены в SERP.
Вот тут-то бюджет сканирования становится серьезным.
Когда бюджет сканирования становится реальной проблемой
Хотя краулинговый бюджет влияет на каждый сайт, он особенно важен для:
- Крупные веб-сайты: сайты с тысячами или миллионами URL-адресов.
- Новости и СМИ: новые URL-адреса публикуются часто и требуют быстрой индексации
- Сайты электронной коммерции: множество фильтров, вариаций и категорий товаров
Если Googlebot не успевает, ваш самый важный или срочный контент может оказаться именно тем, что будет упущено.
Управляете небольшим сайтом?
Более крупными сайтами сложнее управлять, в том числе с точки зрения сканирования. Если на вашем сайте менее 500–1000 индексируемых URL, бюджет сканирования, скорее всего, не является вашей главной проблемой. Googlebot обычно может легко справляться с небольшими и средними сайтами, сканируя все части вашего сайта.
В этих случаях сосредоточьтесь на том, что блокирует индексацию, а не сканирование. Распространенные виновники:
- Страницы заблокированы тегами noindex или canonical
- Слабая внутренняя связь
- Некачественный, дублированный или неинформативный контент
Совет: используйте отчет Pages в Google Search Console, чтобы увидеть, какие URL-адреса исключены и почему. Вы можете обнаружить проблемы с индексируемостью быстрее, чем ожидалось.
Как Google рассчитывает ваш краулинговый бюджет
Принимая решение о том, что и в каком объеме сканировать, Google учитывает два основных фактора:
- Спрос на сканирование: какой объем страниц вашего сайта хочет сканировать Google.
- Ограничение пропускной способности сканирования: объем данных, который может обработать ваш сервер без проблем с производительностью.
Давайте посмотрим, что их формирует.
Что стимулирует спрос на сканирование
Спрос на сканирование отражает, насколько ценным или свежим Google считает ваш контент. При ограниченных ресурсах он отдает приоритет страницам, которые кажутся стоящими его времени.
"Вот что влияет на потребность в сканировании:
- Воспринимаемый объем страниц (Perceived inventory)
Это то, сколько страниц, по мнению Google, у вас действительно есть.
Если в вашем sitemap указано 40 000 URL, но внутренние ссылки ведут только на 3 000, Google может решить, что остальные не важны или вообще не существуют.
Из-за этого значительная часть сайта может остаться не просканированной — особенно если новый или сезонный контент находится на этих «скрытых» страницах. - Популярность (Popularity)
Страницы с обратными ссылками или сильными поведенческими сигналами обычно сканируются чаще.
Если ваш пост в блоге становится вирусным или получает ссылки, Googlebot, скорее всего, будет посещать его регулярно.
Но если старый пресс-релиз «закопан» глубоко в структуре сайта, его могут игнорировать месяцами. - Устаревание (Staleness)
Google не хочет тратить время на повторное сканирование одних и тех же устаревших страниц.
Если страница не обновлялась годами, её приоритет в сканировании снижается.
Но если вы регулярно обновляете описания товаров, освежаете статьи в блоге или дорабатываете посадочные страницы, Google будет возвращаться чаще, чтобы отслеживать изменения.
Что ограничивает Google в сканировании вашего сайта?
Даже если Google захочет сканировать все, он не будет этого делать, если ваш сайт показывает признаки нестабильности. Обычно есть два основных источника проблем с бюджетом сканирования.
- Здоровье сканирования
Если ваш сайт работает медленно, истекает время ожидания или возвращаются ошибки сервера, Googlebot отступит.
Даже скромное сканирование может замедлить работу пользователей на общем или недостаточно мощном хостинге, чего Google активно пытается избежать. - Ограничения сканирования Google
Google также устанавливает внутренние ограничения на то, сколько он готов сканировать с домена.
Это балансирующий акт: если либо спрос, либо емкость низкие, бюджет сканирования уменьшается.
Подумайте об этом как о формуле:
Спрос на сканирование × Емкость сайта = Ваш бюджет сканирования
Если любая из сторон этого уравнения уменьшается, бюджет сканирования вашего сайта сокращается.
Сигналы сканирования: как повлиять на приоритеты Googlebot
Google не просто одинаково сканирует все на вашем сайте. Он отдает приоритет страницам, которые кажутся ценными, обновленными или востребованными.
Несколько сигналов влияют на то, будет ли Google сканировать страницу и как часто. Некоторые говорят «пропустить это», в то время как другие отмечают контент как важный.
Сигналы, влияющие на бюджет сканирования
Так что же именно подсказывает Google, следует ли обращать внимание на страницу или пропустить ее?
Эти сигналы определяют, как расходуется ваш краулинговый бюджет.
Robots.txt
Это простой текстовый файл, который находится в корне вашего сайта. Он сообщает Googlebot, что не нужно сканировать.
Так что если вы заблокируете страницу здесь, Google не будет тратить краулинговый бюджет, пытаясь добраться до нее. Она просто пойдет дальше.
Пример: вы можете заблокировать страницу входа администратора или страницы благодарности после отправки формы.
Теги Noindex
Это немного другое. Тег noindex сообщает Google: «Вы можете сканировать эту страницу, но не показывать ее в результатах поиска».
Google все равно может его сканировать, но если со временем он увидит сигнал noindex, то может решить вообще не сканировать его, поскольку он бесполезен для поиска.
Пример: тестовая версия целевой страницы, которая не готова к запуску.
Канонические страницы
Канонические страницы сообщают Google, какую версию похожих страниц считать основной, предотвращая трату бюджета сканирования на дубликаты. Так что если у вас есть множество почти идентичных версий (например, фильтры продуктов или URL-адреса с UTM-тегами), канонические страницы говорят: «Эй, считай эту версию настоящей».
Если у вас есть пять отфильтрованных страниц товаров по запросу «розовые туфли по цене до 20 долларов», но все они показывают похожие товары, вы можете установить канонический тег, который будет указывать на главную страницу «розовые туфли».
Таким образом, вы не будете тратить бюджет сканирования на всех похожих.
Карта сайта
Карта сайта — это как карта сокровищ вашего сайта. Она сообщает Google: «Вот все ключевые страницы, о которых я хочу, чтобы вы знали».
Если ваша карта сайта понятна, хорошо структурирована и регулярно обновляется, это все равно, что провести экскурсию для Googlebot.
Убедитесь, что ваша карта сайта включает записи вашего блога, основные страницы продуктов и ключевые категории, а не неработающие страницы или устаревшие URL-адреса.
Глубина внутренней перелинковки
Это просто означает: сколько кликов нужно, чтобы попасть на страницу с вашей домашней страницы? Если для поиска страницы требуется от шести до семи кликов, Google может подумать: «Эта страница, должно быть, не так уж важна, поскольку она не так легкодоступна для клиентов».
Пример: страницы, на которые напрямую ссылаются с домашней страницы, нижнего колонтитула или главного меню, как правило, сканируются чаще, чем те, которые находятся глубоко в подпапках.
Быстрое сравнение:
- Страница продукта с восторженными отзывами, хорошими обратными ссылками и большим количеством внутренних ссылок? Вероятно, будет часто сканироваться.
- Отфильтрованная версия той же страницы для «розовых колонок по цене менее 20 долларов» без ссылок и дублирующегося контента? Может, вряд ли кто-то ее увидит.
На что тратится бюджет сканирования (и как это исправить)
Подумайте об этом так: Googlebot пролистывает страницы вашего сайта с ограниченной энергией. Чем больше он тратит на страницы с низкой ценностью, тем меньше он тратит на ваш топовый контент.
Прежде чем мы перейдем к самым большим потерям краулингового бюджета, стоит провести быстрый аудит сайта, чтобы увидеть, проявляются ли какие-либо из этих проблем на вашем сайте.
Давайте рассмотрим главных нарушителей, как их обнаружить и остановить.
1. Дублирующиеся страницы
Это разные URL-адреса, которые показывают один и тот же или очень похожий контент.
Все эти страницы могут выглядеть одинаково для человека, но для Googlebot? Это отдельные страницы. Поэтому он читает один и тот же контент снова и снова.
Утомительно, правда?
Почему это проблема: Google тратит энергию на сканирование версий одного и того же контента вместо того, чтобы направить ее на новый или обновленный контент.
Как это исправить:
- Используйте канонические теги для указания на основную версию страницы.
- Или, если страница не важна? Установите ее на noindex, чтобы Google вообще не беспокоился.
Думайте о канонических версиях как о мягком толчке, говорящем: «Эй, эта версия — та, которая имеет значение».
2. Неработающие ссылки и мягкие ошибки 404
Это страницы, которые больше не существуют, но по-прежнему отображаются во внутренних ссылках или XML-картах сайта.
Примеры: удаленная страница продукта, которая все еще находится в вашей карте сайта, или ссылка на блог, которая возвращает неопределенное сообщение «Извините, страница не найдена» (т. н. мягкая ошибка 404).
Почему это проблема: Google будет продолжать пытаться посетить эти страницы, как будто стучится в дверь, которой нет. Снова и снова.
Полная трата времени.
Как это исправить:
- Очистите внутренние ссылки и удалите все, что ведет в никуда.
- Настройте перенаправление 301 , чтобы перенаправить Google (и посетителей) на полезную альтернативу.
- В карте сайта указывайте только активные и полезные страницы.
Подумайте об этом как о наведении порядка в коридорах, чтобы Google не натыкался постоянно на запертые двери.
3. Страницы-сироты
Они включают страницы, которые существуют, но на них нет ссылок. Они плавают по вашему сайту без четкого пути, почти как призрак, плавающий по вашему сайту.
Пример: старая запись в блоге от 2019 года, на которой нет ссылок с вашей домашней страницы, страницы категорий и тегов. Просто… потерялась.
Почему это проблема: Google может рано или поздно на это наткнуться, но он использует краулинговый бюджет на странице, которая никак не помогает вашему сайту.
Как это исправить:
- Убедитесь, что на каждую страницу ведет полезная ссылка — будь то основная навигация, нижний колонтитул или другая связанная статья.
- Или, если страница действительно устарела или бесполезна? Рассмотрите возможность ее удаления или установки для нее статуса noindex.
Никто не любит оставаться в стороне. Помогите Google найти ваш контент с помощью правильных ссылок.
4. Фасетная навигация
Эти бесконечные комбинации фильтров или порядков сортировки (например, размер, цвет, цена, категория) генерируют тысячи немного отличающихся URL-адресов.
Примеры:
- /обувь?цвет=синий&размер=7&продажа=истина,
- /shoes?size=7&sale=true&color=blue (да, это считается еще одной страницей).
Почему это проблема: Googlebot застревает в цикле. Он продолжает сканировать крошечные вариации параметров URL, показывая одни и те же продукты, тратя бюджет на страницы, которые не предлагают ничего нового.
Как это исправить:
- Заблокируйте эти URL-адреса в файле robots.txt, чтобы Google даже не пытался их сканировать.
- Используйте настройки параметров в Google Search Console, чтобы сообщить Google, какие фильтры следует игнорировать.
- Канонический возврат на главную страницу категории продукта, где это возможно.
Думайте об этом как о закрытии двери в бесконечный лабиринт. Делая так, вы помогаете Google быстрее добраться до нужного материала.
Как проверить активность сканирования?
Как только вы поймете бюджет сканирования, следующим шагом станет его мониторинг. Google Search Console (GSC) дает вам прямое представление о том, как Googlebot взаимодействует с вашим сайтом.
Этот инструмент позволяет вам заглянуть за кулисы того, как Google сканирует ваш сайт:
- Как часто он посещает
- Какие типы страниц он извлекает
- Справляется ли ваш сервер с нагрузкой?
Мы расскажем, где найти эту информацию и что означает каждая часть.
1. Обзор статистики сканирования GSC
Для начала зайдите на свой объект GSC и:
- Нажмите «Настройки» на боковой панели.
- Прокрутите страницу вниз до раздела «Сканирование».
- Нажмите «Открыть отчет».
Теперь вы будете в отчете Crawl Stats. Здесь живет все самое лучшее.
Отсюда вы получите 90-дневный снимок активности сканирования Google на вашем сайте, включая любые красные флаги или изменения, на которые стоит обратить внимание. Думайте об этом как о небольшой проверке здоровья вашего бюджета сканирования.
Как узнать, достигли ли вы лимита бюджета сканирования?
Одним из распространенных признаков является большое количество страниц в Google Search Console, отмеченных как:
- «Обнаружено – в настоящее время не индексировано»
- «Просканировано – в настоящее время не индексировано»
Эти сигналы говорят о том, что Google знает о существовании таких страниц, но пока не отдал им приоритет для сканирования или индексации.
Совет: если такие сообщения появляются часто, а на вашем сайте тысячи URL-адресов, это явный признак того, что вашему краулинговому бюджету следует уделить внимание.
2. Графики сверхурочной работы (также известные как временная шкала сканирования Google)
Посмотрите диаграмму активности сканирования за последние 90 дней. Это поможет вам заметить любые закономерности или внезапные падения или всплески сканирования. А под диаграммой вы увидите три ключевых показателя:
- Общее количество запросов на сканирование: если этот показатель падает, Google может снизить приоритет вашего сайта.
- Общий размер загрузки: высокие значения могут указывать на раздутые страницы или медиафайлы.
- Среднее время отклика: рост показателей свидетельствует о замедлении работы сервера.
3. Статус хоста
В этой части показано, насколько хорошо ваш сайт справляется со сканированием Google, особенно с технической или серверной точки зрения.
Если все гладко, вы увидите что-то вроде: «Хосты здоровы».
В противном случае вы можете получить предупреждение вроде: «У хостов были проблемы в прошлом».
Кликните на поле, чтобы узнать больше подробностей. Вы увидите:
- Проблемы с загрузкой Robots.txt: например, Google не удалось загрузить ваш файл robots.txt.
- Проблемы с DNS: Проблемы с разрешением вашего доменного имени
- Проблемы с подключением к серверу: ваш сервер не ответил достаточно быстро (или вообще не ответил)
Почему это важно: Если Google не может надежно добраться до вашего сайта, он будет сканировать его реже. Вам нужно будет быстро решить любую из этих проблем.
4. Разбивка запросов на сканирование
Это действительно содержательный момент. Google разбивает на части, что он сканирует, как и почему. Вы увидите четыре удобные категории:
- По коду ответа
Это показывает, как отреагировали ваши страницы — 200 OK, 404 Not Found, 301 Redirect и т. д.
Пример: если вы видите здесь много ошибок 404, у вас могут быть неработающие ссылки, из-за которых тратится бюджет сканирования. - По типу файла
Googlebot не просто сканирует страницы в HTML. Он также захватывает изображения, скрипты и CSS.
Пример: если часть вашего бюджета сканирования уходит на файлы JavaScript, возможно, стоит оптимизировать или ограничить это. - По цели запроса
Google маркирует каждый запрос по причине: Discovery (поиск новых страниц) или Refresh (проверка известных страниц).
Пример: если вы видите в основном «Refresh», это может означать, что вы не публикуете много нового контента прямо сейчас, или Google не знает об этом. - По типу Googlebot
Google использует разных ботов для заданий, например Googlebot, Smartphone и Image.
Пример: если вы видите много запросов от Googlebot Smartphone, Google отдает приоритет мобильной версии вашего сайта (и это здорово).
При нажатии на любой элемент отображаются конкретные страницы, соответствующие этому типу, например, какие URL-адреса вернули ошибку 404 или какие из них были просканированы определенным ботом.
Google Search Console предоставляет вам основные сведения прямо из источника.
Для корпоративных или коммерческих сайтов с десятками тысяч URL-адресов рассмотрите возможность проведения аудита бюджета сканирования с помощью таких инструментов, как Semrush Log File Analyzer , Botify или OnCrawl.
Они помогают узнать, как ведет себя Googlebot с течением времени, где он тратит бюджет сканирования, где он теряется и какие разделы вашего сайта могут быть недосканированы. Вы можете быстро определить возможности для оптимизации бюджета сканирования.
Совет профессионала: используйте данные файла журнала для сравнения активности сканирования с доходными URL-адресами. Если страницы с самой высокой конверсией не получают регулярных сканирований, у вас есть возможность оптимизации.
Хотите увидеть то, что видит Google?
Вам не нужно осваивать бюджет сканирования сегодня, но он играет ключевую роль в том, как ваш контент будет обнаружен и ранжирован. Когда поисковые системы фокусируются на правильных страницах, вы с большей вероятностью окажетесь там, где это имеет значение.
Бюджет сканирования помогает Google расставить приоритеты для вашего самого ценного контента. Убедитесь, что он работает в вашу пользу.
Начните с проверки того, что уже видно. Используйте наш SERP Checker, чтобы увидеть, какие страницы ранжируются, а какие нет. Это может помочь вам заметить упущенные возможности и сделать ваши усилия по цифровому маркетингу более эффективными.
Комментарии