Содержание
Что такое ошибка краулинга?
Ошибки краулинга возникают, когда поисковые роботы (краулеры) не могут получить доступ к страницам вашего сайта обычным способом. Когда это происходит, поисковые системы, такие как Google, не могут полностью исследовать и понять содержимое или структуру вашего сайта.
Краулеры — это программы, которые:
- Посещают страницы в интернете
- Обнаруживают контент для индексации
- Следуют по ссылкам на вашем сайте
- Сохраняют данные в базах поисковых систем
Проблемы от ошибок краулинга:
- Страницы не могут быть обнаружены
- Контент не индексируется
- Снижение в результатах поиска
- Потеря органического трафика
Ошибки сайта (Site Errors)
Ошибки сайта — это проблемы, которые возникают на уровне всего сайта. Они означают, что пользователи и Google не могут получить доступ ни к одной из ваших страниц.
DNS Ошибки
Что такое DNS?
DNS (Domain Name System) — это система, которая переводит IP-адрес сайта из набора цифр в удобные буквы и цифры. По сути, это то, что позволяет нам перемещаться по интернету, не зная IP-адрес каждого сайта.
Как работает DNS:
- Вы вводите доменное имя в браузер
- Браузер проверяет, есть ли информация о домене локально
- Если нет, браузер отправляет запрос на локальный DNS-сервер
- DNS-сервер ищет детали доменного имени
- Происходит поиск через корневые серверы имен
- Возвращается IP-адрес домена
DNS Timeout
DNS-сервер не ответил на запрос Google достаточно быстро.
DNS Lookup
Google не смог получить доступ к сайту, потому что DNS-сервер не смог найти доменное имя.
Ошибки сервера
Ошибки сервера отличаются от DNS-ошибок. Они означают, что Google смог найти ваш URL на DNS-сервере, но не может загрузить страницу из-за проблемы с сервером.
Код ошибки | Название | Описание |
---|---|---|
500 | Internal Server Error | Сервер не может выполнить запрос |
502 | Bad Gateway | Один сервер получил недействительный ответ от другого |
503 | Service Unavailable | Сервер временно недоступен |
504 | Gateway Timeout | Сервер не получил ответ вовремя |
Ошибки robots.txt
Ошибки robots.txt возникают, когда Google не может найти и прочитать файл robots.txt вашего сайта по адресу www.yoursite.com/robots.txt
.
Что проверить при ошибке robots.txt:
- Создан ли файл как обычный текстовый файл?
- Не запрещена ли главная страница?
- Возвращает ли файл robots.txt статус 200 или ошибку 404?
- Есть ли строка
Disallow: /
?
Ошибки URL (URL Errors)
Ошибки URL отличаются от ошибок сайта тем, что они применяются только к конкретной странице, а не ко всему сайту. Они отмечают случаи, когда Google запросил определенную страницу, но не смог ее прочитать.
Ошибки 404 (Not Found)
Ошибки "Not Found" — это фактические 404 ошибки, обнаруженные на сайте. Google запросил URL на вашем сайте, которого не существует.
Согласно самому Google, 404 ошибки не влияют на индексацию или рейтинг вашего сайта.
Когда исправлять 404?
- Много качественных внешних ссылок
- Получает много трафика
- URL, который пользователи ожидают найти
Мягкие 404 ошибки (Soft 404s)
Google достаточно хорошо находит, где на странице расположен контент. Поэтому, когда URL содержит страницу без основного содержимого, он называет это мягкой 404 ошибкой.
Причины возникновения Soft 404:
- Проблемы с JavaScript: Файл JavaScript заблокирован или не может быть загружен
- Тонкий контент: Страница имеет недостаточное содержимое
- Низкокачественный контент: Дублированный или бесполезный контент
- Технические проблемы: Отсутствующие файлы или проблемы с базой данных
Ошибки доступа (Access Denied)
Эти ошибки возникают, когда Google не может получить доступ к определенной странице. Обычно они вызваны:
Защита паролем
Страница требует авторизации
Robots.txt
Страница запрещена в robots.txt
Хостинг
Провайдер блокирует Googlebot
Ошибки перенаправления
Ошибки перенаправления возникают, когда Google не может полностью проследить URL до места назначения. Причины могут включать:
Тип ошибки | Описание | Решение |
---|---|---|
Цепочки редиректов | Множественные перенаправления подряд | Упростить до прямого редиректа |
Циклы редиректов | Страница А → Страница Б → Страница А | Исправить логику перенаправлений |
Относительные ссылки | Некорректные относительные пути | Использовать абсолютные URL |
Ошибки 403 (Forbidden)
Ошибка 403 означает, что сервер понял запрос, но краулер не может получить доступ к URL.
Основные причины 403 ошибок:
- Проблемы с разрешениями сервера: Неправильные права доступа к файлам и папкам
- Проблемы с .htaccess: Ошибки в файле конфигурации Apache
- Блокировка на уровне сервера: Краулеры заблокированы настройками безопасности
Мониторинг ошибок в Google Search Console
Google Search Console предоставляет мощные инструменты для выявления и мониторинга ошибок краулинга на вашем сайте.
Отчет о покрытии индекса
В новой версии Google Search Console ошибки краулинга отображаются по URL в отчете о покрытии индекса. Отчет отслеживает:
- Ошибки Критично
- Действительные страницы Хорошо
- Исключенные страницы Внимание
- Действительные с предупреждениями Проверить
Инструмент проверки URL
Google Search Console позволяет проверять отдельные страницы на наличие проблем с индексацией и краулингом.
Доступ к инструменту проверки URL:
- Ссылка в левом меню навигации
- Ввод URL в строке поиска вверху страницы
- Нажатие на иконку лупы в отчете производительности
Статистика краулинга
Как проверить статистику краулинга
- Перейдите в свой аккаунт Google Search Console
- Нажмите на "Настройки" в левой боковой панели
- Нажмите "ОТКРЫТЬ ОТЧЕТ" рядом с вкладкой "Статистика краулинга"
- Прокрутите вниз, чтобы увидеть проблемы с краулингом
- Нажмите на любую проблему для получения подробной информации
Как исправить ошибки краулинга
Исправление 404 ошибок
404 ошибки встречаются часто, и хорошая новость в том, что их легко исправить с помощью перенаправлений.
301 Перенаправление (Постоянное)
Используйте для постоянных перенаправлений. Сохраняет SEO-вес оригинальной страницы.
Redirect 301 /old-page/ /new-page/
302 Перенаправление (Временное)
Используйте для временных перенаправлений. Оригинальная страница сохраняет SEO-вес.
Redirect 302 /temp-page/ /new-page/
Лучшие практики для перенаправлений:
- Перенаправляйте на новый URL, если контент все еще существует
- Перенаправляйте на страницу с похожей тематикой, если контент больше не существует
- Используйте 301 редирект для постоянных изменений
- Убедитесь, что цепочки перенаправлений минимальны
Исправление DNS ошибок
Шаги для исправления DNS ошибок:
- Проверьте настройки DNS: Используйте инструменты вроде DNS Checker для проверки A, CNAME и MX записей
- Используйте надежных DNS провайдеров: Cloudflare или Google DNS обеспечивают лучшую производительность
- Мониторьте здоровье сервера: Используйте UptimeRobot или Pingdom для регулярного мониторинга
- Очищайте устаревший DNS кэш: При необходимости обновляйте кэш DNS
Исправление серверных ошибок
Оптимизация сервера
- Обновление до более мощного сервера
- Оптимизация существующих ресурсов
- Управление трафиком
Кэширование и CDN
- Внедрение решений кэширования
- Использование CDN для распределения нагрузки
- Статические версии страниц
Исправление Soft 404 ошибок
Стратегии исправления Soft 404:
- Убедитесь в правильных HTTP кодах: Страницы, которых не существует, должны возвращать 404
- Проверьте качество контента: Найдите и исправьте страницы с минимальным содержимым
- Удалите низкокачественные страницы: Или перенаправьте их на более ценные
- Исправьте технические проблемы: Проблемы с JavaScript, базой данных или отсутствующими файлами