автор: Benj Arriola
404 и мягкие 404 – это разные виды проблем, требующие различных методов диагностики и устранения.
Google Search Console предупреждает издателей ошибках 404: есть 404 и есть мягкие 404.
Несмотря на то, что оба называются 404, они очень разные.
Следовательно, важно понимать разницу между этими ошибками, чтобы их исправить.
Коды состояния HTTP
Веб-страница, к которой обращается браузер, отвечает статусным кодом, сообщающим, успешен ли был запрос, и если нет, то почему.
Эти ответы передаются с использованием так называемых кодов ответов HTTP, хотя официально они называются кодами состояния HTTP.
Сервер предоставляет пять категорий кодов ответов; в данной главе речь идет о коде ответа 404 – страница не найдена.
Смысл кода ответа 404
Все коды из серии ответов 4xx означают, что запрос не может быть выполнен, потому что страница не найдена.
Официальное определение звучит следующим образом:
4xx (Ошибка клиента): Запрос содержит неверный синтаксис или не может быть выполнен.
Ответ 404 является неоднозначным относительно того, может ли веб-страница вернуться.
Примеры причин возникновения ошибки "404 Страница не найдена"
- Если кто-то по ошибке удаляет веб-страницу, сервер отвечает кодом 404 – страница не найдена.
- Если кто-то делает ссылку на несуществующую веб-страницу, сервер отвечает, что страница не найдена (404).
Официальная документация ясно указывает на неоднозначность того, временно отсутствует страница или отсутствие является постоянным:
"Код состояния 404 (Not Found) указывает на то, что сервер-источник не нашел текущего представления целевого ресурса или не готов разглашать, что такое представление существует.
Код состояния 404 не указывает, является ли это отсутствие представления временным или постоянным..."
Подытожим, код 404 – страница не найдена означает, что произошла ошибка в запросе браузера, потому что запрашиваемая страница не может быть найдена.
Что такое мягкая ошибка 404?
Мягкая ошибка 404 – это не официальный код состояния. Сервер не отправляет мягкий ответ 404 браузеру, потому что не существует такого кода состояния как мягкий 404.
Мягкая 404 описывает ситуацию, когда сервер представляет веб-страницу и отвечает статусом 200 OK, указывая на успех, хотя веб-страница или содержимое на самом деле отсутствует.
Четыре распространенные причины мягкой 404
Веб-страница отсутствует, и сервер отправляет статус 200 OK.
Этот вид мягкой 404 происходит, когда страница отсутствует, но конфигурация сервера перенаправляет отсутствующую страницу на домашнюю страницу или на другой URL.
Страница отсутствует, но издатель предпринимает действия для обработки запроса отсутствующей страницы.
Контент отсутствует или "тонкий".
Когда контент полностью отсутствует или его очень мало (так называемый "тонкий" контент), сервер будет отвечать статусом 200, что означает успешность запроса страницы.
Однако для индексации веб-страниц, которые не являются успешными запросами веб-страниц, поисковые системы называют это мягкими 404.
Отсутствующая страница перенаправляет на домашнюю страницу.
Некоторые ошибочно считают, что с ответом 404 что-то не так.
Чтобы избежать ответов с ошибкой 404, издатель может перенаправить отсутствующую страницу на домашнюю страницу, даже если домашняя страница не была запрошена.
Google называет эти неудачные запросы страниц мягкими 404.
Отсутствующая страница перенаправляется на пользовательскую веб-страницу.
Иногда отсутствующие страницы перенаправляются на специально созданную веб-страницу, которая возвращает статус 200, что приводит к тому, что Google классифицирует эти страницы как мягкие 404.
Кто придумал термин "мягкая ошибка 404"?
Концепция мягкой ошибки 404, вероятно, возникла в исследовательской статье 2004 года под названием "К пониманию разрушения веба".
Отсутствующие страницы, которые неправильно заменены, представляют проблему для поисковых систем, индексующих реальные страницы.
Вот как описывают мягкие ошибки 404 в этой исследовательской статье:
"Согласно протоколу HTTP, когда делается запрос к серверу для страницы, которой уже не существует, сервер должен вернуть код ошибки...
... на самом деле многие серверы, включая большинство авторитетных, не возвращают код 404 – вместо этого они возвращают запасную страницу и код OK (200).
... Наше исследование показывает, что такие виды замен, называемые "мягкими 404", составляют более 15% битых ссылок."
Мягкая 404 из-за ошибок в коде
Существуют случаи, когда страница не отсутствует, но конкретные проблемы (такие как ошибки в коде) заставляют Google классифицировать ее как отсутствующую страницу.
Исследование мягких 404-х ошибок важно, потому что они могут сигнализировать о наличии проблем в коде.
Типичные проблемы с кодированием:
- Отсутствующий файл или включение, которое должно заполнять веб-страницу контентом.
- Ошибки базы данных.
- Отсутствие JavaScript.
- Пустые страницы результатов поиска.
Ошибки 404 имеют две основные причины:
- Ошибка в ссылке направляет пользователей на страницу, которой не существует.
- Ссылка на страницу, которая ранее существовала, но внезапно исчезла.
Ошибка в Ссылке
Если причиной ошибки 404 является ошибка в ссылке, необходимо исправить ссылки.
Трудность заключается в том, чтобы найти все битые ссылки на сайте. Это может быть более сложно при сканировании крупных сложных сайтов с тысячами или миллионами страниц.
В таких случаях полезны инструменты для сканирования.
Есть множество вариантов программ для сканирования сайтов: бесплатные Xenu и Greenflare; или платные, такие как Screaming Frog, DeepCrawl, Botify, Sitebulb и OnCrawl, где у нескольких из них есть пробные версии или бесплатные, но ограниченные по функционалу версии.
Страница, Которой Больше Не Существует
Когда страница больше не существует, у вас есть два варианта:
- Восстановить страницу, если ее удаление было случайным.
- Сделать 301 переадресацию на наиболее близкую связанную страницу, если удаление было преднамеренным.
Сначала вы должны найти все ошибки в ссылках на сайте. Как и в случае поиска всех ошибок в ссылках для сайта крупного масштаба, вы можете использовать инструменты для сканирования.
Однако инструменты для сканирования могут не находить брошенные страницы: страницы, не связанные нигде в навигационных ссылках или с другими страницами.
Брошенные страницы могут существовать, если они ранее были частью веб-сайта, а затем, после редизайна сайта, ссылка на эту старую страницу исчезает, но внешние ссылки с других веб-сайтов могут по-прежнему вести на них.
Чтобы дополнительно проверить, существуют ли такие страницы на вашем сайте, вы можете использовать различные инструменты.
Как идентифицировать страницы с ошибкой 404:
Отчеты Google Search Console
Отчет о покрытии перечисляет URL-адреса с ошибкой 404 на сайте.
Search Console сообщит о страницах с ошибкой 404 по мере прохождения Google по всем страницам, которые он может найти. Сюда могут входить ссылки с других сайтов на страницу, которая ранее существовала на вашем веб-сайте.
Google Analytics
В Google Analytics вы не найдете отчета о потерянных страницах по умолчанию. Тем не менее вы можете отслеживать их различными способами.
Во-первых, вы можете создать пользовательский отчет и выделить страницы с заголовком, содержащим "Ошибка 404 – Страница не найдена".
Еще один способ найти брошенные страницы в Google Analytics – создать пользовательские группы контента и присвоить все страницы с ошибкой 404 одной группе контента.
Команда поиска Operator site:
Нельзя использовать команду поиска site:, чтобы найти ошибки 404, потому что Google не индексирует веб-страницы с ошибкой 404 или мягкие веб-страницы с ошибкой 404.
Оператор поиска Google site: полезен для поиска веб-страниц на сайте, содержащих определенную ключевую фразу в содержании этих веб-страниц.
Google Search Console является лучшим источником для выявления списка мягких 404 и обычных 404.
Журналы ошибок сайта также являются полезным источником для выявления ответов с ошибкой 404.
Другие инструменты для исследования обратных ссылок
Инструменты для исследования обратных ссылок, такие как Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, Semrush, LinkResearchTools и CognitiveSEO, также могут быть полезны.
Большинство из этих инструментов предоставляют списки обратных ссылок на ваш домен. Из этих списков вы можете проверить все связанные страницы и поискать ошибки 404.
Как исправить мягкие 404 ошибки
Инструменты для сканирования не обнаружат мягкую 404 ошибку, потому что это не 404 ошибка. Но вы можете использовать инструменты для сканирования, чтобы обнаружить кое-что еще.
Вот несколько вещей, которые можно найти:
- Тонкий контент: Некоторые инструменты сканирования отчитывают страницы с тонким контентом вместе с подсчетом количества слов. Начните со страниц с наименьшим количеством слов, чтобы оценить, есть ли на странице тонкий контент.
- Дублирующийся контент: Некоторые инструменты сканирования достаточно сложны, чтобы определить, какой процент контента страницы является шаблонным. Также есть инструменты, специально предназначенные для поиска внутреннего дублирующегося контента, например SiteLiner. Если основной контент почти такой же, как на многих других страницах, вам следует изучить эти страницы и определить, почему на вашем сайте существует дублирующийся контент.
Помимо инструментов сканирования, вы также можете использовать Консоль поиска Google и проверить в разделе ошибок сканирования страницы, перечисленные как мягкие 404.
Сканирование всего сайта на предмет проблем, вызывающих мягкие 404 ошибки, позволяет найти и исправить проблемы до того, как их обнаружит Google.
После обнаружения этих проблем с мягкими 404 ошибками вам потребуется их исправить.
В большинстве случаев решения кажутся очевидными. Это могут быть простые вещи, такие как расширение страниц с тонким контентом или замена дублирующегося контента на новый и уникальный.
На протяжении всего этого процесса следует учитывать несколько вещей:
Консолидация страниц
Иногда тонкий контент вызван слишком узкой темой страницы, из-за чего вам не о чем рассказать.
Объединение нескольких страниц с тонким контентом в одну страницу может быть более уместным, если темы связаны. Это не только решает проблемы с тонким контентом, но и устраняет проблемы с дублирующимся контентом.
Например, интернет-магазин, продающий обувь разных цветов и размеров, может иметь разные URL для каждой комбинации размера и цвета. Это приводит к большому количеству страниц с тонким и относительно идентичным контентом.
Более эффективный подход – разместить всё на одной странице и перечислить доступные варианты.
Найти технические проблемы, вызывающие дублирующийся контент
Используя даже самый простой инструмент веб-сканирования, такой как Xenu (который не анализирует контент, а только URL, коды ответов и теги заголовков), вы по-прежнему можете найти проблемы с дублирующимся контентом, проверив URL.
Это включает в себя URL с www и без www, HTTP и HTTPS, с index.html и без, с отслеживающими параметрами и без них и т.д.
404 ошибки и мягкие 404 ошибки
Самое важное, что нужно помнить об ошибках 404 – если страницы действительно отсутствуют, то нечего исправлять. Нормально показывать ответ 404 для запросов несуществующих страниц.
Но если страницы существуют, но по другому URL, то это нужно исправить, перенаправив сломанную ссылку на фактический URL, восстановив удаленную страницу или перенаправив старый URL на новую страницу, которая ее заменила.
Мягкая 404 ошибка всегда является результатом проблемы, которую необходимо диагностировать и исправить.
Понимание разницы между 404 ошибками крайне важно для поддержания максимальной производительности веб-сайта.