Google объясняет процесс индексации основного контента

Google объясняет процесс индексации основного контента

https://www.searchenginejournal.com/google-explains-the-process-of-indexing-the-main-content/552347/

Гэри Иллес из Google обсудил концепцию «центрального контента», способы его определения и то, почему ошибки 404 являются самой серьёзной ошибкой, препятствующей индексации контента. Обсуждение было посвящено недавнему мероприятию Google Search Central Deep Dive в Азии, которое подытожил Кеничи Судзуки.

Содержание основного текста
По словам Гэри Иллеса, Google прилагает огромные усилия для определения основного контента веб-страницы. Термин «основной контент» знаком тем, кто читал Руководство Google по оценке качества поиска. Понятие «основной контент» впервые представлено в Части 1 Руководства, в разделе, посвященном определению основного контента, а затем следует описание качества основного контента.

В рекомендациях по качеству основной контент (MC) определяется следующим образом:


«Основной контент — это любая часть страницы, которая непосредственно помогает ей достигать своего назначения. Основным контентом могут быть текст, изображения, видео, функции страницы (например, калькуляторы, игры), а также контент, созданный пользователями веб-сайта, например, видео, обзоры, статьи, комментарии пользователей и т. д. Вкладки на некоторых страницах ведут к ещё большему количеству информации (например, отзывам клиентов) и иногда могут считаться частью основного контента.

MC также включает заголовок в верхней части страницы (пример). Описательные заголовки MC позволяют пользователям принимать обоснованные решения о том, какие страницы посещать. Полезные заголовки кратко описывают MC на странице.

Иллис из Google назвал основной контент центральным контентом, заявив, что он используется для «ранжирования и поиска». Контент в этом разделе веб-страницы имеет больший вес, чем контент в нижнем колонтитуле, верхнем колонтитуле и областях навигации (включая боковую панель навигации).

Сузуки резюмировал слова Иллиеса:

Системы Google отдают приоритет «основному контенту» (который он также называет «центральной частью») страницы при ранжировании и поиске. Слова и фразы, расположенные в этой области, имеют значительно больший вес, чем слова и фразы в заголовках, колонтитулах или боковых панелях навигации. Чтобы ранжировать важные термины, необходимо обеспечить их заметное место в основной части страницы.

Анализ местоположения контента для определения основного контента
Эту часть презентации Иллиса важно правильно реализовать. Гэри Иллис отметил, что Google анализирует отображаемую веб-страницу, чтобы определить её содержание и присвоить соответствующий вес словам в основном контенте.

Речь идёт не об определении положения ключевых слов на странице, а об определении содержания веб-страницы.

Вот что перевел Сузуки:

Google проводит позиционный анализ отображаемой страницы, чтобы определить местоположение контента. Затем он использует эти данные для присвоения рейтинга важности словам (токенам) на странице. Перемещение термина из области с низкой важностью (например, боковой панели) в область основного контента напрямую увеличит его вес и потенциал для ранжирования.

Примечание: семантический HTML — отличный способ помочь Google определить основной контент и менее важные области. Семантический HTML делает веб-страницы менее неоднозначными, поскольку использует HTML-элементы для обозначения различных областей веб-страницы, таких как верхний колонтитул, навигационные области, нижние колонтитулы, и даже для обозначения рекламы и навигационных элементов, которые могут быть встроены в область основного контента. Этот технический SEO-процесс, направленный на устранение неоднозначности веб-страницы, называется устранением неоднозначности.

Связанный :

Google отвечает, если семантический элемент HTML имеет значение
Что такое семантический HTML и почему он полезен для SEO
3. Токенизация — основа индекса Google
Благодаря широкому распространению технологий искусственного интеллекта (ИИ) многие SEO-специалисты знакомы с концепцией токенизации. Google также использует токенизацию для преобразования слов и фраз в машиночитаемый формат для индексации. В индексе Google хранится не исходный HTML-код, а токенизированное представление контента.

См. также: Введение в программы LLM по SEO с примерами

4. «Мягкие ошибки 404 — это критическая ошибка»
Эта часть важна, поскольку она определяет «мягкие» ошибки 404 как критическую. «Мягкие» ошибки 404 — это страницы, которые должны возвращать ответ 404, но вместо этого возвращают ответ 200 OK. Это может произойти, когда SEO-специалист или издатель перенаправляет отсутствующую веб-страницу на главную страницу для сохранения PageRank. Иногда отсутствующая веб-страница перенаправляет на страницу с ошибкой, которая возвращает ответ 200 OK, что также неверно.

Многие SEO-специалисты ошибочно полагают, что код ответа 404 — это ошибка, требующая исправления. Исправление кода 404 требуется только в том случае, если URL-адрес неисправен и должен указывать на другой URL-адрес с актуальным контентом.

Но в случае URL веб-страницы, которая удалена и, вероятно, никогда не восстановится, поскольку не была заменена другим контентом, правильным ответом будет код 404. Если контент был заменен или вытеснен другой веб-страницей, то в этом случае правильно перенаправить старый URL на URL, где находится заменяющий контент.

Суть всего этого в том, что для Google «мягкая» ошибка 404 — это критическая ошибка. Это означает, что SEO-специалисты, пытающиеся исправить событие, не являющееся ошибкой, например, ответ 404, перенаправляя URL на главную страницу, на самом деле создают критическую ошибку.

Сузуки отметил слова Иллиеса:

Страница, которая возвращает код статуса 200 OK, но отображает сообщение об ошибке или имеет очень скудный/пустой основной контент, считается «ложной ошибкой 404». Google активно выявляет такие страницы и снижает их приоритет, поскольку они расходуют краулинговый бюджет и создают неприятный пользовательский опыт. Иллис рассказал, что в течение многих лет страница документации Google о «ложных» ошибках 404 помечалась как «ложная ошибка 404» её собственными системами и не могла быть проиндексирована.

По теме: Google предупреждает о программных ошибках 404 и их влиянии на SEO

Еда на вынос
Основное содержимое.
Google отдаёт приоритет основному контенту веб-страницы. Хотя Гэри Иллес об этом не упоминал, использование семантического HTML может быть полезно для чёткого обозначения того, какие части страницы являются основным контентом, а какие — нет.
Google токенизирует контент для индексации.
Использование Google токенизации обеспечивает семантическое понимание запросов и контента. Важность для SEO заключается в том, что Google больше не полагается на ключевые слова с точным соответствием, что позволяет издателям и SEO-специалистам сосредоточиться на описании тем (а не ключевых слов) с точки зрения их полезности для пользователей.
Мягкие ошибки 404 — критическая ошибка.
Мягкие ошибки 404 обычно считаются чем-то, чего следует избегать, но обычно их не считают критической ошибкой, которая может негативно повлиять на бюджет сканирования . Это повышает важность предотвращения мягких ошибок 404.


Ознакомиться с полной информацией, что такое SEO-продвижение можно по ссылке.