Свидетельство инженера Google показывает, как оценивается качество страниц и подтверждает существование сигнала популярности, использующего данные от браузера Chrome.
Показания инженера Google раскрывают детали системы ранжирования поисковика
Отредактированные показания инженера Google, опубликованные онлайн Министерством юстиции США, позволяют заглянуть внутрь системы ранжирования Google. Материалы раскрывают информацию о том, как Google оценивает качество страниц и представляют загадочный сигнал популярности, использующий данные браузера Chrome.
Документ предлагает общий и довольно поверхностный обзор сигналов ранжирования, давая представление о том, что делают алгоритмы, но не раскрывая конкретных деталей.
Ручная настройка сигналов
Например, документ начинается с раздела о "ручной настройке" сигналов, который описывает общий процесс сбора данных от оценщиков качества, кликов и т.д. с последующим применением математических и статистических формул для создания рейтинга на основе трех видов сигналов. Ручная настройка означает масштабируемые алгоритмы, которые настраиваются инженерами поиска. Это не означает, что они вручную ранжируют веб-сайты.
ABC-сигналы Google
Документ Министерства юстиции перечисляет три типа сигналов, называемых ABC-сигналами:
- A – Anchors (страницы, ссылающиеся на целевые страницы),
- B – Body (поисковые запросы в документе),
- C – Clicks (время пребывания пользователя на странице перед возвращением к результатам поиска).
Утверждение об ABC-сигналах является обобщением одной части процесса ранжирования. Ранжирование результатов поиска гораздо сложнее и включает сотни, если не тысячи дополнительных алгоритмов на каждом этапе процесса ранжирования: индексации, анализа ссылок, борьбы со спамом, персонализации, повторного ранжирования и других процессов. Например, Лиз Рейд обсуждала системы базовой тематичности как часть алгоритма ранжирования, а Мартин Сплитт рассказывал об аннотациях как части понимания веб-страниц.
Вот что говорится в документе об ABC-сигналах:
"ABC-сигналы — это ключевые компоненты тематичности (или базовой оценки), которые определяют, насколько документ соответствует запросу.
T* (тематичность) эффективно объединяет (как минимум) три сигнала относительно "ручным" способом. Google использует это для оценки релевантности документа на основе терминов запроса."
Документ дает представление о сложности ранжирования веб-страниц:
"Разработка ранжирования (особенно тематичности) включает решение множества сложных математических задач. Для тематичности может существовать команда инженеров, постоянно работающих над этими сложными проблемами в рамках данного проекта.
Причина, по которой подавляющее большинство сигналов настраивается вручную, заключается в том, что если что-то перестает работать, Google знает, что исправлять. Google стремится к полной прозрачности своих сигналов, чтобы иметь возможность устранять неполадки и совершенствовать их."
В документе сравнивается ручной подход Google с автоматизированным подходом Microsoft, отмечая, что когда что-то перестает работать в Bing, устранить неисправность гораздо сложнее, чем при подходе Google.
Взаимодействие между качеством страницы и релевантностью
Интересный момент, раскрытый инженером поиска, заключается в том, что качество страницы не зависит от запроса. Если страница определяется как высококачественная, заслуживающая доверия, она считается таковой для всех связанных запросов — это подразумевается под словом "статичная", то есть оценка не пересчитывается динамически для каждого запроса. Однако в запросе есть сигналы релевантности, которые можно использовать для расчета окончательных рейтингов, что показывает, как релевантность играет решающую роль в определении того, что ранжируется.
Вот что сказано в документе:
"Качество. В целом статично для нескольких запросов и не связано с конкретным запросом.
Однако в некоторых случаях сигнал качества включает информацию из запроса в дополнение к статичному сигналу. Например, сайт может иметь высокое качество, но общую информацию, поэтому запрос, интерпретируемый как поиск очень узкой/технической информации, может использоваться для направления на качественный сайт, который более технически ориентирован.
Q* (качество страницы, т.е. понятие достоверности) невероятно важно. Если конкуренты видят логи, то у них есть представление об "авторитетности" данного сайта.
Оценка качества невероятно важна даже сегодня. Качество страницы — это то, на что люди жалуются больше всего…"
ИИ вызывает жалобы на Google
Инженер заявляет, что люди жалуются на качество, но также говорит, что ИИ усугубляет ситуацию, делая её хуже.
Вот что он говорит о качестве страницы:
"В наши дни люди по-прежнему жалуются на качество, а ИИ делает ситуацию хуже.
Это было и продолжает оставаться большой работой, но её легко воспроизвести, потому что Q в основном статичен и в значительной степени связан с сайтом, а не с запросом."
eDeepRank — способ понимания ранжирования с использованием языковых моделей
Сотрудник Google перечисляет другие сигналы ранжирования, включая eDeepRank, который представляет собой систему на основе LLM, использующую BERT — языковую модель.
Он объясняет:
"eDeepRank — это система на основе LLM, использующая BERT и трансформеры. По сути, eDeepRank пытается взять сигналы на основе LLM и разложить их на компоненты, чтобы сделать их более прозрачными."
Эта часть о разложении сигналов LLM на компоненты, по-видимому, является отсылкой к процессу повышения прозрачности сигналов ранжирования на основе LLM, чтобы инженеры поиска могли понять, почему LLM ранжирует что-то определенным образом.
PageRank связан с алгоритмами ранжирования по расстоянию
PageRank — это оригинальная инновация Google в области ранжирования, которая с тех пор была много раз обновлена. Алгоритмы расстояния ссылок рассчитывают расстояние от авторитетных веб-сайтов по определенной теме (называемых исходными сайтами) до других веб-сайтов по той же теме. Эти алгоритмы начинают с набора авторитетных сайтов по заданной теме, и сайты, расположенные дальше от их соответствующего исходного сайта, считаются менее заслуживающими доверия. Сайты, которые ближе к исходным наборам, скорее всего, более авторитетны и заслуживают доверия.
Вот что сказал сотрудник Google о PageRank:
"PageRank. Это единый сигнал, относящийся к расстоянию от известного надежного источника, и он используется в качестве входных данных для оценки качества."
Загадочный сигнал популярности на основе Chrome
Существует еще один сигнал, название которого отредактировано, связанный с популярностью.
Вот его загадочное описание:
"[отредактировано] (популярность) сигнал, использующий данные Chrome."
Можно с уверенностью утверждать, что это подтверждает связь утечки API Chrome с фактическими факторами ранжирования. Однако многие SEO-специалисты, включая меня, считают, что эти API — это инструменты для разработчиков, используемые Chrome для отображения показателей производительности, таких как Core Web Vitals, в интерфейсе Chrome Dev Tools.
Я подозреваю, что это ссылка на сигнал популярности, о котором мы, возможно, не знаем.
Инженер Google также упоминает еще одну утечку документов, которые ссылаются на фактические "компоненты системы ранжирования Google", но отмечает, что в них недостаточно информации для обратной разработки алгоритма.
Он объясняет:
"Произошла утечка документов Google, в которых упоминались определенные компоненты системы ранжирования Google, но в документах не указываются конкретные кривые и пороговые значения.
Например, самих документов недостаточно для того, чтобы разобраться в этом, но данные, вероятно, могут дать необходимую информацию."
Выводы
Недавно опубликованный документ обобщает показания инженера Google, данные в ходе допроса Министерством юстиции США, и дает общее представление о системах ранжирования поиска Google. В документе обсуждается ручная настройка сигналов, роль статических оценок качества страниц и загадочный сигнал популярности, полученный из данных Chrome.
Он дает редкую возможность заглянуть внутрь того, как проектируются сигналы тематичности, достоверности, поведения при кликах и прозрачности на основе LLM, а также предлагает иную перспективу на методы ранжирования веб-сайтов Google.
Комментарии