Азбука сигналов ранжирования: что раскрыли ведущие инженеры поиска Google

Новые материалы Министерства юстиции раскрывают, как Google ранжирует контент, а также роль технологий Navboost, RankEmbed и нейросетей в формировании будущего поиска.
Азбука сигналов ранжирования

Министерство юстиции США опубликовало несколько новых материалов в рамках продолжающегося слушания о средствах правовой защиты. Эти материалы включают интервью с двумя ключевыми инженерами Google – Панду Наяком и Эйч Джей Кимом – которые дают представление о сигналах и системах ранжирования Google, функциях поиска и будущем Google.

Ключевая терминология поисковой системы Google

Наяк определил некоторые ключевые термины Google и объяснил структуру поиска:

  • Документ: Так Google называет веб-страницу или её сохраненную версию.
  • Сигналы: То, как Google ранжирует документы, которые в конечном итоге формируют SERP (страницы результатов поиска). Google использует прогнозирующие сигналы из моделей машинного обучения, а также "традиционные сигналы", вероятно основанные на пользовательских данных (что Google ранее называл взаимодействиями пользователей – например, клики, внимание к результату, свайпы по каруселям, ввод нового запроса). В целом существует два типа сигналов ранжирования:
    • Необработанные сигналы. Это отдельные сигналы. У Google "более 100 необработанных сигналов", по словам Наяка.
    • Сигналы верхнего уровня. Это комбинация нескольких необработанных сигналов.

Другие сигналы, обсуждаемые инженерами:

  • Q* ("Q звезда"): Как Google измеряет качество документа.
  • Navboost: Традиционный сигнал, измеряющий клики пользователей на документе для определенного запроса, сегментированный по местоположению и типу устройства, использующий данные за последние 13 месяцев.
  • RankEmbed: Основной сигнал Google, обученный с помощью больших языковых моделей (LLM).
  • PageRank: Оригинальный сигнал Google, до сих пор являющийся фактором качества страницы.

Google также использует инструменты Twiddlers для повторного ранжирования результатов (о чем мы узнали из прошлогодней утечки внутреннего API Google Content Warehouse). Внутренний "отладочный интерфейс" позволяет инженерам видеть расширение/декомпозицию запросов и отдельные оценки сигналов, определяющие окончательное ранжирование результатов поиска.

Google прекращает использование плохо работающих или устаревших сигналов.

Navboost: не система машинного обучения

Бывшего сотрудника Google Эрика Лемана спросили, обучается ли Navboost на данных пользователей за 13 месяцев, и он ответил:

"По моему пониманию, да. Но слово 'обучается' здесь может немного вводить в заблуждение. Navboost — это не система машинного обучения. Это просто большая таблица. В ней указано... для этого поискового запроса этот документ получил два клика. Для этого запроса этот документ получил три клика... и так далее. Всё это агрегируется, и есть немного дополнительных данных. Но вы можете думать об этом как о гигантской таблице."

Поиск Google: от традиций к машинному обучению

Поиск Google эволюционировал от традиционной функции ранжирования "Okapi BM25" к включению машинного обучения, начиная с RankBrain (анонсированного в 2016 году), а затем DeepRank и RankEmbed.

Google обнаружил, что сигналы машинного обучения на основе BERT-модели DeepRank могут быть "разложены на сигналы, напоминающие традиционные", и что объединение обоих типов улучшает результаты. Это по сути создало гибридный подход традиционного поиска информации и машинного обучения.

Google "избегает простого 'прогнозирования кликов'", потому что ими легко манипулировать, и они ненадежно измеряют пользовательский опыт.

RankEmbed

Ключевой сигнал, RankEmbed, представляет собой "модель двойного кодировщика", которая встраивает запросы и документы в "пространство вложений". Это пространство учитывает семантические свойства и другие сигналы. Поиск и ранжирование основаны на "скалярном произведении" или "мере расстояния в пространстве вложений".

RankEmbed "чрезвычайно быстрый" и отлично справляется с распространенными запросами, но испытывает трудности с менее частыми или специфичными запросами из "длинного хвоста". Google обучил его на данных поиска за один месяц.

Тематичность, качество и другие сигналы

Документы показывают, как Google определяет релевантность документа запросу, или "тематичность". Ключевыми компонентами являются сигналы ABC:

  • Anchors (A): Ссылки с исходной страницы на целевую страницу.
  • Body (B): Термины в документе.
  • Clicks (C): Как долго пользователь оставался на связанной странице, прежде чем вернуться к SERP.

Они объединяются в T* (Тематичность), которую Google использует для оценки релевантности документа поисковым терминам.

Помимо тематичности, "Q*" (качество страницы) или "достоверность" "невероятно важны", особенно в борьбе с "фабриками контента". Эйч Джей Ким отмечает: "В наши дни люди всё ещё жалуются на качество, а ИИ делает ситуацию хуже". PageRank влияет на оценку качества.

Другие сигналы включают:

  • eDeepRank: Система LLM, использующая BERT и трансформеры для разложения сигналов на основе LLM для большей прозрачности.
  • BR: Сигнал "популярности", использующий данные Chrome.

Ручные сигналы

Хотя машинное обучение приобретает всё большее значение, многие сигналы Google по-прежнему "создаются вручную" инженерами. Они анализируют данные, применяют функции, такие как сигмоиды, и устанавливают пороговые значения для точной настройки сигналов.

"В крайнем случае" это означает ручной выбор средних точек данных. Для большинства сигналов Google использует регрессионный анализ содержимого веб-страниц, кликов пользователей и меток человеческих оценщиков.

Ручные сигналы важны для прозрачности и простоты устранения неполадок. Как объяснил Ким:

"Причина, по которой подавляющее большинство сигналов создаются вручную, заключается в том, что если что-то сломается, Google знает, что исправлять. Google хочет, чтобы их сигналы были полностью прозрачными, чтобы они могли устранять неполадки и улучшать их."

Сложные системы машинного обучения труднее диагностировать и ремонтировать, объяснил Ким.

Это означает, что Google может реагировать на проблемы и модифицировать сигналы, например, настраивая их для решения "различных медийных/общественных вызовов".

Однако инженеры отмечают, что "найти правильные границы для этих корректировок сложно", и эти корректировки "было бы легко обратно разработать и скопировать, глядя на данные".

Поисковый индекс и пользовательские данные

Поисковый индекс Google — это сканированный контент: заголовки и тексты. Отдельные индексы существуют для контента, такого как ленты Twitter и данные Macy's. Сигналы на основе запросов обычно вычисляются во время запроса, а не хранятся в поисковом индексе, хотя некоторые могут храниться для удобства.

"Пользовательские данные" для инженеров поиска Google означают данные о взаимодействии пользователей, а не контент, созданный пользователями, например ссылки. Сигналы, на которые влияют пользовательские данные, различаются по степени воздействия.

Функции поиска

Функции поиска Google (например, панели знаний) имеют собственные алгоритмы ранжирования. "Tangram" (ранее Tetris) был направлен на применение единого принципа поиска ко всем этим функциям.

Использование Graph of Knowledge выходит за рамки панелей SERP, улучшая традиционный поиск. В документах также упоминается "блок самопомощи при суициде", подчеркивающий критическую важность точной настройки и обширную работу по определению правильных "кривых" и "пороговых значений".

Разработка Google, как подчеркивают документы, ориентирована на потребности пользователей. Google выявляет и отлаживает проблемы, а также включает новую информацию для улучшения ранжирования. Примеры включают:

  • Настройку сигналов для учета смещения позиции ссылок.
  • Разработку сигналов для борьбы с фабриками контента.
  • Инновации для обеспечения качественных результатов по чувствительным запросам, таким как "произошел ли Холокост", учитывая нюансированное разнообразие результатов.

LLM и будущее Google Поиска

Google "переосмысливает свой поисковый стек с нуля", при этом LLM играют всё большую роль. LLM могут улучшить "интерпретацию запросов" и "обобщенное представление результатов".

В отдельном материале мы получили представление о "комбинированной поисковой инфраструктуре" Google (хотя многие части были отредактированы).

Google изучает, как LLM могут переосмыслить ранжирование, поиск и отображение SERP. Ключевым фактором являются вычислительные затраты на использование LLM.

В то время как ранние модели машинного обучения нуждались в большом количестве данных, Google теперь использует "все меньше и меньше", иногда только за 90 или 60 дней. Правило Google: использовать данные, которые лучше всего обслуживают пользователей.

Это не первый раз, когда мы получаем внутреннее представление о работе ранжирования Google Search благодаря судебному процессу Министерства юстиции.

Комментарии