Google подтверждает, что использует нечто похожее на MUVERA

Google использует MUVERA

Гэри Иллес из компании Google ответил на вопрос о том, используют ли они новый метод поиска Multi‑Vector Retrieval via Fixed‑Dimensional Encodings (MUVERA), а также используют ли они модели Graph Foundation.

МУВЕРА

Компания Google недавно анонсировала MUVERA в блоге и исследовательской статье: метод, который улучшает поиск, превращая сложный многовекторный поиск в быстрый одновекторный. Он сжимает наборы токеновых вложений в векторы фиксированной размерности, которые максимально приближены к их исходному уровню сходства. Это позволяет использовать оптимизированные методы одновекторного поиска для быстрого нахождения подходящих кандидатов, а затем повторно ранжировать их, используя точное многовекторное сходство. По сравнению со старыми системами, такими как PLAID, MUVERA быстрее, извлекает меньше кандидатов и при этом обеспечивает более высокую полноту, что делает его практичным решением для крупномасштабного поиска.

Ключевые моменты MUVERA:

  • MUVERA преобразует многовекторные наборы в фиксированные векторы с помощью фиксированно-размерных кодировок (FDE), которые являются одновекторными представлениями многовекторных наборов.
  • Эти FDE (фиксированные размерные кодировки) достаточно точно соответствуют исходным многовекторным сравнениям, что позволяет обеспечить точность поиска.
  • Для поиска MUVERA используется MIPS (поиск максимального внутреннего произведения), устоявшаяся технология поиска, используемая в поиске, что упрощает масштабное развертывание.
  • Переранжирование: После быстрого поиска по одному вектору (MIPS) для быстрого сужения списка наиболее вероятных совпадений, MUVERA переранжирует их, используя метод сходства Chamfer — более детальный метод многовекторного сравнения. Этот последний шаг восстанавливает полную точность многовекторного поиска, обеспечивая как скорость, так и точность.
  • MUVERA способна находить больше точно релевантных документов с меньшим временем обработки, чем современный базовый уровень поиска (PLAID), с которым она сравнивалась.

Google подтверждает использование MUVERA

Хосе Мануэль Моргал ( профиль в LinkedIn ) задал свой вопрос Гэри Ильесу из Google, и тот в шутку спросил, что такое MUVERA, а затем подтвердил, что они используют одну из его версий:

Вот как описал вопрос и ответ Хосе:

«В Google Research опубликована статья о MUVERA, и есть соответствующая публикация. Она сейчас находится в поиске?

В ответ он спросил меня, что такое MUVERA, ха-ха, а затем прокомментировал, что они используют что-то похожее на MUVERA, но они не называют это так».

Использует ли Google модели Graph Foundation (GFM)?

Недавно Google опубликовала в блоге объявление о прорыве в области искусственного интеллекта под названием Graph Foundation Model .

Модель Graph Foundation Model (GFM) от Google — это тип искусственного интеллекта, который обучается на основе реляционных баз данных, превращая их в графы, где строки становятся узлами, а связи между таблицами — ребрами.

В отличие от старых моделей (моделей машинного обучения и графовых нейронных сетей (GNN)), которые работают только с одним набором данных, GFM могут работать с новыми базами данных с другими структурами и характеристиками без повторного обучения на новых данных. GFM используют большую модель искусственного интеллекта для изучения взаимосвязей точек данных в таблицах. Это позволяет GFM находить закономерности, которые упускаются обычными моделями, и они гораздо лучше справляются с такими задачами, как обнаружение спама в масштабируемых системах Google. GFM — это большой шаг вперёд, поскольку они обеспечивают гибкость базовой модели для работы со сложными структурированными данными.

Модели Graph Foundation представляют собой заметное достижение, поскольку их улучшения не являются постепенными. Они представляют собой улучшение на порядок величины, с ростом производительности от 3 до 40 раз в среднем по точности.

Затем Хосе спросил Ильеса, использует ли Google модели Graph Foundation, и Гэри снова в шутку притворился, что не понимает, о чем говорит Хосе.

Он пересказал вопрос и ответ:

«В Google Research опубликована статья о моделях Graph Foundation для данных, но на этот раз нет ни одной публикации, связанной с ней. Работает ли она сейчас в поиске?

Он ответил так же, как и раньше: спросил меня, что такое Graph Foundation Models for data, и подумал, что эта технология ещё не в разработке. Он не знал, потому что нет соответствующих статей, и, с другой стороны, он заметил, что не контролирует публикации в блоге Google Research.»

Гэри выразил мнение, что модель Graph Foundation в настоящее время не используется в поиске. На данный момент это наиболее точная информация, которой мы располагаем.

Готов ли GFM к масштабному развертыванию?

В официальном объявлении о модели Graph Foundation говорится, что она была протестирована в ходе внутренней задачи по обнаружению спама в рекламе, что убедительно свидетельствует об использовании реальных внутренних систем и данных, а не только академических тестов или симуляций.

Вот что говорится в заявлении Google:

«Работа в масштабе Google подразумевает обработку графов из миллиардов узлов и рёбер, где наша среда JAX и масштабируемая инфраструктура TPU особенно эффективны. Такие объёмы данных подходят для обучения универсальных моделей, поэтому мы протестировали нашу GFM на нескольких внутренних задачах классификации, таких как обнаружение спама в рекламе, которое включает десятки больших и связанных реляционных таблиц. Типичные табличные базовые значения, хотя и масштабируемые, не учитывают связи между строками разных таблиц и, следовательно, упускают контекст, который может быть полезен для точных прогнозов. Наши эксперименты наглядно демонстрируют этот пробел.»

Заключение

Гэри Иллес из Google подтвердил, что в Google используется некая форма MUVERA. Его ответ о GFM, похоже, был выражен в форме личного мнения, поэтому он несколько менее ясен, поскольку связан с утверждением Гэри, что, по его мнению, MUVERA не находится в разработке.


Ознакомиться с полной информацией, что такое SEO-продвижение можно по ссылке.