Компания Google опубликовала сведения о новом типе искусственного интеллекта на основе графов, названном Graph Foundation Model (GFM), который можно обобщить на ранее неизвестные графы и который обеспечивает повышение точности от трех до сорока раз по сравнению с предыдущими методами, а также успешно протестирован в масштабируемых приложениях, таких как обнаружение спама в рекламе.
Анонс этой новой технологии можно охарактеризовать как расширение границ того, что было возможно до сих пор:
«Сегодня мы исследуем возможность разработки единой модели, которая может эффективно работать с взаимосвязанными реляционными таблицами и в то же время обобщаться на любой произвольный набор таблиц, признаков и задач без дополнительного обучения. Мы рады поделиться нашим недавним прогрессом в разработке таких моделей на основе графов (GFM), которые значительно расширяют границы графового обучения и табличного машинного обучения за пределы стандартных базовых показателей.»
Графовые нейронные сети против моделей Graph Foundation
Графы — это представления данных, связанных друг с другом. Связи между объектами называются рёбрами, а сами объекты — узлами. В SEO наиболее распространённым типом графа можно назвать граф ссылок (Link Graph), представляющий собой карту всего интернета, построенную по ссылкам, соединяющим одну веб-страницу с другой.
Современные технологии используют графовые нейронные сети (GNN) для представления данных, таких как содержимое веб-страницы, и могут использоваться для определения темы веб-страницы.
В публикации в блоге Google Research о GNN объясняется их важность:
«Графовые нейронные сети, или сокращённо GNN, стали мощным инструментом, позволяющим использовать как связность графа (как в более старых алгоритмах DeepWalk и Node2Vec), так и входные характеристики различных узлов и рёбер. GNN могут делать прогнозы для графов в целом (Реагирует ли эта молекула определённым образом?), для отдельных узлов (Какова тема этого документа, учитывая его цитирование?)…
Помимо прогнозирования графов, GNN — это мощный инструмент, позволяющий преодолеть разрыв между ними и более типичными вариантами использования нейронных сетей. Они кодируют дискретную, реляционную информацию графа непрерывным образом, чтобы её можно было естественным образом включить в другую систему глубокого обучения.»
Недостаток GNN заключается в том, что они привязаны к графу, на котором были обучены, и не могут быть использованы на графах другого типа. Чтобы использовать их на другом графе, Google придётся обучить другую модель специально для этого графа.
Если провести аналогию, это всё равно, что обучать новую генеративную модель искусственного интеллекта на документах на французском языке, чтобы она работала на другом языке. Но это не так, поскольку LLM могут обобщать результаты на другие языки, чего нельзя сказать о моделях, работающих с графами. Именно эту проблему решает изобретение: создать модель, обобщающую результаты на другие графы без предварительного обучения на них.
Прорыв, о котором объявила Google, заключается в том, что благодаря новым моделям Graph Foundation компания теперь может обучить модель, способную обобщать данные на новых графах, на которых она ещё не обучалась, и понимать закономерности и связи в этих графах. И делать это она может в три-сорок раз точнее.
Объявление, но не исследовательская работа
В объявлении Google нет ссылки на исследовательскую работу. Сообщалось о решении Google публиковать меньше исследовательских работ, и это яркий пример изменения политики. Может быть, это связано с тем, что это нововведение настолько масштабно, что они хотят сохранить его как конкурентное преимущество?
Как работают модели Graph Foundation
В обычном графе, например, в графе Интернета, веб-страницы являются узлами. Связи между узлами (веб-страницами) называются рёбрами. В таком графе можно увидеть сходство между страницами, поскольку страницы, посвящённые определённой теме, как правило, ссылаются на другие страницы, посвящённые той же теме.
Проще говоря, модель Graph Foundation превращает каждую строку в каждой таблице в узел и соединяет связанные узлы на основе взаимосвязей в таблицах. Результатом является один большой граф, который модель использует для обучения на существующих данных и составления прогнозов (например, для выявления спама) на основе новых данных.

Преобразование таблиц в единый график
В исследовательской работе говорится следующее о следующих изображениях, иллюстрирующих этот процесс:
«Подготовка данных заключается в преобразовании таблиц в единый граф, где каждая строка таблицы становится узлом соответствующего типа, а столбцы внешнего ключа — рёбрами между узлами. Связи между пятью показанными таблицами становятся рёбрами в результирующем графе.»
Исключительность этой новой модели заключается в том, что процесс её создания «прост» и масштабируем. Масштабируемость важна, поскольку означает, что изобретение может работать в рамках огромной инфраструктуры Google.
«Мы утверждаем, что использование структуры связей между таблицами является ключом к эффективности алгоритмов машинного обучения и повышению производительности последующих этапов, даже если табличные данные о признаках (например, цена, размер, категория) разрежены или содержат много шума. Для этого единственный этап подготовки данных заключается в преобразовании набора таблиц в единый гетерогенный граф.
Этот процесс довольно прост и может быть реализован в любом масштабе: каждая таблица становится уникальным типом узла, а каждая строка в таблице — узлом. Для каждой строки в таблице её внешние ключевые связи становятся типизированными рёбрами к соответствующим узлам из других таблиц, в то время как остальные столбцы рассматриваются как признаки узлов (обычно с числовыми или категориальными значениями). При желании мы также можем хранить временную информацию в виде признаков узлов или рёбер.»
Тесты прошли успешно
В заявлении Google говорится, что они протестировали эту функцию для выявления спама в Google Ads, что было сложно, поскольку система использует десятки больших графиков. Существующие системы не способны устанавливать связи между несвязанными графиками и упускают важный контекст.
Новая модель Graph Foundation от Google смогла установить связи между всеми графами и повысить производительность.
В объявлении описывается достижение:
«Мы наблюдаем значительный прирост производительности по сравнению с наилучшими настройками для одной таблицы. В зависимости от задачи, выполняемой в дальнейшем, GFM обеспечивает прирост средней точности в 3–40 раз, что указывает на то, что структура графа в реляционных таблицах даёт важный сигнал, который можно использовать в моделях машинного обучения.»
Использует ли Google эту систему?
Примечательно, что Google успешно протестировал систему с Google Ads для обнаружения спама и сообщил о её преимуществах и отсутствии недостатков. Это означает, что её можно использовать в реальных условиях для решения различных задач. Она использовалась для обнаружения спама в Google Ads, а поскольку это гибкая модель, её можно использовать и для других задач, требующих использования нескольких графов, — от определения тем контента до выявления спама в ссылках.
Обычно, когда что-то не получается, в научных работах и анонсах говорится, что это указывает путь в будущее, но это новое изобретение представлено совсем иначе. Его представляют как успех и заканчивают утверждением о возможности дальнейшего улучшения этих результатов, то есть о том, что они могут превзойти и без того впечатляющие.
«Эти результаты можно улучшить за счет дополнительного масштабирования и сбора разнообразных обучающих данных в сочетании с более глубоким теоретическим пониманием обобщения».
Прочитайте объявление Google: Графовые модели для реляционных данных.
Ознакомиться с полной информацией, что такое SEO-продвижение можно по ссылке.