Google's RankBrain

Что такое Google RankBrain? Как он работает? Можно ли оптимизировать для него? Вот все, что вам нужно знать об алгоритме Google RankBrain.

Что такое

RankBrain – это система искусственного интеллекта с машинным обучением основанная на алгоритме Hummingbird, с помощью которой Google может лучше понимать предполагаемый пользовательский запрос в поиске. Она была запущена весной 2015 года и анонсирована 26 октября того же года.

Первоначально RankBrain применялся к запросам, с которыми Google ранее не сталкивался, что составляет примерно 15% от общего числа запросов. Затем его применение было расширено, чтобы влиять на все результаты поиска.

Основной задачей RankBrain является предварительная обработка запросов пользователей в поисковой системе. Когда пользователь вводит запрос, RankBrain анализирует его и пытается понять намерения пользователя, даже если запрос содержит слова или фразы, которые Google ранее не видел. Это особенно полезно в случаях, когда у Google нет контекста для определенных запросов.

RankBrain использует машинное обучение для того, чтобы понимать связи между словами и понятиями, а также для улучшения обработки сложных и нестандартных запросов. Он стал третьим по важности сигналом в общем алгоритме Google, влияя на ранжирование страниц в результатах поиска.

Что такое машинное обучение?

Машинное обучение – это процесс, при котором компьютер самостоятельно учится делать что-то, а не учится от людей и не следует детально прописанным программам.

Что такое искусственный интеллект?

Искусственный интеллект (ИИ) — это область информатики, которая занимается созданием программ и систем, способных выполнять задачи, требующие интеллектуальных способностей человека. Целью искусственного интеллекта является создание алгоритмов и моделей, которые могут обучаться, адаптироваться и принимать решения, аналогичные способностям человеческого разума.

В чем разница между искусственным интеллектом и машинным обучением?

В контексте RankBrain они достаточно схожи. Вы можете слышать их использование взаимозаменяемо, или вы можете услышать использование машинного обучения для описания применяемого подхода искусственного интеллекта.

Вопросы и ответы

RankBrain – это новый способ ранжирования результатов поиска Google?

Нет.

RankBrain является частью поискового алгоритма Google Hummingbird?

Да. Hummingbird – это общий поисковый алгоритм, как двигатель в автомобиле. Сам двигатель может состоять из различных частей, таких как масляный фильтр, топливный насос, радиатор и так далее. Точно так же Hummingbird охватывает различные части, и RankBrain является одной из новейших.

RankBrain является частью общего алгоритма Hummingbird, потому что статья от Bloomberg четко указывает, что RankBrain не обрабатывает все запросы, так как это делает только общий алгоритм.

В Hummingbird также входят другие части с именами, знакомыми тем, кто работает в сфере SEO, такими как

  • Panda, Penguin и Payday, предназначенные для борьбы со спамом,
  • Pigeon, предназначенная для улучшения местных результатов,
  • Top Heavy, предназначенная для понижения страниц с большим количеством рекламы,
  • Mobile Friendly, предназначенная для поощрения мобильно-дружественных страниц,
  • Pirate, предназначенная для борьбы с нарушениями авторских прав.

А что насчет этих "сигналов", которые Google использует для ранжирования?

Сигналы – это инструменты, которые Google использует для определения того, как ранжировать веб-страницы. Например, он считывает слова на веб-странице, так что слова – это сигнал. Если какие-то слова выделены жирным шрифтом, это может быть еще один замеченный сигнал. Расчеты, используемые в рамках PageRank, дают странице балл PageRank, который используется как сигнал. Если страница отмечена как мобильно-дружественная, это еще один замеченный сигнал.

Все эти сигналы обрабатываются различными частями алгоритма Hummingbird для определения того, какие страницы Google показывает в ответ на различные запросы.

Сколько сигналов существует?

Google утверждает, что у него есть более 200 основных сигналов ранжирования, которые оцениваются и могут иметь до 10 000 вариаций или подсигналов. Обычно говорится просто "сотни" факторов.

RankBrain – третий по важности сигнал?

Верно. Из ниоткуда эта новая система стала тем, что Google называет третьим по важности фактором для ранжирования веб-страниц. Из статьи Bloomberg:

"RankBrain – это один из "сотен" сигналов, входящих в алгоритм, определяющий, какие результаты появляются на странице поиска Google и как они ранжируются, сказал Коррадо. За несколько месяцев, в течение которых он был внедрен, RankBrain стал третьим по важности сигналом, влияющим на результат запроса поиска."

Каковы первые и вторые по важности сигналы?

Ссылки остаются самым важным сигналом, способом, которым Google учитывает эти ссылки в виде голосов. Второй по важности сигнал – контент, включающий в себя все, начиная от слов на странице и заканчивая тем, как Google интерпретирует слова, вводимые людьми в строке поиска, за пределами анализа RankBrain.

Что конкретно делает RankBrain?

RankBrain используется для интерпретации запросов, которые люди вводят, чтобы найти страницы, которые могут не содержать точных слов, введенных в запросе.

Разве у Google не было способов находить страницы за пределами точного запроса?

Да, у Google давно есть способы находить страницы за пределами точных терминов, введенных пользователем. Например, много лет назад, если бы вы ввели что-то вроде "обувь", Google мог не найти страницы, на которых говорится "туфли", потому что это технически два разных слова. Но технология "стемминг" позволила Google стать более умным, чтобы понимать, что "туфли" – это вариант "обуви", так же как "бег" – это вариант "бежать".

Google также приобрел умение работать со синонимами, чтобы, например, если вы искали "кроссовки", он мог понимать, что вы также имеете в виду "беговую обувь". У него даже появился некоторый концептуальный интеллект, чтобы понимать, что существуют страницы о "Apple" – технологической компании, в отличие от "яблока" – фрукта.

Как насчет Knowledge Graph?

Knowledge Graph, запущенный в 2012 году, стал способом, с помощью которого Google стал еще умнее в отношении связей между словами. Что более важно, он научился искать "вещи, а не строки", как описал это Google.

Под строками подразумевается поиск только строк букв, таких как страницы, которые соответствуют написанию "Обама". Вещи означают, что вместо этого Google понимает, когда кто-то ищет "Обама", они, вероятно, имеют в виду президента США Барака Обаму, реального человека с связями с другими людьми, местами и вещами.

Knowledge Graph – это база данных фактов о вещах в мире и их взаимоотношениях. Именно поэтому вы можете выполнять поиск, например, "когда родилась жена Обамы" и получать ответ о Мишель Обаме, даже не используя ее имя:

Как RankBrain помогает уточнять запросы?

Методы, которые Google уже использует для уточнения запросов, в основном сводятся к тому, что в каком-то месте какой-то человек выполняет работу, будь то создание списков стемминга или синонимов, или создание связей в базе данных между вещами. Конечно, в этом есть некоторая автоматизация. Но в значительной степени это зависит от человеческого труда.

Проблема заключается в том, что Google обрабатывает три миллиарда запросов в день. В 2007 году Google заявил, что 20% -25% этих запросов никогда ранее не виделись. В 2013 году он снизил этот процент до 15%. Но 15% от трех миллиардов все равно огромное количество запросов, которые никогда не вводил ни один человек – 450 миллионов в день. Среди них могут быть сложные запросы с несколькими словами, также называемые "длинными хвостами".

RankBrain предназначен для того, чтобы лучше интерпретировать эти запросы и переводить их таким образом, чтобы найти лучшие страницы для пользователя.

RankBrain может видеть паттерны между кажущимися несвязанными сложными запросами, чтобы понять, как они на самом деле похожи друг на друга. Это обучение, в свою очередь, позволяет лучше понимать будущие сложные запросы и связаны ли они с конкретными темами. Самое важное, согласно Google, RankBrain может ассоциировать эти группы запросов с результатами, которые больше всего понравятся пользователям.

Как насчет примера?

Хотя Google не предоставил групп запросов, статья Bloomberg содержала единственный пример запроса, в котором, как утверждается, RankBrain помогает. Вот он:

"Каково название потребителя на самом верхнем уровне пищевой цепи"

Для человека, не разбирающегося в терминологии, "потребитель" звучит как ссылка на того, кто покупает что-то. Однако это также научный термин для того, что потребляет пищу. Существуют также уровни потребителей в пищевой цепи. А кто потребитель на самом верхнем уровне? Хищник!

Ввод этого запроса в Google предоставляет хорошие ответы, даже если сам запрос звучит довольно странно: "потребитель в пищевой цепи"

Теперь рассмотрим, насколько похожи результаты для запросов, как показано ниже:

Каково название потребителя на самом верхнем уровне пищевой цепи

"верхний уровень пищевой цепи – Поиск Google"

Представьте, что RankBrain соединяет исходный длинный и сложный запрос ("Каково название потребителя на самом верхнем уровне пищевой цепи") с гораздо более коротким ("потребитель в пищевой цепи"), который, вероятно, делается чаще. Он понимает, что они похожи. В результате Google может использовать всю информацию об ответах на обычный запрос, чтобы помочь улучшить то, что он предоставляет для необычного запроса.

Позвольте подчеркнуть, что я не знаю, связывает ли RankBrain эти два запроса. Я знаю только, что Google предоставил первый пример. Это всего лишь иллюстрация того, как RankBrain может использоваться для связи необычного запроса с общим, чтобы улучшить результаты.

Может ли Bing сделать это с помощью RankNet?

Еще в 2005 году Microsoft начала использовать собственную систему машинного обучения, называемую RankNet, как часть того, что стало ее поисковым движком Bing. Но за все эти годы Microsoft почти не говорила о RankNet.

Можно поспорить, что это, вероятно, изменится. Также интересно, что, когда я ввел вышеупомянутый запрос в Bing, приведенный в качестве примера того, насколько велик Google RankBrain, Bing предоставил мне хорошие результаты, включая одно из тех, которые также вернул Google:

"Каково название потребителя на самом верхнем уровне пищевой цепи – Bing"

Один запрос не означает, что RankNet Bing так же хорош, как RankBrain Google, или наоборот. К сожалению, действительно трудно составить список для такого рода сравнения.

Еще примеры?

Google предоставил нам еще один свежий пример: "Сколько столовых ложек в чашке?" Google сказал, что RankBrain предпочел разные результаты в Австралии по сравнению с Соединенными Штатами для этого запроса, потому что измерения в каждой стране различны, несмотря на схожие названия.

Я попытался проверить это, выполнив поиск на Google.com по сравнению с Google Australia. Лично я не увидел большой разницы. Даже без RankBrain результаты часто были бы разными из-за "старомодного" способа отдачи предпочтения страницам известных австралийских сайтов для пользователей, использующих Google Australia.

Реально ли RankBrain помогает?

Несмотря на то, что мои два приведенных выше примера не слишком убедительны в свидетельстве о величии RankBrain, я действительно верю, что, вероятно, он оказывает большое влияние, как утверждает Google. Компания довольно консервативна в отношении внесения изменений в свой ранжировочный алгоритм. Она постоянно проводит небольшие тесты. Но крупные изменения она внедряет только тогда, когда у нее есть большая уверенность.

Интеграция RankBrain в той степени, в которой он, якобы, является третьим по важности сигналом, – это огромное изменение. Это не то, что, по моему мнению, Google предприняла бы, если бы она действительно не считала, что это помогает.

Делает ли RankBrain больше, чем уточнение запроса?

Обычно то, как запрос уточняется – будь то через стемминг, синонимы или теперь RankBrain – ранее не считалось фактором ранжирования или сигналом.

Сигналы обычно связаны с факторами, связанными с контентом, такими как слова на странице, ссылки на странице, находится ли страница на безопасном сервере и так далее. Они также могут быть связаны с пользователем, такими как местоположение источника запроса или его история поиска и просмотра.

Когда Google говорит о RankBrain как о третьем по важности сигнале, он действительно имеет в виду как сигнал ранжирования?

Google подтвердил, что есть компонент, где RankBrain непосредственно вносит свой вклад в ранжирование страницы.

Как именно? Существует ли какой-то "балл RankBrain", который может оценивать качество?

Возможно, но кажется более вероятным, что RankBrain каким-то образом помогает Google лучше классифицировать страницы на основе содержания, которое они содержат. RankBrain, возможно, может лучше суммировать, о чем страница, чем это делают существующие системы Google.

Или нет. Google не говорит ничего, кроме того, что в это включен компонент ранжирования.

Суть RankBrain заключается в том, что эта система вместо "чтения" буквальных символов, вводимых пользователем в строку поиска, "видит" сущность, которая стоит за поисковой фразой, образованной из введенных символов.

Непонятно?

Давайте рассмотрим символы, составляющие имя и фамилию некоего человека: "Олег Петров"

До алгоритма Hummingbird Google видел эти символы как набор из 2 слов и 11 символов. Расставленные в таком порядке и достаточно часто используемые на какой-нибудь странице, эти символы делали страницу актуальной для поискового запроса "Олег Петров".

Это мог быть любой Олег Петров на просторах интернета.

Гугл считал ссылки, чтобы выделить наиболее "релевантного", не понимая, кто или что такое гражданин Петров.

С появлением Hummingbird Олег Петров перестал быть набором символов, а стал сущностью: /g/11cm_q3wqr. Так выглядит машинный идентификатор этого парня:

Ivan Petrov

Короче говоря, происшедшее с Hummingbird и RankBrain, это превратило Google из "читателя" в "писателя". Вышеуказанная сущность Олег Петров (/g/11cm_q3wqr) теперь для Гугла выглядит так:

"Олег Петров, друг Ивана Захарова, любит красные рубашки и является цифровым маркетологом."

RankBrain передает поисковику граф со связями

 

Получив запрос "Олег Петров" от Ивана Захарова RankBrain передает поисковику граф со связями (см.рисунок выше). Поисковик начинает искать страницы, которые имеют отношение к следующим сущностям: Олег Петров, Иван Захаров, красный, рубашка, цифровой маркетолог". Вряд ли в поисковой выдаче появится бывший хоккеист Монреаль Канадиенс Олег Петров, ибо в его профиле "цифровой маркетолог" отсутствует и так же нет никакой связи с Иваном Захаровым.

Так работает поиск в сущностях.

Суть RankBrain, можно сказать, заключается в том, что это система предварительной фильтрации.

Когда пользователь вводит запрос в Google, алгоритм поиска сопоставляет запрос с вашим намерением с целью выделить лучший контент в наилучшем формате(ах).

RankBrain изначально был внедрен для решения одной простой, но крупной проблемы.

Google не видел 15% используемых запросов и, следовательно, не имел контекста для них, а также прошлых аналитических данных, чтобы определить, насколько их результаты были хороши или нет в удовлетворении намерения пользователя.

Эта система смотрит на вещи, а не на строки.

RankBrain также учитывал контекст окружения (например, местоположение пользователя) и экстраполировал смысл там, где его не было.

Это могло быть простым процессом понимания, что порядок слов может быть функцией процесса поиска, а не намерением.

Общие сущности

Как указано выше, одним из основных механизмов, который будет использовать Google, является распознавание сущностей.

Если они понимают, что запрос содержит те же самые сущности, что и другой запрос, который они видели раньше, с малым количеством квалификаторов (например, смена "где" на "когда" в запросе о концерте), то это будет указанием на то, что наборы результатов могут быть идентичными, очень похожими или, по крайней мере, выбранными из одного и того же короткого списка URL-ов.

Топ-10

В их патенте 2013 года "Ответы на вопросы с использованием ссылок на сущности в неструктурированных данных" Google описывает метод, в котором они:

  • Подают сущности в свой собственный индекс.
  • Рассматривают сущности в своем собственном топ-10.
  • Экстраполируют оттуда различные сущности, которые, как они ожидают, будут связаны друг с другом и будут верхним ответом на запросы.

Мониторинг

Помните, что это система машинного обучения. В этом встроена функция определения, тестирования, отслеживания и корректировки. По сути, система будет рассматривать запросы с определенной метрикой успеха. Затем она будет корректировать, как она взвешивает различные сигналы и какие из них предпочитает, а затем отслеживать успех.

Это не будет делаться на основе каждого отдельного запроса.

Помните, что эта система была запущена для решения проблемы запросов, с которыми Google ранее не сталкивался, и часто будут слова с низким или отсутствующим объемом, которые не могут быть мониторены самостоятельно.

Вместо этого система будет искать такие паттерны, как:

[продукт] [местоположение] [квалификатор]

и затем создавать наборы правил, регулирующих все такие запросы.

Также стоит отметить, что система будет учитывать не только сущности в запросе, но и сущности, связанные с его созданием. К этому относятся вы, ваше местоположение, ваше устройство и т. д.

Это все переменные, которые RankBrain будет учитывать таким же образом, как, вероятно, вы смотрите на свою аналитику и сравниваете трафик с рабочего стола с трафиком с мобильных устройств, или анализируете часы дня или типы устройств, чтобы понять, как различные пользователи взаимодействуют с вашим бизнесом в различных сценариях.

Вероятно, еще десяток вещей...Без сомнения, в RankBrain встроено гораздо больше механизмов, чем я представил, и машины могли придумать еще больше своих.

То, что мы хотим иметь в виду, – это цель.

Цель – понимать запросы.

Переменные, с которыми нам нужно иметь дело, – это сущности и сигналы, и то, что машины с ними делают.

Использование в SEO

Как оптимизировать для RankBrain?

В своей основе вы не оптимизируете для RankBrain.

Но это немного уклончивый ответ. Давайте попробуем ответить лучше.

Гари Ильес из Google заявил в 2016 году, что вы не можете оптимизировать для него:

"You don’t optimize for RankBrain says @methode #smx"

А позже указал, что это оптимизация для пользователей:

"you optimize your content for users and thus for rankbrain. that hasn’t changed"

Но для меня это типичное высказывание от Google. Мой совет тем, кто хочет оптимизировать для RankBrain или, лучше сказать, оптимизировать свой сайт и учитывать RankBrain и подобные системы:

  • Не ищите хитростей.
  • Ищите функциональность.

Бесплатным инструментом, который интересно использовать в этой задаче, является собственный демо-интерфейс Google Natural Language API.

Допустим, мы хотим понять, как Google видит статью, на которую я дал ссылку выше, о сущностях. Что может быть лучше, чем обратиться к источнику – Google?

Мы можем скопировать текст статьи, вставить его в их демо NLP, и вуаля! Нам предоставляется их анализ того, какие сущности появляются на странице, вместе с анализом тональности и синтаксисом.

Обратите внимание, что стрелки синтаксиса движутся как вперед, так и назад.

За это можно поблагодарить BERT, а не RankBrain.

Еще один бесплатный инструмент, который мне нравится для этого, – это Google Knowledge Graph API, но вывод не особенно красивый.

К счастью, тот же друг, которого я использовал в моем примере выше, подключился к своему бесплатному Knowledge Graph Explorer.

С помощью Knowledge Graph Explorer вы можете вручную проверить и увидеть, что Google видит об объекте в режиме реального времени.

С помощью этих двух инструментов вы можете изучить, как Google воспринимает лучшие сайты для различных запросов, какие сущности есть на страницах, будь то люди, места или вещи, и т. д., и получить реальное представление о том, как Google интерпретирует страницу с точки зрения Hummingbird.

Затем нам нужно учесть только переменные, которые мы не можем контролировать или видеть, такие как предполагаемое местоположение пользователя, устройство и т. д.

Так что да, учитывайте пользователя – Google рядом.

Итак, чтобы "оптимизировать для RankBrain":

  • Просмотрите сущности с помощью NLP API.
  • Подробнее изучите сущности в Knowledge Graph Explorer.
  • Примените все это в собственном контексте (какое устройство и местоположение у вас).
  • Проведите тесты из других мест и устройств с использованием инструмента вроде Mobile Moxie для сравнения результатов и понимания, как это влияет.
  • Начните оптимизацию для RankBrain.

Google скажет вам, что оптимизация для RankBrain – это оптимизация для пользователей. Легко видеть, как это их предложение, и это не плохое предложение. Но мы знаем, что она построена на сущностях.

Так почему бы не добавить этот знания в ваши усилия? Поймите, как Google интерпретирует намерение пользователя, и вы поймете, как сделать это сами.

Почему RankBrain важен? RankBrain важен не только потому, что это так, но и потому, что это означает. Это был первый шаг в применении машинного обучения к результатам поиска в Google. И это был не последний.

Фактически, еще в 2018 году Джон Мюллер отметил:

"Я думаю, что поезд уже ушел – мы используем машинное обучение во многих местах, не имеет смысла пытаться выделить RankBrain и угадывать отдельные факторы. Ранжирование сложно. Извините за отсутствие простого ответа, но, на мой взгляд, вопрос неуместен :)."

Фактор ранжирования

является фактором ранжирования

Является фактором ранжирования.