Latent Semantic Indexing (LSI) - Латентный Семантический Индекс

Книга: Справочник по SEO, онлайн-торговле и интернету
Автор: Иван Захаров

Что такое Latent Semantic Indexing (LSI) – Латентный Семантический Индекс. Какое воздействие он оказывает на поисковые системы?

Идея латентного семантического индекса (LSI) заключается в том, чтобы выяснить семантическое значение слов, составляющих поисковый запрос, и определить их взаимоотношения в контексте запроса, вместо того, чтобы считать ключевые слова.

Изначально это был метод в области обработки естественного языка и информационного поиска, используемый для определения связей между словами и терминами в тексте. Скрытое семантическое индексирование (LSI) или скрытый семантический анализ (LSA) — это метод обработки естественного языка, разработанный в 1980-х годах. К сожалению, если вы не знакомы с математическими понятиями, такими как собственные значения , векторы и разложение по одному значению , саму технологию не так-то легко понять.

По этой причине мы не будем рассматривать, как работает LSI, а просто обозначим основные аспекты и методы.

Что такое LSI-ключи

LSI-ключи – это слова и фразы, которые связаны с основным поисковым запросом по смыслу, но не являются его прямыми синонимами. Например, для поискового запроса "купить ноутбук" LSI-ключами могут быть "игровой ноутбук", "акции на ноутбуки", "сравнение характеристик офисных ноутбуков" и т.д.

Цель LSI — помочь поисковому алгоритму понять общий смысл запроса и выдать страницы с релевантным содержимым.

Основные характеристики Latent Semantic Indexing:

Семантическое понимание: LSI основано на идее, что семантически близкие слова часто встречаются в одном и том же контексте. Алгоритм анализирует совместное появление слов в больших наборах текстов для выявления семантических связей.
Снижение размерности: Одним из ключевых моментов LSI является снижение размерности, т.е. представление текста в виде меньшего числа концепций или "латентных семантических" измерений.
Поиск схожих терминов: LSI может использоваться для поиска схожих терминов и выявления семантически близких слов. Это помогает улучшить результаты поиска, включая синонимы и контекстуально связанные термины.
Улучшение ранжирования: Применение LSI в поисковых системах позволяет улучшить ранжирование результатов поиска, делая их более релевантными для запросов пользователей.
Использование в SEO: В контексте SEO, использование LSI может помочь в оптимизации контента, учтя не только ключевые слова, но и их семантические ассоциации. Это способствует более естественному и информативному содержанию.

LSI представляет собой мощный инструмент для обработки текстовой информации, который помогает повысить понимание семантики и контекста текста. Это особенно полезно в поисковых системах, где требуется более точное понимание запросов пользователей. Однако важно использовать его правильно, чтобы не перегрузить текст ключевыми словами и не ухудшить его читабельность.

Вот несколько советов по использованию LSI-ключей в SEO-тексте:

Используйте LSI-ключи в умеренном количестве. Не стоит пытаться включить в текст все возможные LSI-ключи для одного поискового запроса.
Выбирайте LSI-ключи, которые являются релевантными для целевой аудитории вашего сайта.
Используйте LSI-ключи в естественном контексте. Не стоит пытаться вставлять их в текст искусственно.

Если вы будете следовать этим советам, вы сможете использовать LSI-ключи для эффективного продвижения своего сайта в поисковых системах.

Вместо этого мы сосредоточимся на проблеме, для решения которой он был создан. Вот как определяют эту проблему создатели LSI:

Слова, которые использует поисковик, часто не совпадают со словами, которыми индексируется искомая информация.

Но что это на самом деле означает?

Например, вы решили нарисовать картину на романтическую тему и решили погуглить, как выглядит древний замок. Гугл выдал вам такую картинку:

старый замок

Очевидно, это не тот замок, который вам нужен. То, что вы ищете, очевидно надо искать с уточнением средневековый дворец. Проблема здесь в том, что «замок» — слово синоним для «дворца» и при этом многозначное.

Что такое синонимы?

Синонимы — это слова или фразы, которые означают то же или почти то же самое, что и другое слово или фраза. Например: дом и строение, путь и маршрут, смех и хохот, и так далее

Согласно патенту LSI, вот почему синонимы проблематичны:

[…] существует огромное разнообразие слов, которые люди используют для описания одного и того же объекта или понятия; это называется синонимия. Пользователи в разных контекстах или с разными потребностями, знаниями или языковыми привычками будут описывать одну и ту же информацию, используя разные термины. Например, было продемонстрировано, что любые два человека выбирают одно и то же главное ключевое слово для одного хорошо известного объекта в среднем менее чем в 20% случаев.

Как это связано с поисковыми системами?

Представьте, что у нас есть две веб-страницы, посвященные автомобилям. Оба слова идентичны, но все случаи слова «машины» заменяются на слово «автомобили». Если бы мы использовали примитивную поисковую систему, которая индексирует только слова и фразы на странице, она бы вернула только одну из этих страниц по запросу «автомобили». Это плохо, потому что оба результата релевантны; просто один описывает то, что мы ищем, по-другому. Страница, на которой вместо слова «машина» используется слово « автомобиль», может оказаться даже лучшим результатом.

Итог: поисковые системы должны понимать синонимы, чтобы возвращать наилучшие результаты.

Что такое многозначные слова?

Многозначные слова и словосочетания – это слова, имеющие несколько разных значений. Примеры включают: мышь (грызун/компьютер), ключ (от двери/родник), яркий (светлый/умный) и прочие омонимы. Вот почему, по мнению создателей LSI, это вызывает проблемы:

В разных контекстах или при использовании разными людьми одно и то же слово приобретает различное референциальное значение (например, ключ от двери или ключ в лесу). Таким образом, использование термина в поисковом запросе не обязательно означает, что текстовый объект, содержащий или помеченный тем же термином, представляет интерес.

Омонимы создают для поисковых систем ту же проблему, что и синонимы.

Как работает ЛСИ?

Компьютеры тупые. У них нет врожденного понимания отношений между словами, которое есть у нас, людей. Например, все знают, что большой и крупный означают одно и то же. И все знают, что Джон Леннон был в The Beatles. Но компьютер не обладает этими знаниями без предварительного уведомления. Проблема в том, что невозможно рассказать компьютеру все. Просто это заняло бы слишком много времени и усилий.

LSI решает эту проблему, используя сложные математические формулы для определения связей между словами и фразами из набора документов. Проще говоря, если мы запустим LSA для набора документов о спортивной экипировке, компьютер, скорее всего, сможет выяснить пару вещей:

Во-первых, такие слова, как лук, арбалет и стрелы семантически связаны:

Во-вторых, лук семантически связан с двумя разными наборами слов:

спортивный инвентарь,
овощи.

Поисковые системы могут затем использовать эту информацию, чтобы выйти за рамки точного соответствия запросам и предоставить более релевантные результаты поиска.

Использует ли Google LSI?

Учитывая проблемы, которые решает LSI, легко понять, почему люди полагают, что Google использует технологию LSI. В конце концов, очевидно, что точное соответствие запросам — это ненадежный способ для поисковых систем вернуть релевантные документы. Но, несмотря на это, Google почти наверняка не использует технологию LSI .

Откуда нам знать? Об этом говорят представители Google.

Не верите им?

Вот еще три доказательства, подтверждающие этот факт:

1. LSI — старая технология

LSI была изобретена в 1980-х годах, еще до создания Всемирной паутины. По существу, его никогда не предполагалось применять к такому большому набору документов. Вот почему Google с тех пор разработал более совершенную и масштабируемую технологию для решения тех же проблем.

Билл Славски выразил это лучше всего :

Технология LSI не была создана для чего-то размером с Интернет […] Google разработал подход вектора слов (используемый для Rankbrain), который гораздо более современен, гораздо лучше масштабируется и работает в Интернете. Использование LSI, когда у вас есть Word2vec, похоже на гонку на Феррари с картингом.

2. LSI была создана для индексации известных коллекций документов.

Всемирная паутина не только велика, но и динамична. Это означает, что миллиарды страниц в индексе Google регулярно меняются. Это проблема, поскольку в патенте LSI говорится, что анализ необходимо запускать «каждый раз, когда в файлах хранилища происходит значительное обновление». Это потребует много вычислительной мощности.

3. LSI — запатентованная технология.

Патент на скрытое семантическое индексирование (LSI) был выдан компании Bell Communications Research, Inc. в 1989 году. Сьюзан Дюмэ, одна из соавторов этой технологии, позже присоединилась к Microsoft в 1997 году, где работала над инновациями, связанными с поиском. Тем не менее, срок действия патентов США истекает через 20 лет, а это означает, что срок действия патента LSI истек в 2008 году.

Учитывая, что Google довольно хорошо понимал язык и выдавал релевантные результаты гораздо раньше, чем в 2008 году, это еще одно свидетельство того, что Google не использует LSI.

И снова Билл Славски выразил это лучше всего:

Google пытается индексировать синонимы и другие значения слов. Но для этого не используется технология LSI. Называя это LSI, люди вводят в заблуждение. Google предлагает замену синонимов и уточнение запросов на основе синонимов, по крайней мере, с 2003 года, но это не означает, что они используют LSI. Это все равно что сказать, что вы используете интеллектуальное телеграфное устройство для подключения к мобильной сети.

Может ли упоминание связанных слов, фраз и объектов повысить рейтинг?

Большинство оптимизаторов видят в «ключевых словах LSI» не что иное, как связанные слова, фразы и сущности.

Если мы воспользуемся этим определением — несмотря на то, что оно технически неточно — тогда да, использование некоторых связанных слов и фраз в вашем контенте почти наверняка может помочь улучшить SEO .

Откуда нам знать? Google косвенно сообщает нам об этом здесь :

Просто подумайте: когда вы ищете «собаки», вам, вероятно, не нужна страница, на которой слово «собаки» встречается сотни раз. Учитывая это, алгоритмы оценивают, содержит ли страница другой релевантный контент, помимо ключевого слова «собаки», например изображения собак, видео или даже список пород .

На странице о собаках Google видит названия отдельных пород как семантически связанные. Но почему эти страницы помогают ранжироваться по релевантным запросам? Просто: потому что они помогают Google понять общую тему страницы.

Как найти и использовать похожие слова и фразы

Если вы хорошо разбираетесь в теме, вы, естественно, включите в свой контент связанные слова и фразы. Например, было бы сложно написать о лучших видеоиграх, не упомянув таких слов и фраз, как «игры для PS4», «Call of Duty» и «Fallout». Но очень легко пропустить важные, особенно если речь идет о более сложных темах. Например, в нашем руководстве по ссылкам nofollow ничего не упоминается об атрибутах спонсируемых и пользовательских ссылок:

Google, вероятно, рассматривает их как важные, семантически связанные термины, которые следует упомянуть в любой хорошей статье по этой теме.

Возможно, это одна из причин, почему статьи, в которых говорится об этих вещах, превосходят нас по рейтингу.

Имея это в виду, вот девять способов найти потенциально связанные слова, фразы и сущности:

1. Руководствуйтесь здравым смыслом

Проверьте свои страницы, чтобы увидеть, не пропустили ли вы какие-либо очевидные моменты. Например, если страница представляет собой биографическую статью о Дональде Трампе и не упоминает его импичмент, вероятно, стоит добавить раздел об этом. При этом вы, естественно, будете упоминать связанные слова, фразы и сущности, такие как «Отчет Мюллера», «Нэнси Пелоси» и «информатор».

ПРИМЕЧАНИЕ. Просто помните, что невозможно точно узнать, считает ли Google эти слова и фразы семантически связанными. Однако, поскольку Google стремится понять отношения между словами и сущностями, которые мы, люди, по своей природе понимаем, есть что сказать в пользу использования здравого смысла.

2. Посмотрите на результаты автозаполнения

Результаты автозаполнения не всегда отображают важные связанные ключевые слова, но они могут подсказать, о каких из них стоит упомянуть. Например, мы видим « супруга Дональда Трампа», « возраст Дональда Трампа » и « Твиттер Дональда Трампа » в качестве результатов автозаполнения для «Дональд Трамп». Сами по себе это не связанные ключевые слова, а люди и вещи, о которых они говорят. В данном случае это Мелания Трамп , 73 года , и @realDonaldTrump. Наверное, все, о чем следует упомянуть в биографической статье, не так ли?

3. Посмотрите похожие поисковые запросы

Связанные поисковые запросы отображаются внизу результатов поиска. Как и результаты автозаполнения, они могут дать подсказку о потенциально связанных словах, фразах и объектах, которые стоит упомянуть. Здесь «образование Дональда Трампа» относится к Уортонской школе Пенсильванского университета , которую он посещал.

4. Используйте инструмент «Ключевое слово LSI»

Популярные генераторы «ключевых слов LSI» не имеют ничего общего с LSI. Однако иногда они выдают полезные идеи. Например, если мы подключим «Дональда Трампа» к популярному инструменту, он привлечет связанных с ним людей (субъектов), таких как его супруга Мелания Трамп и сын Бэррон Трамп.

5. Посмотрите на другие ключевые слова, по которым страницы занимают верхние позиции.

Используйте отчет «Также ранжироваться по» вариантам ключевых слов в обозревателе ключевых слов Ahrefs, чтобы найти потенциально связанные слова, фразы и сущности. Если их слишком много, попробуйте провести анализ пробелов в контенте, используя три страницы с самым высоким рейтингом, а затем установите количество пересечений на «3».

6. Запустите анализ TF*IDF.

TF-IDF не имеет ничего общего со латентно-семантическим индексированием (LSI) или латентно-семантическим анализом (LSA), но иногда может помочь обнаружить «недостающие» слова, фразы и объекты.

7. Посмотрите базы знаний

Базы знаний, такие как Wikidata.org и Wikipedia, являются отличными источниками связанных терминов.

8. Реверс-инжиниринг графа знаний

Google хранит отношения между множеством людей, вещей и концепций в так называемом графе знаний. Результаты графика знаний часто появляются в результатах поиска Google. Попробуйте выполнить поиск по ключевому слову и посмотрите, появятся ли какие-либо данные из графика знаний. Поскольку это объекты и точки данных, которые Google связывает с этой темой, определенно стоит поговорить о них там, где это имеет смысл .

9. Используйте Google Natural Language API для поиска объектов

Вставьте текст со страницы с самым высоким рейтингом в демо-версию Google Natural Language API. Ищите актуальные и потенциально важные объекты, которые вы, возможно, пропустили.

Заключение

Ключевые слова LSI не существуют, но существуют семантически связанные слова, фразы и сущности, и они способны повысить рейтинг. Просто убедитесь, что используете их там, где это имеет смысл, а не разбрызгиваете их случайно, когда и где. В некоторых случаях это может означать добавление новых разделов на вашу страницу.

Например, если вы хотите добавить такие слова и понятия, как «импичмент» и «Комитет Палаты представителей по разведке», в статью о Дональде Трампе, для этого, вероятно, потребуется пара новых абзацев под новым подзаголовком.