LLM (Large Language Models) – это мощные модели глубокого обучения, такие как GPT (Generative Pre-trained Transformer), которые обучаются на больших объемах текстовых данных и способны генерировать тексты высокого качества. Примеры популярных LLM включают GPT-4 от OpenAI (генеративный предварительно обученный трансформер 3), Claude от Anthropic и Gemini от Google.
Поисковые системы могут использовать LLM для ряда различных задач и целей. Рассмотрим основные сферы их применения.
Ранжирование и выборка результатов поиска
Поисковые системы могут использовать LLM для определения релевантности веб-страницы или документа по отношению к поисковому запросу пользователя. LLM может анализировать текст запроса и содержимое страницы, чтобы оценить, насколько хорошо они соответствуют друг другу, и предсказать вероятность того, что страница будет полезной для пользователя. Для этого документ разбивается на чанки (фрагменты), из которых извлекаются векторные вложения (эмбеддинги).
Эти вложения сопоставляются с вложениями поисковых запросов и векторным представлением пользовательского профиля для обнаружения наибольшего сходства (например, по косинусной близости).
Понимание семантики и контекста
LLM может помочь поисковой системе более точно понять семантику и контекст запроса пользователя. Например, если пользователь задает вопрос с использованием нескольких условий или синонимов, LLM может анализировать весь контекст запроса и предоставить более точные результаты поиска.
В отличие от синтаксических и лексических средств оценки (TF-IDF, BM25) или методов дистрибутивной семантики наподобие one-hot encoding (“горячее кодирование” word2vec), трансформеры способны работать с контекстом, что позволяет им понимать контент даже без опоры на ключевые слова, опираясь только на контекст.
Создание сниппетов и метаописаний
LLM может использоваться для создания краткого описания веб-страницы или сниппета, который отображается в результатах поиска. Поисковая система может использовать контент страницы, наиболее точно соответствующий поисковому запросу, чтобы сгенерировать информативное и привлекательное описание, которое поможет пользователям получить представление в соответствии с запросом.
Пример – так называемый “тайтлопокалипсис”, когда Google начал автоматически заменять тайтлы на поисковой выдаче на более релевантные с его точки зрения. Тайтл – заголовок страницы – активно используется оптимизаторами для размещения ключевых слов. В случае, если поисковая система сочтёт тайтл чрезмерно заспамленным, она может подменить его более естественным и точнее соответствующим запросу.
Подсказки и автодополнение
Большие языковые модели используются поисковиками для предложения подсказок и автозаполнения во время ввода запроса пользователем. Модель может анализировать текст запроса и предсказывать наиболее вероятные продолжения или дополняющие фразы, что помогает пользователям быстрее формулировать свой запрос или расширять его.
Индекс запросов, известный как “подсказочник”, формировался раньше преимущественно на пользовательских данных. Часто использующиеся запросы попадали в поисковые подсказки. Сейчас поисковые системы используют средства NLP, чтобы продолжить запрос пользователя. Однако это не значит, что сами по себе запросы от пользователей более не используются.
Список подсказок сочетает как пользовательские запросы, так и сгенерированные средствами NLP
Обнаружение спама и нежелательного контента
LLM может помочь поисковым системам автоматически обнаруживать и фильтровать спам, нежелательный контент или низкокачественные страницы. Модель может изучать характеристики текста и структуры страницы, чтобы определить, соответствуют ли они стандартам качественного контента. Анализ текста позволяет поисковым системам отнести его к одной из нежелательных категорий, среди которых на момент написания статьи в документации Google можно найти “токсичную”, “жестокую”, “оскорбительную” и т.п. С полным списком категорий можно ознакомиться в документации Google NLP API.
Ключевая разница классической поисковой оптимизации и стратегий, ориентированных на LLM, заключается в следующем:
Классические алгоритмы основывались на ключевых словах. SEO, основанное на принципах LLM, большее внимание уделяет пользовательскому намерению (интент) и общему контексту, благодаря которому поисковая система определяет, какие сайты и по какому запросу стоит показать пользователю.
LLM играет важную роль в повышении качества и релевантности результатов поиска, а также в улучшении пользовательского опыта при использовании поисковых систем.