Эволюция поисковых систем давно прошла этап простого подсчета ключевых слов. Сегодня балом правит машинное обучение и семантический поиск. Одним из важнейших прорывов в этой области стала архитектура DSSM (Deep Structured Semantic Model) — глубокая структурированная семантическая модель.
Хотя изначально эту модель разработали исследователи из Microsoft (Bing), лежащие в ее основе принципы повлияли на весь рынок поиска, включая алгоритмы Яндекс (“Палех”) и Google. В этой статье мы подробно разберем, что такое DSSM, как она работает и как SEO-специалистам адаптировать свои стратегии под реалии семантического поиска.
DSSM — это нейросетевая архитектура, которая переводит текстовые данные (поисковый запрос пользователя и текст страницы) в непрерывное векторное пространство.
Обучение DSSM исторически строилось на кликовых данных (лог-файлах поисковиков). Модель анализирует пары «поисковый запрос — документ, на который кликнул пользователь». Если пользователь ввел запрос и кликнул на определенный сайт, алгоритм получает сигнал: вектор этого запроса и вектор этого документа должны быть максимально близки друг к другу в семантическом пространстве.
Чтобы понять применение DSSM в SEO, нужно сравнить этот алгоритм с его предшественниками, в первую очередь с BM25.
BM25 (и классический TF-IDF): Опирается на точное лексическое совпадение (лексический поиск). Если слова из запроса нет в тексте, релевантность документа стремится к нулю. Это породило эпоху SEO-текстов с точными вхождениями ключей («купить слона москва недорого»).
DSSM: Строится на понимании контекста и семантического значения. Модель может связать запрос «как починить кран» со статьей, где используются слова «ремонт смесителя в ванной», даже если прямых совпадений по ключевым словам нет.
DSSM не убивает BM25 полностью — поисковики часто используют их в связке (BM25 для первичного быстрого отбора миллионов документов, а DSSM — для более глубокого ранжирования топ-1000).
Как связаны «Палех» и DSSM
«Палех» построен на базе технологии DSSM.
Конкретно в «Палехе» DSSM:
Анализирует входные данные (на уровне n-грамм)
Преобразует запрос и документ в векторные представления (в частности, используется вектор размерности 128 для сравнения).
Оценивает релевантность через сравнение векторов — чем ближе векторы запроса и документа, тем выше шанс, что страница попадёт в выдачу.
Учитывает все слова в тексте, а не только те, что есть в запросе. Раньше поисковые системы работали по принципу «мешка слов» и отбрасывали до 97 % слов, а «Палех» использует значительно больше данных.
Работает с разными зонами страницы. В связке с «Палехом» иногда упоминается алгоритм «Королёв» — он расширяет применение DSSM с заголовков на полноценные тексты страниц.
Благодаря использованию DSSM в «Палехе» выдача становится релевантнее для длиннохвостых запросов (редких, описательных, типа «фильм про человека, который выращивал картошку на другой планете»). Поиск лучше понимает синонимы и перефразировки (запрос «бутыль» может выдать страницы со словами «бутилированный» или «бутылка»). Для продвижения важнее качество контента, а не точное вхождение ключевых слов — достаточно добавить релевантные слова, не содержащиеся в запросе.
Есть и серьёзный минус: сложнее деоптимизировать страницу, если она попала в выдачу по «не тому» запросу — теперь система учитывает слова, не связанные с ключевиком.
DSSM и ранжирование в Google: документация и реалии
В документации Google вы редко встретите аббревиатуру DSSM, так как это патент и разработка Microsoft. Однако Google использует полностью аналогичные архитектуры — так называемые Dual Encoders (двухбашенные кодировщики). Известные алгоритмы, такие как RankBrain и Neural Matching (нейронное сопоставление), работают по принципам, заложенным в DSSM.
Машинное обучение в SEO сегодня базируется на том, что Google понимает синонимы, опечатки, концепции и неявный интент пользователя.
DSSM и ключевые слова: анализ поисковых запросов
Отмирают ли ключевые слова? Нет. Но DSSM и ключевые слова теперь находятся в новых отношениях. Анализ поисковых запросов должен стать шире:
Группировка по интенту, а не по лексике: если раньше под запросы «смартфоны самсунг» и «телефоны samsung» делали разные страницы, то модели типа DSSM понимают, что векторный смысл этих фраз идентичен.
LSI и семантическое облако: алгоритм ищет слова, которые часто встречаются в экспертных текстах на эту тему (см. QBST).
Анализ «хвоста» запросов. Семантический поиск блестяще справляется с long-tail запросами, состоящими из 5–7 слов, которые пользователи задают голосовому помощнику.
Улучшение релевантности и влияние на CTR
Внедрение DSSM кардинально повлияло на качество контента, требуемое для выхода в Топ. Поисковик оценивает не только вхождения, но и то, насколько полно документ раскрывает тему.
Что касается метрик: как DSSM влияет на CTR (Click-Through Rate)? Влияние обоюдное:
Само по себе обучение таких моделей опирается на исторический CTR (если по сниппету не кликают, векторная связь в модели ослабевает).
Для SEO-специалиста попадание в интент с помощью глубокой семантики означает, что ваши сниппеты будут показываться более теплой и релевантной аудитории, соответственно, органический CTR возрастет (снизится процент отказов).
Примеры использования в SEO и Case Studies
Рассмотрим примеры использования DSSM на практике (SEO Case Studies).
Кейс: информационный портал о медицине
Проблема: статья «Симптомы гастрита» привлекала трафик только по прямому пулу ключей (симптомы, признаки, болит живот).
Действия SEO-специалиста (с учетом концепции DSSM): статья была расширена. В нее добавили связанные семантические кластеры, выявленные через анализ интента (диета при гастрите, отличие от язвы, тошнота после еды, диагностика ФГДС). Текст стал экспертным лонгридом.
Результат: статья начала ранжироваться по тысячам смежных и long-tail запросов (хотя точных запросов в тексте не было). Нейросеть поисковика поняла, что вектор документа идеально закрывает широкий спектр вопросов вокруг базового заболевания.
Бывают и обратные случаи: контент затрагивает термины, относящиеся к семантическим срезам, по которым сайт не имеет никакой экспертизы. Пример: сайт страховой компании разбирает примеры, связанные с медициной и симптоматикой. В один из апдейтов сайт потерял видимость по ряду запросов, продвигаемых на таких страницах.
Альтернативы, преимущества и недостатки для SEO
Преимущества (почему DSSM любят поисковики):
Высокая скорость работы по сравнению с более тяжелыми моделями (за векторы отвечают две независимые «башни», которые можно просчитать заранее).
Решение проблемы лексического несоответствия («словаря пользователя» и «словаря профессионала»).
Недостатки:
Базовый DSSM работает по принципу «Мешок слов» (Bag of Words) или n-грамм на уровне букв. Он может упускать сложные контекстные связи между началом и концом длинного предложения.
DSSM и альтернативы
Сегодня на смену классической DSSM приходят более тяжелые трансформеры:
BERT (и RoBERTa): учитывают двунаправленный контекст. BERT понимает предлоги и отрицания гораздо лучше.
Cross-Encoders: модели, которые сравнивают запрос и документ одновременно, а не сводят к двум векторам, но они слишком тяжелы и используются на самых финальных стадиях ранжирования.
ColBERT: современная альтернатива, сочетающая скорость работы с векторными представлениями и высокую точность анализа токенов, как у моделей BERT.
Инструменты для анализа семантики
SEO-специалистам сложно впрямую “проанализировать DSSM”, но можно использовать инструменты, симулирующие семантический анализ:
Google Cloud Natural Language API позволяет разбить текст вашего сайта на сущности (Entities) и категории, чтобы понять, как машина воспринимает тему документа.
Surfer SEO, Clearscope, текстовые анализаторы (Rush Analytics, JustMagic): сервисы, анализирующие топ выдачи и вытаскивающие семантическое ядро (корпус связанных слов), формируя векторное облако.
Python-библиотеки (SentenceTransformers, Word2Vec): продвинутые SEO-аналитики могут сами строить векторные представления своих текстов и запросов, чтобы выявлять контентные пробелы (Content Gaps).
Резюме
Алгоритм DSSM стал мостом между старым «текстовым» SEO и современным семантическим поиском. Для SEO-практика это означает одно: фокус должен сместиться с частотности отдельных слов на смысловую полноту. Машинное обучение в поисковиках сегодня поощряет сайты, которые создают плотный, экспертный и всеобъемлющий информационный контекст, способный ответить на вопрос пользователя, какими бы словами он ни был задан.