Обновлено: 07.11.2024
Мы подошли к моменту, когда сам поиск прекращает быть поиском в привычном понимании. Как сохранить конвертируемый трафик на сайт в этих условиях – в этой статье.
Проблематика
- Поисковые системы фактически перестали быть поисковыми системами: теперь это рекламные системы с сохранившимися рудиментарными поисковыми функциями. Ценность сайта для поисковых систем определяется практически исключительно коммерческими характеристиками сайта и возможностью получить прибыль для поисковой системы.
- Выдача стала неоднородной в большинстве тематик. Поисковые системы пытаются закрыть максимум возможных интентов пользователя. Рассчитывать только на воспроизведение текстовых характеристик документов из топа выдачи больше нельзя. На неоднозначные запросы поисковик покажет лучшие сайты из разных сегментов, чьё место в выдаче будет определяться более частым намерением пользователей.
- Интеграция больших языковых моделей (LLM) на выдачу дополнительно усложняет ситуацию: это сократит трафик на сайты, даже если будет упоминать источники информации. Контентный «фаст-фуд» и выжимка из нескольких источников полезнее «водных» простыней текста, искусственно раздутого ради охвата ключевых слов и потому что «лонгриды — это вечнозеленый контент». Чат-боты предложили совершенно новую модель взаимодействия, превратив её в обычный диалог, пусть и с машиной.
- Критически важно попасть в число ресурсов, занимающих важное место в тематике. Поисковые системы склонны отдавать предпочтение сайтам, содержащим предельно полную, актуальную и соответствующую намерениям пользователя информацию. Под полнотой информации подразумевается объем семантического графа, содержащий максимум соответствующих тематике узлов.
- Чат-бот на выдаче использует контекст предыдущего поиска по заданному и похожим запросам, а количество источников для ответа уже сильно сокращается. Обработка данных для RAG (генерация с расширенным поиском), тонкой настройки языковой модели и обработка данных – очень затратные во всех смыслах операции, и должны быть особые причины для таких затрат.
Чтобы оптимизировать контент для использования в новых форматах результатов поиска, необходимо пересмотреть подход к работе с семантикой и структурой вашего сайта. Рассмотрим, как ко всему этому подойти на практике.
Терминология
Во избежание путаницы давайте сначала уточним терминологию:
- Терм – математический объект, в формальном языке выступающий аналогом слова, и используемый для математических операций. Если вы знаете, что такое в программировании «переменная», то это и есть частный случай терма (вместе с «постоянными»). Терм сам по себе может не иметь никакого отношения к словам естественного языка, это просто элемент некоторой внутренней логики.
- Ключевые слова в отличие от термов относятся к естественному языку, и подразумевают возможность высокоуровневого описания содержания документа для человека. Ключевые слова всегда представлены значимой лексикой, отличаются обобщенным смыслом, средней абстрактностью, стилистической нейтральностью.
- Под токеном в этой статье мы будем подразумевать единицу текста, сегментированную для обработки языковой моделью, или преобразование слов (фраз и даже текстов) в числа для дальнейших математических операций на уровне компьютера.
- Эмбеддинг (или векторное встраивание) – это машинное представление частей слова, слов, фраз или текстов в виде числовых векторов, помещённых в многомерное математическое пространство. Каждое измерение этого пространства – это какой-то семантический аспект, сопоставляемый с заданным словом. Например, слово «кот» может иметь такие семантические измерения, как «рыжесть», «хвостатость», «шерстистость», по которым его можно сопоставлять с другими словами.
- Именованная сущность – это объект, существующий в графе знаний, и обладающий уникальным ID, именем, атрибутами и связями с другими объектами графа знаний. Чаще всего речь идёт о значимых личностях, терминах, географических местах, природных явлениях, брендах, исторических событиях, предметах.
Текстовая оптимизация как пирамида
Поисковые алгоритмы можно сравнить с пирамидами: нижний слой никогда никуда не исчезает. Он прирастает более сложными алгоритмами и метриками ранжирования, старые лишь теряют приоритетность – но никогда не исчезают полностью.
Это касается и текстовой оптимизации. То, что начиналось частотностью термов и TF-IDF, сменилось ключевыми словами и BM25. Потом пришла эпоха дистрибутивной семантики, и это выглядело как настоящая магия: вы как-то втыкаете связанные слова в контент – и получаете бурный рост, ничего больше не меняя.
Сейчас для успешной оптимизации вы должны понимать принципы NLP, работать с интентами и контекстом. Нет больше смысла концентрироваться исключительно на запросах типа «натяжные потолки москва купить». Люди обращаются к поиску с запросами на естественном языке, и поисковые системы прекрасно с этим справляются. Там может вообще не быть ни «маркеров», ни «хвостов». Их время заканчивается: посмотрите в Метрику. Запросы из Вордстата в Метрике чаще всего связаны с активностью поведенческих ботов.
Так стоит ли в оптимизации воспроизводить практики, устаревшие уже 10 лет назад? Мы всё ещё парсим Вордстат, группируем запросы по топу выдачи и подсчитываем число прямых вхождений у конкурентов. Есть ли в этом смысл? Несмотря на то, что самые архаические алгоритмы извлечения информации и её анализа всё ещё используются поисковиками, основа поиска – машинное обучение. И у вас есть все средства, чтобы использовать его далеко за пределами генерации текстов.
Давайте разберем, какие изменения в процессы оптимизации контента стоит внедрить, а от чего пора отказаться. И начнём с основных алгоритмов текстового анализа, составляющих базу практики SEO.
«Мешок слов» и TF-IDF
На базовом уровне оценки текста речь идёт только о статистических свойствах, а именно о частоте слов в индексе поисковой базы. Вот как это происходит:
- Поисковая система скачивает вашу страничку и вносит её в поисковую базу.
- Каждое слово приводится к некоторой нормализованной форме (обычно речь идёт о лемматизации или стемминге).
- Каждому слову присваивается численное значение. Слово становится токеном, а список всех обнаруженных слов – словарем, или «мешком слов».
Некоторые слова в словаре используются чаще других, некоторые – уникальны. Все слова обрабатываются одинаково, значение имеет только частотность. Чтобы определить важность и значимость отдельных слов, используется алгоритм TF-IDF, сопоставляющий прямое и обратное соотношение термов (отдельных элементов «мешка слов») со всем словарем («документом»). Присваиваемые веса больше у тех слов, которые чаще встречаются в этом документе и реже – в других.
TF-IDF статичен. Он не учитывает длину документа. Он не оценивает смысл слов: вы получаете список документов, где есть заданные слова. Однако это не значит, что он совершенно бесполезен для работы над текстовыми метриками:
- С его помощью можно выявлять значимые термы на самом базовом уровне
- Поисковые системы применяют его для фильтрации стоп-слов в коротких фрагментах текста (например, в тайтлах). Об этом как-то заявлял некто Джон Мюллер, говорящая голова Google
- TF-IDF может быть полезен при сопоставлении каких-то стандартизированных текстов – например, вакансий, где можно ориентироваться на отдельные слова при стандартном размере документов. Другой пример: оценка всех тайтлов в рамках сайта для выявления неуникальных и оценке «весов» ключевых слов в этих тайтлах
- С ним легко работать: его формула проста и не содержит никаких неизвестных
- Формула Ципфа, оценивающая текст на естественность, основана ровно на этой же формуле: частотность термина в словаре обратно пропорциональна его порядковому номеру в словаре. Если есть отклонения от этого – это повод для проверки.
В отличие от многих более сложных методов оценки текстового контента, TF-IDF присваивает более высокий вес термам, часто встречающимся в конкретном документе, но реже – в коллекции. Благодаря этому можно выявить недостающие у вас важные ключевые слова, присутствующие в документах конкурентов без сложных вычислений. На этом основана работа такого набирающего популярность сервиса, как SEOLemma – его мы ещё рассмотрим ниже.
BM25 и ключевые слова
BM25 представляет собой усовершенствованную формулу TF-IDF. Он учитывает не только наличие термов в документе и их частотность, но и их распределение по документу. Кроме чисто количественных свойств, учитываются и другие параметры, а расчёт релевантности запросу учитывает и объём документа.
BM25 по-прежнему работает с неупорядоченным «мешком слов», и всё так же игнорирует семантическую близость слов. Учитывается количество вхождений, длина документа и средняя длина документов в коллекции.
Речь всё ещё идёт о вхождениях и лексическом поиске и усовершенствованной формуле TF-IDF, хотя формула IDF в этих алгоритмах отличается. Кроме того, формула BM25 содержит вспомогательные параметры, позволяющие контролировать оценку документа на базе частотности и длины документа. Косинусное подобие в формуле BM25 нормализуется не количеством слов в документе и запросе, а с помощью нелинейной функции от длины документа. Иными словами, частотность повторяющихся термов просто обрезается.
Хотя BM25 является мощным алгоритмом ранжирования, он также имеет ограничения:
- Нет работы с контекстом: BM25 не учитывает семантическое значение терминов запроса или документов, что означает, что он не сможет учитывать поисковые намерения.
- BM25 одинаково обрабатывает запросы всех пользователей и не подразумевает персонализацию поиска.
Этот алгоритм остаётся базой для всех существующих поисковых систем и грубо оценивает новую страницу на этапе первичного ранжирования. С его помощью поисковик пытается понять, с чем сопоставлять эту страницу в дальнейшем – как в рамках вашего сайта (коллекции документов), так и другими сайтами (предстающими как некоторый типовой эталонный корпус). Сравнение с медианной частотностью терминов в эталонном корпусе позволяет приблизительно определить соответствие документа запросу. Если терм встречается намного реже или намного чаще, чем в документах, используемых для сравнения – ранжироваться по запросу документ очевидно не будет.
Когда вы работаете с вхождениями, считаете частоты по топу, пытаетесь устранить «семантические дубли» на сайте, основываясь на частотностях и наличии каких-то терминов – вы работаете с мешком слов и TF-IDF, и это даёт результаты, которые потом будут переопределяться вторичным ранжированием (пересчётом текстовых метрик, оценкой хостовых метрик и пользовательских сигналов).
Однако механическая вставка слова «халва» в текст о выплавке чугуна не сделает документ релевантным запросу о халве. Для этого используется следующая ступень: дистрибутивная семантика.
Дистрибутивная семантика: контекст
Вы, безусловно, слышали про LSI – «волшебных» словах, которые способны увеличить текстовую релевантность документа запросу. Фактически же подразумеваются методы дистрибутивной семантики, благодаря которым можно выявить тематически близкие слова, создающие общий контекст.
Само по себе латентно-семантическое индексирование никогда и никак не использовалось поисковыми алгоритмами: этот способ анализа текста был разработан для библиотек во времена до Интернета, и в силу чрезмерной затратности и неуклюжести физически непригоден для работы с большими объёмами данных. Дистрибутивная семантика, которую исторически и безграмотно нарекли LSI, представляет собой чисто количественную характеристику, учитывающую частоту совместного использования каких-то слов.
Почему нельзя выявить слова, наиболее часто встречающиеся с заданным ключевым словом, и каким-то образом добавить их в оптимизируемый текст? – Вы не сможете механически создать ожидаемый контекст, интонацию, воспроизвести ожидаемую поисковой системой семантическую сеть. Простой пример: Google распознает тональность текста. Если ваш текст будет определен, например, «токсичным» – он может быть пессимизирован (хотя ранее представители Google это отрицали).
Другой пример: сервисы, чья работа основана на воспроизводимости каких-то униграмм (однословников) и биграмм (двухсловников) на страницах выдачи по заданному запросу. Результат зависит от качества текстов, ранжируемых в тематике, и значительную их часть могут представлять такие биграммы как «незабываемый отдых», «любые мероприятия», «идеальный выбор» с очень высоким весом – только потому, что они постоянно воспроизводятся в корпусе. Увеличит ли добавление таких слов на страницу тематичность и соответствие запросу? – Конечно же, нет. При этом действительно важные ключевые слова будут проигнорированы, если их по каким-то причинам нет в контенте, который поисковые системы сочли эталонным на данный момент.
Одни и те же ключевые слова могут относиться к текстам из разных тематик и фактически с диаметрально противоположным смыслом. И если на этапе первичного ранжирования, когда поисковая система грубо оценивает контент, вы можете получить высокие позиции, обманув алгоритм, то вторичное ранжирование отбросит страницу далеко вниз.
Со времен внедрения алгоритма BERT поисковые системы могут больше не полагаться только на присутствие определенных ключевых слов и сущностей в тексте, чтобы предположить уровень его экспертности и соответствия запросу. Нейросети могут оценить взаимосвязи понятий в тексте и определить стандарт контента для домена знаний. Имитировать эти взаимосвязи не получится.
Самым знаменитым методом анализа текста в рамках дистрибутивной семантики стал word2vec. Предположительно, именно на его базе был создан RankBrain. С его помощью поисковые системы смогли отойти от лексической модели анализа, а поиск стал трансформироваться в семантический. Большой недостаток word2vec: ограничения при работе с контекстом. Он может прогнозировать ближайшие слова на уровне предложения, но никак не учитывает контекст всего текста.
Модели дистрибутивной семантики способны захватывать подтексты, объединяя их в единый плотный вектор, благодаря чему могут работать с семантикой, выходя за пределы лексических средств работы с текстом. Именно это позволяет поисковой системе предоставлять точную информацию на запросы, содержащие лишь некоторые атрибуты искомой сущности.
Тематическая классификация
Похожие запросы, состоящие практически из одних и тех же слов, могут рассматриваться поисковым алгоритмом как относящиеся к совершенно разным тематикам. А это значит, что вы никак не сможете получить по ним высоких позиций, и нет никакого смысла оптимизировать под них страницы и мониторить ранжирование по ним. Стоит отбросить из наблюдения и «конкурентов», которые имеют по ним высокие позиции – это не ваши конкуренты. На скриншоте ниже: то, что некогда было единым кластером, теперь разбросано по сайтам из разных сегментов.
Чтобы понять, какие запросы из числа похожих на соответствующие вашим задачам стоит отфильтровать, нужно классифицировать эти запросы.
Сделать это можно множеством способов: методом тематического моделирования LDA (латентное размещение Дирихле), неотрицательной матричной факторизации (NMF), LSI (то самое скрытое семантическое индексирование, с помощью которого пытаются увеличить релевантность текста) и т.п. Однако в практике поисковой оптимизации гораздо эффективнее обратиться к инструментарию, основанному на данных самих поисковых систем или же их сервисов.
В классических несемантических поисковых системах ключевые слова, используемые в поисковых запросах, сравниваются со словами, типичными для кластера тем, чтобы распределить поисковый запрос по темам. Этот процесс относительно прост для большинства поисковых систем, поскольку условия поиска можно отнести к тематическому контексту на основе используемых терминов. Яндекс использовал разметку множества популярных сайтов с оценкой поисковых запросов, по которым эти сайты получают переходы из поиска. Эта разметка применялась для оценки других сайтов, получающих трафик по таким же запросам, и в результате каждый сайт получал привязку к наиболее вероятным тематикам. Тематика не всегда может быть однозначной для запросов общего характера и сохраняет вероятностный характер, основанный на статистических данных. А эти данные меняются со временем.
Тематическая классификация такого рода была использована Яндексом для выявления платных ссылок. Подробнее об этом можно прочитать в мадридском докладе Яндекса.
В семантических поисковых системах смысл поискового запроса анализируется нейросетевыми алгоритмами, способными классифицировать даже неоднозначные поисковые запросы.
SEO-сервисы, работающие с классификацией запросов под Яндекс, обращаются к поисковой выдаче. Для оптимизации в рамках Google можно использовать API Google Cloud. Принцип работы там другой: вы отдаёте на вход документ, сервис возвращает список категорий, обнаруженных в документе.
Поисковые сущности
Поисковую сущность можно было бы описать как некоторые ключевые слова, связанные с конкретным объектом в графе знаний, привязывающим эти слова к описаниям и метаданным. Это очень упрощённое определение, но поисковые сущности – это слова, которые поисковая система знает и может определить в тексте. Сущности уже встроены в какой-то контекст и связаны с другими объектами, благодаря чему поисковая система может понять, что запрос «мойка высокого давления» – это про оборудование, а не про речку в Санкт-Петербурге.
Информация об описаниях этих сущностей (контекст) содержится в базах данных, составляющих Граф Знаний, а идентификаторы не привязаны к конкретной языковой версии этих баз. На скриншоте ниже – пример из Wikidata.
Именованные сущности (см. NER) позволяют поисковым системам сократить вычислительные нагрузки и улучшить результаты выдачи. Благодаря известным взаимосвязям между сущностями поисковики могут не просто сопоставлять ключевые слова, но полноценно работать со смыслом – то есть речь идёт о появлении семантического поиска. Можно в принципе не использовать «правильное» слово, используя синоним или псевдоним. Благодаря контексту поисковая система сумеет выявить подразумеваемый объект и вернуть на запрос список соответствующих запросу документов.
Даже если поисковик не может определить намерение пользователя (интент запроса), выявив в запросе поисковую сущность, он дополнит запрос атрибутами сущности, синонимами, связанными запросами (PAA), и даже при нечеткой формулировке запроса пользователь получит релевантную выдачу.
Однако и тут есть подводные камни:
- Нельзя внести в граф знаний вообще все слова. Вероятно, когда-нибудь это будет возможно, но сейчас в граф знаний входит только ограниченное количество сущностей.
- Не все сущности в базах данных имеют достаточно проработанные атрибуты и имеют установленные связи с другими объектами, у множества сущностей эти связи неполны и неточны.
Иными словами, без ключевых слов всё равно не обойтись: речь может идти о малоизвестном объекте, необходимости добавления контекста и т.п. Например, по запросу «мойка» Google покажет блок ближайших автомоек, а потом – магазины, торгующие кухонными мойками. Яндекс покажет блок моек высокого давления с «Маркета», потом – статью о кухонных мойках в «Википедии», а потом – ссылки на кухонные раковины в магазинах. Чтобы получить ссылку на статью о Мойке в Санкт-Петербурге, придётся добавить в запрос слово «река» или «Санкт-Петербург».
BERT
Если рассматривать только текстовую оптимизацию, то релевантность определяется набором семантически связанных слов. Формы такого анализа мы рассмотрели выше, и все классические методы были основаны на достаточно простых средствах. Однако поисковые системы не стоят на месте, и вместо исключительно статистических средств используют машинное обучение, способное точно справиться с обработкой огромных объёмов данных.
Часто упоминаемый алгоритм BERT и его модификации рассматривается как способ тематического моделирования средствами машинного обучения. BERT генерирует плотные векторные представления слов, благодаря чему может лучше справляться с контекстом, нюансами смысла и показывать лучшие результаты в анализе текста, его классификации, поиске информации и т.п.
Одно из главных отличий BERT от word2vec и его аналогов – способность предсказывать пропущенные слова, следующие предложения, лучше обрабатывать запросы с «длинным хвостом», учитывать контекст всего документа.
Как можно справиться с задачей выявления важных ключевых слов, сущностей и вспомогательных тем? Можно вручную составить собственный корпус текстовых фрагментов и проанализировать их, выявить самые весомые, понять, почему они имеют такой вес и использовать для оптимизации.
Однако если у вас есть компьютер и минимальные знания Python, вы можете использовать мощь BERT или его аналогов напрямую. Для самых простых операций можно обойтись без программирования: достаточно готовых инструментов, которые можно использовать, просто загрузив данные. (Кстати, сможете на практике оценить ту самую нагрузку на вычислительные ресурсы, и понять, почему проблемные сайты поисковым системам не нужны).
Эмбеддинги, карты слов и семантические графы
Эмбеддинг, или векторное вложение – ключевое слово, фраза или целый текст, которые машина перевела в векторный формат и определила ему место в многомерном смысловом пространстве. В машинной лингвистике любое слово имеет смысл только в определенном контексте, в противном случае это просто сочетание единиц и нулей. Анализ этого контекста – основная задача работы с семантикой в рамках SEO.
Эмбеддинги помогают вам работать с контентом так, как это делает поисковый алгоритм. Благодаря им вы получаете презентацию связей между словами, и можете определить, какого контента не хватает, какой представлен недостаточно подробно, какой – лишний. Кроме того, эмбеддинги используются для кластеризации, классификации запросов и т.п.
Самое важное отличие от всех прочих алгоритмов: теперь вы можете полноценно работать с контекстом, не полагаясь на догадки и фантазии.
Эмбеддинги фиксируют связи между словами, благодаря чему поисковая система может воспроизвести смысл ключевых слов с «длинным хвостом», даже если какие-то элементы цепочки пропущены.
Большим преимуществом такого подхода можно назвать возможность отказа от постоянного воспроизведения свойств сайтов в топе поисковой выдачи. Попадание в топ вовсе не значит, что контент идеален: это просто документы, на данный момент признанные поисковой системой лучшими из того, что есть. Благодаря анализу векторных представлений слов, можно обнаружить ключевые слова и сущности, способные существенно увеличить релевантность контента запросу.
Эмбеддинги, получаемые с помощью современных LLM, можно рассматривать как самую сложную и современную модель дистрибутивной семантики, превосходящую векторные вложения LSI, LSA, word2vec, GloVe и т.п.
На уровне рабочих процессов вы, вероятно, будете использовать презентацию вложений в виде карты слов, семантических графов или даже таблиц, где каждое слово сопровождается вспомогательными данными (показатель релевантности, сила связи, предположительная актуальность, «вес»). Самым простым вариантом можно считать условное «облако тегов», хотя это едва ли можно считать оптимальным представлением семантического узла.
Традиционный подход к работе с поисковой семантикой
Рассмотрим стандартную процедуру оптимизации текстового контента, характерную для классических поисковых систем, основанных на синтаксических моделях.
- Собираем поисковые запросы из Яндекс-Вордстат и сторонних сервисов
- Отсеиваем запросы с микрочастотностью, не соответствующие пользовательскому намерению, неинтересные с коммерческой точки зрения, относящиеся к сторонним тематикам
- Кластеризуем запросы по топам, выявленным группам определяем место в структуре сайта
- На базе до-семантических алгоритмов выявляем медианную частотность вхождений ключевых слов в заданные текстовые зоны, определяем объём контента
- Проводим дополнительную оценку связанных запросов с использованием PAA и связанных запросов из того же Вордстат
- Мониторим результаты оптимизации по выбранному списку приоритетных запросов
Устарела ли эта технология? – Да, хотя её до сих пор нельзя признать нерабочей. С 2014 (когда мы узнали о word2vec) через 2019 (релиз BERT) мы пришли к поисковым системам, внедряющим чат-ботов прямо на выдаче. Им не нужны особенные слова, их частотности, параметры в запросе. Вы просто обращаетесь к ним на обычном разговорном языке, и получаете полноценный ответ, хотя и не всегда релевантный. Поисковые системы пытаются понять смысл запроса вне зависимости от его формулировки, определить соответствующий домен знаний – и выбрать сайты, максимально соответствующие этому домену знаний.
Что может стать альтернативой?
- Пора уйти от представления о семантическом ядре как о табличке со списком сгруппированных запросов из Вордстат. С точки зрения машины, тематика сайта представляет собой скорее диаграмму дисперсии, объединяющую множество векторизованных ключевых слов, среди которых очевидных – лишь малая часть.
- Не стоит больше концентрироваться на классическом разделении запросов на транзакционные и информационные. Есть только связанные ключевые слова и сущности, и все они по максимуму должны быть частью вашего сайта. Связь между узлами графа определяет необходимость какого-то контента.
- Нет смысла заставлять копирайтера искусственно вставлять какие-то «волшебные» ключевики в текст. Любая современная LLM, будь то ChatGPT, Claude, Mistral и т.п. справится с таким и без сторонних сервисов: GPT не умеют работать иначе, имитация текста всегда основана на использовании самых частотных ключевых слов и связях между ними. Думайте о смысле ответа на запрос, а не о словах: сколько ни вставляй слово «цена», прайс-лист оно не заменит.
- Нельзя игнорировать пользовательские интенты и рассчитывать только на ключевые слова: ни один сервис не покажет вам реальные запросы, исходящие от аудитории. Реальные запросы не поддаются обобщению на уровне лексики, но вполне можно выявить их смысл – и постараться «закрыть» их по максимуму.
Простой пример, с которым столкнулись многие заказчики «накруток» ПФ: в результате накруток вы получаете топы по заданным ключевым словам, но теряете продажи. Просто потому, что проседает ранжирование по основному пулу запросов, носящих разовый и суб-низкочастотный характер, а раскачиваете вы максимально «ботные» запросы. Попробуйте накрутить ПФ для запросов типа «Э, Алиса, слышь, попробуй найти короче, где белые носки такие чтоб немаркие и не совсем короткие, по парку бегать купить». Попробуйте ради интереса сопоставить выдачу по этому запросу с запросом «белые носки для бега» или найти по нему статистику в привычных сервисах.
- Забудьте о ключевых словах как первой и единственной точке отсчёта в работах по SEO. Это – лишь точка входа, благодаря которой поисковые системы всё ещё классифицируют сайты при первичном индексировании.
- Приучите себя к мысли, что нужно работать с эмбеддингами, не списками слов. Проанализируйте ваш сайт с этой точки зрения: как далеко отстоят отдельные узлы, и есть ли между ними отсутствующие звенья. Добавьте недостающий контент. Сопоставьте собственную семантическую сеть с эталонными сайтами, стабильно сохраняющими позиции в топе выдаче по широкому пулу запросов.
Инструментарий
Сервисов и инструментов, предназначенных для углубленной работы с семантикой на реальных данных сейчас даже больше, чем нужно. Перечислю лишь некоторые, из тех, что регулярно использую в работе сам или могу порекомендовать.
Python. Мощнейший калькулятор, способный полноценно решить практически любую задачу, связанную с семантикой. Даже если вы не умеете программировать на нём, в вашем распоряжении – огромное количество готовых решений (загляните на GitHub). Да, даже в случае использования готовых решений вам, вероятно, что-то придётся исправлять и добавлять, но справочных материалов и готовых решений практически любой ошибки столько, что нет ничего нерешаемого.
SEOLemma. Закрывает практически все задачи, связанные с лексико-синтаксическими моделями на уровне TF-IDF, BM25 и т.п. Принцип работы прост:
- Подаёте на вход кластер поисковых запросов
- Сервис собирает данные по сайтам, имеющим видимость в топе выдачи
- Отбираете те сайты, с которыми хотели бы сопоставить свой сайт, фильтруете ненужное
- Сервис собирает данные, вы получаете табличку с результатами сопоставления
Наглядные цифры по вхождениям, объёмам, весомым энграммам (можно выбрать число слов, но достаточно ограничиться униграммами и биграммами).
Just-magic.org. Хорошо всем известный сервис, содержащий набор проверенных инструментов, которые можно считать чуть устаревшими, однако всё ещё рабочими и эффективными.
Screaming Frog SEO Spider. Начиная с 20 версии, работа с эмбеддингами вшита в него по умолчанию. Вы можете добавить custom JS, выбрать модель LLM, которую хотите использовать, указать ключ API – и получить векторную модель своего или чужого сайта. Как это использовать на практике – ищите выше.
Orange Data Mining. Бесплатная десктопная программа, представляющая собой интерфейс для работы с Python. Состоит из отдельных модулей, которые вы можете объединять в цепочки для решения определенных задач. Например, создать текстовый корпус, передать его в анализатор, получить на выходе эмбеддинги, облако слов, семантический граф. Просто, быстро, удобно, однако нужно потратить немного времени на изучение справки.
Редакторы карт интеллекта и диаграмм. Вероятно, вы уже используете в работе Xmind Zen или Draw.io. Если нет – самое время начать.
Инструментарий для работы с базами данных. До сих пор многие предпочитают хранить данные в привычных файлах Excel. От этого никуда не уйти, но более оптимальный вариант для серьёзной работы с данными – собственно базы данных: с данными в таком формате намного проще работать и хранить их. По идее, для этого нужно знать хотя бы азы SQL, но если с этим пока не очень хорошо, стоит воспользоваться одним из менеджеров БД. Пример – HeidiSQL.
Protégé. Старый бесплатный редактор онтологий, основанный на стандартах RDF. Теоретически, вы можете заменить его редактором карт интеллекта, хотя его функциональные возможности предназначены для более сложных и глобальных задач.
Адаптация рабочий процессов по оптимизации семантической структуры и текстового контента позволяет работать точнее, с использованием реальных данных, реже полагаться на гипотезы и фантазии. Качество текстового контента было и будет одним из важнейших факторов ранжирования, а значит, есть смысл оптимизировать работу с ним практически для любого сайта и бизнеса.