Обновлено: 13.09.2024
Текстовый анализ сайта был, есть и будет важнейшей практикой поисковой оптимизации: если поисковая система не сможет правильно классифицировать контент, он не будет показан по целевым запросам. Какие методики оценки текста работают в 2024 году, а о каких стоит уже забыть – в этой статье.
Основные проблемы
Поисковая оптимизация – это набор стратегий, используемый для продвижения определённого контента в поисковой выдаче. Анализ текста – один из важнейших инструментов SEO, но делают и используют его чаще всего неправильно.
- Полноценный текстовый анализ выходит далеко за рамки подсчёта ключевых слов на странице и сравнения с аналогичными показателями на сайтах конкурентов. Базовые метрики уровня BM25 и TF-IDF остаются важными, но это только часть первичного ранжирования документа..
- Вторая глобальная проблема проистекает из первой. На сегодняшний день не существует программы или онлайн-сервиса, который полноценно закрывал бы все потребности специалиста по поисковой оптимизации в работе с текстами. Возможная причина: стремление большинства оптимизаторов вкладываться в более простые и быстрые способы раскрутки. Зачем возиться с углубленной прокачкой онпейдж, если можно запустить бота для накруток ПФ или просто купить ссылки?
И плодятся в индексе клоны одной и той же удачной статьи, когда-то хорошо зашедшей в топ поисковой системы. Причины – в ущербности используемых практик работы с контентом.
Как проводили анализ текста в SEO 20 лет назад
Анализ текстов на заре развития поисковых систем был прост: анализировались тексты, попавшие в топ, и вычислялись средние значения объёма текста, его словарного состава, количества вхождений ключевых слов. И этого было достаточно для того, чтобы поисковая система признала текст релевантным запросу. Простейшие алгоритмы, использовавшиеся для анализа текста (tf-idf, “мешок слов”, анализ текста по закону Ципфа) позволяли оптимизаторам определить перечень технических характеристик, необходимых для постановки ТЗ копирайтеру.
Базовыми характеристиками, на которые ориентировались SEO-специалисты, были «тошнота», «водность», «заспамленность». И появлялись ТЗ в духе «Плотность ключа – 7%, 2 прямых вхождения, остальные – во всех падежах, 1500 тысячи знаков без пробела» и т.д. И заполнялись сайты бесполезными спамными текстами, где смысл и польза текста были последним, на что SEO-специалисты обращали внимание. Вернее, не обращали вовсе. SEO-анализ текста ограничивался исключительно ключевыми словами в отрыве от смысла, общей семантической структуры, задач маркетинга.
Однако поисковые системы развивались, и появлялись алгоритмы наподобие «Палех» Яндекс и «Колибри» Google, которые принесли новые возможности для оценки качества текста. А такие фильтры, как «Баден Баден» и Panda глобально выкосили огромное количество текстового мусора в интернете. Современные алгоритмы YATI и Bert в 2020-м добавили дополнительные требования к качеству текстов. Только за счёт оптимизированного текста попасть в топ поисковиков было сложно и раньше. Теперь же без углубленной проработки семантики, изучения интента запроса, под который оптимизируется контент и построения графа, объединяющего семантические сущности, об оптимизации и говорить не стоит.
Задайте вопрос своему оптимизатору: «Как ты работаешь над текстом?» – и он наверняка скажет, что использует всё те же инструменты, основанные на принципах и практиках начала века. Плотность, заспамленность, тошнота. В лучшем случае упомянет «Миратекст». И это всё. Всё то же высчитывание объёма текстов по топу (в «килознаках»), количество вхождений, прямое вхождение в подзаголовках и т.п. И околонулевая эффективность. Это логично: написать внятный текст по такому ТЗ практически невозможно, это в любом случае будет контент, созданный только ради ключей – то есть спам. В лучшем случае такой текст не станет причиной попадания под фильтр, и пользы от него ждать однозначно не стоит.
Единственное исключение: статью для вас пишет эксперт, способный хорошо раскрыть тему и умеющий писать. Такой контент может «выстрелить» даже не благодаря, а вопреки усилиям SEO-специалиста.
Почему старые способы неэффективны
Традиционный анализ текстовых факторов работает с изолированным текстовым фрагментом на странице, оценивая его вне структуры, семантического поля, эталонного контекста, сопоставления с некоторым образцовым веб-графом. Вы просто загружаете текст на какой-нибудь text.ru и получаете список: «тошнота столько-то, водность – столько, уникальность – столько». Но у вас нет ответов на вопросы:
- Какие поисковые сущности должны быть представлены на странице?
- С какими документами на сайте или за его пределами должен быть связан текст?
- Чего не хватает в этом тексте с точки зрения поисковой системы?
- Соответствует ли содержание реальным потребностям целевой аудитории?
- Нужен ли этот текст вообще?
Нельзя оценить качество отдельной детали без понимания её места во всей конструкции в сборке. Здесь работает только комплексный анализ. Один и тот же контент, размещенный на разных хостах, будет оценен по-разному и даст разные результаты – даже в отрыве от хостовых факторов, ПФ и т.п. Первичное ранжирование подразумевает оценку самых примитивных текстовых метрик.
Но техническая оценка текстового контента страницы вне общего контекста – это оценка видимой части айсберга, игнорирующая более значимую его часть. Ошибочность такой тактики могли бы признать моряки «Титаника» – как и множество владельцев сайтов, потерявших трафик в результате изменений алгоритмов ПС.
А теперь вспомните, как происходит подготовка статьи в рамках SEO. Оптимизатор готовит примитивное ТЗ, копирайтер (30 руб. за 1000 ЗБП) идёт в поиск и берет пару статей из топа, переписывает и отдаёт. Имеет ли этот контент какую-то добавочную ценность? Он полностью соответствует тому, что уже висит в топе. Но то, что уже висит в топе, может быть лучшим из худшего, и точно так же не перекрывать основные потребности посетителей. Без углубленной аналитики вы этого не поймёте, а значит, ресурсы на подготовку текста были потрачены зря.
Старые способы оценки текстового контента по-прежнему актуальны: если статья не пройдёт запросный кворум, основанный на самых примитивных характеристиках текста, топов вам не видать. Однако надеяться на то, что с нужной «плотностью» по ключевикам, разбавленным LSI, вы обойдёте конкурентов, тоже не стоит.
Почему не подходят и новые способы
Новые способы – это генерация текста средствами LLM, будь то ChatGPT, Claude AI или любая другая модель. Казалось бы, что может быть проще и понятнее: вы задаёте промпт, ИИ выдаёт вам готовый текст, максимально точно соответствующий тематике. Ведь это же точно такая же нейросеть, работающая на тех же принципах.
И правда, тексты, сгенерированные генеративными моделями, отличаются высокой релевантностью с точки зрения поисковых систем. Там фактически нет “воды”, всё основано на максимально сильных связях между словами и предложениями, при правильном подходе можно собрать из отдельных фрагментов цельный текст. Что не так? – А вот что.
- Точно таким же инструментарием сейчас пользуются все, включая ваших конкурентов. А LLM работают по принципу формочек для печенья: они могут что-то иначе сформулировать, что-то представить чуть в другом порядке. Но по факту это всегда будет “мешок” одних и тех же ключевых слов, с околонулевой семантической уникальностью.
- Сгенерированные нейросетями тексты нельзя считать реальными текстами. Это имитация человеческой речи, построенная на статистических данных.
- Такой текст ничего не пытается до вас донести, в нём нет внутренней логики, читатель это считывает.
- Тексты, сгенерированные нейросетями, не могут добавлять никакой новой информации сами по себе, и содержат либо то, что было заложено в текстовый корпус, на котором обучалась модель, либо речь о галлюцинациях.
Даже ручные корректировки такого рода контента не могут исправить ситуацию. Речь может идти только о вспомогательном характере такого текста. Вы можете использовать его как черновики, идеи для собственного контента, некоторую базу, хорошо соответствующую техническим критериям текста, но не способную выступать даже как полуфабрикат.
Векторные вложения и Word2vec
Неизвестно точно, когда именно Google внедрил в свои алгоритмы RankBrain – способ оценки контекста по заданному слову и определение слова по окружающему контексту. Условно можно говорить о 2013. Известно о деталях немногое, но в числе разработчиков – Томас Миколов, создатель концепции Word2vec. По некоторым высказываниям представителей Google можно понять, что RankBrain работает точно по такой же модели: слово или словосочетание предстаёт в виде алгебраического вектора в многомерном пространстве, связи между словами определяются близостью и направленностью векторов. Для определения связей используются обычные алгебраические операции.
Известно, что RankBrain используется для обработки около 15% всех запросов: тех, по которым Google имеет слишком мало данных, уникальных и новых запросов. Алгоритм позволяет ему определить смысл и намерение запроса без использования пользовательских сигналов и т.п.
Google BERT и Яндекс YATI
В 2020-м произошли важные изменения поисковых алгоритмов: и Google, и Яндекс выкатили обновления, кардинально меняющие принципы текстового ранжирования. Если когда-то особую важность поисковики придавали исключительно ключевым словам документа, то теперь нейросети учатся понимать смысл. На странице может и вовсе не быть ключевика ни в прямом вхождении, ни в каких-то словоформах, и тем не менее, страница будет ранжироваться по запросу, если соответствует ему по смыслу.
Это не значит, что вхождения ключей в текст больше не нужны вообще: они всё ещё учитываются. Более того, в некоторых случаях важность прямых вхождений ключевых слов для ранжирования может даже вырасти. Но больше нет никакой необходимости “спамить”, если со смысловым содержанием в тексте порядок и используются слова, задающие тематику (их любят называть LSI, хотя это не совсем правильно), а также синонимы. Вспомогательными средствами продвижения остаются анкор-листы (ключи, входящие в тексты ссылок), а также запросный индекс.
Разумно предположить, что чудес и катастроф в обозримом будущем ожидать не стоит: обучение нейросетей – процесс долгий и проблемный, и зависит от множества факторов. Например, от той выборки образцовых документов, на которой нейросеть и обучалась. Однако общий тренд вполне понятен, как и выводы, которые должен сделать каждый SEO-специалист.
Главное отличие алгоритмов-трансформеров я бы сформулировал так: документы уже не рассматриваются изолированно. Они оцениваются как часть общей семантической структуры, как узел веб-графа, связанный с другими узлами. Нельзя больше полноценно проанализировать текст вне связи с другими страницами в рамках сайта и внешними источниками, связанными с этой страницей ссылками. На стадии первичной индексации всё ещё можно получить высокие позиции за счёт самых примитивных средств оценки метрик контента, но в дальнейшем всё равно будут учтены менее очевидные характеристики – и это может самым драматическим образом сказаться на ранжировании.
Нейросетевые технологии Яндекса сопоставляют численное выражение (эмбеддинг) запроса, условно соответствующей страницы и пользовательского профиля. Чем выше соответствие – тем выше вероятность того, что вам покажут именно эту страницу. Здесь оцениваются интересы пользователя, история его поиска, похожая аудитория – и контент. Ключевые слова уже не играют никакой роли, оценивается смысл и исторические данные взаимодействия со страницей похожих пользователей. Учитывайте, что это сейчас – самый актуальный тренд в поисковых алгоритмах, который будет только расти.
Всегда ли нужен анализ текста для продвижения страницы
Всегда. Какой бы ни была ваша страница – если она должна быть занесена в индекс поиска, вам нужно провести базовый текстовый анализ. Даже если эта страница формально никакого связного текста (он же – SEO-текст) не содержит, как, например, товарная категория в интернет-магазине.
Дело в том, что проработка текстовых факторов ранжирования подразумевает все зоны документа, среди которых – тайтл, метаописание, заголовки, навигация, «хлебные крошки», интерактивные элементы страницы, товарные карточки, отдельные фрагменты текста и т.п. Текст в рамках SEO – это не статья, и не SEO-«портянка». Это весь текстовый контент страницы в совокупности, включая метаданные, навигацию, интерактивные элементы. Однако имейте в виду, некоторые зоны контента важнее других, и эта важность меняется со временем, а также в зависимости от типа документа, его задачи и конкретной поисковой системы. Известно, например, что Яндекс игнорирует метатеги Description, Keywords, тег Alt изображений и т.п.
Важный момент: Яндекс и Google оценивают качество текста по-разному. Чтобы страница получила высокие позиции в обеих системах, надо использовать гибридные технологии. Если немного обобщить, то если речь идёт о коммерческой страничке, для Яндекса наличие SEO-текста не просто неполезно, оно скорее вредно, если только не содержит необходимую для посетителя информацию. Google же исповедует принцип «комплексного ответа». В его рамках страница вполне может быть оптимизирована и под информационные, и под коммерческие запросы.
Какие задачи может и должен решать анализ текста
SEO уже давно перестала быть просто средством для оптимизации сайтов и документов по принципам информационного поиска. Это полноценный инструмент интернет-маркетинга, предоставляющий данные для решения задач бизнеса, анализа аудитории, поиска незанятых рыночных ниш и точек роста. Текстовый анализ предлагает богатейшие возможности для интернет-маркетологов и владельцев бизнеса. Перечислим лишь некоторые:
- Определение релевантности поискового запроса торговому предложению на сайте. Неправильно выбранный запрос — это выброшенные понапрасну деньги на продвижение. Речь идёт не об обычном интенте: здесь мы заходим на территорию психологии, и пытаемся понять, чего же конкретно хочет пользователь поисковика.
- Предоставление информации о потребностях целевой аудитории. Нейросеть может недостаточно верно или вообще неправильно истолковывать потребности пользователей, поэтому простого исследования выдачи недостаточно. Сопоставление результатов поиска с теми запросами, которыми оперировали пользователи, поможет найти пока незанятые рыночные ниши.
- Определение усредненных требований к документу. Анализ проводится с опорой на поисковую выдачу, хотя это достаточно «шумные» данные. Сайт может находится в топе вовсе не потому, что тексты на нем идеальны и нельзя сделать лучше. Однако эти данные помогут понять, за какие границы вы выйти не можете, а где можно и нужно «дожать».
- Оценка соответствия существующей страницы требованиям поисковиков. Вы не можете сделать выводы «на глазок»: речь идёт не о SEO-текстах, а о всем текстовом контенте страницы.
- Определение структуры и содержания контента. Сложно получить оптимизированную статью, опираясь только на заданные ключевые слова и их синонимы. Нужно понимать, какие слова тесно связаны с этими ключевиками и помогают поисковой системе лучше понять смысл и качество страницы. Текстовый анализ позволяет подобрать LSI-ключи, увеличивающие релевантность страницы запросу и выявить поисковые сущности, которые должны быть представлены в документе.
Основные критерии оценки
Конечно, никуда из практики оптимизатора не исчезли ни «тошнота», ни «водность», ни «уникальность» – только называют их теперь так чисто по традиции, ради общего с копирайтерами языка. И эти показатели давно не самое важное, что используется для оценки текста. По каким же критериям стоит оценивать текст сейчас?
- Уникальность в рамках сайта. Google за неуникальный в рамках сайта, тонкий и малополезный контент наказывает с 2017 года, Яндекс ужесточил свои требования к уникальности с весны 2020-го.
- Присутствие ключей в заданных текстовых зонах. Оценивается не просто вся страница целиком или область SEO-текста. Нужно иметь возможность оценить характер и качества контента в заданных зонах. У вас может быть переспамленная ключами зона plain-text, и недобор по плотности ключей в более важных зонах (например, в ссылках на странице). А результат – низкие позиции или отсутствие страницы в поиске по нужному запросу.
- Контент страницы не может рассматриваться изолированно от структуры сайта и общего веб-графа. Монолитный индекс подразумевает, что текстовый контент страницы составляет не только ключевые слова в рамках документа, но и тексты входящих ссылок, как с самого сайта, так и с внешних источников.
- Текстовая релевантность. Нужно понимать, какие «ключи» на странице лишние, а какие должны быть – включая LSI. Простой пример: «сеошник» по привычке добавляет «купить недорого» в тайтл страницы, продающей элитные швейцарские часы. А в этом сегменте «недорого» – совсем неуместно, и релевантность страницы снижается.
- Соответствие усредненным (медианным) показателям сайтов в топе. Нейросеть и её понимание, каким должен быть «правильный» текст – практически единственный способ объективно оценить текст. Здесь не работает человеческая логика, вкус и стиль. В счёт идут только реальные данные. Эти данные предоставляет либо поисковая выдача, либо образцовые семантические графы, используемые нейросетью как образец.
- Показатель UIG. Помимо корреляций с образцовым корпусом, контент должен содержать добавочную ценность, превосходящую конкурентов. В противном случае у поисковой системы нет причин ранжировать его даже наравне с конкурентами из топа.
- Структура, построенная на поисковых сущностях и связанных терминах. Вы не определите эти термины простыми и привычными средствами: поисковые подсказки, правая колонка Wordstat, «люди ищут» и т.п. Речь идёт о связанных узлах семантического графа, объединенных общим контекстом. Отсутствие на странице таких связанных сущностей резко снижает качество страницы и её релевантность запросу.
Самая же большая сложность, отличающая исследование контента сейчас – это невозможность составления единого списка критериев на любой случай, как было когда-то. Хотя некоторые «специалисты» и до сих пор пытаются шаманить, придерживаясь формул типа «плотность под Яндекс – 2%, под Google – не меньше 7, ключ в прямом вхождении в первом абзаце» и т.д. Это давно уже не работает.
Почему надо уделять текстовому анализу большее внимание
Тематическая матрица определяет контекст документа, а контекст, в свою очередь – тематику сайта, как её понимает поисковая система. Присутствие на странице несоответствующих слов, выражений, эмоциональной окраски может не просто снизить соответствие страницы запросу, но и изменить тематику, к которой поисковая система страницу отнесет. А смена тематики – это и другой список требований. Едва ли вы захотите, чтобы к вашей страничке предъявлялись те же жесткие требования, что к сайтам медицинских и юридических услуг.
Простой пример: вы добавляете свою компанию в Google Мой Бизнес или Яндекс-Бизнес и выбираете категории из числа предлагаемых. Ошибочный выбор приведет к тому, что в списке опций появятся совсем не те, что соответствуют бизнесу вашей компании. Так, я как-то добавил производителю гранитных памятников на могилу нечто типа “гранитная мастерская” – и система тут же стала спрашивать, продаются ли столешницы на стол для кухни и плитка на дачу.
Нечто подобное происходит на уровне алгоритмов текстового анализа. Сказал “А” – говори “Б”. Релевантность определяется не униграммным “мешком слов”, а общим контекстом.
Для проверок текста на принадлежность тематике можно использовать как сервисы старого доброго Just-Magic, так и более новые, наподобие https://www.textrazor.com/. Схема проста: вы подаёте запрос, текст или URL на вход, сервис определяет тематику. Не факт, что реальные поисковые алгоритмы определят её так же, но если речь идёт о проблемном URL, который никак не хочет подниматься в поиске – это необходимая часть процесса анализа.
Каким должен быть текстовый анализатор
Как я уже упоминал выше, на рынке ПО нет ни одного полноценного анализатора на все случаи. Возможно, есть кастомные закрытые разработки, но информации об этом у меня нет.
Каким же я представляю себе полноценное решение? Вот список решаемых задач и функциональных возможностей.
- Возможность загрузки текста в «прямом» виде, а также парсинга его по заданному URL. Речь идёт о тексте как о связанном контенте.
- Возможность парсить текстовый контент по топу (в идеале – в пределах топ-50).
- Способность анализировать текст с точки зрения базовых алгоритмов, среди которых обязательно должны быть tf*idf, анализ по Ципфу, сопоставление с word2vec, проверка на удобочитаемость.
- Выгрузка статистических данных по биграммам и триграммам с удалением стоп-слов и лемматизацией.
- Возможность оценить внешние текстовые характеристики: анкоры входящих внешних ссылок на анализируемую страницу.
- Анализатор должен работать с различными зонами документа: метатегами, заголовками, ссылочными анкорами, шинглами, плейн-текстом.
- Визуализация данных с построением облаков, связных графов и других способов наглядного представления информации.
- Подразумевается импорт и экспорт данных в различных форматах, от табличных до графических.
Почти все задачи по этому списку сейчас можно решить отдельными инструментами. К сожалению, большинство из них плохо приспособлены для серьезной работы с семантикой и годятся только для простых случаев. Однако актуальные тренды развития поисковых алгоритмов так или иначе усилят потребность в появлении полноценного анализатора. Кроме того, владение Python или R в обозримом будущем наверняка станут обязательным скиллом для SEO-специалиста, и подходящие сборки каждый будет собирать под свои задачи сам.
Инструментарий для работы с текстовым контентом
С 2024 года основными инструментом для полноценной работы с семантикой можно назвать
- Python и его библиотеки (NLTK, Gensim, Pandas, Advertools). Python выступает в качестве универсального калькулятора, способного конвертировать текст в числа и работать с ними как с обычными числами
- Screaming Frog SEO Spider, начиная с версии 20. Вы можете подключить к нему LLM (например, Gemini или ChatGPT), и использовать всю их мощь для оценки и генерации текста. Например, вы задаёте запрос, а генеративная модель анализирует наличие на странице контента, отвечающего на этот запрос.
Использование текстового анализа средствами Python предоставляет вам буквально неисчерпаемые возможности для анализа. SFSS упрощает рутинные задачи, связанные с парсингом и анализом результатов. Оба способа требуют базового уровня программирования и работы с большими языковыми моделями и способны полностью заменить все остальные средства и сервисы.
Онлайн-сервисы для анализа текста
Почти любой SEO-сервис предоставляет базовые инструменты для работы с текстовыми факторами и выполнения рутинных задач. Перечислю лишь часть, те, что работают (и) в кириллическом сегменте и могут быть действительно полезны для SEO-специалиста.
- ru.megaindex.com. Среди списка его приложений есть и недурной текстовый анализатор. Выбираете поисковую систему и регион, закидываете интересующий запрос – получаете список топовых сайтов и медианные значения по различным текстовым зонам. Добавляете URL вашей страницы – и наглядно видите, где у вас переспамлено, а где ключей не хватает. В завершение сервис предложит табличку, которую можно использовать для подготовки ТЗ для копирайтера. Приложение доступно и по бесплатному тарифу.
- SEOLEMMA (https://seolemma.ru/#/) – один из мощнейших на сегодня текстовых анализаторов. Вы можете загрузить заданный кластер ключевых слов, после чего сервис предложит отобрать для анализа URL, занимающие топ поисковой выдачи по этим запросам. Отобрав интересующих конкурентов, вы получите полный список отличий своего целевого документа от сайтов в топе, с учетом TF-IDF и BM25. Сервис платный.
- siteliner.com. Сервис оценивает показатели документа в рамках сайта: дублированный, сквозной и уникальный контент. Сервис платный, но 200 страниц по своему выбору проверит бесплатно. Примечание. Если у вас есть Screaming Frog, то дубли в рамках сайта вы сможете проверить и с его помощью – но без сравнения с показателями других сайтов.
- pr-cy.ru/tools/. Неплохой набор инструментов, который может проанализировать как загруженный в сервис текст, так и по URL. Есть проверка на уникальность, анализ по Ципфу, работа с анкор-листами, сравнение текстов онлайн и многое другое. Инструменты для работы с текстом доступны бесплатно.
- Just-magic.org. Один из лучших сервисов такого рода, целый комбайн для работы с семантикой и LSI. Назначение его многие умудряются понять неправильно, а соответственно, и результатов не получить. Ну, например, загружать в «Акварель» текст, чтобы понять, какие слова в тексте нужные, а какие надо менять – не стоит, такое редактирование ничего не даст. Впрочем, для профессионала оценить возможности будет несложно. Сервис платный.
Я умышленно не упоминаю здесь сервисы проверки на уникальность. Конечно, точные копии и плагиат в выдаче не нужны, и въехать в топы на скопированном контенте едва ли получится. Но уникальность как метрика всё больше утрачивает своё значение в SEO, а инструменты по её проверке годятся в основном только для контроля нанятого копирайтера.
Было бы странно, если бы я не предложил услуги по аудитам текстового контента на сайте. Если у вас есть вопросы и нужен аудит или консультация – обращайтесь.
Виктор, добрый день.
В одном из своем кейсов, которые у вас здесь опубликованы, а конкретнее – транспортно хозяйственная компания, вы в самом начале пишете “И конечно, классика жанра: на посадочных страницах корректировалось количество ключевых слов с ориентацией по топу поисковой выдачи, вносились правки в тайтлы. Результатов более чем за полгода не было.”
Я не совсем понял скептицизма, потому что это рядовые задачи.
Подгон по топу ключ.знач. к медианному значению и релевантный всеобъемлющий тайтл по топу – вполне часто применимая практика. Естественно это не самый главный фактор, но имеет значительный вклад в топах серпа.
В этой же статье вы пишите “основные критерии оценки: Соответствие усредненным (медианным) показателям сайтов в топе.”
Можно немного подробнее о том, что конкретно имели в виду и чем это отличается от того, что было в кейсе раньше?
Спасибо за ответ.
Здравствуйте Павел. Прошу прощения, проморгал вопрос вовремя.
Некорректно я выразился. Речь шла о том, что ориентировка изначально шла именно на абстрактное количество вхождений, без разделения на текстовые зоны с их значимостью, связями с другими ключами и вспомогательными терминами. То есть самых архаичных практиках текстового спама.
Я тоже ориентируюсь на медианные значения по топам, но надо же анализировать, где именно можно спамить, а где – нет, разделять сквозной контент, основной и вспомогательный, оценивать характер страницы, учитывать важность ключа в заданной зоне и т.п.
Так гораздо понятнее, я абсолютно согласен.
Успехов и до встречи на VC!)