Обновлено: 05.10.2022
Текстовый анализ сайта был, есть и будет важнейшей практикой поисковой оптимизации. Какие методики оценки текста работают в 2022 году, а о каких стоит уже забыть – в этой статье.
Основные проблемы
Поисковая оптимизация – это набор стратегий, используемый для продвижения определённого контента в поисковой выдаче. Анализ текста – один из важнейших инструментов SEO, но делают и используют его чаще всего неправильно.
- Развитие поискового маркетинга и эволюция поисковых систем привели к тому, что специалисты по продвижению стали забывать базовые принципы информационного поиска. «Сеошник» с чеклистом будет придираться к вашей учётной записи в «Яндекс-Cправочнике» и проверять работу форм обратной связи, но ему и в голову не придёт проанализировать тексты на сайте. Безусловно, коммерческие факторы ранжирования и его техническое состояние важны, но без умения работать с текстами о SEO и речи нет.
- Вторая глобальная проблема проистекает из первой. На сегодняшний день не существует программы или онлайн-сервиса, который полноценно закрывал бы все потребности специалиста по поисковой оптимизации в работе с текстами. Возможная причина: стремление большинства оптимизаторов вкладываться в более простые и быстрые способы раскрутки. Зачем возиться с углубленной прокачкой онпейдж, если можно запустить бота для накруток ПФ или просто купить ссылки?
И плодятся в индексе клоны одной и той же удачной статьи, когда-то хорошо зашедшей в топ поисковой системы. Причины – в ущербности используемых практик работы с контентом.
Как проводили анализ текста в SEO 20 лет назад
Анализ текстов на заре развития поисковых систем был прост: анализировались тексты, попавшие в топ, и вычислялись средние значения объёма текста, его словарного состава, количества вхождений ключевых слов. И этого было достаточно для того, чтобы поисковая система признала текст релевантным запросу. Простейшие алгоритмы, использовавшиеся для анализа текста (tf*idf, “мешок слов”, анализ текста по закону Ципфа) позволяли оптимизаторам определить перечень технических характеристик, необходимых для постановки ТЗ копирайтеру.
Типичное техническое задание от SEO-специалиста для копирайтера
Базовыми характеристиками, на которые ориентировались SEO-специалисты, были «тошнота», «водность», «заспамленность». И появлялись ТЗ в духе «Плотность ключа – 7%, 2 прямых вхождения, остальные – во всех падежах, 1500 тысячи знаков без пробела» и т.д. И заполнялись сайты бесполезными спамными текстами, где смысл и польза текста были последним, на что SEO-специалисты обращали внимание. Вернее, не обращали вовсе. SEO-анализ текста ограничивался исключительно ключевыми словами в отрыве от смысла, общей семантической структуры, задач маркетинга.
Однако поисковые системы развивались, и появлялись алгоритмы наподобие «Палех» Яндекс и «Колибри» Google, которые принесли новые возможности для оценки качества текста. А такие фильтры, как «Баден Баден» и Panda глобально выкосили огромное количество текстового мусора в интернете. Современные алгоритмы YATI и Bert в 2020-м добавили дополнительные требования к качеству текстов. Только за счёт оптимизированного текста попасть в топ поисковиков было сложно и раньше. Теперь же без углубленной проработки семантики, изучения интента запроса, под который оптимизируется контент и построения графа, объединяющего семантические сущности, об оптимизации и говорить не стоит.
Задайте вопрос своему оптимизатору: «Как ты работаешь над текстом?» – и он наверняка скажет, что использует всё те же инструменты, основанные на принципах и практиках начала века. Плотность, заспамленность, тошнота. В лучшем случае упомянет «Тургенева» и «Главред». И это всё. Всё то же высчитывание объёма текстов по топу (в «килознаках»), количество вхождений, прямое вхождение в подзаголовках и т.п. И околонулевая эффективность. Это логично: написать внятный текст по такому ТЗ практически невозможно, это в любом случае будет контент, созданный только ради ключей – то есть спам. В лучшем случае такой текст не станет причиной попадания под фильтр, и пользы от него ждать однозначно не стоит.
Единственное исключение: статью для вас пишет эксперт, способный хорошо раскрыть тему и умеющий писать. Такой контент может «выстрелить» даже не благодаря, а вопреки усилиям SEO-специалиста.
Почему старые способы неэффективны
Традиционный анализ текстовых факторов работает с изолированным текстовым фрагментом на странице, оценивая его вне структуры, семантического поля, эталонного контекста, сопоставления с некоторым образцовым веб-графом. Вы просто загружаете текст на какой-нибудь text.ru и получаете список: «тошнота столько-то, водность – столько, уникальность – столько». Но у вас нет ответов на вопросы:
- Какие поисковые сущности должны быть представлены на странице?
- С какими документами на сайте или за его пределами должен быть связан текст?
- Чего не хватает в этом тексте с точки зрения поисковой системы?
- Соответствует ли содержание реальным потребностям целевой аудитории?
- Нужен ли этот текст вообще?
Нельзя оценить качество отдельной детали без понимания её места во всей конструкции в сборке. Здесь работает только комплексный анализ. Один и тот же контент, размещенный на разных хостах, будет оценен по-разному и даст разные результаты – даже в отрыве от хостовых факторов, ПФ и т.п.
Техническая оценка текстового контента страницы вне общего контекста – это оценка видимой части айсберга, игнорирующая более значимую его часть. Ошибочность такой тактики могли бы признать моряки «Титаника» – как и множество владельцев сайтов, потерявших трафик в результате изменений алгоритмов ПС.
Терпение и труд всё перетрут.
Или нет.
А теперь вспомните, как происходит подготовка статьи в рамках SEO. Оптимизатор готовит примитивное ТЗ, копирайтер (30 руб. за 1000 ЗБП) идёт в поиск и берет пару статей из топа, переписывает и отдаёт. Имеет ли этот контент какую-то добавочную ценность? Он полностью соответствует тому, что уже висит в топе. Но то, что уже висит в топе, может быть лучшим из худшего, и точно так же не перекрывать основные потребности посетителей. Без углубленной аналитики вы этого не поймёте, а значит, ресурсы на подготовку текста были потрачены зря.
Старые способы оценки текстового контента по-прежнему актуальны: если статья не пройдёт запросный кворум, основанный на самых примитивных характеристиках текста, топов вам не видать. Однако надеяться на то, что с нужной «плотностью» по ключевикам, разбавленным LSI, вы обойдёте конкурентов, тоже не стоит.
Google BERT и Яндекс YATI
В 2020-м произошли важные изменения поисковых алгоритмов: и Google, и Яндекс выкатили обновления, кардинально меняющие принципы текстового ранжирования. Если когда-то особую важность поисковики придавали исключительно ключевым словам документа, то теперь нейросети учатся понимать смысл. На странице может и вовсе не быть ключевика ни в прямом вхождении, ни в каких-то словоформах, и тем не менее, страница будет ранжироваться по запросу, если соответствует ему по смыслу.
Это не значит, что вхождения ключей в текст больше не нужны вообще: они всё ещё учитываются. Более того, в некоторых случаях важность прямых вхождений ключевиков для ранжирования может даже вырасти. Но больше нет никакой необходимости “спамить”, если со смысловым содержанием в тексте порядок и используются слова, задающие тематику (их любят называть LSI, хотя это не совсем правильно), а также синонимы. Вспомогательными средствами продвижения остаются анкор-листы (ключи, входящие в тексты ссылок), а также запросный индекс.
Разумно предположить, что чудес и катастроф в обозримом будущем ожидать не стоит: обучение нейросетей – процесс долгий и проблемный, и зависит от множества факторов. Например, от той выборки образцовых документов, на которой нейросеть и обучалась. Однако общий тренд вполне понятен, как и выводы, которые должен сделать каждый SEO-специалист.
Главное отличие алгоритмов-трансформеров я бы сформулировал так: документы уже не рассматриваются изолированно. Они оцениваются как часть общей семантической структуры, как узел веб-графа, связанный с другими узлами. Нельзя больше полноценно проанализировать текст вне связи с другими страницами в рамках сайта и внешними источниками, связанными с этой страницей ссылками. На стадии первичной индексации всё ещё можно получить высокие позиции за счёт самых примитивных средств оценки метрик контента, но в дальнейшем всё равно будут учтены менее очевидные характеристики – и это может самым драматическим образом сказаться на ранжировании.
Всегда ли нужен анализ текста для продвижения страницы
Всегда. Какой бы ни была ваша страница – если она должна быть занесена в индекс поиска, вам нужно провести базовый текстовый анализ. Даже если эта страница формально никакого связного текста (он же – SEO-текст) не содержит, как, например, товарная категория в интернет-магазине.
Дело в том, что проработка текстовых факторов ранжирования подразумевает все зоны документа, среди которых – тайтл, метаописание, заголовки, навигация, «хлебные крошки», интерактивные элементы страницы, товарные карточки, отдельные фрагменты текста и т.п. Текст в рамках SEO – это не статья, и не SEO-«портянка». Это весь текстовый контент страницы в совокупности, включая метаданные, навигацию, интерактивные элементы. Однако имейте в виду, некоторые зоны контента важнее других, и эта важность меняется со временем, а также в зависимости от типа документа, его задачи и конкретной поисковой системы. Известно, например, что Яндекс игнорирует метатеги Description, Keywords, тег Alt изображений и т.п.
Попробуйте угадать, чему посвящена страница по облаку частотности слов. Подсказка: это не самые заметные ключи.
Важный момент: Яндекс и Google оценивают качество текста по-разному. Чтобы страница получила высокие позиции в обеих системах, надо использовать гибридные технологии. Если немного обобщить, то если речь идёт о коммерческой страничке, для Яндекса наличие SEO-текста не просто неполезно, оно скорее вредно, если только не содержит необходимую для посетителя информацию. Google же исповедует принцип «комплексного ответа». В его рамках страница вполне может быть оптимизирована и под информационные, и под коммерческие запросы.
Какие задачи может и должен решать анализ текста
SEO уже давно перестала быть просто средством для оптимизации сайтов и документов по принципам информационного поиска. Это полноценный инструмент интернет-маркетинга, предоставляющий данные для решения задач бизнеса, анализа аудитории, поиска незанятых рыночных ниш и точек роста. Текстовый анализ предлагает богатейшие возможности для интернет-маркетологов и владельцев бизнеса. Перечислим лишь некоторые:
- Определение релевантности поискового запроса торговому предложению на сайте. Неправильно выбранный запрос — это выброшенные понапрасну деньги на продвижение. Речь идёт не об обычном интенте: здесь мы заходим на территорию психологии, и пытаемся понять, чего же конкретно хочет пользователь поисковика.
- Предоставление информации о потребностях целевой аудитории. Нейросеть может недостаточно верно или вообще неправильно истолковывать потребности пользователей, поэтому простого исследования выдачи недостаточно. Сопоставление результатов поиска с теми запросами, которыми оперировали пользователи, поможет найти пока незанятые рыночные ниши.
- Определение усредненных требований к документу. Анализ проводится с опорой на поисковую выдачу, хотя это достаточно «шумные» данные. Сайт может находится в топе вовсе не потому, что тексты на нем идеальны и нельзя сделать лучше. Однако эти данные помогут понять, за какие границы вы выйти не можете, а где можно и нужно «дожать».
- Оценка соответствия существующей страницы требованиям поисковиков. Вы не можете сделать выводы «на глазок»: речь идёт не о SEO-текстах, а о всем текстовом контенте страницы.
- Определение структуры и содержания контента. Сложно получить оптимизированную статью, опираясь только на заданные ключевые слова и их синонимы. Нужно понимать, какие слова тесно связаны с этими ключевиками и помогают поисковой системе лучше понять смысл и качество страницы. Текстовый анализ позволяет подобрать LSI-ключи, увеличивающие релевантность страницы запросу и выявить поисковые сущности, которые должны быть представлены в документе.
Основные критерии оценки
Конечно, никуда из практики оптимизатора не исчезли ни «тошнота», ни «водность», ни «уникальность» – только называют их теперь так чисто по традиции, ради общего с копирайтерами языка. И эти показатели давно не самое важное, что используется для оценки текста. По каким же критериям стоит оценивать текст сейчас?
- Уникальность в рамках сайта. Google за неуникальный в рамках сайта, тонкий и малополезный контент наказывает с 2017 года, Яндекс ужесточил свои требования к уникальности с весны 2020-го.
- Присутствие ключей в заданных текстовых зонах. Оценивается не просто вся страница целиком или область SEO-текста. Нужно иметь возможность оценить характер и качества контента в заданных зонах. У вас может быть переспамленная ключами зона plain-text, и недобор по плотности ключей в более важных зонах (например, в ссылках на странице). А результат – низкие позиции или отсутствие страницы в поиске по нужному запросу.
- Контент страницы не может рассматриваться изолированно от структуры сайта и общего веб-графа. Монолитный индекс подразумевает, что текстовый контент страницы составляет не только ключевые слова в рамках документа, но и тексты входящих ссылок, как с самого сайта, так и с внешних источников.
- Текстовая релевантность. Нужно понимать, какие «ключи» на странице лишние, а какие должны быть – включая LSI. Простой пример: «сеошник» по привычке добавляет «купить недорого» в тайтл страницы, продающей элитные швейцарские часы. А в этом сегменте «недорого» – совсем неуместно, и релевантность страницы снижается.
- Соответствие усредненным (медианным) показателям сайтов в топе. Нейросеть и её понимание, каким должен быть «правильный» текст – практически единственный способ объективно оценить текст. Здесь не работает человеческая логика, вкус и стиль. В счёт идут только реальные данные. Эти данные предоставляет либо поисковая выдача, либо образцовые семантические графы, используемые нейросетью как образец.
- Структура, построенная на поисковых сущностях и связанных терминах. Вы не определите эти термины простыми и привычными средствами: поисковые подсказки, правая колонка Wordstat, «люди ищут» и т.п. Речь идёт о связанных узлах семантического графа, объединенных общим контекстом. Отсутствие на странице таких связанных сущностей резко снижает качество страницы и её релевантность запросу.
Визуальное представление связанных групп поисковых запросов на основе парсинга и семантического анализа поисковой выдачи
Самая же большая сложность, отличающая исследование контента сейчас – это невозможность составления единого списка критериев на любой случай, как было когда-то. Хотя некоторые «специалисты» и до сих пор пытаются шаманить, придерживаясь формул типа «плотность под Яндекс – 2%, под Google – не меньше 7, ключ в прямом вхождении в первом абзаце» и т.д. Это давно уже не работает.
Каким должен быть текстовый анализатор
Как я уже упоминал выше, на рынке ПО нет ни одного полноценного анализатора на все случаи. Возможно, есть кастомные закрытые разработки, но информации об этом у меня нет.
Анализатор текста сервиса Megaindex позволяет оценить релевантность контента по различным зонам документа в сравнении с медианными значениями по топу
Каким же я представляю себе полноценное решение? Вот список решаемых задач и функциональных возможностей.
- Возможность загрузки текста в «прямом» виде, а также парсинга его по заданному URL. Речь идёт о тексте как о связанном контенте.
- Возможность парсить текстовый контент по топу (в идеале – в пределах топ-50).
- Способность анализировать текст с точки зрения базовых алгоритмов, среди которых обязательно должны быть tf*idf, анализ по Ципфу, сопоставление с word2vec, проверка на удобочитаемость.
- Выгрузка статистических данных по биграммам и триграммам с удалением стоп-слов и лемматизацией.
- Возможность оценить внешние текстовые характеристики: анкоры входящих внешних ссылок на анализируемую страницу.
- Анализатор должен работать с различными зонами документа: метатегами, заголовками, ссылочными анкорами, шинглами, плейн-текстом.
- Визуализация данных с построением облаков, связных графов и других способов наглядного представления информации.
- Подразумевается импорт и экспорт данных в различных форматах, от табличных до графических.
Почти все задачи по этому списку сейчас можно решить отдельными инструментами. К сожалению, большинство из них плохо приспособлены для серьезной работы с семантикой и годятся только для простых случаев. Однако актуальные тренды развития поисковых алгоритмов так или иначе усилят потребность в появлении полноценного анализатора. Кроме того, владение Python или R в обозримом будущем наверняка станут обязательным скиллом для SEO-специалиста, и подходящие сборки каждый будет собирать под свои задачи сам.
Онлайн-сервисы для анализа текста
Почти любой SEO-сервис предоставляет базовые инструменты для работы с текстовыми факторами и выполнения рутинных задач. Перечислю лишь часть, те, что работают (и) в кириллическом сегменте и могут быть действительно полезны для SEO-специалиста.
Хотите идеальный тайтл? Оцените релевантность слов в “Акварели” сервиса just-magic.org
- ru.megaindex.com. Среди списка его приложений есть и недурной текстовый анализатор. Выбираете поисковую систему и регион, закидываете интересующий запрос – получаете список топовых сайтов и медианные значения по различным текстовым зонам. Добавляете URL вашей страницы – и наглядно видите, где у вас переспамлено, а где ключей не хватает. В завершение сервис предложит табличку, которую можно использовать для подготовки ТЗ для копирайтера. Приложение доступно и по бесплатному тарифу.
- siteliner.com. Сервис оценивает показатели документа в рамках сайта: дублированный, сквозной и уникальный контент. Сервис платный, но 200 страниц по своему выбору проверит бесплатно. Примечание. Если у вас есть Screaming Frog, то дубли в рамках сайта вы сможете проверить и с его помощью – но без сравнения с показателями других сайтов.
- pr-cy.ru/tools/. Неплохой набор инструментов, который может проанализировать как загруженный в сервис текст, так и по URL. Есть проверка на уникальность, анализ по Ципфу, работа с анкор-листами, сравнение текстов онлайн и многое другое. Инструменты для работы с текстом доступны бесплатно.
- miratext.ru/seo_analiz_text. Достаточно интересный анализатор, предоставляющий не только общую статистику по тексту, но и облако частотности слов – наглядно. Собственно, такая функция есть и у хорошо известной всем Screaming Frog SEO Spider – притом она может визуализировать не только облако частотности слов по заданному URL, но и облако анкорных текстов на это URL. Однако miratext.ru может сэкономить вам и время, и деньги. Сервис бесплатный.
- tools.pixelplus.ru/tools/copywriters-advanced. Анализ объёма текстов в топе, работа с n-граммами, определение тематических слов, и самое интересное – генерация облака слов из текстов и ссылок. Самые интересные опции доступны только с платных тарифов.
- turgenev.ashmanov.com. Разработка «Ашманов и партнеры». Можно использовать как текстовый редактор с возможностями оценки стиля и общего качества текста. Если надо разобраться со стилистикой, избавиться от канцеляризмов – сервис справится. Сервис платный.
- Just-magic.org. Один из лучших сервисов такого рода, целый комбайн для работы с семантикой и LSI. Назначение его многие умудряются понять неправильно, а соответственно, и результатов не получить. Ну, например, загружать в «Акварель» текст, чтобы понять, какие слова в тексте нужные, а какие надо менять – не стоит, такое редактирование ничего не даст. Впрочем, для профессионала оценить возможности будет несложно. Сервис платный.
Я умышленно не упоминаю здесь сервисы проверки на уникальность. Конечно, точные копии и плагиат в выдаче не нужны, и въехать в топы на скопированном контенте едва ли получится. Но уникальность как метрика всё больше утрачивает своё значение в SEO, а инструменты по её проверке годятся в основном только для контроля нанятого копирайтера.
Было бы странно, если бы я не предложил услуги по аудитам текстового контента на сайте. Если у вас есть вопросы и нужен аудит или консультация – обращайтесь.
Виктор, добрый день.
В одном из своем кейсов, которые у вас здесь опубликованы, а конкретнее – транспортно хозяйственная компания, вы в самом начале пишете “И конечно, классика жанра: на посадочных страницах корректировалось количество ключевых слов с ориентацией по топу поисковой выдачи, вносились правки в тайтлы. Результатов более чем за полгода не было.”
Я не совсем понял скептицизма, потому что это рядовые задачи.
Подгон по топу ключ.знач. к медианному значению и релевантный всеобъемлющий тайтл по топу – вполне часто применимая практика. Естественно это не самый главный фактор, но имеет значительный вклад в топах серпа.
В этой же статье вы пишите “основные критерии оценки: Соответствие усредненным (медианным) показателям сайтов в топе.”
Можно немного подробнее о том, что конкретно имели в виду и чем это отличается от того, что было в кейсе раньше?
Спасибо за ответ.
Здравствуйте Павел. Прошу прощения, проморгал вопрос вовремя.
Некорректно я выразился. Речь шла о том, что ориентировка изначально шла именно на абстрактное количество вхождений, без разделения на текстовые зоны с их значимостью, связями с другими ключами и вспомогательными терминами. То есть самых архаичных практиках текстового спама.
Я тоже ориентируюсь на медианные значения по топам, но надо же анализировать, где именно можно спамить, а где – нет, разделять сквозной контент, основной и вспомогательный, оценивать характер страницы, учитывать важность ключа в заданной зоне и т.п.
Так гораздо понятнее, я абсолютно согласен.
Успехов и до встречи на VC!)