Обновлено: 14.11.2024
Уникальность текста – один из популярнейших показателей качества контента для сайта. Ей приписывается большое значение для продвижения. В этой статье мы подробно рассмотрим, что это такое, какой она бывает и как оценивается, и как использовать этот показатель владельцу сайта или заказчику текста.
Техническая и семантическая уникальность
Поисковые системы не понимают язык людей. Чтобы работать с текстами, поисковый робот скачивает страницу, после чего контент проходит через ряд этапов:
- Лемматизация (нормализация слов в тексте)
- Токенизация (присвоение каждому слову какого-то численного значения)
- Удаление бессмысленных слов и выявление наиболее весомых.
После этого поисковая система может работать с полученными числами как сложный калькулятор, оценивая их взаимодействие, отношение к доменам знаний, выявлять связи между ними и т.п.
Понятно, что в таком случае и техническая, и семантическая уникальность выявляются очень просто: каждый текст редуцируется до какой-то матрицы, которую можно сопоставлять с другими наборами чисел.
Уникальность – это показатель соответствия текста другим текстам, уже опубликованным в интернете. Уникальность текста бывает трёх видов:
- Техническая
- Семантическая уникальность в рамках этого же сайта
- Уникальное торговое (ценностное) предложение
Техническая уникальность – показатель точного соответствия текста другим текстам, уже существующим в индексе поисковых систем либо в базах сервисов проверки на плагиат. Соответствие определяется не по отдельным словам, а по словосочетаниям и фрагментам (шинглам).
Большинство популярных программ и сервисов по проверке уникальности сверяет текст с поисковой базой. Более точные сервисы используют и оффлайн-источники. Так, база источников сервиса Quetext.com состоит не только из 35 миллиардов веб-страниц, но и из текстов 20 млн книг и миллиона академических журналов.
Семантическая уникальность в рамках сайта – это степень соответствия смысла текста другим текстам. Каждый текст строится на заданной группе ключевых слов. Неуникальная в семантическом смысле страница, пересекающаяся по запросам с другими страницами, “каннибализирует” эти запросы, в результате обе страницы теряют позиции в поисковой выдаче.
Уникальное торговое предложение (УТП) обычно рассматривается как рекламная концепция и способ дистанцироваться от конкурентов. Если говорить о текстах и сайтах в целом, правильнее говорить о такой метрике, как UIG, добавочной ценности контента, или уникальном ценностном предложении как для посетителей-людей, так и поисковых систем. Что такого особенного есть в вашем тексте на заданную тему, чего уже нет в интернете? Максимально полная информация? Авторитетность? Специфическая целевая аудитория?
О добавочной ценности контента можно говорить, если:
- Представлено более полное в сравнении с конкурентными текстами описание явления, товара или услуги.
- Предложен экспертный контент, либо контент, основанный на личном опыте автора текста.
- Раскрыта новая тема, материалов по которой в индексе поисковых систем еще нет.
Но об этом – ниже.
Нужна ли уникальность текста для SEO
Поисковым системам не нужны дубли в базе данных. Текст, размещенный уже много раз, не принесет трафика тому, кто разместил его в очередной раз, если есть сайты получше. А вот неуникальность контента в рамках одного сайта будет причиной снижения качества сайта на уровне хоста. Отсюда вывод:
Каждая индексируемая страница на сайте должна быть уникальной в рамках сайта, либо деиндексирована и закрыта от роботов. Это касается продвижения и в Google, и в Яндекс.
Как неоднократно заявляли представители Яндекс и Google, главный критерий оценки сайта – его способность отвечать на запросы посетителя, быть ему полезной. В соответствии с этим оцениваются сайты и отдельные страницы. Принципы ранжирования текстов коммерческих и информационных ресурсов отличаются принципиально, но ни техническая, ни семантическая уникальность на позиции в выдаче не влияет.
Поисковая система должна понимать, что страница отвечает на вполне определенный запрос посетителя. Даже дублированный контент с уникальным запросом не помешает ранжированию, но если страницу алгоритм сочтет дублем, явным или неявным, страницы будут склеены и выпадут из индекса.
Важно понимать: уникальность контента имеет значение не только в рамках всего интернета, а в пределах одного сайта. Два документа на сайте не должны ранжироваться по одному запросу. Если это происходит – поисковый алгоритм не понимает, какой документ ранжировать по запросу, и понижает в выдаче оба. Это явление называется каннибализацией запросов.
И ещё один важный момент: текстовая релевантность не определяется исключительно текстом как таковым. Учитываются все элементы страницы: навигация, отдельные шинглы, метаданные, интерактивные элементы. Плохо сделанный и непродуманный шаблон сайта может самым негативным образом влиять на соответствие страницы запросу.
Описания в карточках товаров интернет-магазина
В коммерческом сегменте интернета текстовая уникальность вообще неважна: десятки и сотни интернет-магазинов публикуют одни и те же описания товаров, буквально под копирку. Это никак не влияет на ранжирование. Если вы сможете предложить посетителям лучшее описание товара, чем это делают ваши конкуренты – вы обойдете их. А вот присутствие большого и заспамленного запросами текста на странице со списком товаров может даже стать причиной понижения позиций (текстовые фильтры типа “Баден-Баден” Яндекса).
Дублирование контента в коммерческом сегменте работает не только с описаниями товаров: вы можете разместить сотни практически одинаковых страниц с предложениями услуг, меняя лишь топонимы. Например, “Ремонт велосипедов в Алибабаевске”, “Ремонт велосипедов в Новых Разбойниках” и т.д. Текстовая неуникальность этих страниц в рамках одного сайта никак не помешает их продвижению: это всего лишь рекламное объявление, ему не надо быть оригинальным.
Вместе с тем дублирование (нечеткое или полное) в рамках сайта недопустимо, даже если речь идёт о сходных карточках товаров. Это может привести к проблемам с их сканированием и индексацией, а на больших объёмах – и к снижению рейтинга сайта в поиске.
Для устранения этой проблемы чаще всего используется интеграция товарной микроразметки Schema.org, а также выводом вспомогательных блоков (похожие товары, товары того же производителя, рекомендуемое, отзывов на товар и т.п.).
Принципы оценки текстов информационного сайта
В информационном сегменте чуть сложнее: фактически тексты оцениваются с точки зрения соответствия канонической базе знаний (Knowledge Graph). Для Google роль такой базы знаний выполняют “Википедия”, “Книга фактов ЦРУ” и подобные им источники. Едва ли вы можете обойти в поисковой выдаче такие источники по общим высокочастотным запросам. Более того: приблизиться к ним вы можете, используя эту же информацию, но более полно, на языке своей аудитории.
Поисковые алгоритмы не могут оценить смысл излагаемых вами фактов. Они учитывают ключевые слова и семантический контекст (LSI), отфильтровывая стоп-слова и “воду”, случайные и незначимые слова. Фактически можно рассчитать список слов и словосочетаний, которые обязательно должны присутствовать в тексте, чтобы усилить его релевантность запросам с точки зрения поисковых алгоритмов.
Так важна ли уникальность текста для поисковой оптимизации, если он должен состоять из определенного перечня слов и содержать соответствующие базе знаний факты? – Разумеется, нет. Важно умение донести информацию до читателя и раскрыть её более полно, чем конкуренты.
А вот дублирование контента без добавочной ценности бесполезно: зачем нужен ещё один текст, если их на эту тему уже тысяча? Но об этом – ниже.
Как проверить уникальность нового контента
Оригинальность нового контента проверяют не для того, чтобы оценить его качество. Её проверяют, чтобы понять, не пытается ли копирайтер продать вам чужие материалы.
Техническая уникальность вычисляется с помощью программ и интернет-сервисов. Вы загружаете в сервис свой текст, программа сканирует его и сверяет с доступным индексом текстов в поиске совпадающих фрагментов.
Для определения технической уникальности в кириллическом сегменте интернета чаще всего используют программы Advego Plagiatus, eTXT и веб-сервисы Advego, etxt.ru и text.ru.
Результат работы автономных программ-антиплагиаторов зависит от множества факторов. Среди них:
- Настройки программы (алгоритм проверки, размер шингла).
- Репутация вашего IP с точки зрения поисковых систем. Если IP забанен поисковиками, программа не получит доступ к индексу. В таком случае, программа не сможет получить данные, и это повлияет на результаты проверки. Ещё одна проблема – вам придётся часто вбивать капчу, чтобы доказать, что вы не робот.
- Время отклика сервера.
- Выбранный алгоритм проверки. Так, “глубокая проверка” в Advego будет оценивать текст дольше, но результаты её будут точнее. “быстрая проверка” практически всегда оценивает текст как более уникальный.
Таким образом, проверка одного текста с разных компьютеров может дать различные результаты.
Проверка уникальности с помощью онлайн-сервисов может занять больше времени, но её результаты будут точнее.
Главный минус любого сервиса или программы для проверки уникальности – это неспособность отсеивать стоп-слова. Поисковые алгоритмы анализируют тексты иначе.
Алгоритм оценки технической уникальности текста на основе шинглов легко обходят с помощью подбора синонимов и рерайта. Точно определять переписанные тексты сервисы по проверке уникальности текстов до сих пор не могут.
Семантическую уникальность в рамках всего интернета проверить нельзя: грамотный копирайтер может переписать чужой текст своими словами, используя синонимы или другие формулировки (это называется «рерайт») или скомпилировать из нескольких текстов новый. С технической точки зрения текст будет уникален, но нового смысла не приобретет. Пример. «Мама мыла раму». – «Родительница провела влажную уборку оконных фрамуг».
Единственный способ вычислить рерайт – сравнить полученный текст с теми текстами, что уже находятся в топе поисковой выдачи по заданному запросу. Подавляющее большинство текстов в интернете – это рерайты разной степени качества.
Чтобы оценить релевантность страницы запросу, используйте дополнительные сервисы и анализаторы текста. Например, одно из приложений Megaindex: вы задаёте сервису запрос, он анализирует топ, вы добавляете свой URL – и получаете подробную раскладку, показывающую медиану по ключам из топа в сравнении с вашим сайтом. Разумеется, это не самый точный способ, но однозначно полезный в практике, особенно если речь идёт не об информационном контенте, а о страницах услуг или товаров.
Примечание 1. Уже появляются алгоритмы, анализирующие семантику и позволяющие с высокой степенью точности вычислить рерайт. Например, Deep Search™ использует контекстный анализ: алгоритм оценивает не шинглы, а фразы в связи с окружающим контекстом. Есть вероятность, что скоро этот вопрос будет решён.
Примечание 2. Как ни странно, компиляции чужих текстов поисковые системы принимают на ура. Эту технику даже назвали power page. Можно собрать абсолютный бред по заданной теме из интернет и составить своего рода антологию глупости – и поисковые системы будут считать это полезным контентом, выводя в топ.
Как проверить уникальность контента в рамках сайта
Как уже было сказано выше, сама по себе уникальность ваших текстов в рамках интернета по сути дела неважна: поисковые системы не хотят вносить в свои базы дублированный контент. Однако больший приоритет имеет полезность этого контента для пользователя, и сайт-плагиатор может ранжироваться выше.
Но настоящая проблема – это полное или частичное дублирование контента в рамках одного сайта, когда поисковая система не может определить, какую страницу считать целевой (канонической). Это явление называется каннибализацией.
Чтобы его избежать, вам нужно исключить как появление технических дублей, так и семантических.
Технические и частичные дубли определяются очень просто: для этого можно использовать Screaming Frog SEO Spider. Для определения дублей он использует сравнение хэшей.
Эта же программа может обнаружить и семантические дубли в рамках одного сайта. Теперь это достаточно простая операция, если у вас есть доступ к API практически любой генеративной нейросети типа ChatGPT и её аналогов. Достаточно выгрузить при парсинге векторные вложения (эмбеддинги) и сопоставить их потом между собой по косинусной близости. Благодаря этому можно обнаружить достаточно неожиданные семантические дубли, одинаково хорошо соответствующие одним и тем же поисковым запросам, несмотря на разницу в словарном составе и даже общей структуре страниц.
Добавочная ценность контента
Уникальности недостаточно, чтобы текст начал высоко ранжироваться поисковыми системами. Уникальный текст может быть бессмысленным и бесполезным, не отвечать ожиданиям посетителей и не соответствовать их запросам. При этом неуникальный с любой точки зрения контент может оцениватьсяя выше уникального. Рассмотрим пример.
На авторитетном новостном портале публикуется новость, её мгновенно дублируют сотни сайтов. В таких случаях исходный текст воспроизводится почти без изменений, и тем не менее, по соответствующему запросу страницы с дублированным контентом будут находиться в топе. Причина заключается в добавочной ценности текстов: востребованном содержании, отсутствующим у конкурентов. Текст должен отвечать на запросы посетителей лучше, чем текст на конкурентной странице. Подробнее о добавочной ценности контента можно почитать в рекомендациях для вебмастеров Яндекс и Google.
Если текст размещен на авторитетном посещаемом ресурсе, его активно просматривают, комментируют и репостят в социальные сети посетители сайта, а другие веб-ресурсы ссылаются на него, поисковая система будет ранжировать этот источник высоко даже несмотря на его вторичность. Причина – добавочная ценность контента.
Добавочная ценность может заключаться в следующих свойствах:
- авторитетность источника
- дополнительная информация: экспертные оценки и анализ факта, оригинальные трактовки, иллюстрации
- ссылки на другие авторитетные источники, подтверждающие представленные факты.
Если вы просто взяли чужие работы и разместили их у себя ничего не меняя – можете рассчитывать на санкции со стороны поисковиков, например, фильтр Яндекса “Ты последний”.
Несколько выводов
- Ни техническая, ни семантическая уникальность ничего не говорят о качестве и полезности текста. Проверка на уникальность нужна, чтобы не купить вторичный контент, не представляющий никакой ценности.
- Польза текстов для целевой аудитории важнее уникальности текста. Если текст, даже попавший в топ, неинтересен посетителям сайта, он потеряет свои позиции в выдаче. Единственный важный тип уникальности текста, важный для продвижения – это добавочная ценность, уникальное предложение, торговое или информационное.
- Хороший текст должен соответствовать семантике, уже присутствующей в авторитетных источниках информации и подтверждаться ссылками на авторитетные доверенные источники информации.
- Качественный контент нельзя получить дублированием. Заимствованный контент должен быть переработан и улучшен.
- Привлекайте для написания текстов специалистов, специализирующихся в заданной тематике. Опытный копирайтер-универсал напишет оригинальный текст, справится с компиляцией чужого контента, но добавочную ценность контента создаст лишь с вашей помощью.