Индексирование в поисковых системах – сбор, анализ и хранение данных для упрощения процессов быстрого и точного поиска информации.
Поисковые системы ориентированы на полнотекстовое индексирование веб-документов на естественном языке (см. NLP). Поисковые системы на основе индекса хранят в своих базах индекс вместе с корпусом. Метапоисковые системы используют индексы других поисковых систем и не хранят локальный индекс.
Индекс поисковой системы – это база данных, в которой хранятся сканированные и проанализированные страницы веб-сайтов. Чтобы создать этот индекс, поисковая система использует роботов-краулеров. Краулер обходит Интернет, переходя по ссылкам на веб-страницы и собирая информацию о содержимом каждой страницы.
После того, как краулер обнаружит и проанализирует страницу, информация о ней добавляется в индекс. В индексе хранится не только само содержимое страницы, но и такие метаданные, как заголовки, URL-адреса, ссылки на другие страницы и другие сведения. Это позволяет поисковикам проводить быстрый и эффективный поиск информации, отвечать на запросы пользователей и предлагать релевантные результаты.
Индексирование поисковыми системами производится с некоторым заданным интервалом, поскольку процесс требует значительных вычислительных ресурсов и времени на получение и обработку данных. Это одна из причин, почему в индекс попадает не любой документ и не с любого сайта: некачественный, вторичный или технически проблемный контент не должен попадать в базу данных.
Цель сохранения индекса – оптимизация скорости и производительности поиска по базе релевантных документов по заданному поисковому запросу. Без индекса поисковая система должна сканировать каждый документ в корпусе, что требует значительного расхода времени и вычислительных ресурсов. Запрос к индексу из десятков тысяч документов занимает миллисекунды.
В своей книге “Анатомия крупномасштабной гипертекстовой поисковой системы” Сергей Брин и Лоуренс Пейдж подробно описали принципы использования гипертекста для индексации документов в Интернете и повышения качества результатов поиска.
В доступных патентах Google можно получить более подробную информацию о внутренней работе поисковых систем и алгоритмов индексирования. Например, более редкие и менее распространенные результаты могут храниться в расширенном (дополнительном) индексе. Кэш поисковой системы используется для возврата результатов популярных запросов. Извлеченный со страницы контент сохраняется в кэше, благодаря чему устраняется проблема с обновлением корпуса. При добавлении новых документов в корпус индекс должен быть обновлен, при этом индекс должен продолжать отвечать на поисковые запросы. В этом случае обращение идёт к кэшированной версии корпуса.
Индекс поисковой системы предназначен не только для долговременного хранения информации, но и для сопоставления версий. Фактически, единожды попавшее в индекс поисковика остаётся там навсегда. Замечено, что робот Google пытается просканировать давно удаленные документы, отвечающие кодом 404 (“Не найдено”) или 410 (“Удалено навсегда”). Аналогично, если документ после сканирования попал в дополнительный индекс (Suplemental Index), шансы на то, что он будет перенесен в основной – малы, и в ряде случаев отредактированный документ проще опубликовать заново, на новом URL.
Понимание принципов индексирования и знание структуры поискового индекса упрощает SEO-специалисту решение ряда типовых проблем. Например, практика установления постоянных редиректов на нерелевантную страницу оказывается несостоятельной: поисковая система знает, что хранилось по исходному адресу, и при перенаправлении на нерелевантную страницу склейку не произведет. Вместо этого перенаправление будет расценено как Soft 404, когда сервер фактически отвечает кодом 200, по сути отдавая “Не найдено”.
Мы не рекомендуем настраивать переадресацию с нескольких старых URL на одну страницу, контент которой не имеет к ним отношения, например на главную страницу нового сайта. Это может вводить пользователей в заблуждение и рассматриваться как ошибка soft 404.
Индексация и ранжирование в Google основаны на различных алгоритмах и учитывают множество факторов, включая релевантность, авторитетность и качество содержимого. Важно помнить базовый принцип: “Найдено не значит просканировано, просканировано – не значит проиндексировано, проиндексировано не значит ранжируется”.