Navboost — важная система ранжирования Google, которая уточняет результаты поиска на основе навигационных взаимодействий пользователей. При создании различных «срезов» данных Navboost учитывает такие факторы, как местоположение и тип устройства, и в первую очередь предлагает локальные результаты.
Официальной опубликованной документации Google о Navboost нет. Информация об этой системе в основном получена из показаний Панду Наяка во время слушаний по антимонопольному делу Google в США в 2023 году, из утечки документации Google API в 2024 и патента Google 2004 года (US8595225B1) . Концептуальная схема Navboost подробно описана в патенте Google US8595225B1 под названием «Системы и методы корреляции актуальности и популярности документов», который был подан в 2004 году.
Переосмысление релевантности с использованием поведенческих сигналов
Чтобы предоставить наилучшие результаты, Navboost выходит за рамки данных о вовлеченности пользователей. Он может создавать различные наборы данных, или «срезы», на основе таких факторов, как местоположение пользователя. Система создает наборы данных на основе устройств, используемых пользователями (мобильные или настольные). Поскольку местоположение имеет значение как для поиска на ПК, так и для мобильных устройств, у Google есть специальный Navboost для мобильных устройств.
Основная задача Navboost — сузить результаты поиска с десятков тысяч до нескольких сотен для систем машинного обучения Google. Но как сказал Наяк: «Navboost — не единственный фактор, потому что может быть много документов, по которым нет кликов». Navboost помогает Google узнать, чего хотят пользователи и удовлетворяют ли результаты поиска их потребности.
Отличия от традиционных алгоритмов ранжирования
Традиционный подход Google к ранжированию был основан на алгоритмах типа Okapi BM25, функции ранжирования, используемой для оценки релевантности документов заданному поисковому запросу. Navboost использует RankEmbed – модель двойного кодировщика, которая встраивает (см. “эмбеддинги”) как запрос, так и документ в пространство встраивания. Пространство встраивания учитывает семантические свойства запроса и документа в дополнение к другим сигналам. Затем поиск и ранжирование представляют собой скалярное произведение (меру расстояния в пространстве встраивания). Navboost описывается как таблица QD, «запрос-документ», используемая в обоих направлениях и содержащая количество/частоту активности запросов пользователей по документам.
В утечке документации Google API упоминаются различные атрибуты кликов, которые анализирует Navboost, чтобы понять качество пользовательского опыта, предлагаемого результатом поиска:
badClicks: негативный опыт. Возможно, контент был вводящим в заблуждение, нерелевантным или низкого качества, из-за чего пользователи возвращались к SERP. Большое количество плохих кликов может указывать на то, что контент нуждается в улучшении или не соответствует поисковому намерению пользователя.
goodClicks сигнализируют о положительном пользовательском опыте. Содержимое веб-страницы, скорее всего, выполнило поисковое намерение пользователя, предоставив полезную и релевантную информацию. Пользователь, скорее всего, провел приличное количество «времени пребывания» на странице, что указывает на то, что он нашел то, что искал, хотя это явно не указано.
LastLongestClicks, вероятно, представляют ситуации, когда пользователи находят результат поиска настолько ценным, что кликают по ссылке, проводят много времени, взаимодействуя с контентом, и не чувствуют необходимости возвращаться к SERP. Это говорит о высоком уровне удовлетворенности пользователей, указывая на то, что веб-сайт предоставил ответ, который они искали. Большое количество lastLlongestClicks может быть сильным положительным сигналом для алгоритма Navboost, указывая на то, что контент очень релевантный и интересный.
Модели навигации пользователя как заменитель кликов
В тексте патента термин «клик» используется нечасто. Вместо этого он ссылается на «модели навигации пользователя», «документы, посещённые пользователями» и «выбор» документов пользователем. В контексте страницы результатов поиска (SERP) эти фразы являются функциональными эквивалентами клика. Пользователь «посещает» или «выбирает» документ из списка результатов поиска, нажимая на соответствующую ссылку. Структура патента полностью построена на анализе этих пользовательских выборов для определения качества и релевантности документа.
Рейтинги популярности
В патенте подробно описан метод присвоения «рейтингов популярности» документам на основе частоты и характера взаимодействия пользователей. Этот механизм является прямым предшественником функции Navboost. В ходе антимонопольного разбирательства руководитель Google Эрик Леман подтвердил, что Navboost присваивает относительные рейтинги документам на основе данных о взаимодействии пользователей, подтверждая тем самым основную концепцию патента. В патенте описывается, как эти рейтинги вычисляются путём анализа того, с какими документами взаимодействуют пользователи, что устанавливает прямую связь между поведением пользователей и количественно измеримым ранжирующим сигналом.
Актуальность и корреляция
Ключевым элементом патента является метод сопоставления документов с определёнными темами и последующего расчёта «информации о популярности по каждой теме». Это включает в себя корреляцию данных о популярности (полученных в результате взаимодействия пользователей) с темами, связанными с каждым документом. Этот процесс идеально отражает основную цель Navboost: уточнить результаты поиска по определённому запросу (теме) путём продвижения документов, которые оказались наиболее популярными (наиболее удовлетворяющими пользователей) по этому же запросу в прошлом. Эта система разработана не для общей популярности на сайте, а для популярности, специфичной для конкретного запроса.
Ограничения и системные проблемы клик-ориентированной модели
Хотя Navboost представляет собой значительный шаг вперед в измерении удовлетворенности пользователей, система ранжирования, в значительной степени зависящая от сигналов взаимодействия с пользователем, не лишена своих собственных ограничений и уязвимостей.
Осознание компанией Google этих проблем очевидно на примере сложной экосистемы дополнительных алгоритмов и проверок, окружающих Navboost, что свидетельствует о том, что окончательный рейтинг поиска является результатом согласованного равновесия, а не результатом работы единой, безошибочной системы.
Риск предвзятости в отношении популярности и кликбейта
Система, поощряющая клики, даже с учетом измерения поведения после клика, по своей природе склонна продвигать контент с высокой поверхностной привлекательностью в ущерб контенту с реальной ценностью. Это создает риск возникновения «кликбейта» — страниц с сенсационными или вводящими в заблуждение заголовками и описаниями, призванными привлечь внимание, но не выполняющими своего обещания.
Основной защитой Google от этого в рамках Navboost является качественное различие между разными типами кликов. Акцент системы на «хороших кликах» (длительное время задержки) и «последнем самом длинном клике» служит прямой мерой противодействия кликбейту, который обычно генерирует большой объем «плохих кликов» (пого-стикинг, «отскок на выдачу»), поскольку пользователи быстро разочаровываются и возвращаются в SERP.
Однако противоречие между тем, что вызывает желание кликнуть, и тем, что действительно доставляет удовольствие, по-прежнему остается актуальной проблемой.
Инерция ранжирования и отсутствие разнообразия
Одним из наиболее существенных системных недостатков поведенческой модели ранжирования является её склонность к созданию самоподкрепляющегося цикла обратной связи, приводящего к инертности ранжирования. Процесс происходит следующим образом:
Документы, находящиеся на верхних позициях, получают подавляющее большинство просмотров пользователями и, следовательно, подавляющее большинство кликов.
Получая больше кликов, эти высокорейтинговые документы накапливают больше позитивных данных Navboost (при условии, что они в достаточной степени удовлетворяют пользователей).
Такое накопление положительных пользовательских сигналов укрепляет высокий рейтинг сайтов в топе, еще больше усложняя конкуренцию документам, расположенным ниже на странице.
Это явление, известное как «застойность выдачи», может подавлять разнообразие в результатах поиска. Новый, потенциально более совершенный контент в этом случае не может набрать необходимую видимость для сбора данных о кликах и потеснить лидеров рынка, даже если он будет более удовлетворителен для пользователей.
Со временем система может отдавать предпочтение страницам, которые «достаточно хороши» и имеют историческое преимущество перед новыми страницами, которые могут быть «лучше».
Необходимость корректирующих систем («Твиддлеров»)
Неизбежные недостатки и потенциальные неисправности Navboost обусловливают необходимость существования других, корректирующих алгоритмов.
Документы антимонопольного разбирательства показали, что Google использует класс мини-алгоритмов, называемых внутри компании «твиддлерами», которые действуют как «полиция» для точной настройки SERP и исправления нежелательных результатов. Эти манипуляторы могут решать ситуации, в которых ориентированная на пользователя модель Navboost может приводить к проблемным результатам, например, продвигать некачественный или неприемлемый контент (например, порнографию по неоднозначному запросу) или понижать рейтинг официальных, авторитетных страниц, которые могут быть не такими «интересными», как другой контент.
Существование этих корректирующих систем свидетельствует о том, что Navboost не обладает абсолютной властью . Он действует в рамках более широкой системы сдержек и противовесов, призванной обеспечить общее качество, безопасность и релевантность поиска.
Проблема «холодного старта» для новых веб-страниц
Navboost по сути является системой, основанной на данных. Для ее эффективной работы необходим достаточный объем исторических данных о взаимодействии с пользователями. Это создаёт проблему «холодного старта» для новых веб-страниц, новых сайтов или запросов, по которым ранее не выполнялся поиск. В таких случаях данные Navboost, необходимые для ранжирования, отсутствуют.
Следовательно, в таких случаях Google вынужден полностью полагаться на свои традиционные сигналы ранжирования «открытого цикла», получаемые на основе анализа контента (например, TF-IDF) и авторитетности на основе ссылок (например, PageRank).
Сначала страница должна достичь некоторой первоначальной видимости с помощью этих традиционных средств, чтобы начать собирать данные о кликах, необходимые Navboost для оценки ее эффективности.
Уязвимость к враждебным манипуляциям
Любая система, основанная на измеримой метрике, становится объектом манипуляции. Несмотря на архитектурные средства защиты, такие как 13-месячное окно данных и подавление сигнала, Navboost остаётся уязвимой для атак злоумышленников. Система использует превентивные методы контроля качества, снижая вес кликов из низкокачественных источников. Однако опытные «оптимизаторы» всё ещё могут использовать ряд уязвимостей системы.
Обнаружение и фильтрация мошеннического трафика — постоянная и сложная задача, представляющая собой непрекращающуюся гонку вооружений между поисковой системой и теми, кто пытается использовать ее алгоритмы в своих интересах.
Ограничения Navboost в конечном итоге раскрывают более глубокую правду о философии ранжирования Google.
Не существует единой, идеальной парадигмы ранжирования. Истинная сила поисковой системы Google заключается не в каком-то одном алгоритме, а в создании сложной, внутренне противоречивой экосистемы алгоритмов.
Отзывы пользователей Navboost служат проверкой авторитетности ссылок PageRank, в то время как «регулировщики» на основе правил и машинного обучения служат проверкой потенциальных предубеждений Navboost.
Окончательный рейтинг, который видит пользователь, — это не результат работы одной системы, а согласованное динамическое равновесие множества, часто конкурирующих, алгоритмических подходов. Эта архитектурная сложность — основная защита Google от манипуляций и её ключевая стратегия для достижения надёжного и стабильного качества поиска.