Краулинговый бюджет (лимит сканирования) — это динамический баланс между возможностями вашего сервера и желанием поисковой системы индексировать ваш контент. По сути, это лимит доверия и ресурсов, который Google или Яндекс выделяют вашему проекту. Ниже представлен детальный разбор факторов, определяющих этот лимит, и механизмов его распределения.
Что определяет лимиты на сканирование конкретного сайта
Популярность и востребованность ресурса
Поисковые системы стремятся в первую очередь индексировать то, что полезно пользователям. Чем больший спрос на ваш контент – тем выгоднее его держать в индексе для поисковых систем.
Частота обновления контента. Если сайт постоянно генерирует уникальные новости или статьи, роботы будут заходить чаще, чтобы «забрать» свежий материал.
Внешнее цитирование. Большое количество качественных обратных ссылок сигнализирует поисковику, что ресурс важен. Чем выше «вес» страницы, тем приоритетнее она в очереди на сканирование как более авторитетный узел веб-графа.
Социальные и пользовательские сигналы. Упоминания в социальных сетях и активный трафик также повышают «привлекательность» сайта для краулера.
Пользовательские сигналы и авторитетность
Авторитетность (E-E-A-T) напрямую влияет на так называемый Crawl Demand (спрос на сканирование).
Поведенческие факторы. Если конверсионные показатели сайта низки, пользователи быстро покидают сайт (высокий показатель отказов) или не находят ответов, поисковик может снизить приоритет сканирования таких разделов.
История домена. Новые сайты в Google получают минимальный бюджет «на пробу». Проекты с многолетней безупречной репутацией имеют расширенные лимиты. В Яндекс же работают иные алгоритмы: новый ресурс может получить “бонус новичка” (известный также как “многорукий бандит”). В этом случае Яндекс может на время подкинуть сайт в топ поисковой выдачи, чтобы оценить его поведенческие метрики.
Техническое состояние (Crawl Rate Limit)
Это техническая сторона вопроса: насколько быстро и эффективно сервер может отдавать страницы без риска «лечь» под нагрузкой бота. Поисковикам невыгодно тратить ресурсы на «тяжёлые» сайты, требующие значительных вычислительных ресурсов.
Время отклика сервера (TTFB). Чем быстрее отвечает сервер, тем больше страниц робот успеет обойти за выделенное время. Если сайт «тормозит», бот сокращает активность, чтобы не мешать реальным пользователям.
Проблемы с рендерингом. Если сайт использует излишний javascript-код, и на его рендеринг требуются дополнительные вычислительные ресурсы, это должно быть обоснованно и компенсироваться качеством и характером контента.
Ошибки сканирования. Обилие страниц с кодами 4xx (не найдено) и 5xx (ошибка сервера) заставляет робота тратить ресурсы впустую. Это приводит к быстрому исчерпанию лимита на бесполезные действия.
Цепочки редиректов. Каждый редирект — это дополнительный запрос, расходующий лимиты на сканирование напрасно. Длинные цепочки (более 2-3 звеньев) «сжигают» бюджет в разы быстрее.
Экономика и эффективность индексации
Поисковые системы — это огромные коммерческие структуры с колоссальными затратами на электроэнергию и хранение данных. Они оптимизируют свои расходы через:
Отсечение «мусорного» контента (web-decay). Дубли страниц (технические и семантические), результаты поиска по сайту, бесконечные календари и страницы с сессионными ID (get-параметрами) — это главные враги бюджета.
Приоритет качества. Если структура сайта запутана (глубокая вложенность), робот может просто не дойти до важных страниц, потратив весь лимит на обработку второстепенных технических разделов. Базовая рекомендация здесь: любая страница должна быть доступна с любой страницы сайта не более чем за 4 клика.
Как оценить краулинговый бюджет на данных
Оценка краулингового бюджета — это не просто просмотр одного графика в Google Search Console. Это сопоставление того, что вы хотите показать поисковику, с тем, на что он реально тратит ресурсы.
Ниже представлена конкретная методика аудита, основанная на данных (Data-Driven Crawl Budget Audit).
Подготовка данных: Сбор «Трех списков»
Для анализа вам понадобятся данные из трех источников:
Структура сайта (Sitemap/Crawl): выгрузка всех страниц, которые должны быть в индексе (200 OK, канонические). Используйте Screaming Frog или аналогичный инструментарий.
Данные Google Search Console (GSC): раздел «Настройки» → «Статистика сканирования».
Логи сервера (Server Logs) – самый точный источник. Вам нужны все обращения Googlebot (или YandexBot) за последние 30–90 дней.
Ключевые метрики и формулы
Используйте эти формулы для оцифровки эффективности.
А. Коэффициент «Мусорного краулинга» (Crawl Waste Ratio)
Показывает, какой процент ресурсов тратится впустую на страницы, которые не приносят пользы (ошибки, редиректы, технические параметры).
Норма: < 10–15%.
Что искать: Обращения к 404, длинные цепочки 301, страницы фильтров с бесконечными параметрами.
Б. Охват целевых страниц (Crawl Coverage)
Процент приоритетных страниц, которые бот посетил хотя бы раз за месяц.
Норма: > 90% для небольших сайтов, > 70% для крупных e-commerce.
В. Срок обновления сайта (Refresh Cycle)
Сколько времени потребуется боту, чтобы обойти все важные страницы сайта при текущей скорости.
Пошаговая методика анализа
Шаг 1: Анализ статус-кодов (через Логи или GSC)
Посмотрите на распределение ответов сервера в отчете «Статистика сканирования».
Если 3XX > 10%: Вы заставляете бота ходить по цепочкам, тратя «запрос» на промежуточные звенья.
Если 4XX > 5%: Бот стучится в закрытые двери. Это прямой сигнал Google, что сайт не оптимизирован.
Шаг 2: Поиск «Ловушек краулинга»
Чаще всего под “ловушками поисковых роботов” понимаются ненужные URL, по каким-то причинам привлекающие внимание роботов и расходующие лимиты на сканирование впустую.
Сравните список URL из логов со списком из Screaming Frog. Найдите URL, которые бот сканирует, но которых нет в вашей структуре. Чаще всего это:
Параметры сортировок (sort=price, view=grid).
Идентификаторы сессий.
Страницы пагинации без полезного для поисковой системы контента.
Внутренний поиск по сайту.
Служебные файлы и системный кэш, хранящий огромное количество версий служебных файлов (css, js и изображений).
Шаг 3: Оценка частоты обхода (Recency)
Разбейте ваши страницы на сегменты (например: Карточки товаров, Категории, Статьи).
Посчитайте в логах, как часто бот заходит в каждый сегмент. Если бот посещает неактуальные архивные товары чаще, чем новые поступления или маржинальные категории — приоритеты расставлены неверно.
Шаг 4: Корреляция со скоростью (Host Load)
В GSC посмотрите график «Среднее время ответа».
Если время ответа растет → Googlebot снижает интенсивность сканирования (Crawl Limit), чтобы не «положить» ваш сервер. Задача: сократить время ответа сервера (TTFB) до < 200–400 мс.
Чек-лист оптимизации по итогам данных
Проблема
Решение
Высокий расход лимитов на 404
Удалить ссылки на эти страницы; настроить 410 код для навсегда удаленных.
Много 301 редиректов
Заменить внутренние ссылки на конечные URL (минус 1 клик для бота).
Бот тратит бюджет на фильтры
Закрыть параметры через robots.txt или использовать Fragment Identifiers (#).
Низкое покрытие сканирования
Улучшить внутреннюю перелинковку на «забытые» разделы; обновить XML Sitemap.
С чего начать? – Скачайте логи сервера за последнюю неделю и загрузите их в Screaming Frog Log File Analyser. Это даст вам моментальную визуализацию того, где «зависает» бот.
Как не тратить краулинговый бюджет впустую?
Чтобы ваш краулинговый бюджет расходовался эффективно, необходимо:
Настроить robots.txt: закрыть от сканирования системные папки, фильтры и корзины и всё, что не должно попадать в индекс.
Избавиться от мусорного контента. Директивы robots.txt и метатеги robots с директивой “noindex” – не гарантия того, что поисковые краулеры не будут тратить выделенные лимиты на ненужные URL.
Использовать Sitemap.xml: указать поисковику прямой путь к важным страницам и датам их последнего обновления.
Внедрить Canonical (канонические адреса страниц). Это поможет боту не тратить время на обход дублей одной и той же страницы.
Следить за быстродействием. Технически неоптимизированный сайт, расходующий ресурсы поисковых роботов впустую, пессимизируется на уровне домена.
Важно понимать: ресурсы поисковых систем не безграничны и не бесплатны. Кроме того, они не масштабируются, если брать веб в целом. Вы можете получить дополнительные лимиты и больший бюджет, увеличив общий рейтинг сайта – за счёт того, кому уменьшат эти лимиты. Существует общий бюджет вычислительных ресурсов, выделяемых поисковыми системами на все процессы. Это касается не только сканирования и индексирования, но и использования затратных алгоритмов ранжирования, обработки контента и т.п. Вы боретесь за долю на фиксированном рынке, а не за получение дополнительных ресурсов вообще.