Для работы с “тяжёлыми” сайтами, когда ресурсов локальной машины не хватает, главная стратегия — перестать полагаться на оперативную память (RAM) и начать использовать место на диске, а также жёстко ограничить область сканирования. Screaming Frog предоставляет для этого все необходимые настройки. Вот как настроить инструмент для максимально эффективной работы в ограниченных ресурсах, от самых важных шагов к дополнительным.
Куда уходят основные ресурсы #
- Самый востребованный ресурс – оперативная память. Для “тяжёлого”, плохо свёрстанного сайта это наибольшая проблема: сканирование может постоянно прерываться, даже если вы собираете данные не в оперативную память, а в базу данных (см. ниже). С другой стороны, вам как владельцу сайта или оптимизатору на этом этапе должно быть понятно, с какими проблемами сталкиваются поисковые системы, индексируя ваш сайт. Серверные ресурсы не бесплатны, и если у поисковой системы есть проблемы с расходом краулингового бюджета – это серьёзная проблема.
- Место на жёстком диске. Сканирование сайта в несколько десятков тысяч страниц отнимет у вас 20 и больше гигабайт на жёстком диске, поэтому есть смысл заранее определить, что нужно вам для анализа, а что стоит исключить. Например, по умолчанию SFSS собирает скриншоты страниц с рендерингом, сохраняя вид страниц, получаемый поисковым роботом. Чаще всего все эти скриншоты вам вообще не нужны, поэтому отключите эту настройку. Кроме того, стоит исключить и сканирование и сохранение в базу изображений.

Отключить сохранение скриншотов просканированных страниц можно в настройках
Актуальные версии SFSS позволяют сканировать и сохранять и PDF-файлы. Они также едва ли нужны вам для анализа, как минимум – регулярного. Отключите эту опцию.
Настройка хранения и памяти (Ключевые шаги) #
Это базовая настройка для любого крупного проекта, без неё сканирование больших сайтов почти невозможно.
Режим хранения: Database (База данных) #
Это самое главное и первое, что нужно сделать. Вместо того чтобы держать все данные в оперативной памяти (RAM), Screaming Frog будет сохранять их на ваш жесткий диск. Настройка: Configuration > System > Storage Mode и выберите Database Storage.
Этот режим требует наличия твердотельного накопителя (SSD). На обычном HDD скорость работы будет крайне низкой.
Сохранение данных в базу на диске позволяет обрабатывать миллионы URL. Например, конфигурация с SSD на 500GB и 16GB RAM способна справиться с 10 миллионами URL.
Выделение памяти (Memory Allocation) #
Screaming Frog — Java-приложение, которому нужно выделить достаточно оперативной памяти. Перейдите в File > Settings и на вкладке Memory Allocation увеличьте выделенный объем. Рекомендуется выделять 60-80% от всей доступной RAM, но обязательно оставлять 1-2 GB для операционной системы, иначе компьютер может зависнуть. Для сайтов до 2 миллионов URL достаточно 4 GB.
Для более бережного расхода оперативной памяти при сканировании можно использовать headless-режим, когда процесс протекает как фоновый. Его мы рассмотрим ниже подробнее.
Ограничение области сканирования #
Если после базовой настройки ресурсов всё ещё не хватает, или вы хотите оптимизировать процесс, необходимо сузить фокус сканирования.
- Используйте режим “List” (Список). Вместо автоматического обхода всех ссылок (Spider Mode), переключитесь в Mode > List и загрузите подготовленный список нужных URL (например, из вашей базы данных, Google Search Console или через парсинг логов). Это идеальный подход для точного анализа целевых страниц.
- Используйте “Сегменты”. Не пытайтесь охватить всё сразу. Предварительно оцените структурные разделы сайта (например, /catalog/, /blog/, /docs/) и запускайте отдельные обходы для каждого раздела. Это снизит нагрузку на каждом этапе. Вы можете заранее определить эти сегменты с помощью регулярных выражений, и очень гибко настроить их сканирование.
- Ограничьте “глубину” сканирования (Crawl Depth). Установите лимит количества “кликов” от стартовой страницы. Например, Configuration > Spider > Limits > Limit Crawl Depth = 3 просканирует только страницы, до которых можно добраться за 3 перехода. Это достаточно сомнительная практика, но для поверхностного анализа её вполне можно использовать.
- Используйте фильтры “Include” / “Exclude”. Настройте Configuration > Include или Exclude, чтобы указать краулеру, какие именно URL нужно обрабатывать, используя регулярные выражения (regex) или простые маски. Например, исключите все страницы с параметрами в URL (вроде ?session_id=). Подробно об определении исключаемых и включаемых блоков постранично с помощью XPath и JS.
- Определите настройки robots.txt. Если вы сканируете сайт в первый раз, оптимальный вариант – режим “Ignore robots.txt but report status”. Это самый ресурсоёмкий режим, но именно при его использовании вы получите максимум информации о реальном состоянии сайта. Если же вы уже настраивали robots.txt и вам хорошо известны проблемные места – незачем тратить ресурсы на сканирование и анализ “мусорных” и ненужных разделов и страниц.
Стоит ли отключать рендеринг JS? #
Один из самых затратных для вычислительных ресурсов процессов сканирования и анализа сайта – рендеринг JavaScript. Сегодня практически не встретить сайтов, не использующих JS. Реальные поисковые системы оценивают контент в два процесса: сначала парсится “сырой” HTML как есть. Потом, с некоторой паузой, система “отрабатывает” JavaScript сайта, чтобы увидеть страницу так, как видит её человек. Подробно о рендеринге JS и практике Javascript SEO.
Нужно понимать, что средствами JS выводится не только анимация и интерактивные элементы, а и часть контента. В ряде случаев – весь контент. А это значит, что если поисковый робот испытывает проблемы с доступом к JS-файлам и их обработкой, он не получит доступа к важному контенту и не сможет полноценно оценить ваш сайт.
С другой стороны, чаще всего средствами JS выводятся только какие-то второстепенные блоки (формы обратной связи, отзывы, запрос обратного звонка и т.п.). Для регулярного анализа сайта, работой с семантикой на уже понятном материале эти блоки не нужны, и рендеринг JS можно смело отключить (или ограничить только необходимыми скриптами).
Общего универсального решения не существует. Я сам предпочитаю рендеринг и сохранение отрисованных страниц не отключать никогда.
Дополнительная оптимизация и автоматизация #
Эти настройки помогут сделать краулинг более щадящим для сервера и стабильным для вас.
- Контроль скорости (Crawl Speed): в Configuration > Speed:
- Уменьшите Max Threads (количество параллельных потоков) до 5 или меньше, чтобы не перегружать сервер и не получить блокировку.
- Увеличьте Delay (ms) (задержку между запросами).
- Отключите рендеринг JavaScript, если ваша цель — анализ ссылок и мета-тегов, отключите JavaScript-рендеринг (Configuration > Spider > Rendering), оставив “Old AJAX Crawling Scheme” или “Standard”. Рендеринг JS потребляет в разы больше ресурсов.
- Очищайте кэш (Cache). При сборе данных в базу (папка «ProjectInstanceData») место на SSD или HDD расходуется очень быстро. Точно так же сбор данных в оперативную память сохраняет кэш в системную папку, которая тоже быстро разрастается. Регулярно очищайте кэш Screaming Frog (Configuration > Clear Cache). Со временем он может занимать десятки гигабайт и вызывать сбои.
Использование headless-режима #
«Безголовый» (headless) режим кардинально меняет подход к работе: вы перестаёте быть оператором инструмента и становитесь архитектором процесса. Главное отличие простое: обычный режим — это работа за компьютером с интерфейсом (кнопки, окна, вкладки). Безголовый режим — это выполнение той же работы, но полностью в фоне, без какого-либо визуального отображения.
Ключевые преимущества #
Полная автоматизация без участия человека. В обычном режиме вы должны сидеть за компьютером, открыть Screaming Frog, нажать «Start», дождаться завершения, вручную выгрузить CSV или xslx. В headless-режиме вы настраиваете запуск сканирования в нужное время (хоть ночью, хоть по расписанию), ждёте завершения и забираете результаты. Можно запустить 10 разных краулингов подряд, даже не подходя к компьютеру.
Освобождение ресурсов вашего рабочего компьютера. GUI программы потребляет оперативную память, процессор и видеокарту на отрисовку анимации, таблиц, прогресс-баров. Во время долгого краулинга вы не можете полноценно работать в других тяжёлых программах. В “безголовом” фоновом режиме интерфейс просто не загружается. Все ресурсы уходят только и непосредственно на сбор данных. Краулинг может выполняться в фоне, пока вы спокойно работаете в браузере, IDE или Photoshop.
Возможность запускать на серверах или в облаке (VPS). Обычный режим требует графического окружения (Windows с рабочим столом). На дешёвом VPS без GUI или в контейнере Docker его не запустить. В headless-режиме SFSS работает на любом сервере, даже на голом Linux (Screaming Frog имеет CLI-версию для Linux). Вы можете арендовать мощный сервер за $10–20, поставить туда краулер и Ollama, и гонять огромные объёмы сутками, не нагружая свой ноутбук.
Стабильность при длительных и сложных сканированиях. Если в обычном режиме программе не хватит ресурсов – процесс прервётся. Также GUI-версия может «подвисать» при обработке миллионов URL. В headless-режиме процесс привязан к консоли. Его можно запустить через systemd (на Linux) или как задачу планировщика Windows. Он будет работать стабильно даже при отключении вашей удалённой сессии (RDP/SSH).
Масштабирование и параллелизм. С использованием GUI можно запустить одну копию программы. С использованием фонового процесса можно запустить несколько экземпляров одновременно (например, для разных сайтов или сегментов), каждый в своей папке и со своими настройками. Python через subprocess легко это сделает. В GUI-режиме такое невозможно.
Сравнительная таблица #
| Критерий | Обычный (GUI) | Безголовый (Headless) |
|---|---|---|
| Ручное управление | ✅ Удобно для разовых задач, настройки, визуального контроля | ❌ Не предназначен |
| Автоматизация из Python | ❌ Только через эмуляцию кликов (ненадёжно) | ✅ Идеально, через subprocess |
| Потребление RAM/CPU | Высокое (GUI + рендеринг) | Низкое (только движок краулера) |
| Работа без графической оболочки | ❌ Нет (требует Desktop Environment) | ✅ Да (работает на серверах, в Docker) |
| Запуск нескольких копий | ❌ Обычно нельзя (или нестабильно) | ✅ Да, хоть 10 штук |
| Стабильность при долгих задачах | Средняя (может зависнуть GUI) | Высокая (консольный процесс) |
Когда что использовать? #
Обычный (GUI) режим оставляйте для:
- Первичной настройки фильтров, экстракций, пользовательских агентов.
- Изучения структуры сайта в реальном времени (вкладка Internal).
- Отладки правил обхода.
- Разовых быстрых проверок.
Безголовый (headless) режим используйте для:
- Запуска сканирования внутри Python-скрипта.
- Ночных/еженедельных автоматических пересборов данных.
- Краулинга огромных сайтов (100k+ страниц) на сервере.
- Интеграции в CI/CD (например, при каждом изменении на сайте пересобирать семантическую карту).
Типовой сценарий (пример) #
Вы настроили планировщик на сервере. Каждую ночь в 3:00 сервер:
- Запускает headless Screaming Frog для вашего сайта и 5 сайтов конкурентов.
- Python-скрипт забирает CSV, генерирует эмбеддинги через Ollama.
- Кластеризует, находит семантические пробелы.
- Утром вы приходите на работу и видите готовый отчёт с ТЗ для копирайтеров.

В обычном GUI-режиме такое представить невозможно. Именно поэтому для автоматизации и конвейеров headless — это единственный правильный выбор.
Эти настройки помогут вам перейти от случайных крашей к стабильной, предсказуемой работе даже с самыми большими сайтами.
