DomDistiller – это базовый движок Chrome, используемый для очистки веб-страницы от второстепенных элементов и улучшающий машиночитаемость контента. Благодаря ему можно понять, как Google отделяет основной контент, читает и анализирует его. Аналогичные принципы применяются ИИ-агентами, работающими не с живым HTML-кодом, а структурой DOM.
Алгоритм DomDistiller, используемый в режиме «Для чтения» в браузере Chrome, служит для Google моделью того, как отличать основной контент страницы от второстепенных, шаблонных элементов, таких как меню, реклама или футеры. Понимание его работы помогает в технической SEO-оптимизации, так как позволяет взглянуть на сайт глазами поисковых систем и ИИ-агентов.
Алгоритм в несколько этапов анализирует не исходный HTML-код, а уже отображенную в браузере страницу (DOM).
Сегментация. Страница разбивается на логические блоки контента, при этом скрытые элементы игнорируются.
Оценка блоков. Каждый блок оценивается по ряду критериев:
Негативные сигналы: блоки с высокой плотностью ссылок (меню, списки похожих статей), а также элементы с тегами <nav>, <footer>, <aside> получают низкую оценку. Низкий рейтинг также присваивается, если в CSS-классах или ID встречаются слова вроде comment, ad, share, sidebar, social.
Позитивные сигналы: блоки с большим количеством сплошного текста и тегами <article>, <p>, <h1> и т.д. оцениваются положительно.
Кластеризация. Алгоритм находит самое большое скопление блоков с высокой оценкой и определяет его как основной контент. Все, что находится за пределами этого кластера, отбрасывается. Благодаря этому отбрасываются встраиваемые блоки с рекламой, ссылками на другие материалы и т.п.
Сбор метаданных. DomDistiller использует структурированные данные, такие как OpenGraph и Schema.org, для точного определения заголовка, автора, даты и основного изображения. Он также умеет распознавать многостраничные статьи по ссылкам «далее» и структуре URL.
Очистка. На последнем этапе из выделенного контента создается чистая HTML-страница: удаляются скрипты, стили, лишние атрибуты, а относительные ссылки преобразуются в абсолютные. Остаётся только контент, имеющий важность и соответствующий минимально допустимой HTML-структуре анализируемого документа.
Ключевые выводы для SEO
Используйте семантический HTML: применение тегов <article>, <main>, <nav> дает поисковым системам четкие сигналы о структуре контента и является более эффективным, чем использование общих тегов <div>.
Структура DOM важна: иерархия элементов в коде должна соответствовать визуальной иерархии контента. Неправильное вложение может запутать поисковые алгоритмы.
Следите за именами CSS: не называйте классы и ID словами из «черного списка» (например, sidebar), если они относятся к основному контенту. И наоборот, маркируйте шаблонные блоки соответствующими именами (например, id=«comments-section»).
Внедряйте структурированные данные (микроразметка). Schema.org и OpenGraph помогают поисковым системам безошибочно определять ключевую информацию о странице (заголовок, автор и т.д.).
Упрощайте структуру DOM. Избегайте излишней вложенности тегов. Чистая и «плоская» структура помогает алгоритмам легче выделять основной контент.
Благодаря пониманию алгоритма DomDistiller можно оптимизировать не только машиночитаемость в рамках технической SEO, но и понять, как правильно оптимизировать контент для ИИ-агентов в рамках GEO – от абстракций и гипотез к практике на реальных данных.