Алгоритм Google SMITH («Siamese Multi-depth Transformer-based Hierarchical»), основан на естественном языке (NLP) и способен работать с полным контекстом веб-страницы.
SMITH — это модель ИИ, которая помогает Google лучше понимать объемный контент, анализируя целые документы, а не только отдельные предложения. В отличие от BERT, который фокусируется на понимании коротких предложений, SMITH предназначен для понимания длинных статей и документов.
BERT: Читает и понимает короткие предложения.
SMITH: Читает и понимает длинные статьи.
Важно понимать, что SMITH не пришел на смену BERT; скорее, он является дополнением к BERT, и оба они эффективно работают вместе.
Пример: до интеграции модели SMITH в лонгриде на сложную тему Google в первую очередь сосредотачивался на отдельных предложениях или коротких абзацах, а не на понимании всей статьи. Это часто приводило к тому, что Google упускал общую картину, не давая длинному контенту хорошо ранжироваться для длинного поиска.
Однако с моделью SMITH Google теперь анализирует весь документ, включая заголовки, разделы и отношения между абзацами. Это позволяет Google лучше понимать общий поток тем и точнее сопоставлять контент с запросами пользователей.
Особенности
SMITH может понимать длинные статьи, исследовательские работы и подробные руководства.
Он обнаруживает взаимосвязи между разделами контента в пределах одной статьи.
SMITH помогает Google определить и выделить наиболее релевантный раздел внутри длинного поста, когда пользователь ищет запрос, вместо того, чтобы заставлять его читать все.
Google теперь понимает, какой раздел статьи наиболее важен.
Алгоритм выходит за рамки простого понимания отдельных предложений. Он фокусируется на выявлении иерархических семантических связей между различными частями документа, что позволяет ему сформировать целостное представление о его содержании. В отличие от анализа отдельных предложений, SMITH стратегически выбирает и обрабатывает определенные фрагменты текста, выявляя их “семантическое ядро” – ключевые смысловые компоненты. Затем, опираясь на взаимосвязи между этими ядрами, алгоритм конструирует общее понимание смысла всего документа.
Создатели описывают SMITH как “иерархический кодер на основе самотрансформирующейся модели”. Это означает, что алгоритм не просто обрабатывает текст линейно, а динамически адаптирует свою внутреннюю структуру, учитывая выявленные семантические связи. “Самотрансформация” подразумевает способность алгоритма обучаться и улучшать свои аналитические способности в процессе обработки информации. Именно эта способность к динамической адаптации позволяет SMITH эффективно анализировать сложные и многогранные тексты.
Объём контекста
Одним из ключевых преимуществ SMITH является его способность обрабатывать значительно большие объемы текста по сравнению с BERT. В то время как BERT ограничен входными последовательностями длиной до 512 символов (токенов), SMITH может обрабатывать текст длиной до 2048 символов.
Это четырехкратное увеличение входной длины позволяет алгоритму учитывать более широкий контекст и строить более точные и полные представления о содержании документа, особенно в случаях длинных и сложно структурированных текстов, где понимание глобального контекста критически важно. Благодаря этому, SMITH открывает новые возможности для анализа и интерпретации больших объемов текстовой информации.
Какова цель обновления алгоритма
Некоторые пользователи предпочитают развернутые ответы, а не короткие фрагменты. Например, если кого-то интересует достаточно глобальная тема, ему будет недостаточно ответа из двух предложений или простой список. Вместо этого пользователи могут предпочесть полное пошаговое руководство. SMITH помогает Google отдавать приоритет такому длинному контенту по сравнению с коротким.
Поскольку пользователи все больше интересуются чтением объемного контента, SMITH помогает Google находить ценные и хорошо структурированные статьи.
SMITH уменьшает необходимость в многократных поисках. Вместо того, чтобы искать разные термины для сбора информации, Google с помощью SMITH может предоставить все необходимые данные из одной статьи.
Как оптимизировать контент для SMITH
Сосредоточьтесь на подробном, информативном и хорошо организованном контенте.
Используйте четкие заголовки, подзаголовки и маркеры, чтобы разбить контент на логические разделы.
Избегайте разрыва контекста между разными абзацами.
Используйте формат «вопрос-ответ». Google преобразует заголовки в вопросы, поэтому структурируйте контент соответствующим образом.
Не отделяйте вопрос от ответа. Дайте ответ сразу, а затем расширьте его.
По возможности используйте короткие предложения.
Поддерживайте правильный вектор контекста от H1 до последнего заголовка документа. Контекстный поток должен быть линейным.
Для развернутых ответов используйте определения, обозначения сущностей и определители. Упомяните концепции и связи.
Ключевые термины должны быть связаны с заголовком и подзаголовками, и они должны соответствовать тематической карте. Контекст имеет решающее значение.