BM-25 (Best Matching 25) – это алгоритм оценки и ранжирования релевантности текстовых документов в поисковых системах. Он был разработан Джо Баярдом и Трэвисом Хьюзом в 1994 году для улучшения алгоритма BM-11.
Алгоритм Okapi BM-25 используется для проверки релевантности конкретного документа в отношении конкретного поискового запроса. Он учитывает не только количество совпадений ключевых слов, но и их распределение по документу. BM-25 имеет несколько параметров, которые могут быть настроены для лучшей производительности и релевантности результатов поиска.
BM-25 рассчитывает балл релевантности для каждого документа путем анализа значимости каждого слова в запросе и его частоты в документе. Он также учитывает факторы, такие как длина документа и общая длина коллекции документов. BM-25 работает с неупорядоченным списком терминов (Мешок слов (Bag of Words) и множестве документов, оцениваемых с точки зрения использования слов запроса в каждом документе из коллекции. Близость слов не учитывается.
BM-25, как и TF-IDF, это методология, связанная с семантикой распределения, для выявления самых весомых слов контекста в рамках документа. Отличие состоит в том, что BM-25 учитывает длину документа и насыщенности слов внутри документа, в то время как TF-IDF фокусируется на частоте терминов и придает больший вес реже встречающимся терминам. Кроме того, TF-IDF дает преимущество более длинным документам, поскольку в них больше объема для включения конкретных терминов.
Преимущества алгоритма BM-25 включают его простоту и эффективность, а также учет различных факторов, влияющих на релевантность документа. Он является одним из самых популярных алгоритмов оценки в поисковых системах и активно используется в практике SEO.
Проблематика
С помощью BM-25 можно просчитать только базовые метрики, связанные с заданным ключевым словом.
В качестве метрики оценки качества текста BM-25 можно использовать только для оценки уже существующего контента. Попытка задать эти метрики на уровне технического задания для копирайтера приведет к резкому снижению качества контента (читабельность, естественность и т.п.).
Полноценная оптимизация контента возможна только при сочетании двух основных факторов: текст должен быть понятен поисковым алгоритмам, и текст должен нравиться посетителю сайта. Анализ текста с использованием BM-25 в таком виде может быть полезен только для выявления проблематики, но не как инструмент оптимизации.