LDA (Latent Dirichlet Allocation) – это один из наиболее популярных алгоритмов тематического моделирования, широко используемый в задачах информационного поиска и анализа текстов.
Алгоритм LDA позволяет автоматически выявлять скрытые тематики (темы) в коллекции документов и определять, какие темы присутствуют в каждом конкретном документе.
Принцип работы LDA:
Задается число тем K, которые предположительно присутствуют в коллекции документов.
Каждый документ представляется как набор слов.
Слова в документе распределяются по темам согласно вероятностному распределению.
В результате для каждого документа строится тематическое распределение – насколько близок документ к каждой теме.
Темы представляют собой распределение вероятностей по словам коллекции.