Gensim
Gensim – это библиотека для анализа текстов и моделирования тем на языке программирования Python. Основная цель Gensim – работа с большими корпусами текста и разработка простых и эффективных алгоритмов для обработки и моделирования текстовых данных.
IRI
IRI – стандарт интернет-протокола , который основан на протоколе унифицированного идентификатора ресурса (URI) и значительно расширяет набор разрешенных символов благодаря использованию не US-ASCII, а большинство символов из универсального набора символов (Unicode/ISO 10646 ), включая китайские, японские, корейские и кириллические символы.
LDA
LDA (Latent Dirichlet Allocation) – это один из наиболее популярных алгоритмов тематического моделирования, широко используемый в задачах информационного поиска и анализа текстов.
n-грамма
N-грамма – это последовательность из N слов в тексте. N может быть любым числом, и означает количество слов, которые объединяются вместе.
NLTK
Natural Language Toolkit (NLTK) — библиотека для обработки естественного языка (NLP) на языке программирования Python.
RankBrain
RankBrain является компонентом системы ранжирования Google и основан на технологии машинного обучения. Алгоритм обрабатывает запросы пользователей и пытается понять их смысл, а не просто соотнести слова в запросе с определенными страницами
UIG
Показатель уникального информационного прироста (unique information gain, UIG) – это метрика, используемая в информационной теории для расчета количества уникальной информации в контенте в сравнении с конкурентными источниками.
word2vec
Word2Vec – это алгоритм, который преобразует слова и фразы в векторы, которые потом можно использовать для глубокого обучения, выявления семантических связей и т.п.
Водность текста
Водность текста – устаревшая синтетическая метрика оценки качества текста, основанная на процентном соотношении слов, не несущих смысловой нагрузки, к объёму полезного контента.
Граф знаний
Граф знаний – это информационная модель, в которой взаимосвязаны концепции, сущности и события. Основное свойство графа знаний – это наличие контекста, который обеспечивается связыванием информации в единую сеть (граф) с помощью метаданных.