TF-IDF
TF-IDF (Term Frequency-Inverse Document Frequency) – это метрика, используемая при анализе текстов, чтобы определить важность слова в документе или коллекции документов.
word2vec
Word2Vec – это алгоритм, который преобразует слова и фразы в векторы, которые потом можно использовать для глубокого обучения, выявления семантических связей и т.п.
Водность текста
Водность текста – устаревшая синтетическая метрика оценки качества текста, основанная на процентном соотношении слов, не несущих смысловой нагрузки, к объёму полезного контента.
Дистрибутивная семантика
Дистрибутивная семантика — это раздел математической лингвистики, который изучает значение выражений языка через их контекст употребления и распределение по различным контекстам.
Домен знаний
Домены знаний (предметная область) – это способ организации информации, при котором знания разделены на конкретные области или темы. Каждый домен знаний содержит информацию, связанную с определенной областью знаний.
Именованные сущности
Именованные сущности (named entities) – уникальные объекты реального мира, такие как люди, организации, места, даты и т.д., которые могут быть обозначены уникальными именами. Сущности играют важную роль в обработке естественного языка и извлечении информации.
Индекс тумана Ганнинга
Индекс тумана Ганнинга (или индекс фразовой туманности) – это метрика, используемая в лингвистике для измерения степени “туманности” или неопределенности выражений или фраз.
Ключевые слова
Ключевые слова – это слова или фразы, которые наиболее точно описывают содержимое или тему веб-страницы, документа или поискового запроса.
Коллокации
Коллокации – это словосочетания или выражения, которые имеют определенное значение и представляют собой устойчивую комбинацию слов.
Контекстные векторы
Контекстные векторы являются важным инструментом в SEO (оптимизации поисковых систем). Они используются для анализа текста, определения его семантического контекста и соответствия пользовательскому намерению (интенту).