word2vec
Word2Vec – это алгоритм, который преобразует слова и фразы в векторы, которые потом можно использовать для глубокого обучения, выявления семантических связей и т.п.
Водность текста
Водность текста – устаревшая синтетическая метрика оценки качества текста, основанная на процентном соотношении слов, не несущих смысловой нагрузки, к объёму полезного контента.
Глубокое обучение
Глубокое обучение – это набор алгоритмов и техник, вдохновленных работой человеческого мозга и называемых нейронными сетями.
Граф знаний
Граф знаний – это информационная модель, в которой взаимосвязаны концепции, сущности и события. Основное свойство графа знаний – это наличие контекста, который обеспечивается связыванием информации в единую сеть (граф) с помощью метаданных.
Домен знаний
Домены знаний (предметная область) – это способ организации информации, при котором знания разделены на конкретные области или темы. Каждый домен знаний содержит информацию, связанную с определенной областью знаний.
Именованные сущности
Именованные сущности (named entities) – уникальные объекты реального мира, такие как люди, организации, места, даты и т.д., которые могут быть обозначены уникальными именами. Сущности играют важную роль в обработке естественного языка и извлечении информации.
Индекс тумана Ганнинга
Индекс тумана Ганнинга (или индекс фразовой туманности) – это метрика, используемая в лингвистике для измерения степени “туманности” или неопределенности выражений или фраз.
Интент
Интент – это намерение или цель, которую имеет пользователь при совершении определенного действия, такого как поиск в интернете или выполнение запроса.
Ключевые слова
Ключевые слова – это слова или фразы, которые наиболее точно описывают содержимое или тему веб-страницы, документа или поискового запроса.
Коллокации
Коллокации – это словосочетания или выражения, которые имеют определенное значение и представляют собой устойчивую комбинацию слов.