Gensim
Gensim – это библиотека для анализа текстов и моделирования тем на языке программирования Python. Основная цель Gensim – работа с большими корпусами текста и разработка простых и эффективных алгоритмов для обработки и моделирования текстовых данных.
NLTK
Natural Language Toolkit (NLTK) — библиотека для обработки естественного языка (NLP) на языке программирования Python.
ScaNN
ScaNN – алгоритм Google, основанный на поиске по сходству векторов. В основе его лежит преобразование входных данных в многомерные векторы, эмбеддинги, благодаря которым для пользовательского запроса можно найти наиболее близкие эмбединги в базе данных.
UIG
Показатель уникального информационного прироста (unique information gain, UIG) – это метрика, используемая в информационной теории для расчета количества уникальной информации в контенте в сравнении с конкурентными источниками.
Домен знаний
Домены знаний – это способ организации информации, при котором знания разделены на конкретные области или темы. Каждый домен знаний содержит информацию, связанную с определенной областью знаний.
Контекстные векторы
Контекстные векторы являются важным инструментом в SEO (оптимизации поисковых систем). Они используются для анализа текста, определения его семантического контекста и соответствия пользовательскому намерению (интенту).
Машинное обучение
Машинное обучение, или Machine Learning, это подраздел искусственного интеллекта, который относится к разработке компьютерных моделей, способных самостоятельно обучаться и делать прогнозы или принимать решения, основываясь на опыте или данных.
Мешок слов (Bag of Words)
Алгоритм “Мешок слов” (BoW) – это один из способов представления текстовой информации в компьютерах. Текст разбивается на слова, а затем подсчитывается количество вхождений каждого слова в тексте.
Токенизация
Токенизация в NLP – это процесс разбиения необработанного текста на естественном языке на отдельные части, называемые “токенами”. Токены сопоставляются с числами и могут быть обработаны средствами NLP.