Gensim
Gensim – это библиотека для анализа текстов и моделирования тем на языке программирования Python. Основная цель Gensim – работа с большими корпусами текста и разработка простых и эффективных алгоритмов для обработки и моделирования текстовых данных.
IRI
IRI – стандарт интернет-протокола , который основан на протоколе унифицированного идентификатора ресурса (URI) и значительно расширяет набор разрешенных символов благодаря использованию не US-ASCII, а большинство символов из универсального набора символов (Unicode/ISO 10646 ), включая китайские, японские, корейские и кириллические символы.
LDA
LDA (Latent Dirichlet Allocation) – это один из наиболее популярных алгоритмов тематического моделирования, широко используемый в задачах информационного поиска и анализа текстов.
n-грамма
N-грамма – это последовательность из N слов в тексте. N может быть любым числом, и означает количество слов, которые объединяются вместе.
NER
NER (Распознавание именованных ceoyjcntq) — это метод обработки естественного языка (NLP), который извлекает информацию из текста. NER включает в себя обнаружение и классификацию важной информации в тексте, известной как именованные сущности.
NLP
NLP (обработка естественного языка) – это технология машинного обучения, которая дает компьютерам возможность интерпретировать, обрабатывать и понимать человеческий язык.
NLTK
Natural Language Toolkit (NLTK) — библиотека для обработки естественного языка (NLP) на языке программирования Python.
OOV
OOV (Out-of-Vocabulary) – это термин, используемый в обработке естественного языка (NLP) и машинном обучении (ML) для обозначения слов, которые отсутствуют в словаре (вокабуляре) модели.
PAA
Последовательные запросы (PAA) – это последовательность поисковых запросов, которые пользователь выполняет в течение одной сессии, чтобы уточнить или расширить свой поиск. Они представляют собой путь пользователя от первоначального запроса до конечной информационной цели.
RAG
RAG (Retrieval Augmented Generation) – поисковая дополненная генерация, ипользующая дополнительную базу данных как дополнение к большой языковой модели (LLM) для повышения точности ответов, устранения галлюцинаций и увеличения производительности.