Лемматизация
Лемматизация – это процесс приведения словоформы к ее базовой или словарной форме, называемой леммой. Лемма представляет собой каноническую форму слова, которая обычно является словарной формой или инфинитивом для глаголов.
Матрица
Матрица в NLP – это способ представления текстовых данных в виде таблицы с ячейками, которые хранят числовую информацию о словах или текстовых фрагментах.
Машинное обучение
Машинное обучение, или Machine Learning, это подраздел искусственного интеллекта, который относится к разработке компьютерных моделей, способных самостоятельно обучаться и делать прогнозы или принимать решения, основываясь на опыте или данных.
Мешок слов (Bag of Words)
Алгоритм “Мешок слов” (BoW) – это один из способов представления текстовой информации в компьютерах. Текст разбивается на слова, а затем подсчитывается количество вхождений каждого слова в тексте.
Монолитный индекс
Монолитный индекс – это список ключевых слов (терминов), связанных с заданной страницей, и состоящий как из слов, содержащихся на самой странице (в документе), так и во внешних связанных источниках (текстах ссылок, около-ссылочном тексте и т.п.).
Нейронное сопоставление
Нейронное сопоставление (Neural Matching) – это метод, который использует нейронные сети для сравнения и определения сходства между текстами или запросами.
Релевантность
Релевантность поиска — это показатель того, насколько тесно документ связан с запросом.
Семантический триплет
Семантический триплет, или семантическая тройка, представляет собой набор из трех сущностей, которые кодифицируют утверждение о семантических данных в форме выражений субъект-предикат-объект (ID, свойство, значение).
Семантическое SEO
Семантическое SEO – это процесс оптимизации контента по теме, а не по ключевому слову или фразе. При этом учитываются такие факторы, как намерения пользователей, пользовательский опыт и взаимосвязи между сущностями и понятиями.
Скип-грамма
Скип-грамма – это метод машинного обучения без учителя, в котором центральное слово используется для предсказания окружающих. Модель используется в word2vec, связана с RankBrain, относится к одной из важнейших концепций NLP.