Корпус
Корпус – собрание текстов, имеющих определенную общность по каким-либо признакам.
Машинное обучение
Машинное обучение, или Machine Learning, это подраздел искусственного интеллекта, который относится к разработке компьютерных моделей, способных самостоятельно обучаться и делать прогнозы или принимать решения, основываясь на опыте или данных.
Мешок слов (Bag of Words)
Алгоритм “Мешок слов” (BoW) – это один из способов представления текстовой информации в компьютерах. Текст разбивается на слова, а затем подсчитывается количество вхождений каждого слова в тексте.
Первичное ранжирование
Первичное ранжирование — это первый присвоенный рейтинг веб-страницы для запроса в индексе поисковой системы. Начальный рейтинг может быть изменен поисковой системой в процессе повторного ранжирования в соответствии с изменениями документа с течением времени на основе внутренних или внешних факторов.
Релевантность
Релевантность поиска — это показатель того, насколько тесно документ связан с запросом.
Семантическое SEO
Семантическое SEO – это процесс оптимизации контента по теме, а не по ключевому слову или фразе. При этом учитываются такие факторы, как намерения пользователей, пользовательский опыт и взаимосвязи между сущностями и понятиями.
Синсет
Синсет – это группа слов или словосочетаний, которые имеют схожее значение в определенном контексте. Другими словами, это набор синонимов, выражающих одно и то же понятие.
Скип-грамма
Скип-грамма – это метод машинного обучения без учителя, в котором центральное слово используется для предсказания окружающих. Модель используется в word2vec, связана с RankBrain, относится к одной из важнейших концепций NLP.
Токен
Токен — это единица текста, которая намеренно сегментирована для эффективной обработки большой языковой моделью. Этими единицами могут быть слова, части слов, словосочетания или знаки пунктуации.
Токенизация
Токенизация в NLP – это процесс разбиения необработанного текста на естественном языке на отдельные части, называемые “токенами”. Токены сопоставляются с числами и могут быть обработаны средствами NLP.