Скип-грамма – это метод машинного обучения без учителя, в котором центральное слово используется для предсказания окружающих. Модель используется в word2vec, связана с RankBrain, относится к одной из важнейших концепций NLP.
Компьютер не понимает слов, он работает с числами. Слова преобразуются в числа двумя основными способами:
Быстрое кодирование (One-Hot-Encoding) (в ходу также термин “горячее кодирование”)
Векторы вещественных чисел (Continuous Vectors)
Быстрое (горячее) кодирование представляет категориальные переменные в векторных формах. Каждому слову в словаре присваивается уникальный индекс. Недостатки:
При большой длине словаря хранение данных неэффективно.
Кодировка из единиц и нулей не передаёт смысл слова, поскольку расстояние между кодировками любых слов всегда одинаково.
Вещественные векторы
Смысл слова можно передавать с помощью вещественных векторов.
Вещественные векторы состоят из действительных чисел, нет фиксированного правила для длины векторов. Можно выбрать любую длину, любое количество функций, любые критерии для присваивания заданных характеристик.
Вещественные векторы, как и эмбеддинги, обучаются только на больших текстовых корпусах.
Модель скип-грамм использует обучение с частичным привлечением учителя. Word2vec принимает на входе большой корпус текста, создаёт векторное пространство, и каждому слову в корпусе назначается соответствующий вектор. После этого создаются пары из целевого слова и контекста для всех элементов датасета. Фактически речь идёт о всех парах слов, которые можно встретить в корпусе рядом друг с другом.
Доминирующие слова скип-грамм
Доминирующими словами скип-грамм называются слова, чаще всего встречающиеся с другими словами в корпусе и выступающие в качестве опорных точек в пространстве эмбеддингов. Доминирующие слова скип-грамм используются для разотождествления смысла слов, суммаризации документа, извлечения ключевых слов, поиска информации.
Доминирующие слова скип-грамм можно применять для решения множества задач поисковой оптимизации (SEO):
Семантическая оптимизация контента. Благодаря им поисковая машина может лучше понять тему и контекст документа.
Семантический анализ контента. Доминирующие слова скип-граммы в этом случае могут определить семантические связи между основными терминами и понятиями, используемыми в статье.
Тематическое моделирование. В этом случае скип-граммы служат для кластеризации слов на базе сходства по смыслу.
Определение доминантных слов скип-грамм, связанных с центральной сущностью и её атрибутами для расширения тематического соответствия и обогащения контекста в рамках документа.