Именованные сущности (named entities) – уникальные объекты реального мира, такие как люди, организации, места, даты и т.д., которые могут быть обозначены уникальными именами. Сущности играют важную роль в обработке естественного языка и извлечении информации.
Технически, сущность – это запись в базе данных, имеющая собственный идентификатор. Это не слово в словаре и не ключевое слово. Одна и та же сущность может иметь разные названия, включая названия на разных языках, но поисковая система прекрасно понимает, о чём идёт речь, поскольку имеет дело с ID, сопровождаемый связанными ключевыми словами и дескрипторами.
Пример поисковой сущности описываемой по адресу https://www.wikidata.org/wiki/Q33742 с id Q33742.
Распознавание именованных сущностей (NER) – одна из ключевых задач обработки естественного языка (NLP). Цель состоит в том, чтобы автоматически идентифицировать все упоминания определенных сущностей в неструктурированном тексте и присвоить им соответствующие метки. Например, распознать, что “Steve Jobs” относится к классу имен людей (PERSON), а “Apple” – название компании (ORGANIZATION).
Типы сущностей
Основные типы именованных сущностей:
PERSON – имена людей
ORGANIZATION – названия компаний, учреждений и т.д.
LOCATION – географические объекты
DATE – даты и время
MONEY – валюта
PERCENT – проценты
Для распознавания именованных сущностей используются методы машинного обучения, такие как модели Conditional Random Fields и нейронные сети на основе LSTM (сети долгой краткосрочной памяти) или трансформеры.
Сущности в поисковых алгоритмах
Сущности в основном используются для устранения неоднозначности запросов, а не для ранжирования страниц с контентом, оптимизированным под одни и те же запросы. Однако правильная работа с сущностями способна увеличить релевантность контента запросу и улучшить контент, просто в первую очередь поисковая система стремится предоставить пользователю точный ответ, всё прочее – вторично.
Чтобы обеспечить максимальную точность и релевантность, поисковые алгоритмы затрачивают много ресурсов на преобразование отдельных фрагментов текста в базовые сущности. Это происходит уже на стадии первичного ранжирования, а именно оно в значительной мере определяет ранжирование страницы и в дальнейшем.
Сходным образом работает дистрибутивная семантика: алгоритм может лучше понять смысл запроса и наиболее подходящие ему документы на базе векторной близости слов, часто встречающихся вместе. В случае с сущностями поисковый алгоритм (типа RankBrain) пытается обнаружить именованную сущность, связанные с ней объекты, и уже используя эту информацию предоставить пользователю результаты поиска.
Пример. Если поисковик получит запрос “Имя автора «Войны и мира»”, он поймёт, что пользователь ищет не какие-то имена и не роман «Война и мир», он ищет конкретного автора, и благодаря обнаруженным в запросе сущностям и пониманию связей между ними определит точный ответ на запрос.
Оценка релевантности документа на базе сущностей
Обработка именованных сущностей тесно связана с оценкой релевантности документов в поисковых системах. Вот несколько способов этой связи:
Именованные сущности позволяют лучше понять смысл и содержание документа. Если в документе встречается много упоминаний конкретных людей, организаций, мест или событий, связанных с запросом – это указывает на его высокую тематическую релевантность.
Частота и плотность упоминаний именованных сущностей может использоваться как одна из метрик при ранжировании результатов поиска. Документы с большим числом релевантных сущностей рассматриваются как более релевантные.
Анализ связей между различными именованными сущностями в документе позволяет выявить его основные смысловые акценты. Это также важно для оценки релевантности.
Именованные сущности могут использоваться для расширения и уточнения поисковых запросов, что ведёт к более точному поиску и релевантным результатам. Метки в изображениях Google могут быть связаны с онтологиями (см. “онтология”) и атрибутами этих объектов
Метки именованных сущностей позволяют применить элементы семантического поиска – учитывать не только ключевые слова, но и смысл объекта.
Технологии извлечения и анализа именованных сущностей играют важную роль для поисковых систем, помогая значительно улучшить релевантность результатов поиска. Распознавание именованных сущностей широко используется в таких задачах, как извлечение информации, анализ тональности текста, автоматическое реферирование, машинный перевод и многих других. Это позволяет структурировать необработанный текст и извлекать из него ценные факты об объектах реального мира.
Распознавание именованных сущностей является фундаментальной задачей NLP, позволяющей приблизиться к машинному пониманию естественного языка. Современные модели демонстрируют высокую точность, однако по-прежнему есть пространство для улучшения, особенно для редких и необычных именованных сущностей.