NER (Распознавание именованных сущностей) — это метод обработки естественного языка (NLP), который извлекает информацию из текста. NER включает в себя обнаружение и классификацию важной информации в тексте, известной как именованные сущности. Именованные сущности относятся к ключевым субъектам фрагмента текста, таким как имена, места, компании, события и продукты, а также темы, время, денежные значения и проценты.
NER также называют извлечением , фрагментированием и идентификацией объекта . Он используется во многих областях искусственного интеллекта (AI), включая машинное обучение (ML), глубокое обучение и нейронные сети . NER – ключевой компонент систем NLP, таких как чат-боты, инструменты анализа настроений и поисковые системы. Он используется в здравоохранении, финансах, человеческих ресурсах (HR), поддержке клиентов и анализе социальных сетей.
NER идентифицирует, классифицирует и извлекает наиболее важные фрагменты информации из неструктурированного текста, не требуя трудоемкого человеческого анализа. Это особенно полезно для быстрого извлечения ключевой информации из больших объемов данных, поскольку автоматизирует процесс извлечения.
NER предоставляет организациям важную информацию об их клиентах, продуктах, конкуренции и тенденциях рынка. Например, компании используют его, чтобы определить, когда они упоминаются в публикациях. Поставщики медицинских услуг используют его для извлечения ключевой медицинской информации из записей пациентов.
В машинном обучении главная задача NER — присвоениt тега (из заранее определенного набора тегов) каждому токену в заданной последовательности. Другими словами, задача для ML – идентифицировать в тексте именованные сущности и классифицировать их по типам (например, имя человека, организация, местоположение и т.д.). В SEO и семантическом анализе поиск именованных сущностей – часть предварительных работ по проработке семантики, структурировании (см. “Онтология”), конкурентном анализе, подготовке ТЗ для создания текстового контента и т.п.
Как работает извлечение сущностей
NER использует алгоритмы, которые функционируют на основе грамматики, статистических моделей НЛП и прогнозных моделей . Эти алгоритмы обучаются на наборах данных, которые люди помечают заранее определенными именованными категориями объектов, такими как люди, местоположения, организации, выражения, проценты и денежные значения. Категории обозначаются сокращениями; например, LOC используется для местоположения, PER для людей и ORG для организаций.
Распознавание именованных объектов позволяет идентифицировать и классифицировать ключевые фрагменты информации в неструктурированном тексте. После обучения модели обучения NER на текстовых данных и типах объектов она автоматически анализирует новый неструктурированный текст, классифицируя именованные объекты и семантическое значение на основе его обучения. Когда информационная категория фрагмента текста распознается, утилита извлечения информации извлекает соответствующую информацию об указанном объекте и создает машиночитаемый документ, который другие инструменты могут обрабатывать для извлечения значения.
Основные типы
Три наиболее часто используемые системы NER:
Контролируемые системы на основе машинного обучения используют модели машинного обучения, обученные на текстах, которые люди предварительно пометили именованными категориями сущностей. Подходы к контролируемому машинному обучению используют такие алгоритмы, как условные случайные поля и максимальная энтропия, две сложные статистические языковые модели . Этот метод эффективен для анализа семантических значений и других сложностей, хотя требует больших объемов обучающих данных.
Экспертные системы, основанные на правилах (продукционные системы), используют правила для извлечения информации. Этот метод требует большого вмешательства человека для ввода, мониторинга и настройки правил, и он может пропустить текстовые варианты, не включенные в обучающие аннотации. Считается, что системы, основанные на правилах, не справляются со сложностью так же хорошо, как модели машинного обучения.
Системы на основе словарей используют словарь с обширным словарным запасом и коллекцией синонимов для перекрестной проверки и идентификации именованных объектов. У этого метода могут возникнуть проблемы с классификацией именованных объектов с разными вариантами написания.
Есть также несколько новых методов NER:
Системы машинного обучения без учителя используют системы машинного обучения, которые еще не обучены на аннотированных текстовых данных. Считается, что модели обучения без учителя способны обрабатывать более сложные задачи, чем системы с учителем.
Системы начальной загрузки , также известные как самоконтролируемые , прогнозируют классификацию именованных объектов на основе грамматических характеристик, таких как использование заглавных букв, теги частей речи и другие предварительно обученные категории. Затем человек настраивает систему начальной загрузки, помечая прогнозы системы как правильные или неправильные и добавляя правильные в новый обучающий набор.
Системы нейронных сетей создают модель NER с использованием нейронных сетей, моделей обучения двунаправленной архитектуры, таких как представления двунаправленного кодировщика от трансформеров , и методов кодирования. Такой подход сводит к минимуму человеческое взаимодействие.
Статистические системы используют вероятностные модели, обученные на текстовых шаблонах и связях, для прогнозирования именованных объектов в новых текстовых данных.
Системы семантической маркировки ролей предварительно обрабатывают модель NER с помощью методов семантического обучения, чтобы научить ее контексту и связям между категориями.
Гибридные системы используют аспекты нескольких систем в комбинированном подходе.
Где применяется на практике
В различных отраслях и приложениях распознавание сущностей используется по-разному:
Чат-боты. Генеративный искусственный интеллект OpenAI, ChatGPT и другие чат-боты используют модели NER для идентификации соответствующих объектов, упомянутых в пользовательских запросах и разговорах. Это помогает им понять контекст вопроса пользователя и улучшает качество ответов.
Служба поддержки. Системы распознавания названных объектов могут систематизировать отзывы и жалобы клиентов по названию продукта, а также выявлять распространенные или актуальные жалобы на конкретные продукты или местоположения филиалов. Это помогает группам поддержки клиентов подготовиться к входящим запросам, быстрее реагировать и создать автоматизированные системы, которые направляют клиентов в соответствующие службы поддержки и разделы страниц часто задаваемых вопросов.
Финансы. NER может извлекать данные из частных рынков, кредитов и отчетов о прибылях, увеличивая скорость и точность анализа прибыльности и кредитного риска. NER также может извлекать имена и компании, упомянутые в социальных сетях и других онлайн-сообщениях, помогая финансовым учреждениям отслеживать тенденции и события, которые могут повлиять на цены акций.
Агрегаторы новостей. Поставщики новостей используют NER для анализа множества статей и сообщений в социальных сетях, которые им необходимо просмотреть, и для классификации контента по важной информации и тенденциям. Это помогает им быстро понимать и сообщать о новостях и текущих событиях.
Рекомендательные системы. Многие компании используют NER для повышения релевантности своих систем рекомендаций . Например, такие компании, как Netflix, используют NER для анализа поисковых запросов пользователей и истории просмотров, чтобы предоставлять персонализированные рекомендации.
Поисковые системы. NER имеет решающее значение для поисковых систем , определяя и классифицируя темы, упоминаемые в Интернете и при поиске. Это помогает поисковым системам понять релевантность тем для поиска пользователя и предоставлять пользователям точные результаты.
Анализ настроений. NER является ключевым компонентом анализа настроений. Он извлекает названия продуктов, бренды и другую информацию, упомянутую в отзывах клиентов, сообщениях в социальных сетях и другом неструктурированном тексте. Затем инструмент анализа настроений анализирует информацию, чтобы определить настроение автора. NER также используется для анализа настроений сотрудников в ответах на опросы и жалобах.
Пример
Текст: “Apple, основанная Стивом Джобсом, выпустила новый iPhone 15.”
NER выделит следующие сущности:
Apple– Компания
Стив Джобс– Персона
iPhone 15– Продукт
Преимущества
Распознавание именованных сущностей дает ряд преимуществ при правильном использовании:
Автоматизирует извлечение информации из больших объемов данных.
Анализирует ключевую информацию в неструктурированном тексте.
Облегчает анализ возникающих тенденций.
Устраняет человеческие ошибки при анализе.
Используется практически во всех отраслях промышленности.
Освобождает время сотрудников для выполнения других задач.
Повышает точность задач и процессов обработки естественного языка (NLP).
Недостатки
У NER также есть свой набор проблем:
Есть трудности с анализом лексической двусмысленности , семантики и развития использования языка в тексте.
Возникает проблема с вариантами написания.
Могут возникнуть проблемы с произнесением текста, например, при телефонных разговорах. Это приводит к тому, что многие современные модели NER сообщают об ограниченных показателях производительности .
Может потребоваться большой объем обучающих данных или значительное вмешательство человека.
Может быть склонен к предвзятости в результатах, если алгоритм ML имеет скрытую предвзятость .