Граф знаний – это информационная модель, в которой взаимосвязаны концепции, именованные сущности и события. Основное свойство графа знаний – это наличие контекста, который обеспечивается связыванием информации в единую сеть (граф) с помощью метаданных. Граф знаний позволяет унифицировать и объединить знания в заданной тематике для анализа и использования этих знаний.
В графе знаний хранится разнообразная информация о той или иной теме, дополняемая ссылками на информативные сайты. Источниками данных для графа знаний являются Wikipedia, Freebase, Wikidata, Factbook и ряд других.
Определения графов знаний различаются, и существуют исследования, которые показывают, что граф знаний ничем принципиально не отличается от базы знаний или онтологии. Вместо этого они утверждают, что этот термин был популяризирован Google Knowledge Graph в 2012 году.
Модель знаний, представленная взаимосвязанными описаниями терминов, концепций, сущностей и связей между ними позволяет использовать данные как людям, так и компьютерным системам. Описания, представляющие собой узлы графа, дополняют друг друга, образуя сеть, в которой каждый узел представляет часть описаний связанных объектов.
Важная особенность графа знаний – это наличие семантических метаданных, связывающих и описывающих разнородные данные в соответствии с моделью знаний.
Графы знаний сочетают в себе характеристики основных парадигм управления данными:
Баз данных, из которых можно извлекать информацию с помощью структурированных запросов;
Графов, которые можно анализировать как любую структурированную сеть данных;
Баз знаний, основанных на формальной семантике, применимой для интерпретации данных и вывода новых данных.
Основой графов знаний выступают онтологии: схематически представленные данные графа. Онтология чётко определяет значения данных, унифицирует эти данные и их значения для точной интерпретации.
Традиционно графы знаний представлены в формате RDF. Стандарты семантического стека – RDF(S) и OWL могут органично объединять разные типы контента: схемы, таксономии, словари, метаданные, справочную информацию. Все свойства и характеристики формата стандартизованы в рамках консорциума W3C и охватывают максимальный объём сфер применения.
Графы знаний обычно состоят из наборов данных из различных источников, которые часто различаются по структуре. Схемы, идентификаторы и контекст работают вместе, обеспечивая структуру разнообразных данных. Схемы обеспечивают основу для графа знаний, идентификаторы соответствующим образом классифицируют базовые узлы, а контекст определяет среду, в которой эти знания существуют. Эти компоненты помогают различать слова с несколькими значениями. Это позволяет продуктам, таким как алгоритм поисковой системы Google, определять разницу между Apple, брендом, и яблоком, фруктом.
Графы знаний, основанные на машинном обучении, используют обработку естественного языка (НЛП) для построения комплексного представления узлов, ребер и меток посредством процесса, называемого семантическим обогащением. При приеме данных этот процесс позволяет графам знаний идентифицировать отдельные объекты и понимать взаимосвязи между различными объектами. Эти рабочие знания затем сравниваются и интегрируются с другими наборами данных, которые являются актуальными и схожими по своей природе. После завершения графа знаний он позволяет системам ответов на вопросы и поисковым системам извлекать и повторно использовать исчерпывающие ответы на заданные запросы. Хотя продукты, ориентированные на потребителя, демонстрируют свою способность экономить время, те же системы можно применять и в бизнес-среде, устраняя ручной сбор и интеграцию данных для поддержки принятия бизнес-решений.
Усилия по интеграции данных вокруг графов знаний также могут способствовать созданию новых знаний, установлению связей между точками данных, которые, возможно, не были реализованы раньше.
Варианты использования
Существует ряд популярных графов знаний, ориентированных на потребителя, которые определяют ожидания пользователей от поисковых систем на предприятиях. Некоторые из этих графиков знаний включают в себя:
DBPedia и Wikidata — это два разных графа знаний для данных на Wikipedia.org. DBPedia состоит из данных из информационных блоков Википедии, а Wikidata фокусируется на вторичных и третичных объектах. Оба обычно публикуются в формате RDF.
Граф знаний Google представлен через страницы результатов поисковой системы Google (SERP), предоставляющие информацию на основе того, что люди ищут. Этот граф знаний состоит из более чем 500 миллионов объектов, полученных из Freebase, Википедии, Всемирной книги фактов ЦРУ и других источников.
Однако графы знаний также имеют применение в других отраслях, например:
Розничная торговля: графики знаний предназначены для стратегий дополнительных и перекрестных продаж, рекомендуя продукты на основе индивидуального покупательского поведения и популярных тенденций покупок в демографических группах.
Развлечения: графики знаний также используются для механизмов рекомендаций на основе искусственного интеллекта (ИИ) для контент-платформ, таких как Netflix, SEO или социальные сети. На основании кликов и других действий в Интернете эти провайдеры рекомендуют пользователям читать или смотреть новый контент.
Финансы: эта технология также использовалась для инициатив «Знай своего клиента» (KYC) и борьбы с отмыванием денег в финансовой отрасли. Они помогают в предотвращении и расследовании финансовых преступлений, позволяя банковским учреждениям понимать потоки денег среди своих клиентов и выявлять клиентов, не соблюдающих требования.
Здравоохранение. Графики знаний также приносят пользу отрасли здравоохранения, поскольку организуют и классифицируют отношения в рамках медицинских исследований. Эта информация помогает поставщикам медицинских услуг проверять диагнозы и определять планы лечения с учетом индивидуальных потребностей.
В рамках SEO графы знаний используются для интерпретации текстов, структурирования метаданных, а также как часть техники семантической оптимизации сайта для продвижения с использованием сущностей.