Корпус — это коллекция примеров того, как обычно используется язык. Корпус может, например, содержать большое количество письменных текстов или записанных или снятых на видео разговоров. Такие коллекции данных используются для изучения использования языка или для изучения словарного запаса и грамматики этого языка.
Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий. Главной целью корпусной лингвистики считают лингвистическое описание языковой системы, когда речевой материал, полученный в ходе изучения коммуникации людей, отражается в корпусе текстов.
Анализ опыта создания и применения корпусов различных видов
Формулирование общих требований к корпусу
Создание корпусов для различных исследовательских и учебных задач
Формирование эффективных способов применения корпусов текстов в различных областях языкознания.
Что такое корпус
Корпус определяется по-разному у разных исследователей.
Как любое собрание текстов, имеющих определенную общность по каким-либо признакам.
Представляют корпус и как уменьшенную модель языка или подъязыка.
Как большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.
В Национальном корпусе русского языка (НКРЯ) корпус определяется как информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Далее уточняется, что национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.
Особенности корпуса
Когда речь идет о больших размерах языковых данных, это означает такую характеристику, как представительность. Другой встречающийся термин для обозначения такой характеристики – репрезентативность, под которой понимают свойство корпуса, заключающееся в статистически достоверном представлении языка или его части и достигаемое за счет необходимого объема и жанрового разнообразия текстов. В корпусе могут быть собраны все типы письменных и устных текстов, из представленных в данном языке (разные жанры художественных текстов, публицистических, научных, деловых, в том числе учебные, разговорные и т. д.). Кроме того, все тексты, собранные таким образом в корпусе, в идеале должны быть
представлены пропорционально. Это подразумевает представление разных типов текстов более или менее равномерно. Такое свойство называют сбалансированностью.
Разметка корпусов
Другая важная характеристика, которая делает корпус таковым – наличие дополнительной информации о свойствах входящих в него текстов. Такую информацию называют разметкой, или аннотацией, когда каждой единице приписываются определенные характеристики. М. Копотев указывает на следующие типы лингвистического аннотирования, которые в целом совпадают с уровнями языка:
Эта особенность (размеченность) и отличает тексты лингвистического корпуса от обычных текстов, собранных в том или ином виде и тоже в электронной форме. Однако одних этих характеристик еще недостаточно для работы с корпусом. Функциональность достигается благодаря специальной программе, системе управления текстовыми и лингвистическими данными. Такую систему называют корпусным менеджером.
Корпусный менеджер определяют как специализированную поисковую систему, куда входят программные средства для поиска данных в корпусе, в результате работы которых пользователь получает необходимую статистическую информацию в готовой форме. Результаты поиска выдаются в виде списка найденных примеров, который обозначают термином конкорданс. Конкорданс представляет собой весь список контекстных употреблений слова, обнаруженных в результате поиска.
Основной единицей морфологической разметки является текстоформа, или токен, под которой понимается цепочка символов и обычно она соответствует обычной словоформе. Такое символьное представление необходимо для работы компьютерной программы.
Другая процедура, необходимая для обработки информации, вводимой в корпус – автоматическое приписывание текстоформы к начальной форме, называется лемматизация, а сама начальная форма именуется леммой. Далее необходима разметка для разграничения слов по частям речи (англ POS-tagging, Part of Speech tagging – приписывание метки для обозначения части речи). Необходимость такой разметки связана с тем, что компьютер не разграничивает омонимы. Благодаря таким характеристикам и особенностям созданных корпусов и становится возможной работа с ними.
Понимание и применение корпусов в рамках SEO
В практике поисковой оптимизации в качестве корпусов обычно понимается контент , соответствующий поисковой выдаче по определенным запросам. Подразумевается, что поисковые системы выбрали эти страницы по каким-то определенным критериям, и потому страницы в SERP могут служить некоторым эталоном, объединяющим URL по предполагаемым общим качествам.
Подход имеет ряд существенных недостатков: веб-страницы могут попадать в топ выдачи не в результате высоких оценок текстового контента. Однако в качестве отправной точки для исследований текстовых метрик и выявления скрытых закономерностей в ранжировании метод не теряет значения.
На самом примитивном уровне оптимизации работа с эталонным корпусом укладывается в такую последовательность:
Отбирается список URL, содержащих контент заданного типа. Отфильтровываются ресурсы, предположительно попавшие в топ выдачи не по причине высокого качества текстового контента;
Извлекаются данные для дальнейшего анализа;
Собранная информация тем или иным образом нормализуется;
Данные обрабатывается избранными алгоритмами (tf-idf, word2vec и т.п.).
Полученные результаты можно использовать для формирования гипотез и использования их для корректировки страниц, чаще всего – с отталкиванием от медианных данных.
Нужно учитывать, что это – не единственная трактовка понятия “корпус” в SEO и не единственное применение. Всё большее значение в SEO получает NLP и связанные с ним практики работы с текстом веб-ресурсов, а вместе с тем – и более глубокое понимание корпусной лингвистики.