Генеративный предварительно обученный трансформер (GPT), а также его дальнейшие версии (GPT-2, GPT-3 и т.д.), обученные на больших корпусах, – это нейронная языковая модель, которая может быть настроена на выполнение конкретной задачи путем применения к входному сигналу трансформаций, зависящих от задачи, что требует минимальных изменений в архитектуре модели.
Сначала GPT проходит предварительное обучение на этапе без учителя для обучения языковой модели на большом корпусе текстов с использованием многослойного декодера-трансформера. Затем, на этапе супервизии, модель настраивается, чтобы привести параметры в соответствие с целевой задачей.
GPT обрабатывает текстовые последовательности слева направо, поэтому каждая лексема может учитывать только предыдущие лексемы в слое Self-Attention. Тонкая настройка GPT для различных задач оценки позволяет достичь лучших результатов, чем использование архитектур, ориентированных на конкретную задачу, показывая, что последние больше не нужны.
В процессе контролируемой тонкой настройки (fine-tuning) поверх трансформера добавляется линейный слой для обучения классификатора. Таким образом, предполагается, что набор данных задачи представляет собой последовательность входных лексем вместе с меткой. Единственными новыми параметрами являются параметры линейного слоя, а параметры трансформатора просто корректируются. Для задач, отличных от классификации текста, входные данные преобразуются в упорядоченную последовательность, которую может обработать предварительно обученная модель.
Архитектура трансформеров успешно используется в различных задачах NLP, таких как машинный перевод и генерация документов.
Еще одним интересным свойством трансформерных архитектур является их структурированная память, которая позволяет работать с долгосрочными зависимостями в тексте, что является проблематичным для рекуррентных сетей, таких как LSTM. Кроме того, трансформеры поддерживают параллельную обработку, поскольку не являются последовательными моделями, как рекуррентные сети. Для обучения языковой модели GPT использует многослойный декодер-трансформер, который применяет архитектуру Multi-Head Self-Attention к входным лексемам плюс позиционные слои обратной связи для получения выходного распределения по целевым лексемам.