GPT-1论文《Improving Language Understanding by Generative Pre-Training》解读-JZTXT

背景

GPT-1 采用了两阶段训练的方式：

1. 第一阶段 pre-training，在海量文本上训练，无需label，根据前k-1个词预测第k个单词是什么，第一阶段的训练让模型拥有了很多的先验知识，模型具有非常强的泛化性

2. 第二阶段在特定任务上fine-tuning，让模型能适应不同的任务，提高模型在特定任务上的准确性

GPT-1 模型采用了Transformer Decoder 结构

在一个无监督预料集上训练，更加前k-1个词，预测第k个词是什么

第二阶段就是在有label的数据集上微调，具体来说就是替换掉第一阶段的最后一层，在监督数据集上训练

此外作者还发现在第二阶段微调的时候，将语言建模作为微调的辅助目标有助于：

针对不同的任务，模型的输入token序列是有区别的。简单总结如下：