GPT-1论文《Improving Language Understanding by Generative Pre-Training》解读

发布时间 2023-12-25 20:58:27作者: xd_xumaomao

背景

GPT-1 采用了两阶段训练的方式:

1. 第一阶段 pre-training,在海量文本上训练,无需label,根据前k-1个词预测第k个单词是什么,第一阶段的训练让模型拥有了很多的先验知识,模型具有非常强的泛化性

2. 第二阶段在特定任务上fine-tuning,让模型能适应不同的任务,提高模型在特定任务上的准确性

GPT-1 模型采用了Transformer Decoder 结构

 

训练过程

Unsupervised pre-training

在一个无监督预料集上训练,更加前k-1个词,预测第k个词是什么