GPT通过在各种未标注文本语料库上对语言模型进行生成性预训练,然后在每个特定任务上进行判别性微调,可以在使用大量数据集进行训练下,迁移到大多数NLP任务之上。
GPT是基于Transformer模型建立起来的,因为相比于LSTM其具有更好的并行存储计算能力,并能记忆更长的上下文相关信息,并采用纯解码器的结构构造。
一、数学公式理解
1.预训练无监督生成
在预训练阶段,GPT使用了大量的未标注文本数据进行训练,目标是语言建模任务。具体来说,GPT通过预测序列中的下一个词块来进行训练,其目标函数为:
其中,是序列中的第
个词块,
是模型参数。
具体的公式展开,涉及到以下几个公式:
输入嵌入公式:
是上下文词块(content tokens)的向量表示,每个元素是对应token的索引,其中
是上下文窗口大小,表示在当前词之前的
个词。
是词嵌入矩阵(token embedding matrix)。每个token通过这个矩阵转换为一个向量表示,其可以是随机初始化的也可以是预训练好的词嵌入(如Word2Vec、GloVe或BERT)。二者相乘后相当于根据前文查找词的索引词嵌入矩阵,得到嵌入向量(缺一个位置