GPT|《Improving language understanding by generative pre-training 》论文阅读笔记

        GPT通过在各种未标注文本语料库上对语言模型进行生成性预训练,然后在每个特定任务上进行判别性微调,可以在使用大量数据集进行训练下,迁移到大多数NLP任务之上。

        GPT是基于Transformer模型建立起来的,因为相比于LSTM其具有更好的并行存储计算能力,并能记忆更长的上下文相关信息,并采用纯解码器的结构构造。

一、数学公式理解

1.预训练无监督生成

        在预训练阶段,GPT使用了大量的未标注文本数据进行训练,目标是语言建模任务。具体来说,GPT通过预测序列中的下一个词块来进行训练,其目标函数为:

        

        其中,x_t是序列中的第t个词块,\theta是模型参数。

        具体的P公式展开,涉及到以下几个公式:

输入嵌入公式:

        U=(u_{-k},...,u_{-1})是上下文词块(content tokens)的向量表示,每个元素是对应token的索引,其中 k 是上下文窗口大小,表示在当前词之前的 k 个词。

        W_e 是词嵌入矩阵(token embedding matrix)。每个token通过这个矩阵转换为一个向量表示,其可以是随机初始化的也可以是预训练好的词嵌入(如Word2Vec、GloVe或BERT)。二者相乘后相当于根据前文查找词的索引词嵌入矩阵,得到嵌入向量(缺一个位置

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值