Transformer细节(七)——Transformer输入序列的维度变化

一、输入序列和嵌入层

1. 输入序列

        输入序列的原始形式通常是一个整数序列,每个整数代表一个单词或符号的索引。例如,形状为 \((N, L,d_{\text{in}})\) 的输入张量,其中 \(N\) 是 batch size,\(L\) 是序列长度,\(d_{\text{in}}\) 是序列元素的维度。

2. 词嵌入(Word Embedding)

        通过嵌入层将每个索引映射到一个 \(d_{\text{embedding}}\) 维度的嵌入向量。这将输入序列转换为形状为 \((N, L, d_{\text{embedding}})\) 的张量。

3. 位置编码(Positional Encoding)

        Transformer 模型没有卷积或循环结构,因此需要显式地添加位置信息。位置编码的形状也是 \((N, L, d_{\text{embedding}})\),并且添加到嵌入向量中,使得嵌入向量能够包含位置信息。得到的张量仍然是 \((N, L, d_{\text{embedding}})\)。

4. 线性变换或直接映射

        为了将嵌入向量的维度从 \(d_{\text{embedding}}\) 转换为 \(d_{\text{model}}\),有两种常见的方法:
(1)直接设置

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值