Transformer03：位置编码（Positional Encoding）

原创

于 2024-03-19 23:49:55 发布 · 1.6k 阅读

·

11

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #python

本文详细解释了Transformer模型中位置编码的作用，它如何解决注意力机制忽视顺序的问题，以及通过正弦余弦函数实现的数学原理。还通过代码展示了位置编码的生成和应用，以及与词嵌入的区别和重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer模型自2017年提出以来，已经彻底改变了自然语言处理（NLP）领域。与传统的循环神经网络（RNN）和长短期记忆网络（LSTM）不同，Transformer完全依赖于注意力机制来处理序列数据，这使得它在处理长文本时更加高效和准确。然而，注意力机制本身不考虑序列中元素的位置，这就需要一个额外的组件来引入这种顺序信息——位置编码。

1. 位置编码的基本概念

位置编码的目的是向模型提供每个词在序列中位置的信息，这对于理解语言结构和意义至关重要。在没有位置信息的情况下，模型将无法区分“John loves Mary”和“Mary loves John”之间的差异，因为仅从词的角度看，这两个句子是相同的。位置编码通过向每个词的嵌入向量添加唯一的位置向量来解决这个问题，确保即使是相同的词，在不同位置时它们的表示也是不同的。

位置编码通过向模型提供关于序列中每个元素位置的信息，使得基于注意力的架构能够有效地处理语言等顺序数据。

2. 位置编码的数学原理

Transformer模型中使用的位置编码是通过一组正弦和余弦函数生成的，这些函数具有不同的频率。对于每个维度 $i$ ，位置 $pos$ 的编码由以下公式给出：

$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$

$PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$

其中， $pos$ 是词汇在序列中的位置， $i$ 是维度的索引，而

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

White白小纯 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。