第四篇：一文搞懂Transformer架构的三种注意力机制

最新推荐文章于 2025-07-09 15:45:07 发布

AIwithGary

最新推荐文章于 2025-07-09 15:45:07 发布

阅读量1.6k

点赞数 42

CC 4.0 BY-SA版权

分类专栏：跟加里学AI 文章标签： ai chatgpt transformer 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2402_82802238/article/details/136840950

本文详细阐述了Transformer架构中的注意力机制，包括自注意力、交叉注意力、因果注意力，以及位置编码和多头注意力的原理和应用。通过实例和数学公式解释了这些组件如何在模型中工作，以提升NLP和LLM的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本系列文章致力于用最简单的语言讲解Transformer架构，帮助朋友们理解它的强大力量，本文是第四篇：注意力机制，它是Transformer的核心组件。

大家对注意力机制多少都有所耳闻，毕竟在自然语言处理（NLP）和大型语言模型（LLM）领域，2017年，《Attention Is All You Need》这篇论文是里程碑式的存在；几乎所有的LLM都是基于注意力机制构建的，甚至最新的多模态或基于视觉的模型也在某种程度上都运用了它；今天，我们将深入探讨注意力机制。

01 什么是注意力

当人类的视觉机制察觉到一个物体时，通常不会从头到尾地扫视整个场景；一般会根据个人的需求集中关注特定的部分。

比如下面这张图，我们第一眼应该是看到一只动物，然后，眼睛会先注意到动物的脸，然后得出初步结论，这应该是一只狼；就像右边注意力图所示，颜色更深的部分表示一般是我们人类最先看见（注意）的。

注意力最早应用在机器视觉领域（CV，Computer Vision），后来才应用到NLP和LLM领域。

多头（2头）自注意力可视化：

如下动画所示，注意力在Transformer中，被应用于机器翻译：

02 Transformer的注意力层

在Transformer架构中，有两大的组件,分别是编码器（Encoder）和解码器（Decoder），编码器主要是将输入序列映射到潜在语义空间（注意力向量，也叫上下文向量，但其实上下文向量是注意力机制内部对输入向量的叫法，本文中编码器输出向量都只叫作注意力向量，以示区分），而解码器则是将潜在语义空间（注意力向量）映射到输出序列。

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄2年

12
原创

374
点赞

327
收藏

261
粉丝

关注

私信

热门文章

分类专栏

跟加里学AI 10篇

上一篇：: 第三篇：ChatGPT背后强大而神秘的力量，用最简单的语言讲解Transformer架构之Tokenizer

下一篇：: 一文彻底搞懂Transformer的输入（附代码）

最新评论

一文搞懂Transformer自注意力机制（图文代码详解）
qq_41728243: 您好，写的太清晰啦，小白表示非常赞。我有个问题，在计算单头注意力，缩放后的结果矩阵应用softmax操作时，softmax（0.2603）的公式写错了，应该是行内所有数间计算softmax，不是列间所有数计算softmax吧？谢谢
一文彻底搞懂Transformer的输入（附代码）
Lily_wangxiaohui: 请问这个位置嵌入矩阵的第一行不应该是[0,1,0,1,0,1]
第四篇：一文搞懂Transformer架构的三种注意力机制
北方的狼653: 这个专栏不错
一文搞懂深度学习：最全神经网络介绍
CSDN-Ada助手: 恭喜您写了第12篇博客，“一文搞懂深度学习：最全神经网络介绍”！您对深度学习的介绍确实非常全面，让读者能够快速了解神经网络的基本概念和原理。希望您能继续保持创作的热情，分享更多有趣且有深度的内容。下一步建议可以考虑深入探讨深度学习在不同领域的应用案例，或者分享一些实践经验和技巧，让读者更加深入地了解这个领域。期待您的更多精彩作品！
一文搞懂Transformer解码器（图文详解）
CSDN-Ada助手: 恭喜您写了第10篇博客！标题为“一文搞懂Transformer解码器（图文详解）”的内容看起来非常有趣和有用。希望您能继续保持创作的热情和努力，为读者带来更多优质的内容。或许在接下来的创作中，可以深入探讨Transformer解码器的应用案例或者与其他相关主题进行比较，让读者能够更全面地了解这一领域。期待您的下一篇作品！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。