
深度学习
文章平均质量分 96
初学深度学习
Yorelee.
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
注意力机制和Transformer模型各部分功能解释
因此,在Decoder中,输入主要是基于到目前为止已经生成的输出序列(加上位置信息),而这些输入通过Decoder的多层结构进行处理,每层都包括掩蔽自注意力、编码器-解码器自注意力和前向馈网络,以生成最终的输出序列。这种结构设计使得Transformer能够在考虑到整个输入序列的上下文的同时,逐步构建输出序列。原创 2024-06-18 21:40:37 · 1328 阅读 · 0 评论 -
Pytorch:Attention理解和代码实现
文章目录一、Attention原理核心点1、Self-Attentiona.核心原始形态b.self-Attention使用相同的矩阵是否可行?2、常见的注意力机制1. 自注意力机制(Self-Attention)2. 多头注意力(Multi-Head Attention)3. 序列到序列的注意力(Seq2Seq Attention)4. 点积注意力(Dot-Product Attention)5. 加性注意力(Additive Attention)或串联注意力(Concat Attention)6. 卷积原创 2024-04-27 22:01:34 · 5007 阅读 · 0 评论