本系列文章围绕以下几个主题来详细解读Transformer和BERT的原理和发展
- Transformer 模型详解
- Transformer在CV,NLP,推荐系统的发展与应用
- BERT模型详解
- BERT最新发展与应用
更多内容请关注公众号:AliceWanderAI
本篇文章:Transformer模型详解
- 整体结构
- Encoder
- Decoder
- Positional Encoding
- Self Attention
- Add & Norm
1. 整体结构
Transformer主要由两大部分组成:Encoder & Decoder.
Encoder-Decoder模型可以基于CNN/RNN来构建。而Transformer是完全采用Self Attention机制来构建Encoder-Decoder模型结构的。
如下图所示。左边是Encoder的结构,它将输入Inputs 映射成隐藏层的输出,隐藏层的输出作为Decoder的输入的一部分,再解码成为自然语言序列。
2. Encoder
由Figure1 可以看出,Encoder的构件包括:
- Input Embedding
- Posit