Transformer其实就是attention的一个堆叠
从一个宏观的角度,去看transformer到底在干嘛,然后在细分,再做总结
整体框架:
编码器到解码器
序列到序列
分成两部分,
机器翻译流程
给一个输入,给出一个输出,
“我是一个学生”---》》 I am a student
编码器在干什么?编码器把输入变成一个词向量(self-attention)
解码器:得到编码器输出的词向量后,生成翻译的结果
Nx的意思是,编码器里面又有N 个小编码器(N=6)
通过六个编码器,对词向量一步又一步的强化(增强)
了解Transformer就是了解Transformer里的小的编码器和小的解码器
FFN(Feed Forward):w2((w1x+b1))+b2
总结:可以用到所有的领域
视频向量,都要通过预训练的方式得到词向量,计算机不认识。
seq(编码器)2seq(解码器)
1,通过编码器对序列进行向量化(词向量)
2,把词向量输入解码器,得到结果(生成单词)
编码器包括两个子层,一个是self-attention,feed Forward
每一个子层的传输过程中都会有一个残差网络+归一化。
Thinking--得到x1(词向量,可以通过one-hot,word2vec得到)+叠加位置编码给x1赋予位置属性,然后得到黄色的x1,-》输入到self-attention子层中, 做注意力机制(x1,x2拼接起来的一句话做),得到z1(x1与x1,x2拼接起来的句子做了自注意力机制的词向量,表征的仍