Transformer

WRTD

已于 2024-09-19 16:34:37 修改

阅读量646

点赞数 24

CC 4.0 BY-SA版权

文章标签： transformer 深度学习人工智能

于 2024-09-13 11:31:16 首次发布

本文链接：https://blog.csdn.net/weixin_40064515/article/details/142201431

Transformer其实就是attention的一个堆叠

从一个宏观的角度，去看transformer到底在干嘛，然后在细分，再做总结

整体框架：

编码器到解码器

序列到序列

分成两部分，

机器翻译流程

给一个输入，给出一个输出，

“我是一个学生”---》》 I am a student

编码器在干什么？编码器把输入变成一个词向量（self-attention）

解码器：得到编码器输出的词向量后，生成翻译的结果

Nx的意思是，编码器里面又有N 个小编码器（N=6）

通过六个编码器，对词向量一步又一步的强化（增强）

了解Transformer就是了解Transformer里的小的编码器和小的解码器

FFN(Feed Forward):w2((w1x+b1))+b2

总结：可以用到所有的领域

视频向量，都要通过预训练的方式得到词向量，计算机不认识。

seq（编码器）2seq（解码器）

1，通过编码器对序列进行向量化（词向量）

2，把词向量输入解码器，得到结果（生成单词）

编码器包括两个子层，一个是self-attention,feed Forward

每一个子层的传输过程中都会有一个残差网络+归一化。

Thinking--得到x1（词向量，可以通过one-hot，word2vec得到）+叠加位置编码给x1赋予位置属性，然后得到黄色的x1，-》输入到self-attention子层中，做注意力机制（x1,x2拼接起来的一句话做），得到z1（x1与x1,x2拼接起来的句子做了自注意力机制的词向量，表征的仍