不同于CNN,RNN,对于Transformer模型,Attention模块是无法捕捉输入顺序的,即无法区分不同位置的Token 1.想办法将位置信息融入到输入中,这构成了绝对位置信息的一般做法 2.微调Attention结构,使它有能力分辨不同位置的token 绝对位置编码 绝对位置编码会将位置信息加到输入中: x k + p o s k x_k+pos_k xk+posk, p o s k pos_k p