大模型面试(一)千问模型使用了QKV bias,怎么做的,有什么作用,为什么能起作用?
在当前大语言模型(LLM)技术日新月异的背景下,模型在处理超长文本时的外推性(extrapolation)成为了一个关键的挑战和研究热点。如果你正在准备大模型相关的面试,那么理解QKV Bias的原理、作用及其实现方式,无疑会为你的回答增色。
面临的挑战:注意力分散与长度外推
我们知道,Transformer模型的核心是自注意力机制(Self-Attention)。在原始的注意力机制中,当输入序列的长度超过模型在训练时见过的长度时,模型往往表现不佳。一个常见的问题是,随着序列变长,更多的Token会参与到注意力的计算中,导致注意力权重趋向于“平均化”,即注意力分布的熵增大。这种注意力分散会使得模型难以聚焦于关键信息,从而影响其在长文本上的理解和生成能力,这就是所谓的长度外推性问题。
旋转位置编码(RoPE)在一定程度上缓解了这个问题,它通过引入相对位置信息来提升模型的外推性。然而,研究发现,在RoPE的基础上进一步引入Bias项,可以更好地实现注意力的局部化,从而进一步提升模型的长度外推性能。
Qwen中的QKV Bias:如何实现?
如下图所示,Qwen在A