【Transformer】Rank Collapse

Transformer 架构凭借其强大的注意力机制,已成为构建现代基础模型(如大模型 LLM)的通用标准。 然而,深度“Rank Collapse”现象一直困扰着 Transformer 模型:随自注意力层数的增加,Token 表征趋于同质化,进而导致模型表达能力下降。 此问题亦被称为过平滑 (oversmoothing) 或 Token 一致性 (token uniformity) 问题。 

宽度Rank Collapse是指在单个注意力层内部,随着上下文长度的增加,所有Tokens的表征会趋向于塌缩至同一点。先前的工作已开始关注 Transformer 初始化阶段的Rank Collapse和梯度消失/爆炸问题。例如,Dong等人的研究表明,在仅包含注意力层的 Transformer 中,所有Tokens的表征会随着网络深度的增加以双指数速率收敛到同一个单一表征,即深度Rank Collapse。Noci等人则将Rank Collapse与梯度消失联系起来。但是,他们的分析基于一个前提假设,即“均匀注意力”(uniform attention),这实际上等同于假设宽度Rank Collapse已经发生,而未能解释其发生的根本原因。

更深入探究Rank Collapse问题并理解多层模型中自注意力的影响,研究 Token 在自注意力动力学下的长期行为已变得非常重要。

《On the Role of Attention Masks and LayerNorm in Transformers》的实验结果有力地支持了理论分析的发现:注意力掩码的局部性可以减缓深度Rank Collapse;LayerNorm 在防止Rank Collapse方面扮演着比以往认知更复杂和积极的角色,它不仅可以阻止表征完全塌缩,还能在保持高秩的同时允许各向异性表征的存在。

《Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers》通过对 i.i.d. Markov 矩阵(softmax 注意力矩阵是其特例)的谱特性进行深入研究,本文首次揭示并证实了“宽度Rank Collapse”这一新现象。研究指出,宽度Rank Collapse是由注意力矩阵谱中的一个谱隙驱动的,并且它会进一步加剧已知的深度Rank Collapse以及梯度爆炸问题。

  • 秩1矩阵可表为A=uvT,只能表示一个方向的变化,严重限制表达力。
  • 在嵌入映射中,所有样本被映射到一条直线/一个方向,区分性丧失。

references:

NeurIPS 2024 || 论注意力掩码与 LayerNorm 在 Transformer 中的作用

arXiv:2410|注意力层中秩崩溃与信号传播的谱分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值