本文是LLM系列文章,针对《TRAINING-FREE ACTIVATION SPARSITY IN LARGE LANGUAGE MODELS》的翻译。
大型语言模型中的免训练激活稀疏性
摘要
激活稀疏性可以通过减少前向传递期间矩阵乘法所需的计算和内存移动,在大型语言模型 (LLM) 中实现实际推理加速。然而,现有方法面临阻碍广泛采用的局限性。一些方法是为具有基于 ReLU 的稀疏性的旧模型量身定制的,而另一些方法则需要对多达数千亿个token进行广泛的持续预训练。本文描述了 TEAL (大模型中的无需训练激活稀疏性),这是一种简单的免训练方法,将基于幅度的激活稀疏性应用于整个模型中的隐藏状态。TEAL 在 Llama-2、Llama-3 和 Mistral 系列(大小从 7B 到 70B 不等)中实现了 40-50% 的模型范围稀疏性,并且性能下降最小。我们改进了现有的稀疏内核,并展示了在 40% 和 50% 模型范围的稀疏度下,挂钟解码速度提高了 1.53× 和 1.8×。TEAL 与重量量化兼容,可进一步提高效率。