本文是LLM系列文章,针对《Let’s Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language Model》的翻译。
摘要
大型语言模型(LLM)由表现出各种行为和角色的神经元组成,随着模型的扩展,这些行为和角色变得越来越多样化。最近的研究表明,并非所有神经元在不同的数据集中都是活跃的,这种稀疏性与特定任务的能力呈正相关,从而提高了模型修剪和训练效率。传统的微调方法涉及LLM的所有参数,这在计算上是昂贵的,并且可能不是必要的。相反,参数有效微调(PEFT)方法旨在最大限度地减少可训练参数的数量,但它们仍然在相对宏观的尺度上运行(例如,层级别)。我们引入了神经元级微调(NeFT),这是一种新的方法,可以将参数训练的粒度细化到单个神经元,从而实现更精确和计算高效的模型更新。实验结果表明,NeFT不仅超过了全参数微调和PEFT的性能,而且为神经元的分析提供了见解。