本文是LLM系列文章,针对《LoRAMoE: Alleviating World Knowledge Forgetting in Large Language Models via MoE-Style Plugin》的翻译。
摘要
监督微调(SFT)是大型语言模型(LLM)的关键步骤,使其能够与人类指令保持一致,并增强其在下游任务中的能力。大幅增加指令数据是使模型与更广泛的下游任务对齐或显著提高其在特定任务上的性能的直接解决方案。然而,我们发现指令数据的大规模增加会破坏以前存储在LLM中的世界知识。为了应对这一挑战,我们提出了LoRAMoE,这是一个新颖的框架,引入了几个低秩适配器(LoRA),并通过使用路由器网络将它们集成在一起,就像混合专家(MoE)的插件版本一样。它冻结了骨干模型,并迫使部分LoRA专注于利用世界知识来解决下游任务,以减轻世界知识遗忘。实验结果表明,随着指令数据的增加,LoRAMoE可以显著提高处理下游任务的能力,同时保持LLM中存储的世界知识。