本文是LLM系列文章,针对《DISTILLM: Towards Streamlined Distillation for Large Language Models》的翻译。
摘要
知识蒸馏(KD)被广泛用于将教师模型压缩为较小的学生模型,在保留模型能力的同时降低其推理成本和内存占用。然而,当前用于自回归序列模型(例如,大型语言模型)的KD方法缺少标准化的目标函数。此外,最近使用学生生成的输出来解决训练推理不匹配的问题,显著增加了计算成本。为了解决这些问题,我们引入了DISTILLM,这是一个用于自回归语言模型的更有效的KD框架。DISTILLM包括两个组成部分:(1)一种新的偏斜Kullback-Leibler发散损失,我们在其中揭示并利用其理论特性;(2)一种自适应的非策略方法,旨在提高利用学生生成输出的效率。广泛的实验,包括指令跟随任务,证明了DISTILLM在构建高性能学生模型方面的有效性,同时与最近的KD方法相比,速度提高了4.3倍。