本文是LLM系列文章,针对《Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models》的翻译。
摘要
Kullback-Leiber散度在知识蒸馏(KD)中被广泛用于压缩大型语言模型(LLMs)。与之前的断言相反,即反向Kullback-Leibler(RKL)散度是模式寻求的,因此优于均值寻求的正向Kullback-Leibler(FKL)散度,这项研究从经验和理论上证明,LLM的KD中既没有模式寻求也没有均值寻求性质。相反,RKL和FKL被发现具有相同的优化目标,并且都在足够多的迭代周期后收敛。然而,由于实际限制,LLM很少针对如此广泛的时间段进行训练。同时,我们进一步发现,RKL关注分布的尾部,而FKL关注分布开始时的头部。因此,我们提出了一种简单而有效的自适应Kullback-Leiber(AKL)散度方法,该方法自适应地分配权重以组合FKL和RKL。基于度量和GPT4的评估表明,所提出的AKL在各种任务中都优于基线,并提高了生成响应的多样性和质量。