本文是LLM系列文章,针对《Direct Preference Knowledge Distillation for Large Language Models》的翻译。
摘要
在大型语言模型 (LLM) 领域,知识蒸馏 (KD) 是将功能从教师模型迁移到学生模型的关键技术。然而,现有的 KD 方法在蒸馏 LLM 方面面临局限性和挑战,包括效率和传统 KL 散度测量能力不足。结果表明,LLM 可以作为隐式奖励函数,我们将其定义为 KL 分歧的补充。在这项工作中,我们提出了 LLM 的直接偏好知识蒸馏 (DPKD)。我们将 LLM 的 KD 重新表述为两个阶段:首先优化和目标,包括隐性奖励和反向 KL 发散,然后提高教师产出对学生产出的偏好概率。我们对 LLM 参数范围从 120M 到 13B 的各种数据集进行了实验和分析,并证明了我们的 DPKD 方法的广泛适用性和有效性。同时,我们通过实验和理论分析证明了 KD 中引入的隐性奖励和输出偏好的价值和有效性。DPKD 方法在输出响应精度和精确匹配百分比方面都优于基线方法。代码和数据可在 https://aka.ms/dpkd上获得。