本文是LLM系列文章,针对《Simple and Scalable Strategies to Continually Pre-train Large Language Models》的翻译。
摘要
大型语言模型(LLM)通常在数十亿个token上进行预训练,只有在新数据可用时才能重新开始这个过程。一个更有效的解决方案是不断地预训练这些模型——与重新训练相比,节省了大量的计算量。然而,由新数据引起的分布偏移通常会导致先前数据的性能下降或对新数据的适应性差。在这项工作中,我们表明,学习率(LR)重新升温、LR重新衰减和先前数据重放的简单且可扩展的组合足以匹配在所有可用数据上从头开始完全重新训练的性能,如通过最终损失和几个语言模型(LM)评估基准的平均分数来衡量的。具体而言,我们展示了两个常用LLM预训练数据集(英语→英语)之间的弱但现实的分布偏移,以及在405M参数模型规模下具有大数据集大小(数千亿个令牌)的更强分布偏移(英语→德语)。为更大规模的实验选择弱但现实的转变,我们还发现我们的持续学习策略与10B参数LLM的重新训练基线相匹配。我们的结果表明,LLM可以通过简单且可扩展的持续学习策略成功更新,只需使用一小部分计算即可匹配重新训练基线。最后,受先前工作的启发,我们提出了余弦学习率时间表的替代方案ÿ