本文是LLM系列文章,针对《An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models》的翻译。
摘要
大型语言模型(LLM)在模型大小和计算预算方面的最佳训练配置已经得到了广泛的研究。但是,如何在推理过程中优化配置LLM还没有得到足够深入的探索。我们研究计算最优推理:设计模型和推理策略,以最佳地权衡额外的推理时间计算以提高性能。作为理解和设计计算最优推理方法的第一步,我们评估了贪婪搜索、多数投票、最佳N、加权投票等多种推理策略及其变体在两种不同的树搜索算法上的有效性和计算效率,涉及不同的模型大小和计算预算。我们发现,具有新颖树搜索算法的较小语言模型通常可以实现帕累托最优权衡。这些结果突显了在预算受限的场景中(例如在终端设备上)部署配备更复杂解码算法的较小模型以提高问题解决准确性的潜在好处。例如,我们证明,在MATH500上,Llemma-7B模型可以在使用2×更少的FLOP的情况下达到与Llemma-34B模型相当的精度。我们的发现可能适用于任何具有明确成功衡量标准的发电任务。