本文是LLM系列文章,针对《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》的翻译。
优化缩放LLM测试时间计算比缩放模型参数更有效
摘要
使LLM能够通过使用更多的测试时间计算来提高其输出,是构建可以在开放式自然语言上运行的一般自我改进代理的关键一步。在本文中,我们研究了LLM中推理时间计算的缩放,重点回答了一个问题:如果允许LLM使用固定但非微不足道的推理时间计算量,它在具有挑战性的提示下能提高多少性能?回答这个问题不仅对LLM的可实现性能有影响,而且对LLM预训练的未来以及如何权衡推理时间和预训练计算也有影响。尽管它很重要,但很少有研究试图了解各种测试时间推理方法的缩放行为。此外,目前的工作在很大程度上为其中一些策略提供了负面结果。在这项工作中,我们分析了两种主要的机制来扩展测试时间计算:(1)针对密集的、基于过程的验证者奖励模型进行搜索;以及(2)在测试时给出提示的情况下自适应地更新模型在响应上的分布。我们发现,在这两种情况下,缩放测试时间计算的不同方法的有效性因提示的难度而异。这一观察结果促使应用“计算最优”缩放策略,该策略可以最有效地为每个提示自适应地分配测试时间计算。使用这种计算优化策略,与最佳N基线相比,我们可以将测试时间计算缩放的效率提高4倍以上。此外ÿ