主要内容
- 研究背景:强化学习与可验证奖励(RLVR)在提升大语言模型(LLMs)推理能力方面备受关注,但它是否真能让模型获得超越基础模型的推理能力有待研究。
- 研究方法:通过使用pass@k指标,在多种模型、RL算法和数学/编程基准测试上评估基础模型和RL训练模型的推理能力边界。
- 实验结果
- 大k值下基础模型表现更优:在数学、代码生成和视觉推理任务中,当k值较小时,RL训练模型表现优于基础模型;但随着k值增大,基础模型的pass@k得分超过RL训练模型,说明基础模型可解决问题的覆盖范围更广。
- RLVR提升采样效率但缩小推理边界:RLVR通过使模型偏向高奖励推理路径来提高采样正确推理路径的可能性,但这也降低了模型的探索能力,缩小了推理边界。
- 不同RL算法效果差异不大且远非最优:不同RL算法在提升采样效率上仅有细微差异,且都远未达到最优。
- 蒸馏可扩展推理边界:与RLVR不同,蒸馏能为模型引入新知识,扩展模型的推理边界。