本文是LLM系列文章,针对《rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking》的翻译。
摘要
我们提出rStar Math来证明小型语言模型(SLM)可以与OpenAI o1的数学推理能力相媲美甚至超越,而无需从高级模型中提炼出来。rStar Math通过蒙特卡洛树搜索(MCTS)进行“深度思考”来实现这一目标,其中数学策略SLM在基于SLM的过程奖励模型的指导下执行测试时间搜索。rStar Math引入了三项创新来应对训练两个SLM的挑战:(1)一种新的代码增强CoT数据合成方法,该方法执行广泛的MCTS部署,以生成用于训练策略SLM的逐步验证推理轨迹;(2) 一种新的过程奖励模型训练方法,避免了幼稚的步骤级分数标注,产生了更有效的过程偏好模型(PPM);(3) 一种自进化配方,其中策略SLM和PPM从头开始构建,并迭代进化以提高推理能力。通过4轮自我进化,为747k个数学问题提供了数百万个合成解,rStar math将SLM的数学推理提升到了最先进的水平。在MATH基准测试中,它将Qwen2.5-MATH-7B从58.8%提高到90.0%,将Phi3-mini-3.8B