rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

本文是LLM系列文章,针对《rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking》的翻译。

rStar Math:小型LLMs可以通过自我进化的深度思维掌握数学推理

摘要

我们提出rStar Math来证明小型语言模型(SLM)可以与OpenAI o1的数学推理能力相媲美甚至超越,而无需从高级模型中提炼出来。rStar Math通过蒙特卡洛树搜索(MCTS)进行“深度思考”来实现这一目标,其中数学策略SLM在基于SLM的过程奖励模型的指导下执行测试时间搜索。rStar Math引入了三项创新来应对训练两个SLM的挑战:(1)一种新的代码增强CoT数据合成方法,该方法执行广泛的MCTS部署,以生成用于训练策略SLM的逐步验证推理轨迹;(2) 一种新的过程奖励模型训练方法,避免了幼稚的步骤级分数标注,产生了更有效的过程偏好模型(PPM);(3) 一种自进化配方,其中策略SLM和PPM从头开始构建,并迭代进化以提高推理能力。通过4轮自我进化,为747k个数学问题提供了数百万个合成解,rStar math将SLM的数学推理提升到了最先进的水平。在MATH基准测试中,它将Qwen2.5-MATH-7B从58.8%提高到90.0%,将Phi3-mini-3.8B

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值