Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

主要内容

  1. 研究背景:强化学习与可验证奖励(RLVR)在提升大语言模型(LLMs)推理能力方面备受关注,但它是否真能让模型获得超越基础模型的推理能力有待研究。
  2. 研究方法:通过使用pass@k指标,在多种模型、RL算法和数学/编程基准测试上评估基础模型和RL训练模型的推理能力边界。
  3. 实验结果
    • 大k值下基础模型表现更优:在数学、代码生成和视觉推理任务中,当k值较小时,RL训练模型表现优于基础模型;但随着k值增大,基础模型的pass@k得分超过RL训练模型,说明基础模型可解决问题的覆盖范围更广。
    • RLVR提升采样效率但缩小推理边界:RLVR通过使模型偏向高奖励推理路径来提高采样正确推理路径的可能性,但这也降低了模型的探索能力,缩小了推理边界。
    • 不同RL算法效果差异不大且远非最优:不同RL算法在提升采样效率上仅有细微差异,且都远未达到最优。
    • 蒸馏可扩展推理边界:与RLVR不同,蒸馏能为模型引入新知识,扩展模型的推理边界。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值