START: Self-taught Reasoner with Tools

摘要

大型推理模型(LRM)如OpenAI-o1和DeepSeek-R1通过使用长思维链(CoT)在复杂推理任务中表现出显著能力。然而,这些模型由于仅依赖内部推理过程,往往会出现幻觉和效率低下的问题。在本文中,我们介绍了START(带工具的自学习推理器),这是一种新型的工具集成长CoT推理LLM,通过利用外部工具显著增强了推理能力。通过代码执行,START能够执行复杂计算、自我检查、探索多种方法和自我调试,从而解决LRM的局限性。START的核心创新在于其自学习框架,该框架包括两项关键技术:1)提示推理(Hint-infer):我们证明,在LRM的推理过程中插入人工设计的提示(例如,“等等,也许在这里使用Python是个好主意。”)可以有效激发其利用外部工具的能力,而无需任何演示数据。提示推理还可以作为一种简单有效的顺序测试时缩放方法;2)提示拒绝采样微调(Hint-RFT):Hint-RFT结合了提示推理和RFT,通过对LRM通过提示推理生成的带有工具调用的推理轨迹进行评分、过滤和修改,然后对LRM进行微调。通过这个框架,我们对QwQ-32B-Preview模型进行了微调,得到了START。在博士水平的科学问答(GPQA)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值