ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting

本文介绍了一种新框架CoTGenius,用于改进大型语言模型的Chain-of-Thought(CoT)提示,以解决复杂推理任务。通过复杂化、多样化和特定化的进化策略以及过滤机制,CoTGenius能生成高质量CoT数据集,用于微调模型ChainLM。此外,引入步骤级辩论方法减少推理中的累积误差。实验显示,ChainLM在复杂推理任务上的表现优于现有模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting》的翻译。

ChainLM:用改进的思想链提示为大型语言模型赋能

摘要

思维链提示可以增强大型语言模型的推理能力,成为解决复杂推理任务的主要方法。现有的CoT合成方法通常侧重于更简单的推理任务,从而导致低质量和不一致的CoT提示。为了应对这一挑战,我们对CoT提示进行了实证研究,并介绍了CoTGenius,这是一种用于自动生成高级CoT提示的新框架。CoTGenius是基于三种主要的进化策略开发的,即复杂化、多样化和特定化,以及两种过滤机制:进化成功判断和正确性验证。我们进一步使用CoTGenius来创建一个广泛的CoT数据集,并随后在此数据集上微调Llama 2-Chat 7B和13B模型。我们将生成的模型称为ChainLM。为了解决推理步骤中的累积错误问题,我们提出了一种步骤级辩论方法,其中多个辩手讨论每个推理步骤以得出正确答案。大量实验表明,与现有模型相比,我们的ChainLM模型在解决一系列复杂推理问题方面表现出更强的熟练度。此外,我们还深入分析了CoTGenius中数据类别对模型性能的影响。我们在https://github.com/RUCAIBox/ChainLM发布数据集和代码.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值