本文是LLM系列文章,针对《ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting》的翻译。
摘要
思维链提示可以增强大型语言模型的推理能力,成为解决复杂推理任务的主要方法。现有的CoT合成方法通常侧重于更简单的推理任务,从而导致低质量和不一致的CoT提示。为了应对这一挑战,我们对CoT提示进行了实证研究,并介绍了CoTGenius,这是一种用于自动生成高级CoT提示的新框架。CoTGenius是基于三种主要的进化策略开发的,即复杂化、多样化和特定化,以及两种过滤机制:进化成功判断和正确性验证。我们进一步使用CoTGenius来创建一个广泛的CoT数据集,并随后在此数据集上微调Llama 2-Chat 7B和13B模型。我们将生成的模型称为ChainLM。为了解决推理步骤中的累积错误问题,我们提出了一种步骤级辩论方法,其中多个辩手讨论每个推理步骤以得出正确答案。大量实验表明,与现有模型相比,我们的ChainLM模型在解决一系列复杂推理问题方面表现出更强的熟练度。此外,我们还深入分析了CoTGenius中数据类别对模型性能的影响。我们在https://github.com/RUCAIBox/ChainLM发布数据集和代码.