本文是LLM系列文章,针对《A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODEL》的翻译。
摘要
使大型语言模型(LLM)能够处理更广泛的复杂任务(例如编码、数学)引起了许多研究人员的极大关注。随着LLM的不断发展,增加模型参数的数量会降低性能改进和计算成本。最近,OpenAI的o1模型表明,推理策略(即测试时计算方法)也可以显著增强LLM的推理能力。然而,这些方法背后的机制尚未被探索。在我们的工作中,为了研究o1的推理模式,我们使用OpenAI的GPT-4o作为三个领域(即数学、代码和常识推理)的一般推理基准的骨干,将o1与现有的测试时计算方法(BoN、逐步BoN、代理工作流和自精炼)进行了比较。具体来说,首先,我们的实验表明,o1模型在大多数数据集上都取得了最佳性能。其次,对于搜索不同响应的方法(例如BoN),我们发现奖励模型的能力和搜索空间都限制了这些方法的上限。第三,对于将问题分解为许多子问题的方法,由于特定领域的系统提示可以规划更好的推理过程,Agent工作流比分步BoN具有更好的性能。第四,我们总结了o1的六种推理模式,并对不同的推理基准进行了详细分析。最后,