DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

综述

本文介绍第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,无需监督微调 (SFT) 作为初步步骤,表现出卓越的推理能力。通过 RL,DeepSeek-R1-Zero 自然呈现出许多强大推理行为。然而,它面临着可读性差和语言混合等挑战。

为了解决这些问题并进一步提高推理性能,推出 DeepSeek-R1,它在 RL 之前结合多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上实现与 OpenAI-o1-1217 相当的性能。
为了支持研究社区,开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。其基准性能如下图所示:
在这里插入图片描述

先概括说说DeepSeek-R1是什么,大致干了什么:
①:以671B参数的DeepSeek-V3-Base为起点,直接对预训练模型进行reasoning任务的强化学习,获得DeepSeek-R1-Zero,发现效果比单纯SFT更好,说明强化学习的self-evolution很有效果
②:DeepSeek-R1-Zero虽然效果好,但是有一些小问题比如语言问题和格式问题,那么在强化学习RL之前,先做SFT,就可以缓解这些问题了
③:②的方法得到的模型的reasoning效果很好,那就用它来搞reasoning数据;再加上DeepSeek-V3的SFT数据中的non-reasoning部分,合在一起获得高质量的SFT数据
④:③中的数据用来对DeepSeek-V3-Base做微调,之后再进行RL,得到效果最好的模型DeepSeek-R1
⑤:用③中的数据对Qwen/Llama模型进行SFT,可以视作是数据蒸馏;得到的模型效果也比非蒸馏的SFT要好

2.训练pipeline
DeepSeek-R1技术报告给出了几个模型的训练流程,DeepMind的大佬给训练流程画了图,原图在这里
左路就是DeepSeek-R1-Zero的训练(上面的①),中路是基于SFT和RL搞数据(上面的③),获得800k Combined SFT data之后,左边是对Qwen和Llama进行蒸馏(上面的⑤),右边就是训练DeepSeek-R1(上面的④)。
在这里插入图片描述

一: 介绍

近年来,大语言模型 (LLM) 经历快速迭代和演进(Anthropic,2024;Google,2024;OpenAI,2024a),与通用人工智能 (AGI) 的差距正在逐步缩小。

最近,后训练已成为完整训练流程的重要组成部分。事实证明,它可以提高推理任务的准确性、与社会价值观保持一致并适应用户偏好,同时与预训练相比,所需的计算资源相对较少。在推理能力方面,OpenAI o1(OpenAI,2024b)系列模型首次通过增加思维链推理过程的长度来引入推理时间扩展。这种方法在数学、编码和科学推理等各种推理任务中取得显着的改进。然而,有效的测试时间扩展的挑战,仍然是研究界的一个悬而未决的问题。之前已有多项研究探索各种方法,包括基于过程的奖励模型(Lightman,2023;Uesato,2022;Wang,2023)、强化学习(Kumar,2024)以及蒙特卡洛树搜索和波束搜索等搜索算法(Feng,2024;Trinh,2024;Xin,2024)。然而,这些方法都没有达到与 OpenAI o1 系列模型相当的通用推理性能。

先前的研究严重依赖大量监督数据来提高模型性能。本研究即使不使用监督微调 (SFT) 作为冷启动,大规模强化学习 (RL) 也可以显著提高推理能力。此外,通过加入少量冷启动数据可以进一步提高性能。包括:
(1) DeepSeek-R1-Zero,它将 RL 直接应用于基础模型,而无需任何 SFT 数据;
(2) DeepSeek-R1,它从使用数千个长思维链 (CoT) 示例微调的检查点开始应用 RL。
(3) 将 DeepSeek-R1 的推理能力提炼到小型密集模型中。

在本文中,我们迈出了使用纯强化学习 (RL) 提高语言模型推理能力的第一步。我们的目标是探索 LLM 在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯 RL 过程进行自我进化。
具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO(Shao 等,2024)作为 RL 框架来提高模型在推理方面的性能。在训练过程中,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。经过数千个 RL 步骤后,DeepSeek-R1-Zero 在推理基准上表现出超强的性能。例如,AIME 2024 上的 pass@1 分数从 15.6% 增加到 71.0%,并且在多数投票的情况下,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的性能相当。
然而,DeepSeek-R1-Zero 遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它结合了少量冷启动数据和多阶段训练管道。具体来说,我们首先收集数千个冷启动数据来微调DeepSeek-V3-Base 模型。然后,我们执行面向推理的 RL,例如 DeepSeek-R1-Zero。在 RL 过程接近收敛后,我们通过对 RL 检查点进行拒绝采样来创建新的 SFT 数据,并结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek-V3-Base 模型。在使用新数据进行微调后,检查点将经历额外的 RL 过程,考虑到所有场景的提示。完成这些步骤后,我们获得了一个称为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。
我们进一步探索从 DeepSeek-R1 到更小的密集模型的提炼。使用 Qwen2.5-32B (Qwen, 2024b) 作为基础模型,DeepSeek-R1 的直接蒸馏效果优于在其上应用 RL。这表明,更大的基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的 Qwen 和 Llama (Dubeyet al., 2024) 系列。值得注意的是,我们蒸馏后的 14B 模型的表现远胜于最先进的开源QwQ-32B-Preview (Qwen, 2024a),而蒸馏后的 32B 和 70B 模型在密集模型的推理基准上创下了新纪录。

1.1 贡献

1.1.1 后训练:在基础模型上进行大规模强化学习

  • 我们直接将 RL 应用于基础模型,而无需依赖监督微调 (SFT) 作为初步步骤。这种方法允许模型探索解决复杂问题的思路链 (CoT),从而开发出 DeepSeek-R1-Zero。DeepSeek R1-Zero 展示了自我验证、反思和生成长 CoT 等功能,标志着研究界的一个重要里程碑。值得注意的是,这是第一个公开研究,验证了 LLM 的推理能力可以纯粹通过 RL 来激励,而无需 SFT。这一突破为该领域的未来发展铺平了道路。
  • 我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信,通过创建更好的模型,该流程将使行业受益。

1.1.2 蒸馏:较小的模型也可以很强大

  • 我们证明,较大模型的推理模式
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值