DeepSeek-V3是一个 Mixture-of-Experts (MoE) 混合专家模型,具有 6710 亿 总参数,其中每个 token 只激活 370 亿 参数。该模型采用了 多头潜在注意力 (MLA) 和 DeepSeekMoE 体系结构,并引入了 无辅助损失的负载均衡策略 以及 多 token 预测训练目标,以提高推理效率和训练成本效益。
论文摘要
作者提出了 DeepSeek-V3,一个强大的 MoE 语言模型,总参数量 671B(即 6710 亿),每个 token 仅激活 37B(370 亿)。为了实现高效推理和低成本训练,DeepSeek-V3 采用了 多头潜在注意力(MLA) 和 DeepSeekMoE 架构,这些架构已在 DeepSeek-V2 中得到充分验证。此外,DeepSeek-V3 首创了一种无辅助损失的负载均衡策略,并采用了多 token 预测训练目标以提升性能。我们在 14.8 万亿高质量 token 上进行了预训练,并结合监督微调(SFT)和强化学习(RL),充分发挥其能力。
全面评估表明,DeepSeek-V3 优于其他开源模型,并且在多个任务上达到与主流闭源模型(如 GPT-4o、Claude-3.5)相当的性能。尽管性能卓越,DeepSeek-V3 的完整训练仅需 278.8 万 H800 GPU 小时,训练过程 极其稳定,无不可恢复的损失突增或回滚。模型权重可在 GitHub 上获取:
🔗 GitHub - deepseek-ai/DeepSeek-V3。
论文主要内容
1. 简介
近年来,大型语言模型(LLM)迅速发展,越来越接近 通用人工智能(AGI)。除了闭源模型,开源模型(如 DeepSeek、LLaMA、Qwen、Mistral)也在不断进步。为了推动开源模型能力的极限,作者推出了 DeepSeek-V3,一个 超大规模 MoE 模型,总参数 671B,每个 token 激活 37B。
2. 体系结构
DeepSeek-V3 采用 Transformer 架构,并结合以下创新:
- 多头潜在注意力(MLA):降低 Key-Value (KV) 缓存需求,提高推理效率。
- DeepSeekMoE 负载均衡:去除传统 MoE 依赖的辅助损失,防止负载不均衡影响模型性能。
- 多 token 预测(MTP):改进训练目标,提高模型的整体推理能力。
3. 训练基础设施
DeepSeek-V3 在 2048 张 NVIDIA H800 GPU 组成的集群上训练,主要优化包括:
- FP8 混合精度训练:提高计算效率,减少显存占用。
- DualPipe 管道并行:减少计算-通信冲突,提高训练吞吐量。
- 跨节点通信优化:充分利用 InfiniBand(IB)和 NVLink,降低通信开销。
4. 预训练
- 在 14.8 万亿 token 上进行预训练,训练过程稳定,无需回滚。
- 最大上下文长度扩展至 128K,支持超长文本处理。
- 训练成本仅 278.8 万 GPU 小时,比传统方法更高效。
5. 微调与强化学习
- 监督微调(SFT):使模型更符合人类偏好。
- 强化学习(RLHF):结合 奖励模型(Reward Model),优化生成质量。
- 从 DeepSeek-R1 蒸馏推理能力,提升逻辑推理表现。
6. 评估结果
- 知识测试(MMLU、GPQA):DeepSeek-V3 优于所有开源模型,与 GPT-4o 和 Claude-3.5 接近。
- 数学 & 代码能力(MATH500、Codeforces):在 数学推理和编程任务上表现卓越,超越多数闭源模型。
- 推理能力:在长链推理(Chain-of-Thought, CoT)任务上取得突破。