deepseek各个版本及论文

以下是 DeepSeek 系列模型的主要版本及其相关论文列表,每条记录均附上论文地址:


  1. DeepSeek LLM
    发布时间:2024 年 1 月 5 日

论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

主要内容:

基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。

支持多步学习率调度器,提升训练效率。

在预训练和对齐(监督微调与 DPO)方面进行了创新。

论文地址:https://arxiv.org/abs/2401.0295420


  1. DeepSeekMoE
    发布时间:2024 年 1 月 11 日

论文标题:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

主要内容:

提出细粒度专家分割(Fine-Grained Expert Segmentation)和共享专家隔离(Shared Expert Isolation)策略。

通过更灵活的专家组合提升模型性能,同时保持计算成本不变。

论文地址:https://arxiv.org/abs/2401.060662


  1. DeepSeek-V2
    发布时间:2024 年 5 月

论文标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

主要内容:

引入多头潜在注意力(Multi-head Latent Attention, MLA)和 DeepSeekMoE 架构。

在推理效率和训练成本上进行了优化

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值