没有GPU Poor，只有卷得不够多：DeepSeek-V3的横空出世，用一组惊人的数据完美诠释了

已于 2025-01-02 11:32:58 修改

阅读量1.2k

点赞数 3

分类专栏： AI大模型原生应用开发与大数据云计算架构计算 ChatGPT 文章标签： deepseek gpt

于 2025-01-02 11:29:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/universsky2015/article/details/144882202

版权

AI大模型原生应用开发与大数据云计算架构同时被 3 个专栏收录

该专栏为热销专栏榜第22名

37043 篇文章 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

12733 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

7190 篇文章 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

DeepSeek-V3的横空出世，用一组惊人的数据完美诠释了这句话。

当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时，DeepSeek-V3用557.6万美元的预算，在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间，就达到了足以与它们比肩的性能

这个数字意味着什么？每万亿tokens仅需180K个H800 GPU小时，总计278万 GPU小时的训练成本。而Llama 3.1的训练使用了16,384块Nvidia H100 GPU，总计2100多万GPU小时，翻了十倍。

通过671B的总参数量，在每个token激活37B参数的精准控制下，DeepSeek-V3用14.8万亿高质量多样化token，构建出了一个能够超越所有开源模型，直逼GPT-4和Claude-3.5的AI巨人。

推特上赞叹一片。

OpenAI早期成员安德烈·卡帕西（Andrej Karpathy）就表示DeepSeek-V3的出现也许意味着不需要大型GPU集群来训练前沿的大语言模型。它表明大模型在数据和算法方面仍有很大的

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。