没有GPU Poor,只有卷得不够多:DeepSeek-V3的横空出世,用一组惊人的数据完美诠释了

DeepSeek-V3的横空出世,用一组惊人的数据完美诠释了这句话。

当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时,DeepSeek-V3用557.6万美元的预算,在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间,就达到了足以与它们比肩的性能

这个数字意味着什么?每万亿tokens仅需180K个H800 GPU小时,总计278万 GPU小时的训练成本。而Llama 3.1的训练使用了16,384块Nvidia H100 GPU,总计2100多万GPU小时,翻了十倍。

通过671B的总参数量,在每个token激活37B参数的精准控制下,DeepSeek-V3用14.8万亿高质量多样化token,构建出了一个能够超越所有开源模型,直逼GPT-4和Claude-3.5的AI巨人。

图片

推特上赞叹一片。

OpenAI早期成员安德烈·卡帕西(Andrej Karpathy)就表示DeepSeek-V3的出现也许意味着不需要大型GPU集群来训练前沿的大语言模型。它表明大模型在数据和算法方面仍有很大的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值