DeepSeek-V3的横空出世,用一组惊人的数据完美诠释了这句话。
当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时,DeepSeek-V3用557.6万美元的预算,在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间,就达到了足以与它们比肩的性能
这个数字意味着什么?每万亿tokens仅需180K个H800 GPU小时,总计278万 GPU小时的训练成本。而Llama 3.1的训练使用了16,384块Nvidia H100 GPU,总计2100多万GPU小时,翻了十倍。
通过671B的总参数量,在每个token激活37B参数的精准控制下,DeepSeek-V3用14.8万亿高质量多样化token,构建出了一个能够超越所有开源模型,直逼GPT-4和Claude-3.5的AI巨人。
推特上赞叹一片。
OpenAI早期成员安德烈·卡帕西(Andrej Karpathy)就表示DeepSeek-V3的出现也许意味着不需要大型GPU集群来训练前沿的大语言模型。它表明大模型在数据和算法方面仍有很大的