LLM:deepspeed zero-2时模型训练所占显存分析

前置:

fp16占2字节,fp32占4字节。换算就是1B的参数量,以fp16表示,占2G的内存。
模型参数为32B

全量微调:

模型参数:fp16的模型前向传播副本。fp32的模型的优化参数副本。这就是32 x 2+32 x 4=192G
梯度:fp16的模型梯度。32 x 2=64G
优化器状态:fp32的一阶动量和二阶矩。32 x 4+32 x 4=256G
总计:512G

lora:

上面是全量微调的,如果用lora,r为8,则
在这里插入图片描述
在这里插入图片描述

冻结的模型参数(FP16):32 x 2=64 GB
LoRA 增量参数:fp16的参数:87.36 M×2 字节≈174.72 MB;fp32的参数(:87.36 M×4 字节≈349.44 MB
LoRA 参数的梯度(FP16):87.36 M×2 字节≈174.72 MB
lora参数的优化器状态:87.36 M×4 字节 + 87.36 M×4 字节 ≈ 698.88 MB

总占用:65.4G
冻结的模型参数(FP16):64 GB
LoRA 参数及其 FP32 副本:524.16 MB
梯度(LoRA 参数,FP16):174.72 MB
优化器状态(LoRA 参数,FP32 一阶和二阶动量):698.88 MB

全量微调——zero-2

zero-2对优化器状态进行了分片,假设两张卡。
每张卡:
模型参数:fp16的模型前向传播副本。fp32的模型的优化参数副本。这就是32 x 2+32 x 4=192G
梯度:fp16的模型梯度。32 x 2=64G
优化器状态:fp32的一阶动量和二阶矩。(324+324)/2=256G/2=128G
总计:384G

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灵海之森

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值