大模型推理 A40 vs A6000 谁更强 - 对比 Yi-34B 的单、双卡推理性能

最新推荐文章于 2025-03-11 16:11:39 发布

arkohut

最新推荐文章于 2025-03-11 16:11:39 发布

阅读量3.4k

点赞数 18

文章标签： llama 人工智能深度学习语言模型 python

本文链接：https://blog.csdn.net/arkohut/article/details/135613641

版权

本文通过对比A40和A6000在大语言模型推理中的性能，发现A6000在单卡和双卡模式下均表现出微弱优势，尤其在双卡情况下性能差异更大，推测可能是nvlink带宽的影响，需进一步评测确认。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

A40 和 A6000 从纸面数据来看基本是一模一样，但不知为啥 A40 在价格上就是比 A6000 要贵一点。这里我对比下两个卡进行大语言模型推理方面的性能差异。

这次用到了两个平台

autodl 这里有 A40 显卡
openbayes 这里有 A6000 显卡，并且他们的 A6000 显卡支持 nvlink 可以两个一组，获得 96G 显存

环境准备

安装依赖

pip install vllm modelscope

下载模型

from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('01ai/Yi-34B-Chat-4bits', cache_dir='autodl-tmp', revision='master', ignore_file_pattern='.bin')

在 openbayes 这边支持数据绑定，类似于 autodl 那边的网盘，可以提前把数据准备好，避免使用 gpu 时再去下载，浪费计算时。

下载 vllm 代码

# source /etc/network_turbo
git clone https://github.com/vllm-project/vllm
cd vllm/benchmarks

如果是在 autodl 则需要首先执行 source /etc/network_turbo 开启学术加速，而 openbayes 这边不需要。

查看 nvlink

openbayes 的 A6000 有双卡 nvlink 可以通过命令 nvidia-smi topo -m 查看，会显示 NV4 的连接，提供大约 112.5GB 的带宽。

benchmark

单卡测试

python benchmark_throughput.py \
    --backend vllm \
    --input-len 128 --output-len 512 \
    --model /root/autodl-tmp/01ai/Yi-34B-Chat-4bits \
    -q awq --num-prompts 50 --seed 1100 \
    --trust-remote-code \
    -tp 1 \
    --max-model-len 2048

双卡测试

python benchmark_throughput.py \
    --backend vllm \
    --input-len 128 --output-len 512 \
    --model /root/autodl-tmp/01ai/Yi-34B-Chat-4bits \
    -q awq --num-prompts 50 --seed 1100 \
    --trust-remote-code \
    -tp 2 \
    --max-model-len 2048