VLLM 测试 Mixtral MoE 的 GPTQ 量化版本

arkohut

已于 2023-12-23 21:29:29 修改

阅读量2.5k

点赞数 9

文章标签： python llama 人工智能神经网络深度学习

于 2023-12-23 13:44:22 首次发布

本文链接：https://blog.csdn.net/arkohut/article/details/135167762

版权

VLLM 测试 Mixtral MoE 的 GPTQ 量化版本

这里是 VLLM 测试 Mixtral MoE 的 GPTQ 量化版本的笔记哦。

主要命令

安装 huggingface_hub: pip install huggingface_hub -U
下载模型 huggingface-cli download TheBloke/Mixtral-8x7B-Instruct-v0.1-GPTQ --local-dir Mixtral-8x7B-Instruct-v0.1-GPTQ --local-dir-use-symlinks=False
上传模型: rsync -avPr -e "ssh -p 36189" Mixtral-GPTQ root@abc.seedcloud.com:autodl-fs/
安装 vllm: pip install vllm
执行 benchmark: python benchmark_throughput.py --model ~/autodl-fs/Mixtral-8x7B-Instruct-v0.1-GPTQ --backend vllm --input-len 128 --output-len 512 --quantization gptq --num-prompts 50 --seed 1100 --dtype float16

其他

rsync 命令参数解释

rsync -avPr -e "ssh -p 36189" Mixtral-GPTQ root@abc.seedcloud.com:autodl-fs/

这条 rsync 命令用于同步文件和目录，并通过 SSH 进行安全传输。下面是命令的各个部分的简要介绍：

rsync：这是主命令，用于文件和目录的同步。
-avPr：这是一系列选项的组合。
- -a（archive）：保留文件属性，并递归复制目录。
- -v（verbose）：显示详细的过程信息。
- -P：等同于 --partial --progress，在中断后允许部分传输，并显示传输进度。
- -r（recursive）：递归复制所有子目录和文件。
-e "ssh -p 36189"：这指定了远程shell使用 SSH，并设置了自定义端口 36189。
Mixtral-GPTQ：这是源目录或文件的名称。
root@abc.seedcloud.com:autodl-fs/：这是目标位置，格式为 用户名@主机:目标目录。在这里，它表示以 root 用户身份连接到 abc.seedcloud.com 服务器上的 autodl-fs 目录。

综上所述，这个命令将 Mixtral-GPTQ 目录（或文件）同步到远程服务器 abc.seedcloud.com 上的 autodl-fs 目录中，使用 SSH 进行安全连接，并在端口 36189 上操作。同时，它保留了文件的属性，允许中断后继续传输，并显示详细的同步进度。

vllm benchmark 命令参数解释

python benchmark_throughput.py \
	--model ~/autodl-fs/Mixtral-8x7B-Instruct-v0.1-GPTQ \
	--backend vllm \
	--input-len 128 \
	--output-len 512 \
	--quantization gptq \
	--num-prompts 50 \
	--seed 1100 \
	--dtype float16