DeepSeek-R1-Distill-Qwen-32B 部署教程

最新推荐文章于 2025-04-12 12:35:57 发布

哈拉斯

最新推荐文章于 2025-04-12 12:35:57 发布

阅读量2.7k

点赞数 30

文章标签：人工智能

本文链接：https://blog.csdn.net/2201_75283933/article/details/145907093

版权

序言

DeepSeek-R1-Zero 是一款通过大规模强化学习（RL）训练而成的模型，未经过监督微调（SFT）作为前置步骤，却展现出了卓越的推理能力。在强化学习的训练过程中，该模型自然地发展出许多强大且有趣的推理行为。然而，DeepSeek-R1-Zero 也存在一些问题，例如无休止的重复、可读性差以及语言混合等。为了解决这些问题并进一步提升模型的推理性能，我们推出了 DeepSeek-R1，该模型在强化学习之前引入了冷启动数据。DeepSeek-R1 在数学、代码和推理任务上的表现与 OpenAI-o1 相当。 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 DeepSeek-R1 蒸馏出的六个密集模型都已开源。其中，DeepSeek-R1-Distill-Qwen-32B 在多项基准测试中超越了 OpenAI-o1-mini，达到了当前密集模型的最先进水平。

下载模型文件

这里推荐在modelscope上下载，地址魔搭社区

命令：

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

使用 vLLM 部署

安装 CUDA 和与之匹配的 PyTorch。
pip install vllm

vllm serve Valdemardi/DeepSeek-R1-Distill-Qwen-32B-AWQ --quantization awq_marlin --max-model-len 18432 --max-num-batched-tokens 512 --max-num-seqs 1 --tensor-parallel-size 1 --port 8003 --enforce-eager --gpu_memory_utilization=0.98 --enable-chunked-prefill
模型服务将在指定端口（如 8003）启动

使用 Docker 部署

安装 Docker 和 NVIDIA Container Toolkit

安装 Docker：

sudo apt update
sudo apt install docker-ce docker-ce-cli containerd.io docker-compose-plugin

安装 NVIDIA Container Toolkit：

curl -s https://mirrors.ivolces.com/nvidia_all/ubuntu2204/x86_64/3bf863cc.pub | sudo apt-key add -
sudo apt update
sudo apt install nvidia-container-toolkit
sudo systemctl restart docker

部署 Docker 镜像

运行以下命令启动模型服务：

docker run -d --network host --privileged --gpus=all --name=vllm_qwen32B --ipc=host -v /data00/models:/data00/models -v /var/run/nvidia-topologyd/:/var/run/nvidia-topologyd/ -e MODEL_PATH=/data00/models -e PORT=8888 -e MODEL_NAME=DeepSeek-R1-Distill-Qwen-32B -e TP=4 cp-controller-cn-beijing.cr.volces.com/appdeliver-ml/vllm:0.7.1