序言
DeepSeek-R1-Zero 是一款通过大规模强化学习(RL)训练而成的模型,未经过监督微调(SFT)作为前置步骤,却展现出了卓越的推理能力。在强化学习的训练过程中,该模型自然地发展出许多强大且有趣的推理行为。然而,DeepSeek-R1-Zero 也存在一些问题,例如无休止的重复、可读性差以及语言混合等。为了解决这些问题并进一步提升模型的推理性能,我们推出了 DeepSeek-R1,该模型在强化学习之前引入了冷启动数据。DeepSeek-R1 在数学、代码和推理任务上的表现与 OpenAI-o1 相当。 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 DeepSeek-R1 蒸馏出的六个密集模型都已开源。其中,DeepSeek-R1-Distill-Qwen-32B 在多项基准测试中超越了 OpenAI-o1-mini,达到了当前密集模型的最先进水平。
下载模型文件
这里推荐在modelscope上下载,地址魔搭社区
命令:
pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
使用 vLLM 部署
-
安装 CUDA 和与之匹配的 PyTorch。
-
pip install vllm
vllm serve Valdemardi/DeepSeek-R1-Distill-Qwen-32B-AWQ --quantization awq_marlin --max-model-len 18432 --max-num-batched-tokens 512 --max-num-seqs 1 --tensor-parallel-size 1 --port 8003 --enforce-eager --gpu_memory_utilization=0.98 --enable-chunked-prefill
-
模型服务将在指定端口(如 8003)启动
使用 Docker 部署
安装 Docker 和 NVIDIA Container Toolkit
-
安装 Docker:
sudo apt update sudo apt install docker-ce docker-ce-cli containerd.io docker-compose-plugin
-
安装 NVIDIA Container Toolkit:
curl -s https://mirrors.ivolces.com/nvidia_all/ubuntu2204/x86_64/3bf863cc.pub | sudo apt-key add - sudo apt update sudo apt install nvidia-container-toolkit sudo systemctl restart docker
部署 Docker 镜像
-
运行以下命令启动模型服务:
docker run -d --network host --privileged --gpus=all --name=vllm_qwen32B --ipc=host -v /data00/models:/data00/models -v /var/run/nvidia-topologyd/:/var/run/nvidia-topologyd/ -e MODEL_PATH=/data00/models -e PORT=8888 -e MODEL_NAME=DeepSeek-R1-Distill-Qwen-32B -e TP=4 cp-controller-cn-beijing.cr.volces.com/appdeliver-ml/vllm:0.7.1
-
通过
docker logs vllm_qwen32B
查看日志,确认模型加载完成。