DeepSeek-R1-Distill-Qwen-32B 部署教程

序言

DeepSeek-R1-Zero 是一款通过大规模强化学习(RL)训练而成的模型,未经过监督微调(SFT)作为前置步骤,却展现出了卓越的推理能力。在强化学习的训练过程中,该模型自然地发展出许多强大且有趣的推理行为。然而,DeepSeek-R1-Zero 也存在一些问题,例如无休止的重复、可读性差以及语言混合等。为了解决这些问题并进一步提升模型的推理性能,我们推出了 DeepSeek-R1,该模型在强化学习之前引入了冷启动数据。DeepSeek-R1 在数学、代码和推理任务上的表现与 OpenAI-o1 相当。 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 DeepSeek-R1 蒸馏出的六个密集模型都已开源。其中,DeepSeek-R1-Distill-Qwen-32B 在多项基准测试中超越了 OpenAI-o1-mini,达到了当前密集模型的最先进水平。

下载模型文件

这里推荐在modelscope上下载,地址魔搭社区

命令:

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

使用 vLLM 部署

  • 安装 CUDA 和与之匹配的 PyTorch。

  • pip install vllm

    vllm serve Valdemardi/DeepSeek-R1-Distill-Qwen-32B-AWQ --quantization awq_marlin --max-model-len 18432 --max-num-batched-tokens 512 --max-num-seqs 1 --tensor-parallel-size 1 --port 8003 --enforce-eager --gpu_memory_utilization=0.98 --enable-chunked-prefill

  • 模型服务将在指定端口(如 8003)启动

使用 Docker 部署

安装 Docker 和 NVIDIA Container Toolkit

  • 安装 Docker:

    sudo apt update
    sudo apt install docker-ce docker-ce-cli containerd.io docker-compose-plugin
  • 安装 NVIDIA Container Toolkit:

    curl -s https://mirrors.ivolces.com/nvidia_all/ubuntu2204/x86_64/3bf863cc.pub | sudo apt-key add -
    sudo apt update
    sudo apt install nvidia-container-toolkit
    sudo systemctl restart docker

部署 Docker 镜像

  • 运行以下命令启动模型服务:

    docker run -d --network host --privileged --gpus=all --name=vllm_qwen32B --ipc=host -v /data00/models:/data00/models -v /var/run/nvidia-topologyd/:/var/run/nvidia-topologyd/ -e MODEL_PATH=/data00/models -e PORT=8888 -e MODEL_NAME=DeepSeek-R1-Distill-Qwen-32B -e TP=4 cp-controller-cn-beijing.cr.volces.com/appdeliver-ml/vllm:0.7.1
  • 通过 docker logs vllm_qwen32B 查看日志,确认模型加载完成。

### 部署 DeepSeek-R1-Distill-Qwen-32B 模型 为了成功部署 DeepSeek-R1-Distill-Qwen-32B 模型,需遵循一系列特定的操作流程。首先,确保安装必要的依赖库和工具。 #### 安装依赖项 在开始之前,确认已安装 Python 和 pip。接着,通过以下命令安装 Hugging Face 的 `transformers` 库和其他必需包: ```bash pip install transformers torch sentencepiece ``` #### 下载模型文件 使用指定的命令来下载 DeepSeek-R1-Distill-Qwen-32B 模型。这一步骤至关重要,因为只有获取到正确的模型权重才能顺利加载并运行该模型[^1]。 ```bash HF_HUB_ENABLE_HF_TRANSFER=1 \ huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-32B ``` #### 加载与初始化模型 一旦完成模型文件的下载,在应用程序中引入相应的模块,并实例化所需的类以准备推理服务。下面是一个简单的例子展示如何实现这一点: ```python from transformers import AutoModelForCausalLM, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-32B") model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-32B") def generate_text(prompt): inputs = tokenizer(prompt, return_tensors="pt") outputs = model.generate(**inputs) result = tokenizer.decode(outputs[0], skip_special_tokens=True) return result ``` 这段代码展示了怎样创建一个函数用于基于给定提示生成文本输出。注意这里假设已经正确设置了环境变量以及完成了上述提到的所有前置条件设置工作。 #### 启动模型服务 最后,利用合适的框架(如 Flask 或 FastAPI)构建 RESTful API 接口,使得外部程序可以通过 HTTP 请求访问此大型语言模型的服务功能。对于生产环境中更复杂的配置选项,则可能还需要考虑诸如 GPU 支持、分布式计算等因素。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值