vLLM推理部署Qwen2.5

最新推荐文章于 2025-07-07 14:02:48 发布

小森( ﹡ˆoˆ﹡ )

最新推荐文章于 2025-07-07 14:02:48 发布

阅读量6.4k

点赞数 76

CC 4.0 BY-SA版权

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_64685283/article/details/143178330

vLLM

vLLM 是一个用于大模型推理的高效框架。它旨在提供高性能、低延迟的推理服务，并支持多种硬件加速器，如 GPU 和 CPU。

vLLM 适用于大批量Prompt输入，并对推理速度要求高的场景，吞吐量比HuggingFace Transformers高10多倍。

安装：vllm需要在Linux环境中，可以启动虚拟机来实现部署，创建时选择64G，否则空间不够用

wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.14_linux.run

下载CUDA Toolkit 12.4.0

sudo sh cuda_12.4.0_550.54.14_linux.run

运行CUDA Toolkit的安装脚本

pip install vllm

或者我们可以使用docker的方式搭建一个Ubuntu环境，来使用 vLLM 推理部署

docker run -tid --gpus all -p 3316:22 -p 5900:5900 -p 5901:5901 -p 8889:8888 --name container_name -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all --privileged=true ubuntu:20.04

启动一个名为 container_name 的 Ubuntu 20.04 容器
以特权模式运行，并且可以使用所有 NVIDIA GPU

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小森( ﹡ˆoˆ﹡ )

关注关注

76
点赞
踩
54

收藏

觉得还不错? 一键收藏
52
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

vllm 离线推理Qwen2.5-VL-Instruct，API部署，支持max_pixels

q742971636的博客

03-24

454

使用这里的最新镜像：启动环境more。

vllm 推理vlm多模态大模型 InternVL使用案例；openai、requests接口使用

weixin_42357472的博客

08-10

1470

参考：支持模型 https://docs.vllm.ai/en/latest/models/supported_models.html模型要升级到这：部署： api参考：https://platform.openai.com/docs/guides/vision?lang=curl用base64传递图片

52 条评论您还未登录，请先登录后发表或查看评论

使用 Vllm 部署 Qwen2.5-Omni-7B

engchina的专栏

04-26

841

使用 Vllm 部署 Qwen2.5-Omni-7B

基于vLLM高效部署：Qwen2.5与DeepSeek-R1-Distill-Qwen实战指南

分享实践与思考

06-12

1019

基于vLLM高效部署：Qwen2.5与DeepSeek-R1-Distill-Qwen实战指南

模型部署 | VLLM部署Qwen2.5并以OpenAI格式提供API服务

ljp1919的专栏

05-04

717

简介为在使用langgraph、langchain等框架的时候可以便捷地以OpenAI兼容的接口格式切换不同大模型接口，包括外部公网API和内部自己部署的API。本文以VLLM部署Qwen2.5为例介绍如何用VLLM以OpenAI兼容的接口格式服务部署大模型服务。

【LLM】在PAI-DSW上使用 vLLM + Open-WebUI 部署Qwen2.5

DaveBraid的博客

09-23

5449

最近在玩LLM，听闻PAI-DSW有三个月免费试用，试了一下感觉还不错，就是有一些学习成本。刚通过vllm+open-webui成功部署了Qwen2.5-7B-Instruct，也是摸索了一段时间，记录一下以便需要使用同样方案的朋友们节省时间，迅速上手。简便起见，本文所有安装均使用pip工具，不使用docker。

一次性搞定：用 vLLM 容器部署 Qwen2.5-VL 并无缝接入本地 Chatbox

qqxdh的博客

03-29

3725

在本地部署一个多模态的大模型并不一定需要天花乱坠的 DevOps 大工程，也不需要写上一堆 Python 代码来启动后端 API。有了容器和vLLM，以及类似Chatbox这样的可视化界面，一条命令就能搞定服务，全程无痛。也希望这样的方法能帮到更多需要低门槛部署大模型、或希望私有化守护数据安全的团队，一起把技术创新落到实处。

使用vLLM部署Qwen2.5-VL-7B-Instruct模型的详细指南

最新发布

mnyh35的博客

07-07

484

本文详细介绍了Qwen2.5大模型本地部署流程，基于vLLM高性能推理引擎和OpenWebUI可视化界面。部署步骤包括：1）安装vLLM和OpenWebUI依赖；2）下载模型权重；3）配置WebUI界面代码；4）启动服务。vLLM提供高效的并行推理和内存管理，OpenWebUI支持交互式对话和参数调整。文章还提供了多GPU部署、显存不足等常见问题的解决方案，并展示了不同硬件的性能数据（RTX4090可达80-120 Token/s）。该方案使Qwen2.5大模型能在本地高效运行，适用于实时交互场景。

AutoDL + vLLM 部署 Qwen2.5-Omni 并提供跨服务器API访问的完整指南

AngelCryToo的专栏

04-11

2446

本文将详细介绍如何在AutoDL云计算平台上使用vLLM部署Qwen2.5-Omni大语言模型，并配置允许从外部服务器访问的API服务。本方案结合了AutoDL的高性价比GPU资源和vLLM的高效推理能力，适合需要对外提供大模型服务的中小企业和开发者。

vllm 部署qwen2.5-7b；opeanai 接口访问、requests接口

weixin_42357472的博客

09-19

951

参考： https://qwenlm.github.io/zh/blog/qwen2.5/ https://huggingface.co/Qwen/Qwen2.5-7B-Instruct下载： vllm部署：流式非流式

Docker vLLM 快速部署 Qwen2.5

q742971636的博客

11-04

805

平均时间: 1.81 秒。

qwen2.5-vl使用vllm部署gradio页面调用

weixin_42479327的博客

03-13

1865

想在服务器上用vllm部署qwen2.5-vl, 然后使用gradio页面在本地调试，官方代码给了两条命令，列出的request body体结构，不过要与gradio连用，还需要重新组织代码。

Vllm进行Qwen2-vl部署（包含单卡多卡部署及爬虫请求）

sherlockMa的博客

11-01

1万+

使用vLLM部署Qwen2-VL，包含单卡部署、多卡部署、爬虫requests发送请求

【vllm】Qwen2.5-VL-72B-AWQ 部署记录

x66ccff

03-10

2849

【代码】【vllm】Qwen2.5-VL-AWQ 部署记录。

vLLM 部署 Qwen

AI工程化、开源分享、文档翻译、代码笔记

01-31

4647

你可以通过 huggingface 的方法调用 Qwen，使用 vllm 部署时，没有便捷的 chat 方法，作者在这里封装了方法，方便调用。伊织 2024-01-31（三）vllm_wrapper 实现。

基于vLLM高效部署多模态大模型Qwen2.5-VL实战指南及优化策略

分享实践与思考

06-18

2272

基于vLLM高效部署多模态大模型Qwen2.5-VL实战指南及优化策略

社区版Dify 基于vLLM部署Qwen2.5-VL系列视觉大模型与推理加速策略

weixin_44119512的博客

04-10

4051

Dify+vLLM+Qwen2.5-VL快速推理，实现Image/video Caption，视觉大模型聊天。

docker 部署Qwen2.5-14B-instruct

09-28

Docker部署Qwen2.5-14B-instruct（通义千问的一个版本）主要是将这个大语言模型封装成容器，以便于管理和复用。以下是基本的部署流程： 1. **下载镜像**：首先你需要从官方仓库或Hugging Face Hub下载Qwen的Docker镜像，例如`huggingface/instruct-beta:qwen2.5-14b`。 2. **创建Dockerfile**：编写一个Dockerfile，内容通常包括基础镜像的选择、复制必要的文件（如模型权重、配置）、设置环境变量以及运行启动命令。 ```dockerfile # 使用官方镜像作为基础 FROM huggingface/instruct-beta # 复制模型和配置文件到容器内部 COPY qwen_model /model COPY config.json /config.json # 设置工作目录和启动指令 WORKDIR /app ENTRYPOINT ["python", "-m", "transformers-cli.inference", "/config.json"] ``` 3. **构建镜像**：使用`docker build -t my_qwen_container .`命令构建自定义的Docker镜像。 4. **运行容器**：用`docker run -p <host_port>:<container_port> my_qwen_container`命令运行容器，并映射本地端口到容器内的服务端口。 5. **配置环境**：可能需要设置相应的环境变量，比如`HF_HOST`指向Hugging Face的Hub地址。注意：部署前确保你的机器满足运行该模型所需的硬件资源（如GPU）。