vllm使用和推理流程

venvin.

已于 2025-04-28 14:12:55 修改

阅读量679

点赞数 1

分类专栏：大模型文章标签： nlp

于 2024-04-02 09:06:58 首次发布

本文链接：https://blog.csdn.net/weixin_50008473/article/details/137255638

版权

大模型专栏收录该内容

6 篇文章 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

VLLM是一个大模型推理框架，提供高效、便捷的自然语言处理（NLP）模型部署方案。项目已在GitHub上开源，文档详细介绍了安装和使用流程，帮助开发者快速集成和应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

离线推理

python examples/offline_inference/basic/basic.py

# SPDX-License-Identifier: Apache-2.0

from vllm import LLM, SamplingParams

if __name__ == '__main__':
    # Sample prompts.
    prompts = [
	    "Hello, my name is"

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

venvin.

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现离线推理-结构化输出（五）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

11-22

1万+

通过结构化输出将模型生成的结果组织为易于解析和处理的数据格式，使得后续的数据处理、分析和集成变得更加高效和灵活，便于开发者和应用程序自动提取关键信息，实现更复杂的功能和交互。

基础篇| 全网最全详解12个大模型推理框架

youbingchen的博客

07-30

4001

开始介绍之前, 我们先了解一下什么是框架?xx框架-IT人经常听到的名词。但是又有多少人知道框架的意思?框架（framework）是一个框子:指其约束性，也是一个架子——指其支撑性。是一个基本概念上的结构，用于去解决或者处理复杂的问题。在IT软件领域，软件框架（software framework）的标准定义：通常指的是为了实现某个业界标准或完成特定基本任务的软件组件规范，也指为了实现某个软件组件规范时，提供规范所要求之基础功能的软件产品。

参与评论您还未登录，请先登录后发表或查看评论

大模型框架：vLLM

热门推荐

m0_37559973的博客

05-24

1万+

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。

大模型推理框架Vllm和TensorRT-LLM在ChatGLM2-6B模型的推理速度对比

HUSTHY的博客

04-24

6393

这篇博客就专门对语言大模型推理框架Vllm和TensorRT-LLM在ChatGLM2-6B模型上的推理速度和效果进行一个对比。主要的内容分为三块，第一块简单介绍一下vllm和TensorRT-llM框架的特色和基本技术点，由于篇幅的原因关于技术的原理就不做多的介绍(每个技术点都可以拧出来写一篇文章，工作量非常大)；第二块内容就是介绍一下环境安装和重要的API，并且提供一个web推理服务；最后一块内容就是展示一下具体的推理案例，在推理速度和推理质量上进行对比

一文了解八款主流大模型推理框架

m0_59235245的博客

03-08

1547

当前大模型推理平台/引擎生态各具特色，从企业级高并发服务到本地轻量化部署，从国产硬件优化到前沿编译技术探索，每种方案都有其独到优势。选择合适的推理方案不仅需考虑技术指标，更要结合业务场景、硬件资源与未来扩展规划。未来，随着技术的不断进步和产业协作的加深，大模型推理生态将呈现出更加多元、灵活和高效的局面，为各领域在激烈竞争中抢占先机提供强大支撑。

大模型推理框架概述

2301_78285120的博客

10-09

2486

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。PagedAttention 是 vLLM 的核心技术，它解决了LLM服务中内存的瓶颈问题。传统的注意力算法在自回归解码过程中，需要将所有输入Token的注意力键和值张量存储在GPU内存中，以生成下一个Token。这些缓存的键和值张量通常被称为KV缓存。

Win10（CPU）+ Anaconda3 + python3.9安装pytorch

AAI666666的博客

01-14

1910

Win10（CPU）+ Anaconda3 + python3.9安装pytorch

大模型(LLM)推理框架汇总

2401_84206094的博客

10-11

1734

MLC LLM大模型(LLM)好性能通用部署方案，陈天奇(tvm发起者)团队开发.项目链接支持的平台和硬件支持的模型| — | — |LlamaGPT-NeoXRedPajamaGPT-JRWKVRWKV-ravenMiniGPTGPTBigCodeChatGLMChatGLM接口API 支持量化(Quantization) 方法支持其他。

使用vLLM进行大模型推理的完整指南

ppoojjj的博客

07-25

2098

在人工智能和深度学习领域，使用大语言模型（LLM）进行推理已经变得越来越普遍。vLLM是一个功能强大且灵活的工具，允许用户在本地或通过HTTP调用远程服务来运行大语言模型。本文将介绍如何使用vLLM进行模型推理，并提供示例代码和可能遇到的错误及其解决方法。

【vLLM】使用 vLLM 对自定义实现模型进行高速推理

最新发布

欧阳天涵的专栏

04-05

1431

在本文中，我们将解释如何使用 vLLM 使用视频生成模型推断独特的多模式模型。vLLM 是一个用于高速推理和服务的 LLM 库，它非常易于使用，支持 Llama 和 Qwen 等知名模型。另一方面，除了官方文档之外，关于如何合并自定义实现模型的信息非常少，甚至官方文档也没有特别的信息，因此很难上手。因此，在本文中，我们将仔细解释将您自己的多模态模型合并到 vLLM 中的具体步骤，包括官方文档中未包含的信息。

从源码分析 vllm + Ray 的分布式推理流程

阿里技术

06-12

8315

随着 LLM 模型越来越大，单 GPU 已经无法加载一个模型。以 Qwen-14B-Chat 模型为例，模型权重大概 28GB，但是单个 NVIDIA A10 仅有 24GB 显存。如果想要在 A10 上部署 Qwen-14B-Chat 模型，我们需要将模型切分后部署到 2 个 A10 机器上，每个 A10 卡加载一半的模型，这种方式称之为分布式推理。社区涌现了很多支持分布式推理的框架如 vllm、deepspeed-mii，rtp-llm 等。

【推理框架】超详细！AIGC面试系列 大模型推理系列(1)

文奇的博客

04-18

4818

本期问题快览有哪些大模型推理框架了解vllm吗介绍下vllm的核心技术了解faster transformer吗介绍下faster transformer的核心技术了解Xinference吗了解llama.cpp项目吗 llama.cpp项目突出的优势是什么

【AIGC】大模型推理部署框架

LeeZhao的博客

11-21

1781

聚焦AIGC专业技术分享

生成式AI - 大模型推理框架概述

Larry的博客

11-12

1194

从 ChatGPT 面世以来，引领了大模型时代的变革，除了大模型遍地开花以外，承载大模型进行推理的框架也是层出不穷，大有百家争鸣的态势。本文主要针对业界知名度较高的一些大模型推理框架进行相应的概述。

通用大模型推理研究：SGLang推理框架

yunxinan的专栏

07-30

2666

SGLang: Efficient Execution of Structured Language Model Programs，由斯坦福大学、加州大学伯克利分校、上海交通大学、德克萨斯大学完成。

vLLM框架：认识大模型推理框架

CITY_OF_MO_GY的博客

02-07

4485

vLLM通过创新的显存管理机制，为LLM推理设定了新标准。对于计算机视觉工程师，其技术思路对视觉大模型优化具有借鉴意义，同时为视觉-语言多模态应用提供了高效的推理基座。建议关注其多模态扩展进展，并尝试将PagedAttention思想迁移到视觉模型的显存优化中。

大语言模型LLM推理加速主流框架（LLM系列10）

North_D的博客

02-27

1615

TensorRT集成了多种优化策略，使得LLM模型能在保持准确性的前提下大幅提升推理速度。例如，一个未经优化的BERT-base模型在进行句子分类任务时，通过TensorRT进行转换和优化后，推理速度提升了5-10倍，这对于实时文本分类系统的部署意义重大。

vllm推理

03-20

### vLLM 推理机制概述 vLLM 是一种高效的大型语言模型推理框架，其核心在于通过分页注意力（PagedAttention）技术优化内存管理[^2]。该技术允许模型在有限的 GPU 显存条件下处理更大的上下文长度，从而显著提升性能。以下是基于 vLLM 进行推理的一个典型流程： #### 配置环境为了运行 vLLM 推理服务，需先安装必要的依赖项并配置环境变量。以下是一个简单的 Python 脚本示例用于加载 Qwen2 模型： ```python from vllm import LLM, SamplingParams # 初始化模型实例 model_path = "Qwen/qwen2" # 替换为您实际使用的模型路径 llm = LLM(model=model_path) # 设置采样参数 sampling_params = SamplingParams(temperature=0.8, top_p=0.95) ``` 上述代码片段初始化了一个 `LLM` 实例，并设置了温度 (`temperature`) 和截断概率 (`top_p`) 参数以控制生成文本的质量和多样性。 #### 发起推理请求一旦模型被成功加载，可以通过传递输入提示 (prompt) 来发起具体的推理任务。下面展示了一种常见的交互方式： ```python prompts = ["解释一下什么是黑洞？"] outputs = llm.generate(prompts, sampling_params=sampling_params) for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Prompt: {prompt}\nGenerated Text: {generated_text}") ``` 这段脚本会向预训练好的 Qwen2 提供关于“黑洞”的问题作为输入，并返回相应的生成结果[^1]。 #### 解决常见问题如果遇到诸如超时、显存不足等问题，则可以参考官方文档调整相关设置或者尝试增加硬件资源分配量。例如，在启动 API 服务之前可通过命令行指定最大批大小以及每批次的最大序列长度等选项来缓解压力[^3]: ```bash vllm-engine --model Qwen/qwen2 \ --max-batch-size 16 \ --max-sequence-length 2048 ``` 以上指令定义了每次最多可接受多少条并发请求(`--max-batch-size`) 及单个样本所能容纳的最大 token 数目(`--max-sequence-length`)。 --- ###