PagedAttention和Continuous Batching

流浪大人

已于 2025-07-09 11:32:32 修改

阅读量977

点赞数 17

CC 4.0 BY-SA版权

分类专栏：大模型文章标签：深度学习人工智能机器学习

于 2025-07-08 11:43:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42923363/article/details/149194628

大模型专栏收录该内容

8 篇文章

订阅专栏

PagedAttention是什么

PagedAttention是一种用于优化Transformer架构中注意力机制的技术，主要用于提高大语言模型在推理阶段的效率，特别是在处理长序列数据时能有效减少内存碎片和提高内存利用率。它借鉴了操作系统中虚拟内存分页机制的思想。

工作原理

传统注意力机制的局限性：传统的注意力机制在处理长序列时，需要为每个位置计算注意力得分并存储中间结果，这会导致内存占用随着序列长度的增加而急剧上升，并且容易产生内存碎片，降低内存的使用效率。
分页存储机制：PagedAttention将输入序列划分为多个固定大小的页（pages），并采用一种类似于分页存储的机制来管理内存。在计算注意力时，它只需要在需要的页之间进行计算和访问，而不需要一次性处理整个长序列，从而大大减少了内存碎片，提高了内存的利用效率和计算速度。
内存共享：PagedAttention还支持高效的内存共享。例如，在并行采样或波束搜索等复杂推理模式中，多个生成分支可以共享相同的KV缓存，从而显著减少内存开销。

优势

减少内存碎片：通过分页机制，PagedAttention可以有效减少内存碎片，提高内存利用率。
提高计算效率：在处理长序列时，PagedAttention可以显著提高计算效率，因为它不需要一次性处理整个序列。
内存共享：PagedAttention支持高效的内存共享，特别是在并行采样和波束搜索等复杂推理模式中。

使用方法

导入相关库：通常需要导入包含PagedAttention实现的相关深度学习库，比如如果是基于vLLM框架使用PagedAttention，需要导入相关的库。
配置参数：根据具体的应用场景，配置PagedAttention的相关参数，如页大小等。

应用场景

PagedAttention特别适用于需要处理长序列数据的大语言模型推理场景，如自然语言处理中的文本生成、机器翻译等任务。

综上所述，PagedAttention通过其创新的分页存储机制和内存共享特性，为大语言模型的高效推理提供了一种有效的解决方案。

Continuous Batching是什么

Continuous Batching（连续批处理） 是一种用于优化大语言模型（LLM）推理性能的技术，特别是在处理自回归生成任务时，能够显著提升吞吐量和资源利用率。

核心概念

动态批处理：与传统的静态批处理不同，连续批处理不是在推理开始时固定批次大小，而是在每次迭代（生成一个Token）时动态调整批次。
迭代级调度：每次生成一个Token后，系统会检查是否有新的请求到达，并尝试将这些新请求插入到当前批次中，从而避免GPU资源的浪费。
内存优化：通过动态调整批次大小，连续批处理可以减少内存碎片，并提高KV Cache（键值缓存）的利用率。

工作原理

动态插入新请求：当一个请求完成时，系统会立即用新的请求填充空闲的槽位，而不是等待整个批次完成。
内存管理：通过PagedAttention等技术，将KV Cache划分为多个小块，动态管理内存分配，从而支持更高效的并行处理。
调度策略：系统会根据当前的资源使用情况和新请求的优先级，动态调整批次的组成，以最大化资源利用率。

优势

显著提升吞吐量：通过动态调整批次大小和插入新请求，连续批处理可以将LLM推理的吞吐量提升数倍甚至数十倍。
减少延迟：相比传统的静态批处理，连续批处理可以在减少延迟的同时提高吞吐量。
优化资源利用率：通过动态管理内存和批次，连续批处理可以更好地利用GPU资源，减少内存碎片。

应用场景

大语言模型推理：连续批处理已成为LLM推理框架（如vLLM、DeepSpeed-MII、TensorRT-LLM等）的标准技术。
实时交互系统：在需要快速响应用户请求的场景中，连续批处理可以显著提升系统的性能。

实现方式

vLLM：通过PagedAttention和动态内存管理，vLLM实现了高效的连续批处理。
DeepSpeed-MII：提出了Dynamic SplitFuse策略，通过动态分割长提示并将其与生成过程结合，进一步优化了连续批处理。
TensorRT-LLM：通过In-flight Batching技术，允许在每次迭代中动态调整批次

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。