KunServe: Elastic and Efficient Large Language Model Serving with Parameter-centric Memory

本文是LLM系列文章,针对《KunServe: Elastic and Efficient Large Language Model Serving with Parameter-centric Memory Management》的翻译。

KunServe:弹性高效的大型语言模型,以参数为中心的内存管理

摘要

大型语言模型(LLM)服务的有状态特性可以在负载突发或长时间生成请求(如思维链推理)下轻松限制宝贵的GPU内存,从而由于排队传入请求而导致延迟尖峰。然而,最先进的以KVCache为中心的方法通过丢弃、迁移或交换KVCache来处理负载尖峰,这面临着正在进行的请求与传入请求的性能之间的重要权衡,因此仍然严重违反了SLO。本文进行了一项关键观察,即模型参数独立于请求,并在GPU上复制,因此提出了一种以参数为中心的方法,通过选择性地丢弃复制的参数,为请求留下宝贵的内存。然而,LLM要求KVCache与模型参数绑定保存,因此丢弃参数可能会导致巨大的计算浪费或长时间的网络延迟,影响所有正在进行的请求。基于注意算子可以与其他算子解耦的观察,本文进一步提出了一种通过流水线并行的新型远程注意机制,以便利用从远程GPU上的参数借用的额外内存来服务即将到来的请求。本文进一步解决了其他几个挑战,包括用不完整的参数生动地交换KVCache,生成一个平衡内存需求和协作执行开销的适当计划,以及在节流结束时无缝恢复参数。评估表明,与最先进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值