本文是LLM系列文章,针对《KunServe: Elastic and Efficient Large Language Model Serving with Parameter-centric Memory Management》的翻译。
摘要
大型语言模型(LLM)服务的有状态特性可以在负载突发或长时间生成请求(如思维链推理)下轻松限制宝贵的GPU内存,从而由于排队传入请求而导致延迟尖峰。然而,最先进的以KVCache为中心的方法通过丢弃、迁移或交换KVCache来处理负载尖峰,这面临着正在进行的请求与传入请求的性能之间的重要权衡,因此仍然严重违反了SLO。本文进行了一项关键观察,即模型参数独立于请求,并在GPU上复制,因此提出了一种以参数为中心的方法,通过选择性地丢弃复制的参数,为请求留下宝贵的内存。然而,LLM要求KVCache与模型参数绑定保存,因此丢弃参数可能会导致巨大的计算浪费或长时间的网络延迟,影响所有正在进行的请求。基于注意算子可以与其他算子解耦的观察,本文进一步提出了一种通过流水线并行的新型远程注意机制,以便利用从远程GPU上的参数借用的额外内存来服务即将到来的请求。本文进一步解决了其他几个挑战,包括用不完整的参数生动地交换KVCache,生成一个平衡内存需求和协作执行开销的适当计划,以及在节流结束时无缝恢复参数。评估表明,与最先进