【llm对话系统】基于llm的实时多轮对话如何做kv cache

kakaZhui

已于 2025-03-24 17:59:24 修改

阅读量1.4k

点赞数 29

CC 4.0 BY-SA版权

文章标签：人工智能前端算法 chatgpt AIGC

于 2025-01-25 19:00:00 首次发布

本文链接：https://blog.csdn.net/kakaZhui/article/details/145337880

问题分析

用户流式输入，同步KV Cache
轮次切换，context动态新增如何同步进行KV Cache

整体方案

随着用户输入新的信息，context会动态增长。为了提高LLM的响应速度和效率，我们通常会使用KV Cache来存储context的向量表示，以便快速检索相关信息。当context动态新增时，我们需要同步更新KV Cache，以下是几种常见的方法：

1. 实时计算:

原理: 每当context新增内容时，立即计算新增内容的向量表示，并将其添加到KV Cache中。
优点: 保证KV Cache始终与最新的context同步，检索结果最准确。
缺点: 计算量较大，尤其是在context增长迅速的情况下，可能会影响响应速度。
适用场景: 对实时性要求较高，且新增内容频率不高的场景。

2. 定期批量计算:

原理: 设置一个时间间隔或新增内容数量阈值，当达到条件时，批量计算新增内容的向量表示，并将其添加到KV Cache中。
优点: 可以降低计算频率，减少对响应速度的影响。
缺点: KV Cache与最新的context之间存在一定的延迟，检索结果可能不够准确。
适用场景: 对实时性要求不高，且新增内容频率较高的场景。

3. 异步计算:

原理: 将新增内容的向量计算任务放入一个异步队列中，由后台线程进行处理，并将结果添加到KV Cache中。
优点: 可以避免向量计算阻塞主线程，提高响应速度。
缺点: KV Cache更新存在一定的延迟，需要处理好数据一致性问题。
适用场景: 对响应速度要求较高，且新增内容频率较高的场景。

4. 增量计算:

原理: 利用一些增量式的向量计算方法，例如Faiss的add_with_ids，只计算新增内容的向量表示，并将其添加到KV Cache中，避免重复计算已有的内容。
优点: 可以有效减少计算量，提高效率。
缺点: 需要选择合适的增量式向量计算方法，并对KV Cache进行相应的管理。
适用场景: context增长迅速，且需要高效更新KV Cache的场景。

以下是一个使用Python和Sentence-BERT实现实时更新KV Cache的示例，适用于对实时性要求较高的场景：

from sentence_transformers import SentenceTransformer
from annoy import AnnoyIndex

class RealtimeKVCache:
    def __init__(self, model_name='all-mpnet-base-v2', dim=768, metric='angular', n_trees=10):
        self.model = SentenceTransformer(<