突破单一检索瓶颈：LlamaIndex 混合向量检索的实战组合策略

最新推荐文章于 2025-07-28 23:15:09 发布

原创最新推荐文章于 2025-07-28 23:15:09 发布 · 975 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#python #LlamaIndex

LlamaIndex 专栏收录该内容

112 篇文章

订阅专栏

在构建智能问答系统时，我们常常面临这样的困境：向量检索虽然能捕捉语义关联，却可能漏掉精确关键词匹配；传统的 BM25 检索擅长关键词定位，又缺乏语义理解能力。有没有办法将两者的优势结合起来？今天我们就来聊聊 LlamaIndex 中的可组合检索技术，看看如何通过混合向量检索策略，让检索效率实现质的飞跃。

一、可组合检索：打破单一检索的局限性

1.1 为什么需要混合检索？

想象一个场景：我们正在开发一个技术文档问答系统。当用户询问 "Transformer 中注意力机制的替代方案" 时，向量检索能很好地匹配到语义相关的段落，却可能漏掉包含 "循环神经网络" 关键词的旧文献；而 BM25 检索虽然能精准定位关键词，却无法理解 "替代方案" 的语义指向。这时候，混合检索就能发挥神奇的作用。

LlamaIndex 的可组合检索机制，允许我们将不同类型的检索器（如向量检索器、BM25 检索器）组合到一个顶级索引中，让它们在查询时协同工作。这种 "语义 + 关键词" 的双重检索策略，能大幅提升复杂问题的召回率。

1.2 核心原理：IndexNode 的对象封装

可组合检索的核心在于IndexNode的obj字段，它可以封装任何可执行的检索对象：

向量检索器（VectorRetriever）
BM25 检索器（BM25Retriever）
甚至其他查询引擎（QueryEngine）

当顶级索引检索到这些对象时，会自动执行它们并合并结果。就像在交响乐团中，不同乐器各司其职，最终汇成和谐的乐章。

二、实战构建：从数据准备到检索器组合

2.1 数据准备：加载学术文献

首先我们加载两篇关键论文 ——Llama2 和 Transformer 的注意力机制论文，作为检索数据源：

python

运行

from llama_index.readers.file import PyMuPDFReader

# 加载Llama2论文
llama2_docs = PyMuPDFReader().load_data(
    file_path="./llama2.pdf", metadata=True
)
# 加载注意力机制论文
attention_docs = PyMuPDFReader().load_data(
    file_path="./attention.pdf", metadata=True
)
print(f"成功加载{len(llama2_docs) + len(attention_docs)}篇文档")

2.2 检索器设置：向量检索与 BM25 双剑合璧

接下来我们分别构建两种检索器，它们将在后续组合中发挥不同作用：

python

运行

from llama_index.core.node_parser import TokenTextSplitter
from llama_index.core.storage.docstore import SimpleDocumentStore
from llama_index.retrievers.bm25 import BM25Retriever
from llama_index.vector_stores.qdrant import QdrantVectorStore
from llama_index.core import VectorStoreIndex, StorageContext
from qdrant_client import QdrantClient

# 1. 文档分块处理
nodes = TokenTextSplitter(
    chunk_size=1024, chunk_overlap=128
).get_nodes_from_documents(llama2_docs + attention_docs)

# 2. 存储文档节点
docstore = SimpleDocumentStore()
docstore.add_documents(nodes)

# 3. 构建向量检索器（使用Qdrant存储）
client = QdrantClient(path="./qdrant_data")
vector_store = QdrantVectorStore("composable", client=client)
storage_context = StorageContext.from_defaults(vector_store=vector_store)
vector_index = VectorStoreIndex(nodes=nodes, storage_context=storage_context)
vector_retriever = vector_index.as_retriever(similarity_top_k=2)

# 4. 构建BM25检索器
bm25_retriever = BM25Retriever.from_defaults(
    docstore=docstore, similarity_top_k=2
)
print("两种检索器构建完成！")

2.3 组合对象：构建顶级检索索引

最关键的一步来了 —— 我们需要将两种检索器封装成可组合对象，并插入到顶级索引中：

python

运行

from llama_index.core.schema import IndexNode
from llama_index.core import SummaryIndex

# 封装向量检索器为IndexNode
vector_obj = IndexNode(
    index_id="vector", 
    obj=vector_retriever, 
    text="向量检索器：处理语义相关查询"
)

# 封装BM25检索器为IndexNode
bm25_obj = IndexNode(
    index_id="bm25", 
    obj=bm25_retriever, 
    text="BM25检索器：处理关键词精确匹配"
)

# 创建顶级摘要索引并插入组合对象
summary_index = SummaryIndex(objects=[vector_obj, bm25_obj])
print("混合检索索引构建完成！")

这里的SummaryIndex就像一个总指挥，当用户发起查询时，它会同时调度向量检索器和 BM25 检索器，让它们各自发挥优势。

三、高效查询：并发执行与结果融合

3.1 并发查询：大幅提升响应速度

LlamaIndex 提供了异步查询接口aquery()，配合tree_summarize响应模式，可以实现多检索器的并发执行：

python

运行

# 获取支持并发的查询引擎
query_engine = summary_index.as_query_engine(
    response_mode="tree_summarize", 
    verbose=True
)

# 异步查询（同时触发向量和BM25检索）
response = await query_engine.aquery(
    "注意力在Transformer中是如何工作的？"
)

# 输出查询过程和结果
print("查询过程：")
print(response)

执行时我们会看到控制台输出：
Retrieval entering vector: VectorIndexRetriever
Retrieval entering bm25: BM25Retriever
这表明两个检索器正在并行工作，最终结果会被自动融合整理。

3.2 实战案例：Llama2 架构查询

让我们用一个实际问题测试混合检索的效果："Llama2 基于什么架构？"

python

运行

response = await query_engine.aquery(
    "Llama2基于什么架构？"
)

print("查询结果：")
print(response)
# 输出：The architecture of Llama 2 is based on the transformer model.

在这个过程中，向量检索器会匹配到 Llama2 论文中关于架构的描述，而 BM25 检索器会精准定位到 "Transformer" 关键词，两者的结果相互印证，确保答案的准确性。

四、工程实践：持久化与性能优化

4.1 索引持久化：解决对象序列化难题

由于检索器对象本身不可序列化，我们需要特殊处理持久化过程：

python

运行

# 保存阶段（仅需保存文档存储和向量数据库）
docstore.persist("./docstore.json")  # 保存BM25所需的文档节点
# Qdrant向量数据库会自动保存到指定路径

# 加载阶段（需要重新构建检索器对象）
docstore = SimpleDocumentStore.from_persist_path("./docstore.json")
client = QdrantClient(path="./qdrant_data")
vector_store = QdrantVectorStore("composable", client=client)

# 重建向量索引和检索器
vector_index = VectorStoreIndex.from_vector_store(vector_store)
vector_retriever = vector_index.as_retriever(similarity_top_k=2)
bm25_retriever = BM25Retriever.from_defaults(
    docstore=docstore, similarity_top_k=2
)

# 重新构建组合对象和顶级索引
vector_obj = IndexNode(index_id="vector", obj=vector_retriever, text="向量检索器")
bm25_obj = IndexNode(index_id="bm25", obj=bm25_retriever, text="BM25检索器")
summary_index = SummaryIndex(objects=[vector_obj, bm25_obj])
print("索引加载完成，可正常使用")

4.2 性能优化建议

以下优化措施能显著提升混合检索性能：

批次处理：对于大规模文档，设置insert_batch_size=512进行分批次向量化

检索器权重：对不同类型问题设置检索器优先级，如：

python

运行

# 语义类问题增加向量检索权重
query_engine = summary_index.as_query_engine(
    response_mode="tree_summarize",
    retriever_weights={"vector": 0.7, "bm25": 0.3}
)