深入浅出：使用 Deep Lake 构建 AI 应用中的自查询检索

本文链接：https://blog.csdn.net/scaFHIO/article/details/146220480

在人工智能应用的开发中，处理和管理多模态数据是一项重要任务。Deep Lake 是一个为 AI 设计的多模态数据库，支持存储向量、图像、文本、视频等多种数据类型，并能与大语言模型（LLMs）和 LangChain 协同工作。这一强大的数据库不仅支持数据存储、查询、版本控制和可视化，还能在 PyTorch 和 TensorFlow 中实时流式传输数据。

在这篇文章中，我们将深入探讨如何使用 Deep Lake 构建一个向量存储，并演示如何利用自查询检索器（SelfQueryRetriever）从中检索数据。

核心原理解析

Deep Lake 的核心在于它的向量存储功能，它能够将多模态数据转换成可供检索的向量格式。配合大语言模型，可以实现自查询检索，即根据特定的查询条件从大量数据中筛选出最相关的文档。

代码实现演示

下面是一个完整的示例，展示如何创建 Deep Lake 向量存储并配置自查询检索：

# 安装必要的库
%pip install --upgrade --quiet lark libdeeplake

import os
from langchain_community.vectorstores import DeepLake
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import OpenAI

# 设置 API Key，从环境变量获取
os.environ["OPENAI_API_KEY"] = "your-secret-api-key"
os.environ["ACTIVELOOP_TOKEN"] = "your-activeloop-token"

# 初始化 OpenAI 的嵌入
embeddings = OpenAIEmbeddings()

# 创建文档数据集
docs = [
    Document(
        page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose",
        metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"},
    ),
    Document(
        page_content="Leo DiCaprio gets lost in a dream within a dream within a dream within a ...",
        metadata={"year": 2010, "director": "Christopher Nolan", "rating": 8.2},
    ),
    # 更多文档...
]

# 初始化 Deep Lake 向量存储
vectorstore = DeepLake.from_documents(
    docs,
    embeddings,
    dataset_path='hub://your-username/self_queery',
    overwrite=True,
)

# 定义元数据字段信息
metadata_field_info = [
    AttributeInfo(name="genre", description="The genre of the movie", type="string or list[string]"),
    AttributeInfo(name="year", description="The year the movie was released", type="integer"),
    AttributeInfo(name="director", description="The name of the movie director", type="string"),
    AttributeInfo(name="rating", description="A 1-10 rating for the movie", type="float")
]

# 初始化自查询检索器
llm = OpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(
    llm, vectorstore, "Brief summary of a movie", metadata_field_info, verbose=True
)

# 测试自查询检索器
results = retriever.invoke("What are some movies about dinosaurs")
for result in results:
    print(result)

应用场景分析

Deep Lake 的自查询检索功能非常适合在需要从大量非结构化数据中快速获取特定信息的场景中应用。例如：

在电影推荐系统中，根据用户输入的简单描述或条件，快速提供相关电影推荐。
在智能问答系统中，实时从知识库中提取与用户问题最相关的答案。

实践建议

在实际应用中，为保证功能的正常运行，确保：

正确管理 API 密钥和令牌的安全性。
根据数据集规模调整存储和检索配置，优化性能。
定期更新数据集，保持信息的实时性。

如果遇到问题欢迎在评论区交流。

—END—