一、RAG技术背景与核心价值
1.1 大模型的「阿喀琉斯之踵」
- 知识截止:ChatGPT等大模型知识停留在2023年10月,无法处理2024年的实时数据
- 幻觉问题:在专业领域(医疗/法律)容易生成错误信息,如虚构「Googly Retriever」犬种
- 数据壁垒:企业私域数据无法安全注入通用大模型
1.2 RAG技术应运而生
2020年Facebook AI提出RAG(Retrieval-Augmented Generation),通过「检索外部知识+增强模型生成」解决上述问题。
核心公式: RAG = 向量检索系统 + LLM提示增强
举一个实际的例子,当我们向 LLM 提出一个问题,RAG 从各种数据源检索相关的信息,并将检索到的信息和问题注入到 LLM 提示中,LLM 最后综合这些信息给出最终答案。
有两个最著名的基于 LLM 的管道和应用程序的开源库——LangChain 和 LlamaIndex,受 ChatGPT 发布的启发,它们在 2022 年 10 月和 11 月创立,并在 2023 年获得大量采用。
1.3 RAG是什么
RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合检索技术与生成模型的技术架构,旨在通过动态引入外部知识库增强大语言模型(LLM)的生成能力。其核心思想是通过检索系统从外部数据源(如企业知识库、实时文档等)获取相关信息,并将检索结果作为上下文输入生成模型,以提高生成答案的准确性、时效性和专业性
1.4 RAG vs 模型微调
特性 | RAG | 模型微调 |
---|---|---|
知识更新 | 实时更新检索库 | 需重新训练模型 |
数据安全 | 私域数据本地化 | 需上传训练数据 |
响应速度 | 依赖检索效率 | 依赖模型推理速度 |
成本 | 低计算资源消耗 | 高训练成本 |
二、RAG核心技术原理与流程
2.1 核心技术组件
- Query(查询):用户输入的问题或请求,是整个流程的起点。
- LLM(大语言模型):对用户查询进行初步处理,利用自身预训练知识生成初步理解。
- Internal Knowledge(内部知识):大语言模型本身内置的固有知识。
- External Knowledge(外部知识):存储在外部的知识(如文档、数据库等),需通过检索获取。
- Retrieval(检索):从外部知识源中检索与用户查询相关信息的模块。
- Knowledge Integration(知识整合):将内部知识与检索到的外部知识进行融合处理。
- Answer(答案):经过整合处理后,输出给用户的最终回答。