一文读懂AI大模型时代的RAG技术

awei0916

已于 2025-04-17 21:17:08 修改

阅读量1.4k

点赞数 60

CC 4.0 BY-SA版权

分类专栏： AI 文章标签：人工智能 ai

于 2025-04-17 14:00:00 首次发布

本文链接：https://blog.csdn.net/awei0916/article/details/147222886

一、RAG技术背景与核心价值

1.1 大模型的「阿喀琉斯之踵」

知识截止：ChatGPT等大模型知识停留在2023年10月，无法处理2024年的实时数据
幻觉问题：在专业领域（医疗/法律）容易生成错误信息，如虚构「Googly Retriever」犬种
数据壁垒：企业私域数据无法安全注入通用大模型

1.2 RAG技术应运而生

2020年Facebook AI提出RAG（Retrieval-Augmented Generation），通过「检索外部知识+增强模型生成」解决上述问题。

核心公式： RAG = 向量检索系统 + LLM提示增强

举一个实际的例子，当我们向 LLM 提出一个问题，RAG 从各种数据源检索相关的信息，并将检索到的信息和问题注入到 LLM 提示中，LLM 最后综合这些信息给出最终答案。

有两个最著名的基于 LLM 的管道和应用程序的开源库——LangChain 和 LlamaIndex，受 ChatGPT 发布的启发，它们在 2022 年 10 月和 11 月创立，并在 2023 年获得大量采用。

1.3 RAG是什么

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合检索技术与生成模型的技术架构，旨在通过动态引入外部知识库增强大语言模型（LLM）的生成能力。其核心思想是通过检索系统从外部数据源（如企业知识库、实时文档等）获取相关信息，并将检索结果作为上下文输入生成模型，以提高生成答案的准确性、时效性和专业性

1.4 RAG vs 模型微调

特性	RAG	模型微调
知识更新	实时更新检索库	需重新训练模型
数据安全	私域数据本地化	需上传训练数据
响应速度	依赖检索效率	依赖模型推理速度
成本	低计算资源消耗	高训练成本