从零开始搭建RAG系统系列：RAG系统性能优化技巧-生成模块优化 (Optimizing Generator)

本文链接：https://blog.csdn.net/Z987421/article/details/148605166

生成模块优化 (Optimizing Generator)

即使检索到了高质量的上下文，LLM生成答案的环节也同样需要优化，以确保最终输出满足用户期望。

技巧1：精细化Prompt调优 (Advanced Prompt Engineering)

方法： Prompt是与LLM沟通的桥梁，其质量直接影响LLM的行为和输出。

角色扮演 (Role-playing): 在Prompt中明确赋予LLM一个角色，如“你是一位资深的[领域]专家顾问…”，这有助于LLM调整其语言风格和知识侧重。
思维链 (Chain-of-Thought, CoT): 指导LLM在生成最终答案前，先进行一步步的思考和推理。例如，在Prompt中加入“请首先分析提供的上下文信息，识别出与用户问题直接相关的关键点，然后基于这些关键点组织你的回答。”这能引导LLM生成更有条理、更深入的答案。
Few-shot示例 (In-Context Learning): 在Prompt中提供几个高质量的“问题-上下文-答案”示例，LLM可以从中学习期望的回答格式和风格。
结构化输出指令: 如果需要LLM以特定格式（如JSON对象、Markdown表格、列表）输出答案，需要在Prompt中明确指示，并最好提供一个格式示例。
处理“我不知道”的情况： 正如我们之前Prompt模板中包含的，明确指示LLM在上下文中找不到答案时应如何回应（例如，直接说明信息不足，而不是猜测或编造），这对于控制幻觉非常重要。
示例（CoT增强）：

基础Prompt可能只是简单要求基于上下文回答。加入CoT的Prompt可能如下：

yaml代码解读复制代码... (其他部分同前) ...

【上下文信息】:
---
{context_str}
---
【用户问题】: {user_query}

【你的思考过程】: (请你在这里一步步思考如何回答问题，例如：1. 理解用户问题的核心。2. 在上下文中寻找相关信息。3. 如果找到，如何组织答案。如果没找到，如何回应。)
【你的回答】:

虽然LLM不一定会显式输出“【你的思考过程】”这部分内容给用户（除非你要求），但这个指令会引导其内部处理过程。

技巧2：LLM参数调整 (LLM Parameter Tuning)

关键参数及其影响：

temperature: 控制生成文本的随机性/创造性。值越低（如0.0-0.3），输出越确定性、越保守、越倾向于选择高概率词汇，适合事实性问答。值越高（如0.7-1.0），输出越随机、越有创造性，但可能增加不准确或跑题的风险。对于RAG，通常建议使用较低的temperature以确保答案的忠实度。
top_p (nucleus sampling): 另一种控制生成多样性的方法。它从概率总和达到top_p阈值的最小词汇集中进行采样。通常与temperature二选一或配合使用（例如，设置一个较低的temperature和一个较高的top_p）。
max_tokens / max_new_tokens: 控制LLM生成答案的最大长度（以token计）。需要合理设置以避免答案过长或被截断。
其他参数如frequency_penalty, presence_penalty等可用于调整重复度。
调整策略： 根据应用场景选择。如果RAG用于创意写作辅助，可以适当提高temperature；如果用于客服或知识查询，则应保持较低的temperature。参数的最佳值往往需要通过实验获得。

技巧3：选择更适合的LLM模型

原理： 不同的LLM在遵循指令能力、总结归纳能力、特定语言（如中文）或特定领域知识的表现上存在差异。
实现要点：

上下文窗口： RAG通常需要LLM处理较长的上下文（用户查询 + 检索到的文档块）。选择具有更大上下文窗口的LLM（如GPT-4-Turbo, Claude 3系列）可以容纳更多信息，可能提升复杂问题的回答质量。
指令遵循能力 (Instruction Following)： RAG的效果很大程度上依赖LLM能否严格遵循Prompt中的指令（如“仅基于上下文回答”）。一些模型在这方面表现更好。
成本与性能的平衡： 更强大的LLM通常也意味着更高的API调用成本或本地部署资源需求。需要在效果和预算之间找到平衡。
中文场景： 对于主要处理中文内容的RAG系统，优先选择对中文原生支持好、在中文语料上训练充分的LLM，如通义千问、ChatGLM等。
微调 (Fine-tuning)： （高级选项）如果预算和数据允许，可以考虑在特定任务或领域数据上对一个基础LLM进行微调（例如，微调其遵循RAG指令或总结特定风格上下文的能力），但这已超出了基础RAG的范畴。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。