大模型学习路线（4）——大模型微调

熬夜造bug

已于 2024-03-25 09:41:09 修改

阅读量7k

点赞数 68

CC 4.0 BY-SA版权

分类专栏：大模型 & AIGC 文章标签：学习

于 2024-03-20 16:44:43 首次发布

本文链接：https://blog.csdn.net/qq_51175703/article/details/136807014

本文详细探讨了大模型微调的各种分类，包括按参数规模、训练流程和训练方式区分的不同方法，如全参微调、低参微调（如Adapter、LoRA、QLoRA等）、上下文学习、有监督和强化学习。以LoRA为例，介绍了微调实践的关键步骤。这些技术有助于定制化模型、提高资源效率和性能，以及优化数据利用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

一、微调分类

1. 按微调参数规模划分

1.1. 全参微调（Full Parameter Fine-Tuning，FPFT）

1.2. 低参微调（Parameter Efficient Fine-Tuning，PEFT）

2.1. 上下文学习(In-Context learning，ICL)

2.2. 有监督微调（Supervised Fine-Tuning，SFT）

2.3. 基于人类反馈的强化学习（Reinforcement，RLHF）

3. 按训练方式划分

3.1. 有监督微调（Supervised Fine-Tuning，SFT）

3.2. 指令微调（Instruction Tuning，IT）

前言

图1. 大模型微调技术分类

一、微调分类

1. 按微调参数规模划分

1.1. 全参微调（Full Parameter Fine-Tuning，FPFT）

用预训练权重作为初始化权重，在特定数据集上继续训练，全部参数都更新。

1.2. 低参微调（Parameter Efficient Fine-Tuning，PEFT）

用更少的计算资源完成参数的更新，只更新部分参数，或者通过对参数进行某种结构化约束，例如稀疏化或低秩近似解来降低微调的参数量。最小化微调网络模型中的参数数量和降低计算复杂度来提高预训练模型在新任务上的性能，从而缓解大型预训练模型的训练成本。使得即使计算资源受限，也可以利用预训练模型的知识来迅速适应新任务，实现高效的迁移学习 Transfer Learning。

------------------------------------------------------------------ 分界线 ------------------------------------------------------------------

经典的低参微调方法：Adapter（谷歌2019）、LoRA（微软2021）、QLoRA（微软2023）、Prefix Tuning（斯坦福2021）、Prompt Tuning（谷歌2021）、P-Tuning（清华2022）、P-Tuning v2（清华2022）。以下将对如上多种低参微调技术进行整理（LLM岗必考题！！！）