1 简介
在大模型的微调过程中,**LoRA
(低秩适配)** 参数设置是提升训练效率和性能的关键。通过减少需更新的参数量,LoRA 能够在维持模型性能的同时显著降低计算成本。
然而,LoRA
并非唯一影响训练效果的因素。诸如学习率、批次大小以及优化器(如 AdamW)等参数同样在微调过程中起着至关重要的作用。
学习率决定了模型每次更新的幅度,批次大小则影响了每次训练中样本的处理量,而优化器则确保模型参数的平稳更新。了解并灵活调整这些训练参数,不仅能帮助你在微调过程中得心应手,更能快速提升训练效果。
本文将通过使用多轮对话数据集进行微调实验,帮助你深入了解微调的核心原理,并提供一套完整的操作指南。
在本教程中,你将学习到:
-
如何进行 LoRA 参数的设置,并掌握在不同任务中的应用。
-
训练过程中如何合理调整学习率、批次大小等关键参数,以优化模型性能。
-
多轮对话数据集的微调方法和原理,为你提供实践的基础。
本实验基于 transformers 和 ** 昇腾 AI 应用使能套件(openMind)** 均已实现本次微调,代码均可在 github 链接上查看。
通过本次实验,你不仅能够完成多轮对话数据的微调,还能掌握这些方法,并将其迁移到其他微调实验中,独立进行高效的模型调优。
2 链接资料
作者信息:情感机器研究员 - 李馨雨
数据集:https://github.com/SmartFlowAI/EmoLLM/blob/main/datasets/data_pro.json
模型地址:https://modelers.cn/models/chenshaohon/deepseek-llm-7b-chat
代码地址:https://github.com/828Tina/deepseek-llm-7B-chat-lora-ft
可视化工具 SwanLab 项目地址:https://swanlab.cn/@LiXinYu/deepseek-llm-7b-chat-finetune/overview
魔乐社区:https://modelers.cn/
3 多轮对话数据构建
多轮对话微调其实和单轮对话 (或者说指令数据) 差不多,在我看来其实类似于多个指令数据的组合,单轮对话数据处理的时候只需要处理输入和输出即可,训练的时候输入置为 - 100,输出不变,而多轮对话微调数据集以及标签