本文重点介绍使用微调框架unsloth,围绕DeepSeek R1 Distill 7B模型进行高效微调,并介绍用于推理大模型高效微调的COT数据集的创建和使用方法,并在一个medical-o1-reasoning-SFT数据集上完成高效微调实战,并最终达到问答风格优化&知识灌注目的。
你能收获什么:
亲手完成DeepSeek R1蒸馏模型的微调实战
对模型微调、推理数据集等知识有一定了解
对大模型运行的机制和原理有一定的了解
有机会制作一个属于自己的定制化大模型
复现仅需7G显存、半小时运行时间即可完成一次最小可行性实验,并获得微调效果。本人使用的GPU信息如下所示,使用平台为云开发平台ADC:
一、基础概念介绍
1.1 微调与强化学习、模型蒸馏
伴随着DeepSeek的兴起,关于强化学习训练、模型蒸馏等概念也逐渐被人熟知,这里简单总结下这三者的异同。微调、强化学习训练和模型蒸馏都是常用的技术方法,尽管这些方法在某些方面存在交集,但它们的核心原理和任务目标却有显著差异。
1