DeepSeek-llm-7B-Chat微调教程(使用SwanLab可视化工具)

最新推荐文章于 2025-03-12 12:01:31 发布

竹梦如烟

最新推荐文章于 2025-03-12 12:01:31 发布

阅读量3.1k

点赞数 19

文章标签： python 人工智能 ai 语言模型

本文链接：https://blog.csdn.net/weixin_44312617/article/details/144239731

版权

知乎地址：也是我写的，懒得换图了，直接用了。

前言

DeepSeek系列大模型由杭州深度求索人工智能基础技术研究有限公司提供，该系列大模型有以下这些优势：

高性价比：DeepSeek-V2模型以其史无前例的性价比著称，推理成本被降到每百万token仅1块钱，约等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一。
架构创新：DeepSeek对模型架构进行了全方位创新，提出崭新的MLA（一种新的多头潜在注意力机制）架构，把显存占用降到了过去最常用的MHA架构的5%-13%，同时，独创的DeepSeekMoESparse结构，也把计算量降到极致。
开源模型：DeepSeek的模型全部开源，包括通用大模型DeepSeek LLM、MoE模型DeepSeek MoE、DeepSeek V2等，方便用户进行二次开发和优化。
性能强劲：DeepSeek-V2包含236B总参数，其中每个token激活21B，支持128K tokens的上下文长度，在性能上比肩GPT-4 Turbo。

本文针对其llm-7B-Chat模型进行微调，希望其回复内容可以更加人性化。

DeepSeek-LLM系列有多个大模型，这里希望通过教程让大家能完成完整的微调流程，碍于设备以及各类资源限制，这里使用7B大小的模型来完成本文的实验，还有67B的模型，如果有兴趣的小伙伴可以尝试，不过模型比较大，对显存的要求较高，可以根据自身条件选择。

关于数据集的选择方面，本次教程我想让大模型回复的更亲切点，在最开始推理的时候，发现虽然chat模型回答的非常不错，但是有点套路的感觉，

于是去网上寻找数据集，然后从EmoLLM这个项目里发现了很多现成的数据集，他们的数据集由智谱清言、文心一言、通义千问、讯飞星火等大模型生成，如果有其他需要可以参考EmoLLM数据生成方式来构建自己的数据集，这里我使用了其中单轮对话数据集来进行微调。

链接资料

代码链接：swanhub
实验日志过程：DeepSeek-7B-Chat-finetune-SwaLab
模型下载地址：huggingface
数据集：single-conversation
可视化工具SwanLab使用文档：SwanLab官方文档 | 先进的AI团队协作与模型创新引擎

可视化工具介绍

SwanLab是一款完全开源免费的机器学习日志跟踪与实验管理工具，为人工智能研究者打造。有以下特点：

1、基于一个名为swanlab的python库

2、可以帮助您在机器学习实验中记录超参数、训练日志和可视化结果

3、能够自动记录logging、系统硬件、环境配置（如用了什么型号的显卡、Python版本是多少等等）

4、同时可以完全离线运行，在完全内网环境下也可使用

如果想要快速入门，请参考以下文档链接：

Lora简单介绍

LoRA（Low-Rank Adaptation）是一种针对大型语言模型的微调技术，旨在降低微调过程中的计算和内存需求。其核心思想是通过引入低秩矩阵来近似原始模型的全秩矩阵，从而减少参数数量和计算复杂度。

在LoRA中，原始模型的全秩矩阵被分解为低秩矩阵的乘积。具体来说，对于一个全秩矩阵W，LoRA将其分解为两个低秩矩阵A和B的乘积，即W ≈ A * B。其中，A和B的秩远小于W的秩，从而显著减少了参数数量。

在微调过程中，LoRA只对低秩矩阵A和B进行更新，而保持原始模型的全秩矩阵W不变。比如在本文微调代码里我们可以直接计算训练参数占比，代码如下：

model.print_trainable_parameters()

然后当设置lora_rank=16，lora_alpha=32时，训练参数占比如下：

trainable params: 37,478,400 || all params: 6,947,844,096 || trainable%: 0.5394

可以看到总参数量是7B，但是训练的时候只有不到一半的参数参与微调，这样，微调过程只需要优化较少的参数，从而降低了计算和内存需求。同时，由于低秩矩阵的结构特点，LoRA能够保持原始模型的性能，避免过拟合现象。

LoRA的另一个优点是易于实现和部署。由于LoRA只对低秩矩阵进行更新，因此可以很容易地集成到现有的训练框架中。此外，LoRA还可以与其他微调技术相结合，进一步提高微调效果。

总之，LoRA是一种有效的微调技术，通过引入低秩矩阵来降低微调过程中的计算和内存需求，同时保持原始模型的性能。这使得LoRA成为一种适用于大型语言模型的微调方法，具有广泛的应用前景。

显存要求

max_seq_len=2048时训练与推理所需要的显存只有15GB左右，一块3090就可以跑

具体的显卡数据可以参考我另外一篇文章，统计了大家熟悉的显卡的数据。

参考资料：最全深度学习算法显卡参数统计

推理时需要的显存数据：

微调代码

1、环境设置

本文代码python=3.10，请设置环境python>=3.9即可。

由于本次使用的模型较大，请确保此次微调显存至少有15GB.

我们需要安装以下这几个Python库，在这之前，请确保你的环境内已安装了pytorch以及CUDA：

torch
transformers
accelerate
peft
bitsandbytes
swanlab

2、准备模型和数据集

DeepSeek模型是一系列基于Transformer架构的深度神经网络模型，它们在不同的时间点针对不同的应用场景被开发和优化。以下是DeepSeek模型的时间顺序介绍，包括它们针对的场景、用途和优势：

1、DeepSeek-V2（非常大，没有一定资源不建议微调）：

DeepSeek-V2是一个千亿级模型，参数量达到236B，其中激活参数为21B。它在中文综合能力、英文综合能力、知识、数学、推理、编程等榜单中均表现出色。可以应用于智能对话、文本生成、语义理解、计算推理等场景。

2、DeepSeek-Prover：

这是一个70亿参数的开源模型，通过结合强化学习和蒙特卡洛树搜索，显著提升了证明生成的效率和准确性。主要用于形式定理证明。

3、

最低0.47元/天解锁文章