使用LLaMA-Factory训练DeepSeek大模型具体步骤

最新推荐文章于 2025-04-10 16:37:37 发布

学亮编程手记

最新推荐文章于 2025-04-10 16:37:37 发布

阅读量1.6k

点赞数 10

CC 4.0 BY-SA版权

分类专栏： chatgpt 文章标签： llama

本文链接：https://blog.csdn.net/a772304419/article/details/145852744

chatgpt 专栏收录该内容

192 篇文章

订阅专栏

一、LLaMA-Factory 是否付费？

答案：完全免费
LLaMA-Factory 是开源项目，代码托管于 GitHub，无需付费即可使用。其核心功能包括：

全量微调、LoRA、QLoRA 等训练方法
多模态模型（DeepSeek、Llama、Qwen 等）支持
WebUI 和命令行双模式操作

但需注意：

硬件成本：训练大模型需 GPU 算力（如 4090/A100 显卡），可自建服务器或租用云平台（如优刻得的 4090 显卡按小时计费，约 1.7 元/小时）。
数据成本：若需标注大规模业务数据，可能产生标注服务费用。

二、DeepSeek 模型使用步骤

1. 环境准备

# 克隆仓库并安装依赖
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"  # 安装核心依赖

2. 数据准备

数据格式要求：

Alpaca 格式（推荐）

[{
    "instruction": "回答用户问题",
    "input": "1+1等于几?",
    "output": "2"
}]

ShareGPT 格式（多轮对话）

[{
    "conversations": [
        {"from": "human", "value": "解释量子计算"},
        {"from": "gpt", "value": "量子计算利用量子比特..."}
    ]
}]

数据存放路径：将数据文件（如 deepseek_data.json）放入 data 文件夹。

配置文件修改：
在 data/dataset_info.json 中添加 DeepSeek 数据集定义：

"deepseek_dataset": {
    "file_name": "deepseek_data.json",
    "columns": {
        "prompt": "instruction",
        "query": "input",
        "response": "output"
    }
}

3. 模型配置

下载 DeepSeek 模型

huggingface-cli download deepseek-ai/deepseek-llm-7b-chat --local-dir ./models

启动 WebUI
```
llamafactory-cli webui  # 自动打开浏览器界面
```
- 界面操作：
  1. 选择模型路径：./models
  2. 选择数据集：deepseek_dataset
  3. 选择训练方法：LoRA（显存优化）或全量微调（高精度）
  4. 配置参数：学习率（2e-5）、批次大小（根据显存调整）

4. 启动训练

命令行模式（适合批量任务）

python src/train_bash.py \
    --model_name_or_path ./models \
    --dataset deepseek_dataset \
    --lora_target_modules q_proj v_proj  # 指定注意力层

5. 推理与部署

合并 LoRA 权重

from peft import PeftModel
model = PeftModel.from_pretrained(model, "./output/lora_weights")
model = model.merge_and_unload()  # 合并到原始模型

启动 API 服务

python src/api_demo.py \
    --model_name_or_path ./models \
    --checkpoint_dir ./output

三、关键优化技巧

显存不足时的解决方案

4-bit 量化：启用 bitsandbytes 库减少显存占用（需安装预编译版本）
```
model = AutoModelForCausalLM.from_pretrained(..., load_in_4bit=True)
```

梯度检查点：

model.gradient_checkpointing_enable()  # 牺牲20%速度换取显存

多 GPU 训练

accelerate launch --num_processes=4 src/train_bash.py  # 分布式训练