政安晨的AI大模型训练实践 五:用最小的模型 DeepSeek-R1-1.5B-Distill 尝试训练(用最省事最默认的参数微调一下)

政安晨的个人主页:政安晨

欢迎 👍点赞✍评论⭐收藏

希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正!

今天我们通过训练一个小模型,梳理LLaMAFactory工具训练模型的流程:

  1. 数据准备:收集和处理用于训练模型的数据。这可能包括从数据库、文件或其他来源加载数据,并对数据进行清洗、预处理和标记。

  2. 特征工程:根据问题的需求和数据的特征,进行特征选择和转换。这包括选择重要的特征,进行缩放、归一化和处理缺失值等。

  3. 模型选择:根据问题的类型和数据的特点,选择适当的机器学习模型。这可以是分类模型、回归模型、聚类模型或其他类型的模型。

  4. 模型训练:使用LLaMAFactory工具提供的接口,对选定的模型进行训练。这包括将准备好的数据集输入到模型中,并根据设定的目标函数进行模型训练。

  5. 模型评估:评估训练的模型的性能和效果。这可以使用常见的评估指标,如准确率、精确率、召回率、F1分数等。

  6. 模型调优:根据评估结果,对模型进行调优。这可能包括调整模型的超参数、改变特征工程的步骤或重新处理数据,以提高模型的性能。

  7. 模型保存和部署:将训练好的模型保存为可供部署的格式,以便在实际应用中使用。LLaMAFactory工具提供了保存和加载模型的功能。

总的来说,LLaMAFactory工具训练模型的流程包括数据准备、特征工程、模型选择、模型训练、模型评估、模型调优和模型保存和部署。通过这个流程,可以从原始数据到训练好的模型,并在实际应用中使用。

咱们先开启工具:

我们继续探讨(DeepSeek的思考过程):

首先,我需要确定LLaMAFactory的主要功能是什么。根据之前的回答,它似乎是一个用于高效微调、管理和部署大语言模型(比如LLaMA系列)的工具包。用户可能关心的是它的核心优势,比如模块化设计、支持多种适配器方法(如LoRA)、低资源消耗、以及提供CLI和Web界面这些特点。

用户要求“最精炼的方式”,所以需要避免冗长,突出重点。可能需要用简短的句子或关键词来概括。同时,用户可能希望了解它的用途和主要优点,比如高效微调、灵活适配、资源优化等。

接下来,我需要检查是否有遗漏的关键点。例如,是否支持多种模型,是否易于使用,是否有社区支持或者与其他工具的集成。根据之前的回答,LLaMAFactory支持LoRA适配器,可以通过命令行和Web界面操作,适合不同需求的用户,这可能也是需要强调的点。

另外,用户可能对技术细节不感兴趣,而是需要一个快速参考。所以,应该用简洁的语言,分点列出主要功能和优势。例如,模块化设计、适配器支持、资源高效、多界面支持等。

最后,确保描述准确,没有错误。可能需要查阅一下LLaMAFactory的官方文档或相关资料,确认核心功能是否包括提到的内容。如果之前的信息准确,那么可以按照之前的理解来总结。

总结来说,LLaMAFactory是一个帮助用户高效微调和管理大语言模型的工具,支持多种适配方法,资源消耗低,操作灵活。需要将这些信息浓缩成两到三句话,或者分点列出关键特性,以最简洁的方式呈现。

LLaMAFactory有着它的优势


轻量级大语言模型高效微调框架,支持LLaMA系列等模型的低成本适配器训练(如LoRA)、模块化定制及模型导出,提供CLI/Web双界面,优化资源消耗与开发效率。

核心特点:

  1. 高效微调:适配器技术(LoRA等)降低显存需求

  2. 即用接口:命令行与可视化界面无缝切换

  3. 灵活部署:一键合并/导出适配器与基础模型

我们通过这个模型来进行微调训练验证: 

先在Chat标签栏中下载模型:

选择一个数据:

开启数据训练:

从命令行控制台可以看到训练的损失率的变化过程:

这只是一个训练过程,不一定科学,我只是想记录一下训练过程和参数。

训练完成后,启动导出功能:

在这个过程中,可能会提示缺少某些库,那么就在当前虚拟环境下安装它。

导出的时候选择好导出量化等级,然后就可以在后台看到导出的路径了。

你看到了这样的大语言模型文件集:

把模型路径修改为最新地址,加载它就可以使用了:

你如果想要使用如ollama这样的工具,转换成其它格式,如.gguf等。

最后,我们对比一下训练数据与实际推理数据之间的差异:

这是训练数据:

 这是推理数据:

正式回答如下:

可以观察一下他们之间的差异有多大。


评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

政安晨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值