llama-factory生成Meta-Llama-3-8B-Instruct模型api服务

最新推荐文章于 2025-03-06 18:27:20 发布

码不动了鸭

最新推荐文章于 2025-03-06 18:27:20 发布

阅读量779

点赞数 20

文章标签： llama 人工智能 transformer

本文链接：https://blog.csdn.net/a935955956/article/details/143673590

版权

使用llama-factory完成模型的微调训练后，需要开启其api服务进行调用，参考官方https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/inference/llama3_lora_sft.yaml 中的内容进行改写

API 实现的标准是参考了OpenAI的相关接口协议，基于uvicorn服务框架进行开发，使用如下的方式启动：

下述为官方使用模型的示例

model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft
template: llama3
finetuning_type: lora

下述为启动api服务示例，此处展示的为直接使用原始本地模型进行api服务启动

set CUDA_VISIBLE_DEVICES=0
set API_PORT=8000
python src\api.py ^
    --model_name_or_path F:\models\Meta-Llama-3-8B-Instruct ^
    --template llama3

可选
    --infer_backend vllm ^
    --vllm

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

码不动了鸭

关注关注

20
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

LLM - 使用 LLaMA-Factory 部署大模型 HTTP 多模态服务教程 (4)

AGI

01-02

1351

大模型的 HTTP 服务，通过网络接口，提供 AI 模型功能的服务，允许通过发送 HTTP 请求，交互大模型，通常基于云计算架构，无需在本地部署复杂的模型和硬件，就能够访问和使用。通过简单的 API 调用，执行各种任务，从而在各种应用中实现智能化，不仅提高模型的可访问性，还降低技术门槛。

大模型实战—Llama3-8B 中文微调

最新发布

年轻即出发，

03-06

1150

具体来说，对于模型中的每一个线性层，假设其输入为\(x\)，原始的线性变换为\(y = Wx\)，在应用 Lora 方法后，线性变换变为\(y = Wx + \Delta Wx\)，其中\(\Delta W = BA\)，\(A\)是一个从输入维度映射到低维空间的矩阵，\(B\)是一个从低维空间映射回输出维度的矩阵。：在训练过程中，只对低秩矩阵进行计算和更新，计算量大幅降低。：因为微调后的模型只增加了少量的低秩矩阵参数，模型的大小增加有限，这有利于模型的快速部署，特别是在对部署时间和资源有限制的场景中。

LLamafactory API部署与使用异步方式 API 调用优化大模型推理效率

jieshenai的博客

11-27

3574

介绍了如何利用 LLamafactory 将微调后的 LoRA 模型部署为 API 服务，并通过 Python 异步调用实现高效请求处理。文章详细阐述了异步工具类封装的流程，同时以生成数学计算数据集为案例，展示了如何批量调用大模型 API 并优化性能。针对可能出现的服务器拒绝响应和程序崩溃问题，本文提出了分块处理与断点续跑机制。附有代码示例与项目开源地址供读者参考实践。

llama-factory SFT系列教程 (一)，大模型 API 部署与使用

jieshenai的博客

04-11

1万+

llama-factory 教程，实现大模型 api 部署；使用 llama_factory 的 API 部署有 vllm加速推理；

LLaMA-Factory微调llama3之模型的合并，并采用llama.cpp量化成ollama支持的gguf格式模型，生成api使用

猪神-PIGGOD

08-08

7088

上期我们已经成功的训练了模型，让llama3中文聊天版知道了自己的名字这次我们从合并模型开始，然后使用llama.cpp量化成gguf格式，并且调用api。

Meta-Llama-3-8B-Instruct本地推理

金陵寄客的博客

04-24

2946

使用Meta-Llama-3-8B-Instruct模型进行推理创建一个名为 QuickStartLlama3.py 的文件，并将以下内容复制到该文件中。Compute M：计算模式，0/DEFAULT，1/EXCLUSIVE_PROCESS，2/PROHIBITED，为Default。Pwr：Usager/Cap：GPU功耗，Usage表示用了多少，Cap表示总共多少， 79W / 80W。Uncorr. ECC：是否开启错误检查和纠错技术，0/DISABLED，1/ENABLED，为N/A。

使用LLaMA-Factory进行模型微调（LLama3-8B-instruct）

guosongrui001的专栏

09-14

1583

这里需要注意的是，自己制作的数据集是需要在data/dataset_info.json 这个文件中进行注册的。中间有大量的已经注册过的数据集，可以自己参考找到类似的注册信息，自行添加在文件最后。"hf_hub_url": "HuggingFaceTB/cosmopedia", #这是在HuggingFaceTB/cosmopedia中的名称。"file_name": "dpo_zh_demo.json", #数据集文件名，如果不在当前路径需要包含当前路径。8 使用合并模型推理。

Llama3-8B+ LLaMA-Factory 中文微调

2401_84052244的博客

04-23

9496

使用LLaMA-Factory快速训练自己的专用大模型

程序员，AI探索者

09-04

1663

大家好，我是每天分享AI应用的萤火君！本文聊聊 LLama-Factory，它是一个开源框架，这里头可以找到一系列预制的组件和模板，让你不用从零开始，就能训练出自己的语言模型（微调）。不管是聊天机器人，还是文章生成器，甚至是问答系统，都能搞定。而且，LLama-Factory 还支持多种框架和数据集，这意味着你可以根据项目需求灵活选择，把精力集中在真正重要的事情上——创造价值。使用LLama-Factory，常见的就是训练LoRA模型，增强模型在某方面的生成能力。

LLaMA3（Meta）微调SFT实战Meta-Llama-3-8B-Instruct

大漠帝国的博客

04-29

5222

LlaMA3-SFT, Meta-Llama-3-8B/Meta-Llama-3-8B-Instruct微调(transformers)/LORA(peft)/推理。

LLama Factory 实操记录（一）

梦想是要有的，万一实现了呢！

12-20

8128

1. api端口参数说明： src/api。

llama-factory SFT系列教程 (一)，大模型 API 部署与使用_llama factory api

月流霜的专栏

07-19

473

基于微调我使用的是，如果追求对话效果的效果会好一点；大模型 api 部署；直接部署开源大模型体验一下；增加自定义数据集；为实现SFT准备数据；大模型 lora 微调；原始模型 + 微调后的lora插件，完成 api 部署；使用 llama_factory 的 API 部署有 vllm加速推理；llama-factory SFT系列教程 (一)，大模型 API 部署与使用llama-factory SFT系列教程 (二)，大模型在自定义数据集 lora 训练与部署。

使用 LLaMA-Factory 实现对大模型函数调用功能

2401_84033492的博客

06-08

2982

OpenAI模型的function calling能力无疑是让人惊讶的，但自己实现大模型的function calling能力也是值得开心的。本文重点介绍了如何使用 LLaMa-Factory 微调框架来自己实现 function calling 能力，并在测试中验证了大模型的工具调用能力。

LLamafactory 批量推理与异步 API 调用效率对比实测

jieshenai的博客

11-26

2594

本文通过构建数学运算数据集，测试了 LLamafactory 的两种大模型推理方式——批量推理和异步 API 调用，并对两者的速度进行了对比分析。结果显示，LLamafactory 的批量推理由于不支持 vllm，速度较慢，完成 100 条数据推理耗时 4 分 42 秒；而异步 API 调用仅用时 14 秒，效率显著更高。结合 LLamafactory 微调和 API 部署，以及异步调用 API，以达到快速推理的目的，并提供了项目的开源代码供读者参考。

LLaMA-Factory 微调训练

qq_45437316的博客

05-21

1969

1，vllm安装很多坑，pytorch版本和cuda版本必须保持一致兼容，使用pytoch的docker镜像可用省事很多，先看pytorch的版本，pytorch版本11.8，12.1，最好是cuda11.8版本的cuda和torch。三，vllm部署（不一定是llama3的模型，自己根据 llama3_vllm.yaml 配置修改就行，配置文件中也可用修改用huggingface部署）2，vllm启动会预先分配一定的显存，也可用自行修改，如还有其他应用要启动，可用调低一些。1，数据集的准备和配置。

llamafactory调用model

qq_38148600的博客

08-01

624

【代码】llamafactory调用model。

本地部署 Meta Llama3-8b

weixin_40090689的博客

04-28

391

使用Ollama来安装Llama3 8B

llama-factory 模型量化

02-24

### LLaMA-Factory 模型量化方法对于希望减少模型大小并提高推理速度而不显著损失性能的应用场景，可以采用后训练量化(Post Training Quantization, PTQ)技术来处理 LLaMA-Factory 中的大规模语言模型。支持的量化方案包括但不限于 GPTQ 和 AWQ (Activation-aware Weight Quantization)[^2]。 #### 使用AWQ进行量化当选择使用激活感知权重量化(AWQ)时，需提供待量化的预训练模型名或其存储路径作为参数输入给脚本。例如，在配置文件中设置 `model_name_or_path` 参数指向已有的量化版本模型位置，像这样： ```yaml model_name_or_path: TechxGenus/Meta-Llama-3-8B-Instruct-AWQ ``` 此操作会加载特定于 AWQ 的优化过的 Meta-Llama 版本[^3]。 #### 实施GPTQ量化过程另一种常见的做法是利用 GPTQ 方法来进行量化工作。这通常涉及到调整原有的训练流程以适应新的约束条件，并可能涉及修改源码中的某些部分以便更好地集成量化逻辑。具体实现细节取决于项目需求以及所使用的框架特性[^4]。 ```python from llmfactory.quantize.gptq import apply_gptq_quantization apply_gptq_quantization(model=model, bits=4) ``` 上述代码片段展示了如何通过调用自定义函数 `apply_gptq_quantization()` 来应用四比特精度级别的 GPTQ 量化到目标模型实例上。 #### 执行量化命令一旦选择了合适的量化策略并将必要的更改应用于代码库之后，则可以通过 CLI 工具执行实际的量化任务。假设已经准备好了一个名为 `train_lora.yaml` 的 YAML 配置文件用于指导整个过程，那么就可以运行如下指令启动量化进程: ```bash llamafactory-cli train examples/train_lora/llama3_lora_predict.yaml ``` 这条命令将会依据所提供的配置项完成对指定模型架构实施选定类型的量化转换[^1]。