LLM 大模型 .safetensors 与 .gguf 格式详解及 llama.cpp 将 PyTorch 模型转换为 GGUF

最新推荐文章于 2025-07-02 07:00:00 发布

原创最新推荐文章于 2025-07-02 07:00:00 发布 · 792 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#llama #pytorch #人工智能

chatgpt 专栏收录该内容

192 篇文章

订阅专栏

.safetensors 与 .gguf 格式详解

一、设计目标与核心特性

Safetensors
- 定位：专为安全存储和快速加载张量数据设计，用于替代传统的模型权重存储格式（如 PyTorch 的 .pt 或 .pth）。
- 核心特性：
  - 安全性：通过限制文件头大小和避免代码注入风险，提升文件安全性。
  - 高效加载：支持零拷贝和懒加载，CPU 加载速度比传统格式快 6-12 倍。
  - 轻量依赖：仅存储张量权重，不包含模型架构或训练代码，适合跨框架共享。
GGUF
- 定位：专为大模型本地推理和量化部署设计，支持跨平台运行（如 CPU、GPU、移动端）。
- 核心特性：
  - 内存映射（mmap）：直接从磁盘加载模型到内存，减少显存占用，支持混合硬件加速。
  - 单文件部署：整合模型权重、架构配置和量化参数，无需额外依赖文件。
  - 量化支持：支持 2-8 位混合精度量化，压缩模型体积至原始大小的 1/3-1/5。

二、文件结构与技术差异

维度	Safetensors	GGUF
文件头	紧凑的头部结构，包含张量元数据	包含标识符、版本号和完整的模型元数据
数据存储	仅存储张量权重，无架构信息	包含权重、量化参数、词表等完整信息
量化能力	不支持原生量化	支持多级量化（如 Q4_K_M、Q8_0）
硬件兼容性	依赖深度学习框架（如 PyTorch）	跨平台（CPU/GPU/ARM），支持多后端加速

三、适用场景与典型应用

Safetensors 的适用场景
- 快速部署：在框架内共享预训练权重（如 BERT、Stable Diffusion）。
- 安全敏感场景：避免模型文件被篡改或注入恶意代码。
- 轻量级任务：需要频繁加载权重的小规模模型场景。
GGUF 的适用场景
- 本地推理：在 CPU 或边缘设备运行大模型（如 LLaMA、Qwen）。
- 量化部署：在显存有限的 GPU 上运行量化模型（如 24GB 显存运行 70B 参数模型）。
- 跨平台兼容：支持 Windows/Linux/macOS 及移动端。

四、性能与生态对比

指标	Safetensors	GGUF
加载速度（CPU）	比传统格式快 6-12 倍	比 Safetensors 快 2-5 倍
内存占用	低（仅加载必要权重）	极低（按需加载）
工具链支持	主流深度学习框架	专用推理工具链（如 llama.cpp）
典型模型	中小规模模型	大规模模型（如 7B-70B 参数）

五、转换与使用示例

Safetensors 使用流程

# 保存权重
from safetensors.torch import save_file
save_file(model.state_dict(), "model.safetensors")

# 加载权重
from safetensors import safe_open
with safe_open("model.safetensors", framework="pt") as f:
    weights = {k: f.get_tensor(k) for k in f.keys()}

GGUF 转换与部署
- 转换工具：使用 llama.cpp 将 PyTorch 模型转换为 GGUF：

python convert_hf_to_gguf.py --input_dir ./model --output_file model.gguf

量化压缩：使用工具链对模型进行量化（如 Q4_K_M）。

./llama-quantize model.gguf model-Q4_K_M.gguf Q4_K_M

本地运行：通过推理引擎（如 Ollama）直接加载 GGUF 文件。

ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF

六、总结与选择建议

选 Safetensors：适合框架内快速共享权重、轻量级任务或安全优先的场景。
选 GGUF：适合本地推理、资源受限设备或需要量化压缩的场景。

两者各有侧重：Safetensors 强调安全与轻量，GGUF 侧重性能与跨平台。开发者可根据部署环境和模型规模灵活选择。