蒸馏+量化：让AI模型更小更快的终极方案

原创已于 2025-07-01 15:00:30 修改 · 1.1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型 #转行 #python #LLM #agent #量化

于 2025-07-01 15:00:24 首次发布

本文将用通俗易懂的科普方式，为读者解析模型蒸馏与量化这两大AI模型压缩技术。我们将从基础概念入手，深入浅出地讲解这两项技术如何助力AI模型瘦身。

模型蒸馏

模型蒸馏的概念

模型蒸馏（Model Distillation）是一种模型压缩和知识迁移的技术，旨在将一个大型、复杂且性能优异的教师模型（Teacher Model）中的知识传递给一个较小、计算效率更高的学生模型（Student Model），将复杂且大的模型作为Teacher，Student模型结构较为简单，用Teacher来辅助Student模型的训练，Teacher学习能力强，可以将它学到的知识迁移给学习能力相对弱的Student模型，以此来增强Student模型的泛化能力，复杂笨重但是效果好的Teacher模型不上线，就单纯是个导师角色，真正部署上线进行预测任务的是灵活轻巧的Student小模型。

其核心思想是利用教师模型输出的软标签（soft targets）—— 即概率分布而非硬标签（hard labels），来指导学生模型的训练。通过这种方式，学生模型不仅学习到数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力。

该方法的优势在于能够在不显著损失性能的情况下，显著减少模型大小和计算需求，特别适用于资源受限的设备，如移动设备和嵌入式系统。

主要步骤

模型蒸馏通常包括以下几个步骤。

训练教师模型（Teacher Model）：首先训练一个性能优异但通常较为庞大的教师模型。教师模型可以是任何高性能的深度学习模型，如深层神经网络、卷积神经网络（CNN）、Transformer等。
生成软标签（Soft Targets）：使用训练好的教师模型对训练数据进行预测，获得每个样本的概率分布。这些概率分布作为软标签，包含了类别之间的相对关系信息。
训练学生模型（Student Model）：设计一个较小的学生模型，并使用软标签以及硬标签共同训练。训练过程中，通常采用一个损失函数的加权组合，例如，交叉熵损失（用于硬标签）与 Kullback-Leibler 散度损失（用于软标签）。
优化与调整：通过调整温度参数、损失函数权重等超参数，优化学生模型的性能，使其尽可能接近教师模型。

关键技术与方法
软标签与温度参数

传统的训练方法通常使用硬标签，即每个样本对应一个确定的类别标签。而在模型蒸馏中，教师模型输出的是概率分布（软标签），这些概率反映了教师模型对各类别的信心程度。通过引入温度系数（temperature），可以平滑或锐化这个概率分布，从而提供更丰富的梯度信息，帮助学生模型更好地学习。

而对于温度系数，我们可以这么理解，假设有一位老师讲课速度非常快，信息密度很高，学生可能有点难以跟上。这时如果老师放慢速度，简化信息，就会让学生更容易理解。在模型蒸馏中，温度参数起到的就是类似“调节讲课速度”的作用，帮助学生模型（小模型）更好地理解和学习教师模型（大模型）的知识。专业点说就是让模型输出更加平滑的概率分布，方便学生模型捕捉和学习教师模型的输出细节。

数学表达式为：

较高的温度会使得输出分布更加平滑，能够更好地揭示类别之间的相似性，从而提供更丰富的知识给学生模型。训练过程中，通常会同时调整温度参数来优化蒸馏效果。

损失函数设计

模型蒸馏的损失函数通常由两部分组成：

1.硬标签损失：例如交叉熵损失，用于衡量学生模型预测与真实标签之间的差异。

2.软标签损失：例如 Kullback-Leibler 散度，用于衡量学生模型预测与教师模型输出概率分布之间的差异。

总损失可以表示为：

通过加权组合这两部分损失，可以平衡学生模型对硬标签和软标签的学习。

多任务学习与蒸馏

在某些情况下，可以将模型蒸馏与多任务学习结合，通过同时优化多个任务来提升学生模型的表现。这种方法有助于学生模型在多个方面模仿教师模型的能力。

模型量化

模型量化的概念

量化是一种将较大尺寸的模型（如 LLM 或任何深度学习模型）压缩为较小尺寸的方法，比如最开始训练出的权重是32位的浮点数，但是实际使用发现用16位来表示也几乎没有什么损失，但是模型文件大小降低一般，显存使用降低一半，处理器和内存之间的通信带宽要求也降低了，这意味着更低的成本、更高的收益。

这就像按照菜谱做菜，你需要确定每种食材的重量。你可以使用一个非常精确的电子秤，它可以精确到0.01克，这固然很好，因为你可以非常精确地知道每样食材的重量。但是，如果你只是做一顿家常便饭，实际上并不需要这么高的精度，你可以使用一个简单又便宜的秤，最小刻度是1克，虽然不那么精确，但是足以用来做一顿美味的晚餐。

左侧：基础模型大小计算（单位：GB），右侧：量化后的模型大小计算（单位：GB）在上图中，基础模型 Llama 3 8B 的大小为 32 GB。经过 Int8 量化后，大小减少到 8GB（减少了 75%）。使用 Int4 量化后，大小进一步减少到 4GB（减少约 90%）。这使模型大小大幅减少。

量化还有一个好处，那就是计算的更快。

现代处理器中通常都包含了很多的低精度向量计算单元，模型可以充分利用这些硬件特性，执行更多的并行运算；同时低精度运算通常比高精度运算速度快，单次乘法、加法的耗时更短。这些好处还让模型得以运行在更低配置的机器上，比如没有高性能GPU的普通办公或家用电脑、手机等移动终端。

沿着这个思路，人们继续压缩出了8位、4位、2位的模型，体积更小，使用的计算资源更少。不过随着权重精度的降低，不同权重的值会越来越接近甚至相等，这会降低模型输出的准确度和精确度，模型的性能表现会出现不同程度的下降。

量化技术有很多不同的策略和技术细节，比如如动态量化、静态量化、对称量化、非对称量化等，对于大语言模型，通常采用静态量化的策略，在模型训练完成后，我们就对参数进行一次量化，模型运行时不再需要进行量化计算，这样可以方便地分发和部署。

量化的分类

根据不同的标准，量化方法可以被划分为多种类型：

按照量化时间点分类

1.后训练量化（Post-Training Quantization, PTQ）：这是指在模型训练完成后对模型进行量化的过程。PTQ简单易行，适用于已经训练好的模型，但可能会带来一定的精度损失。

2.量化感知训练（Quantization-Aware Training, QAT）：这种方法是在训练阶段引入量化机制，让模型在训练过程中“感知”到量化的影响，从而尽量减少量化带来的精度损失。虽然训练过程更为复杂且耗时较长，但它可以在保持较高精度的同时实现模型压缩。

按照量化粒度分类

1.Per-tensor量化：整个张量或层级共享相同的量化参数（scale和zero-point）。这种方式的优点是存储和计算效率较高，但可能导致精度损失。

2.Per-channel量化：每个通道或轴都有自己的量化参数。这种方式可以更准确地量化数据，因为每个通道可以根据自身特性调整动态范围，但会增加存储需求和计算复杂度。

3.Per-group量化：将数据分组处理，每组有自己的量化参数，介于上述两者之间。
按照量化后的数值范围分类

1.二值量化（Binary Quantization）：将权重限制在+1和-1两个值之间。

2.三值量化（Ternary Quantization）：允许使用三个离散值，通常是-1、0和+1。

3.定点数量化（Fixed-Point Quantization）：最常见的是INT8和INT4，它们分别用8位和4位整数表示权重。

4.非均匀量化（Non-uniform Quantization）：根据待量化参数的概率分布计算量化节点，以适应特定的数据分布模式。
按照是否线性映射分类

1.线性量化（Linear Quantization）：采用线性映射的方式将浮点数映射到整数范围内。它可以进一步细分为对称量化和非对称量化两种形式。

2.非线性量化（Non-linear Quantization）：例如对数量化，它不是简单的线性变换，而是基于某种函数关系来进行映射。
非对称量化的实现

此处以非对称量化为例。非对称量化方法将原始张量范围（Wmin, Wmax）中的值映射到量化张量范围（Qmin, Qmax）中的值。

Wmin, Wmax：原始张量的最小值和最大值（数据类型：FP32，32 位浮点）。在大多数现代 LLM 中，权重张量的默认数据类型是 FP32。
Qmin, Qmax：量化张量的最小值和最大值（数据类型：INT8，8 位整数）。我们也可以选择其他数据类型，如 INT4、INT8、FP16 和 BF16 来进行量化。我们将在示例中使用 INT8。
缩放值（S）：在量化过程中，缩放值将原始张量的值缩小以获得量化后的张量。在反量化过程中，它将量化后的张量值放大以获得反量化值。缩放值的数据类型与原始张量相同，为 FP32。
零点（Z）：零点是量化张量范围中的一个非零值，它直接映射到原始张量范围中的值 0。零点的数据类型为 INT8，因为它位于量化张量范围内。
量化：图中的“A”部分展示了量化过程，即 [Wmin, Wmax] -> [Qmin, Qmax] 的映射。
反量化：图中的“B”部分展示了反量化过程，即 [Qmin, Qmax] -> [Wmin, Wmax] 的映射。

模型蒸馏和模型量化对比

大模型未来如何发展？普通人能从中受益吗？

在科技日新月异的今天，大模型已经展现出了令人瞩目的能力，从编写代码到医疗诊断，再到自动驾驶，它们的应用领域日益广泛。那么，未来大模型将如何发展？普通人又能从中获得哪些益处呢？

通用人工智能（AGI）的曙光：未来，我们可能会见证通用人工智能（AGI）的出现，这是一种能够像人类一样思考的超级模型。它们有可能帮助人类解决气候变化、癌症等全球性难题。这样的发展将极大地推动科技进步，改善人类生活。

个人专属大模型的崛起：想象一下，未来的某一天，每个人的手机里都可能拥有一个私人AI助手。这个助手了解你的喜好，记得你的日程，甚至能模仿你的语气写邮件、回微信。这样的个性化服务将使我们的生活变得更加便捷。

脑机接口与大模型的融合：脑机接口技术的发展，使得大模型与人类的思维直接连接成为可能。未来，你可能只需戴上头盔，心中想到写一篇工作总结”，大模型就能将文字直接投影到屏幕上，实现真正的心想事成。

大模型的多领域应用：大模型就像一个超级智能的多面手，在各个领域都展现出了巨大的潜力和价值。随着技术的不断发展，相信未来大模型还会给我们带来更多的惊喜。赶紧把这篇文章分享给身边的朋友，一起感受大模型的魅力吧！

那么，如何学习AI大模型？

在一线互联网企业工作十余年里，我指导过不少同行后辈，帮助他们得到了学习和成长。我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑。因此，我坚持整理和分享各种AI大模型资料，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频。在这里插入图片描述