LLM大模型压缩——ICLR 2024 SliceGPT(原理详解)

本文介绍了一种新的模型压缩方法SliceGPT,通过删除Transformer模型中的权重矩阵行和列,降低嵌入维度,无需恢复微调。作者利用正交变换和PCA确保剪枝后模型性能不变,提供了一种高效且无需额外微调的压缩策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ICLR 2024 SliceGPT: Compress Large Language Models by Deleting Rows and Columns

背景

模型压缩技术可以分为四类:蒸馏distillation、张量分解tensor decomposition(包括低秩分解low-rank factorization)、剪枝pruning和量化quantization。

许多剪枝方法需要在剪枝后进行恢复微调rbecovery fine-tuning(RFT)以保持性能,这使得剪枝成本高昂且难以扩展。

为了解决这一问题,作者提出了一个名为SliceGPT的方法。SliceGPT 的核心思想是删除权重矩阵中的行和列来降低网络的嵌入维数,同时保持模型性能,并且不需要recovery fine-tuning (RFT) 。

核心思想

如下图最右所示,SliceGPT 会剪掉权重矩阵的整行或整列,对 X X X W W W降维,达成的结果是权重矩阵变小,降低了神经网络的嵌入维度。

假设原本 X X X W W W D D D维,现在要使 X X X W W W降为 k k k维。显然,如果直接砍掉 X X X W W W中的一些维度,例如将第 k + 1... D k+1...D k+1...D维砍掉后,后 D − k D-k Dk列的信息就会丢失,对网络的影响就会很大。

作者的办法是在切片之前,先对网络进行一次正交转换 X ′ = X Q , W ′ = Q T W X'=XQ,W'=Q^T W X=XQ,W=QTW(这里的变换矩阵 Q Q Q是一个 n n n<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值