本文是LLM系列文章,针对《Model Compression and Efficient Inference for Large Language Models: A Survey》的翻译。
摘要
基于Transformer的大型语言模型已经取得了巨大的成功。然而,在推理过程中产生的大量内存和计算成本使得在资源受限的设备上部署大型模型具有挑战性。在本文中,我们从算法的角度研究了大型语言模型的压缩和高效推理方法。关于分类法,与较小的模型类似,大型语言模型的压缩和加速算法仍然可以分为量化、修剪、蒸馏、紧凑架构设计和动态网络。然而,与较小的模型相比,大型语言模型有两个突出的特点:(1)大多数压缩算法需要在压缩后对模型进行微调甚至重新训练。大型模型最显著的方面是与模型微调或训练相关的非常高的成本。因此,许多针对大型模型的算法,如量化和修剪,开始探索无调整算法。(2) 大型模型强调多功能性和通用性,而不是单个任务的性能。因此,许多算法,如知识蒸馏,都专注于如何在压缩后保持其通用性和泛化能力。由于这两个特征在早期的大型模型中并不十分明显,我们将大型语言模型进一步区分为中型模型和“真正的”大型模型。此外,我们还介绍了一些成熟的大型模型高效推理框架,这些框架可以支持基本的压缩或加速算法,极大地方便了用户的模型部署。