
LLM quantization
文章平均质量分 66
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Binary Neural Networks for Large Language Model: A Survey
大语言模型(LLMs)在自然语言处理(NLP)领域有着广泛应用,如GPT-4和Llama。然而,随着模型参数规模呈指数级增长,大语言模型带来了巨大的资源开销。低比特量化作为一项关键技术,通过减小模型参数、激活值和梯度的比特宽度,降低了内存使用和计算需求。以往针对大语言模型的量化方法主要采用训练后量化(PTQ)和量化感知训练(QAT)。训练后量化无需对原始模型进行重新训练,而量化感知训练则在训练过程中优化精度以获得最佳量化参数。原创 2025-03-10 09:30:00 · 142 阅读 · 0 评论 -
Lillama: Large Language Models Compression via Low-Rank Feature Distillation
当前的LLM结构化修剪方法通常涉及两个步骤:(1)使用校准数据进行压缩,以及(2)对数十亿个token进行昂贵的持续预训练,以恢复丢失的性能。第二步是必要的,因为第一步会显著影响模型的准确性。之前的研究表明,预训练的Transformer权重并不是天生的低排名,这与它们的激活不同,这可能解释了这种下降。基于这一观察,我们提出了Lillama,一种局部提取低秩权重激活的压缩方法。使用SVD进行初始化,并结合教师和学生激活的联合损失,我们通过局部梯度更新加速收敛并减少内存使用。原创 2025-01-29 10:00:00 · 159 阅读 · 0 评论 -
GWQ: Gradient-Aware Weight Quantization for Large Language Models
大型语言模型 (LLM) 在解决复杂语言任务方面表现出令人印象深刻的性能。然而,其大量的参数给模型在边缘设备上的部署和应用带来了巨大的挑战。将大型语言模型压缩为低位可以使它们在资源受限的设备上运行,这通常会导致性能下降。为了解决这个问题,我们提出了梯度感知权重量化(GWQ),这是第一个低位权重量化的量化方法,它利用梯度来定位异常值,只需要最少量的校准数据即可进行异常值检测。GWQ 优先以 FP16 精度保留前 1% 异常值对应的权重,而其余非异常值权重以低位格式存储。原创 2024-12-27 09:15:00 · 256 阅读 · 0 评论 -
A Comprehensive Study on Quantization Techniques for Large Language Models
自从 Transformer 模型流行起来以来,大型语言模型 (LLM) 在学术界和工业界得到了广泛的研究和使用,并在人工智能领域表现出了优异的性能。然而,LLM的计算需求巨大,而运行它们所需的能源通常是有限的。例如,像 GPT-3 这样的流行模型具有 1750 亿个参数和 350 GB 的存储需求,这给资源有限的物联网设备和嵌入式系统的部署带来了巨大的挑战。这些系统通常缺乏处理如此大型模型的计算能力。原创 2024-12-14 09:30:00 · 72 阅读 · 0 评论 -
Extreme Compression of Large Language Models via Additive Quantization
准确的开放大型语言模型 (LLM) 的出现导致了对高性能量化技术的竞争,这些技术可以在最终用户设备上执行它们。在本文中,我们从多码簿量化 (MCQ) 中经典方法的角度重新审视了“极端”LLM 压缩问题,定义为针对极低的位数,例如每个参数 2 到 3 位。我们的算法称为 AQLM,它推广了用于信息检索的经典加法量化 (AQ) 方法,通过两项创新来推进 LLM 压缩的最新技术:1) 以输入自适应方式学习权重矩阵的加法量化,以及 2) 每个transformer模块的码本参数的联合优化。原创 2024-09-14 14:31:53 · 144 阅读 · 0 评论 -
OneBit: Towards Extremely Low-bit Large Language Models
模型量化使用低位宽值来表示要量化的现有模型的权重矩阵,这是一种很有前途的方法,可以减少部署备受期待的LLM的存储和计算开销。然而,当前的量化方法在比特宽度被极大地减小时遭受严重的性能退化,并且因此专注于利用4比特或8比特的值来量化模型。本文大胆地将LLM的权重矩阵量化为1位,为LLM的极低位宽部署铺平了道路。为此,我们引入了一个名为OneBit的1位模型压缩框架,包括一种新的1位参数表示方法来更好地量化LLM,以及一种基于矩阵分解的有效参数初始化方法来提高量化框架的收敛速度。原创 2024-07-10 15:20:40 · 178 阅读 · 0 评论 -
What Makes Quantization for Large Language Models Hard?
量化已经成为一种很有前途的技术,可以提高大型语言模型(LLM)的内存和计算效率。尽管性能和效率之间的权衡是众所周知的,但关于量化和LLM性能之间的关系仍有很多需要了解的地方。为了阐明这种关系,我们提出了一个关于量化的新视角,将其视为添加到LLM的权重和激活中的扰动。我们称这种方法为“微扰透镜”。使用这个透镜,我们对各种人工扰动进行了实验,以探索它们对LLM性能的影响。我们的研究结果揭示了扰动性质和LLM性能之间的几种联系,为均匀量化的失败案例提供了见解,并提出了提高LLM量化稳健性的潜在解决方案。原创 2024-07-04 19:14:57 · 170 阅读 · 0 评论 -
IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact
大型语言模型(LLM)擅长于自然语言处理,但需要密集的计算。为了缓解这种情况,已经探索了各种量化方法,但它们会影响LLM的性能。本文揭示了LLM中一种以前被忽视的异常值类型。发现这种异常值将大部分注意力分数分配在输入的初始标记上,称为枢轴标记,这对量化LLM的性能至关重要。鉴于此,我们建议IntactKV从全精度模型中无损地生成枢轴token的KV缓存。该方法简单且易于与现有的量化解决方案相结合。此外,INTACTKV可以被校准为额外的LLM参数,以进一步提升量化的LLM。原创 2024-05-20 14:32:01 · 102 阅读 · 0 评论 -
A Comprehensive Evaluation of Quantization Strategies for Large Language Models
增加大型语言模型(LLM)中的参数数量通常会提高下游任务的性能,但会增加计算和内存成本,使部署在资源有限的环境中变得困难。由于LLM的兴起,量化技术已经变得流行起来,该技术以最小的性能损失来减少模型权重或激活所需的比特。然而,大多数量化研究使用预训练的LLM,量化对指令调整LLM的影响以及量化LLM的困惑与基准性能之间的关系还没有得到很好的理解。量化LLM的评估通常仅限于语言建模和一些分类任务,使其在其他基准上的性能不明确。原创 2024-03-15 11:04:53 · 265 阅读 · 0 评论 -
Evaluating Quantized Large Language Models
训练后量化(PTQ)已成为一种很有前途的降低大型语言模型(LLM)成本的技术。具体来说,PTQ可以有效地减少LLM中的内存消耗和计算开销。为了满足不同场景下的高效率和性能要求,对量化LLM进行全面评估对于指导量化方法的选择至关重要。原创 2024-03-08 16:23:50 · 160 阅读 · 0 评论