
LLM LoRA
文章平均质量分 63
该专栏主要是整理LLM LoRA相关的论文
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts
我们介绍了 AdaMoLE,这是一种通过低秩适应 (LoRA) 专家的自适应混合来微调大型语言模型 (LLM) 的新方法。AdaMoLE 超越了采用静态 top-k 策略来激活专家的传统方法,它使用专用阈值网络动态调整激活阈值,自适应地响应不同任务的不同复杂性。通过将层中的单个 LoRA 替换为多个 LoRA 专家,并将门控功能与阈值机制集成,AdaMoLE 根据输入上下文有效地选择和激活最合适的专家。我们对各种常识性推理和自然语言处理任务的广泛评估表明,AdaMoLE 超出了基线性能。原创 2024-10-04 11:00:00 · 210 阅读 · 0 评论 -
A Survey on LoRA of Large Language Models
低秩自适应(LoRA)是一种性能最佳的参数高效微调范式,它使用可插拔的低秩矩阵更新密集的神经网络层。此外,它在跨任务泛化和隐私保护方面具有显著优势。因此,LoRA最近受到了广泛关注,相关文献的数量呈指数级增长。有必要对LoRA的当前进展进行全面概述。本次调查从以下角度对进展进行了分类和回顾:(1)改善LoRA在下游任务中表现的下游适应改进变体;(2) 混合多个LoRA插件以实现跨任务泛化的跨任务泛化方法;(3) 提高LoRA计算效率的效率改进方法;(4) 在联邦学习中使用LoRA的数据隐私保护方法;原创 2024-10-03 11:30:00 · 432 阅读 · 0 评论 -
MIXLORA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts
微调大型语言模型(LLM)是一种常见的做法,可以使预训练模型适应特定的应用程序。虽然像LoRA这样的方法在微调过程中有效地解决了GPU内存限制,但它们的性能往往不足,特别是在多任务场景中。相比之下,混合专家(MoE)模型,如Mixtral 8x7B,在多任务学习场景中表现出卓越的性能,同时保持了减少的参数数量。然而,这些MoE的资源需求仍然具有挑战性,特别是对于内存小于24GB的消费级GPU。为了应对这些挑战,我们提出了MIXLORA,这是一种基于LoRA构建资源高效稀疏MoE模型的方法。原创 2024-08-26 09:34:53 · 373 阅读 · 0 评论 -
DLoRA: Distributed Parameter-Efficient Fine-Tuning Solution for Large Language Model
为了提高大型语言模型(LLM)在下游任务上的性能,一种解决方案是微调某些LLM参数,使其更好地与训练数据集的特征相一致。这个过程通常被称为参数高效微调(PEFT)。由于LLM的规模,PEFT操作通常在公共环境(例如云服务器)中执行。这需要在公共环境中共享敏感的用户数据,从而引发潜在的隐私问题。为了应对这些挑战,我们提出了一个名为DLoRA的分布式PEFT框架。DLoRA使可扩展的PEFT操作能够在云和用户设备之间协同执行。原创 2024-08-03 10:57:15 · 303 阅读 · 0 评论 -
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Model
大型语言模型(LLM)在困难的任务中表现出色,但它们通常需要大量的内存和计算资源。如何减小LLM的参数尺度已成为研究热点。在这项研究中,我们观察到transformer的多头自关注(MHA)子层表现出明显的低秩结构,而前馈网络(FFN)子层则没有。在这方面,我们设计了一种混合压缩模型,该模型将低秩矩阵近似和结构化修剪(LoRAP)有机地结合在一起。对于MHA子层,我们提出了一种输入激活加权奇异值分解方法来增强低秩特性。此外,我们发现MHA子层中的权重矩阵具有不同的低秩度。原创 2024-07-31 09:28:57 · 503 阅读 · 0 评论 -
LoRA Meets Dropout under a Unified Framework
凭借其卓越的功能,大型语言模型(LLM)已成为众多NLP应用程序中的重要元素,而参数高效的微调,特别是LoRA,作为模型定制的轻量级方法越来越受欢迎。同时,各种dropout方法最初设计用于在所有参数更新的情况下进行完全微调,减轻了与过多参数冗余相关的过拟合。因此,LoRA的可训练参数可以忽略不计,而之前的dropout方法的有效性在很大程度上被忽视了,这可能会产生矛盾。为了填补这一空白,我们首先确认参数有效的LoRA也容易过拟合。原创 2024-07-29 15:25:02 · 161 阅读 · 0 评论 -
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning
大型语言模型(LLM),如LLaMA和T5,通过微调在各种任务中表现出卓越的性能。尽管低秩自适应(LoRA)已经出现,可以在下游任务上廉价地微调这些LLM,但它们的部署仍然受到巨大的模型规模和计算成本的阻碍。训练后模型修剪提供了一种压缩LLM的方法。然而,目前为LLM设计的修剪方法与LoRA不兼容。这是由于它们在LLM上使用了非结构化修剪,阻碍了LoRA权重的合并,或者它们依赖于预训练权重的梯度来指导修剪,这可能会带来巨大的内存开销。原创 2024-07-29 14:53:12 · 436 阅读 · 0 评论 -
STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language
尽管大型语言模型(LLMs)已经通过提示方法证明了小样本学习的强大能力,但对于复杂的推理任务来说,监督训练仍然是必要的。由于其广泛的参数和内存消耗,已经为LLM提出了参数高效微调(PEFT)方法和内存高效微调方法。然而,大注释数据消耗问题,即数据高效微调的目标,仍未得到探索。一个明显的方法是将PEFT方法与主动学习相结合。然而,实验结果表明,这种组合并非微不足道,并会产生较差的结果。通过探针实验,这种观察可能有两个主要原因:不确定性差距和模型校准不佳。原创 2024-07-29 14:28:59 · 155 阅读 · 0 评论 -
LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed Tasks in the Wild
低秩自适应(LoRA)为微调大型语言模型(LLM)提供了一种有效而高效的解决方案。LoRA的模块化和即插即用特性使不同领域特定的LoRA能够集成,以增强LLM的能力。先前关于利用多个LoRA的研究要么侧重于特定的孤立下游任务,要么解决了训练期间LoRA的选择问题。然而,在实际场景中,LLM会收到涵盖不同任务的不同提示,候选LoRA池通常会动态更新。为了弥合这一差距,我们提出了LoraRetriever,这是一个检索然后组合的框架,可以根据输入提示自适应地检索和组合多个LoRA。原创 2024-07-26 11:26:15 · 250 阅读 · 0 评论 -
ResLoRA: Identity Residual Mapping in Low-Rank Adaption
作为最流行的参数高效微调(PEFT)方法之一,低秩自适应(LoRA)通常用于微调大型语言模型(LLM)。然而,由于原始模型中的计算路径较长,有效快速地更新LoRA块的权重具有挑战性。为了解决这个问题,我们提出了ResLoRA,这是LoRA的一个改进框架。通过在训练过程中添加残差路径,并在推理过程中使用合并方法消除这些额外路径,与LoRA相比,我们的方法可以在更少的训练步骤中获得更好的结果,而不需要任何额外的可训练参数或推理成本。在NLG、NLU和文本到图像任务上的实验证明了我们方法的有效性。原创 2024-07-26 11:22:29 · 154 阅读 · 0 评论 -
JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning
用于基于检索的任务的大型语言模型(LLM)的扩展,特别是在检索增强生成(RAG)中,面临着巨大的内存限制,尤其是在微调大量提示序列时。当前的开源库支持跨多个GPU的全模型推理和微调,但无法适应检索上下文所需的高效参数分布。为了弥补这一差距,我们引入了一种新的框架,利用分布式训练对Llama-2模型进行PEFT兼容的微调。我们的框架独特地利用了JAX的实时(JIT)编译和张量分片来实现高效的资源管理,从而加速了微调,降低了内存需求。原创 2024-07-26 11:12:07 · 90 阅读 · 0 评论 -
AFLoRA: Adaptive Freezing of Low Rank Adaptation in Parameter Efficient Fine-Tuning of Large Models
我们提出了一种新的参数高效微调(PEFT)方法,称为低秩自适应的自适应冻结(AFLoRA)。具体来说,对于每个预训练的冻结权重张量,我们添加一个可训练的低秩矩阵的并行路径,即向下投影和向上投影矩阵,每个矩阵后面都有一个特征变换向量。基于一种新的冻结分数,我们在微调过程中逐步冻结这些投影矩阵,以减少计算量并减轻过度拟合。我们的实验结果表明,根据GLUE基准评估,我们可以实现最先进的性能,平均提高高达0.85%,同时平均可训练参数减少9.5倍。原创 2024-07-25 12:25:35 · 274 阅读 · 0 评论 -
MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning
参数高效微调(PEFT)是一种流行的定制预训练大型语言模型(LLM)的方法,特别是在模型规模和任务多样性增加的情况下。低秩自适应(LoRA)基于自适应过程本质上是低维的这一理念,即显著的模型变化可以用相对较少的参数来表示。然而,与全参数微调相比,降低排名会遇到特定任务的泛化误差的挑战。我们介绍了MELoRA,这是一种小型集成低秩适配器,它使用更少的可训练参数,同时保持更高的秩,从而提供了改进的性能潜力。核心思想是冻结原始预训练权重,并用少量参数训练一组迷你LoRA。原创 2024-07-25 10:52:29 · 206 阅读 · 0 评论 -
PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA
随着大型语言模型(LLM)的快速扩展,同时服务于众多低秩自适应(LoRA)变得越来越不切实际,导致成本过高,需要更具参数效率的微调方法。在这项工作中,我们引入了部分旋转增强的低秩自适应(PRoLoRA),这是一种层内共享机制,包括四个基本组成部分:广播减少、旋转增强、部分共享细化和纠正初始化策略。作为LoRA的超集,PRoLoRA保留了其优点,并有效地规避了对等参数共享方法的缺点,具有卓越的模型容量、实用可行性和广泛的适用性。原创 2024-07-25 10:42:37 · 214 阅读 · 0 评论 -
LoRAMoE: Alleviating World Knowledge Forgetting in Large Language Models via MoE-Style Plugin
监督微调(SFT)是大型语言模型(LLM)的关键步骤,使其能够与人类指令保持一致,并增强其在下游任务中的能力。大幅增加指令数据是使模型与更广泛的下游任务对齐或显著提高其在特定任务上的性能的直接解决方案。然而,我们发现指令数据的大规模增加会破坏以前存储在LLM中的世界知识。为了应对这一挑战,我们提出了LoRAMoE,这是一个新颖的框架,引入了几个低秩适配器(LoRA),并通过使用路由器网络将它们集成在一起,就像混合专家(MoE)的插件版本一样。原创 2024-07-25 10:06:17 · 304 阅读 · 0 评论 -
Multimodal Instruction Tuning with Conditional Mixture of LoRA
多模态大型语言模型(MLLM)在不同领域的各种任务中表现出了非凡的熟练程度,人们越来越关注提高它们对看不见的多模态任务的零距离泛化能力。多模态指令调整已经成为一种成功的策略,通过指令在不同的多模态任务上微调预训练模型来实现零样本泛化。随着MLLM的复杂性和规模的增长,对低秩自适应(LoRA)等参数高效微调方法的需求变得至关重要,LoRA可以用最少的参数集进行微调。然而,在多模态指令调优中应用LoRA会带来任务干扰的挑战,这会导致性能下降,特别是在处理大量多模态任务时。原创 2024-07-25 09:46:02 · 173 阅读 · 0 评论