
Distilling
文章平均质量分 65
该专栏主要整理蒸馏学习相关的文章,包括数据蒸馏,模型蒸馏等。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient LLM
选定token的隐藏状态已从早期层的自注意力中捕获了上下文信息,使我们能够在无需额外计算的情况下保留更全面的上下文和模型的原始结构。为解决这一问题,我们提出PromptDistill,这是一种新颖的、无需训练的方法,可在保持生成质量的同时提高推理效率。以及GemFilter,它在不考虑上下文依赖的情况下选择初始提示的固定部分)不同,PromptDistill在保持对输入全局感知的同时,动态地将计算资源分配给最相关的token。此外,我们对多阶段选择的探索进一步提高了效率,同时保持了模型的有效性。原创 2025-04-16 09:30:00 · 95 阅读 · 0 评论 -
Lillama: Large Language Models Compression via Low-Rank Feature Distillation
当前的LLM结构化修剪方法通常涉及两个步骤:(1)使用校准数据进行压缩,以及(2)对数十亿个token进行昂贵的持续预训练,以恢复丢失的性能。第二步是必要的,因为第一步会显著影响模型的准确性。之前的研究表明,预训练的Transformer权重并不是天生的低排名,这与它们的激活不同,这可能解释了这种下降。基于这一观察,我们提出了Lillama,一种局部提取低秩权重激活的压缩方法。使用SVD进行初始化,并结合教师和学生激活的联合损失,我们通过局部梯度更新加速收敛并减少内存使用。原创 2025-01-29 10:00:00 · 159 阅读 · 0 评论 -
D2LLM: Decomposed and Distilled Large Language Models for Semantic Search
语义搜索的关键挑战是创建准确且高效的模型来精确定位查询的相关句子。虽然 BERT 风格的双编码器通过预先计算的嵌入在效率方面表现出色,但它们经常会错过搜索任务中的细微差别。相反,采用交叉编码器设计的 GPT 式 LLM 可以捕获这些细微差别,但计算量较大,阻碍了实时应用。在本文中,我们提出了 D2LLM(用于语义搜索的分解和蒸馏 LLM),它结合了两个领域的优点。我们将交叉编码器分解为与多头注意力池和交互仿真模块集成的高效双编码器,实现了细致入微的理解和预可计算性。原创 2024-09-18 14:58:51 · 144 阅读 · 0 评论 -
Direct Preference Knowledge Distillation for Large Language Models
在大型语言模型 (LLM) 领域,知识蒸馏 (KD) 是将功能从教师模型迁移到学生模型的关键技术。然而,现有的 KD 方法在蒸馏 LLM 方面面临局限性和挑战,包括效率和传统 KL 散度测量能力不足。结果表明,LLM 可以作为隐式奖励函数,我们将其定义为 KL 分歧的补充。在这项工作中,我们提出了 LLM 的直接偏好知识蒸馏 (DPKD)。我们将 LLM 的 KD 重新表述为两个阶段:首先优化和目标,包括隐性奖励和反向 KL 发散,然后提高教师产出对学生产出的偏好概率。原创 2024-09-14 10:44:42 · 199 阅读 · 0 评论 -
A Survey on Symbolic Knowledge Distillation of Large Language Models
本调查论文深入探讨了大型语言模型 (LLM) 中符号知识蒸馏的新兴关键领域。随着生成式预训练 Transformer-3 (GPT-3) 和来自 Transformers 的双向编码器表示 (BERT) 等 LLM 在规模和复杂性上不断扩大,有效利用其广泛知识的挑战变得至关重要。本调查集中于将这些模型中包含的复杂、通常隐含的知识蒸馏成更具象征意义、更明确的形式的过程。这种转变对于提高 LLM 的可解释性、效率和适用性至关重要。原创 2024-09-14 10:34:28 · 155 阅读 · 0 评论 -
Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application
大型语言模型 (LLM) 在各个领域都展示了卓越的能力,吸引了学术界和工业界的浓厚兴趣。尽管 LLM 的性能令人印象深刻,但其庞大的规模和计算需求对实际部署构成了相当大的挑战,尤其是在资源有限的环境中。在保持其准确性的同时压缩语言模型的努力已成为研究的重点。在各种方法中,知识蒸馏已成为一种有效的技术,可以在不大幅影响性能的情况下提高推理速度。本文从方法、评价和应用三个方面进行了深入的调查,探讨了专门为 LLM 量身定制的知识提炼技术,具体来说,我们将方法分为白盒 KD 和黑盒 KD,以更好地说明它们的差异。原创 2024-09-14 10:26:17 · 198 阅读 · 0 评论 -
DDK: Distilling Domain Knowledge for Efficient Large Language Models
尽管大型语言模型 (LLM) 在各种应用程序中具有先进的智能功能,但它们仍然面临着巨大的计算和存储需求。知识蒸馏 (KD) 已成为一种有效的策略,通过从高性能的 LLM(即教师模式)迁移知识来提高较小的 LLM(即学生模式)的表现。LLM 蒸馏的主流技术通常使用黑盒模型 API 来生成高质量的预训练和对齐数据集,或者通过改变损失函数来利用白盒蒸馏,以更好地从教师 LLM 那里迁移知识。但是,这些方法忽略了跨域学生和教师 LLM 之间的知识差异。原创 2024-09-14 10:06:31 · 293 阅读 · 0 评论 -
Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models
大型语言模型 (LLM) 在各种机器学习 (ML) 任务中展示了卓越的功能。鉴于为监督学习创建带注释的数据集的成本很高,LLM 通过实现有效的小样本上下文学习提供了一种有价值的替代方案。然而,这些模型会产生幻觉,尤其是在知识不完整的领域。此外,当前使用 LLM 进行知识蒸馏的方法通常难以提高教师和学生模型的有效性。为了应对这些挑战,我们引入了 DualChecker,这是一个创新框架,旨在减轻幻觉并提高教师和学生模型在知识蒸馏过程中的表现。原创 2024-09-13 16:53:37 · 193 阅读 · 0 评论 -
Enhancing Graph Neural Networks with Limited Labeled Data by Actively Distilling Knowledge
图在现实世界中无处不在,例如社交网络分析、生物信息学和知识图谱。图神经网络 (GNN) 在节点分类方面具有很强的能力,这是图的一项基本任务。不幸的是,尽管在实际应用中普遍存在少数样本节点分类任务,但传统的 GNN 在标记节点较少的情况下仍然面临挑战。为了应对这一挑战,已经提出了各种方法,包括图元学习、迁移学习和基于大型语言模型 (LLM) 的方法。然而,传统的元学习和迁移学习方法通常需要来自基类的先验知识,或者无法利用未标记节点的潜在优势。原创 2024-09-13 11:17:43 · 70 阅读 · 0 评论 -
Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models
Kullback-Leiber散度在知识蒸馏(KD)中被广泛用于压缩大型语言模型(LLMs)。与之前的断言相反,即反向Kullback-Leibler(RKL)散度是模式寻求的,因此优于均值寻求的正向Kullback-Leibler(FKL)散度,这项研究从经验和理论上证明,LLM的KD中既没有模式寻求也没有均值寻求性质。相反,RKL和FKL被发现具有相同的优化目标,并且都在足够多的迭代周期后收敛。然而,由于实际限制,LLM很少针对如此广泛的时间段进行训练。原创 2024-07-24 17:53:22 · 195 阅读 · 0 评论 -
Distilling System 2 into System 1
大型语言模型(LLM)可以在推理过程中花费额外的计算来生成中间思想,这有助于产生更好的最终响应。自思维链以来,已经提出了许多这样的系统2技术,如改写和响应、系统2注意力和分支求解合并。在这项工作中,我们研究了自监督方法,将系统2技术的更高质量输出“编译”(提取)回LLM代,而无需中间推理token序列,因为这种推理已被蒸馏到系统1中。我们表明,可以成功地蒸馏出几种这样的技术,与原始的系统1性能相比,结果有所改善,并且推理成本低于系统2。原创 2024-07-18 15:25:58 · 706 阅读 · 0 评论 -
IMPROVING QUANTIZED KNOWLEDGE DISTILLATION VIA SIGNAL PROPAGATION ANALYSIS FOR LARGE LANGUAGE MODELS
大型生成模型,如大型语言模型(LLM)和扩散模型,分别彻底改变了NLP和计算机视觉领域。然而,它们的推理速度慢、计算量和内存需求高,使得将它们部署在边缘设备上具有挑战性。在这项研究中,我们提出了一种轻量级的量化感知微调技术,使用知识蒸馏(KD-QAT)来提高4位加权量化LLM的性能,使用常见的数据集来实现流行的语言用例,即设备聊天应用程序。为了改进这种微调范式,作为主要贡献,我们通过实证研究训练过程中的梯度传播来深入了解KD-QAT的稳定性,以更好地理解基于KDQAT的方法对低位量化误差的脆弱性。原创 2024-06-26 15:36:23 · 84 阅读 · 0 评论 -
Facilitating Pornographic Text Detection for Open Domain Dialogue Systems via Knowledge Distillation
在开放域对话系统中,人机交互对话中出现的色情内容会给用户带来严重的副作用。然而,在人机交互对话中检测色情语言是一个研究较少的重要课题。为了朝着这个方向前进,我们引入了CENSORCHAT,这是一个对话监测数据集,旨在检测对话会话是否包含色情内容。为此,我们收集了野外真实的人机交互对话,并将其分解为单句话和单回合对话,最后一句话由聊天机器人说出。我们建议利用大型语言模型的知识蒸馏来注释数据集。具体来说,首先,原始数据集由四个开源大型语言模型进行注释,多数票决定标签。原创 2024-06-02 17:45:04 · 88 阅读 · 0 评论 -
Teacher-Student Training for Debiasing: General Permutation Debiasing for Large Language Models
大型语言模型(LLM)在NLP任务中展示了令人印象深刻的零样本能力和多功能性,但它们有时无法为特定任务保持关键的不变性。一个例子是排列灵敏度,其中LLM的输出可能根据输入选项的顺序而显著变化。虽然去偏技术可以缓解这些问题,并产生更好的性能和可靠性,但它们在推理时往往会带来高昂的计算成本。本文解决了这种推理时的低效问题。其目的是将计算密集型、去偏的教师模型的能力提取为更紧凑的学生模型。我们探索了学生模型的两种变体:一种基于纯蒸馏,另一种基于更复杂任务的纠错方法,即学生纠正老师的单一偏见决定,以实现去偏输出。原创 2024-06-02 10:44:18 · 65 阅读 · 0 评论 -
TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale
摘要1 引言2 相关工作3 方法4 实验5 结论大型语言模型(LLM)的出现大大推进了文本摘要等自然语言处理任务。然而,它们的大尺寸和计算需求,加上数据传输中的隐私问题,限制了它们在资源受限和以隐私为中心的环境中的使用。为了克服这一点,我们引入了TriSum,这是一个将LLM的文本摘要能力蒸馏到紧凑的局部模型中的框架。最初,LLM提取了一组方面三重的理由和摘要,并使用双重打分方法对其进行了改进。接下来,用这些任务训练一个较小的局部模型,采用从简单任务发展到复杂任务的课程学习策略。原创 2024-05-30 17:36:46 · 100 阅读 · 0 评论 -
Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation
大型语言模型(LLM)在机器翻译(MT)领域已经证明了其强大的能力,但它们存在较高的计算成本和延迟。因此,将翻译知识从大型LLM转移到中型机器翻译模型是一个很有前途的研究方向。然而,传统的知识蒸馏方法没有考虑到学生和教师模型的能力,因此重复地在学生模型所学的知识上教授学生模型,并且未能扩展到新的上下文和知识中。在本文中,我们提出了一个名为MT-PATCHER的框架,该框架以选择性、全面和主动的方式将知识从LLM转移到现有的MT模型。原创 2024-05-28 09:40:10 · 107 阅读 · 0 评论 -
Evolving Knowledge Distillation with Large Language Models and Active Learning
大型语言模型(LLM)已经在各种NLP任务中展示了非凡的能力。然而,它们的计算成本高得令人望而却步。为了解决这个问题,先前的研究试图通过生成注释数据将LLM的知识蒸馏到更小的模型中。尽管如此,这些工作主要集中在LLM用于文本生成和标记的直接使用上,而没有充分探索其理解目标任务和获取有价值知识的潜力。在本文中,我们提出了EvoKD:进化知识蒸馏,它利用主动学习的概念来交互式地增强使用大型语言模型的数据生成过程,同时提高小域模型(学生模型)的任务能力。原创 2024-05-24 14:16:05 · 119 阅读 · 0 评论 -
Gecko: Versatile Text Embeddings Distilled from Large Language Models
我们介绍了Gecko,一个紧凑而通用的文本嵌入模型。Gecko通过利用一个关键思想实现了强大的检索性能:将大型语言模型(LLM)中的知识蒸馏到检索器中。我们的两步蒸馏过程从使用LLM生成不同的合成配对数据开始。接下来,我们通过为每个查询检索一组候选段落,并使用相同的LLM重新标记正面和反面段落,来进一步改进数据质量。Gecko的紧凑性证明了我们方法的有效性。在海量文本嵌入基准测试(MTEB)上,具有256个嵌入维度的Gecko优于具有768个嵌入大小的所有现有条目。原创 2024-05-16 11:28:14 · 146 阅读 · 0 评论 -
Multimodal Intention Knowledge Distillation from Large Language Models
社交媒体已经成为一种无处不在的工具,可以与他人联系、随时了解新闻、表达意见和寻找娱乐。然而,理解社交媒体帖子背后的意图仍然具有挑战性,因为这些意图具有隐含性和常识性,需要对文本和图像进行跨模态理解,以及存在诸如标签、拼写错误的单词和复杂缩写等嘈杂信息。为了应对这些挑战,我们提出了Miko,这是一个多模态意图知识提取框架,它协同利用大型语言模型(LLM)和多模态大型语言模式(MLLM)来揭示用户的意图。具体来说,我们使用MLLM来解释图像,使用LLM来从文本中提取关键信息,并最终再次指示LLM生成意图。原创 2024-05-11 09:29:33 · 216 阅读 · 0 评论 -
A Survey on Knowledge Distillation of Large Language Models
在大型语言模型(LLM)时代,知识蒸馏(KD)成为将先进功能从领先的专有LLM(如GPT-4)转移到LLaMA和Mistral等开源同行的关键方法。此外,随着开源LLM的蓬勃发展,KD在压缩这些模型和通过聘请自己作为教师促进他们的自我改进方面发挥着至关重要的作用。本文对KD在LLM领域中的作用进行了全面的调查,强调了它在向小型模型传授先进知识方面的关键作用,以及它在模型压缩和自我改进中的实用性。原创 2024-04-25 10:24:27 · 351 阅读 · 0 评论 -
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation
尽管大型语言模型(LLM)已经在多语言语料库上进行了预训练,但与少数资源丰富的语言相比,它们在大多数语言中的性能仍然落后。缓解这一问题的一种常见方法是将训练数据从资源丰富的语言翻译成其他语言,然后继续训练。然而,使用仅依赖翻译而忽略LLM跨语言的原始能力的数据并不总是有效的,我们表明这将限制跨语言知识转移的性能。在这项工作中,我们提出了SDRRL,这是一种基于资源丰富语言的自蒸馏的方法,通过利用LLM在资源丰富语言上的内部能力,有效地提高了多语言性能。原创 2024-04-24 10:42:35 · 202 阅读 · 0 评论 -
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource
尽管大型语言模型(LLM)已经在多语言语料库上进行了预训练,但与少数资源丰富的语言相比,它们在大多数语言中的性能仍然落后。缓解这一问题的一种常见方法是将训练数据从资源丰富的语言翻译成其他语言,然后继续训练。然而,使用仅依赖翻译而忽略LLM跨语言的原始能力的数据并不总是有效的,我们表明这将限制跨语言知识转移的性能。在这项工作中,我们提出了SDRRL,这是一种基于资源丰富语言的自蒸馏的方法,通过利用LLM在资源丰富语言上的内部能力,有效地提高了多语言性能。原创 2024-04-23 17:01:44 · 135 阅读 · 0 评论 -
Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation
在没有人工注释偏好数据的情况下,使大型语言模型与人类期望相一致是一个重要问题。在本文中,我们提出了一种通过使用对比提示对下的响应对的输出概率来评估响应偏好的方法,与RLAIF相比,该方法可以在LLaMA2-7B和LLaMA2-13B上获得更好的性能。基于此,我们提出了一种自动对齐方法,即直接大模型对齐(DLMA)。首先,我们使用对比提示对来自动生成偏好数据。然后,我们继续使用对比提示对来评估生成的偏好数据,并计算自我奖励分数。最后,我们使用DPO算法通过结合这种自我奖励分数来有效地对齐LLM。原创 2024-04-23 15:47:09 · 154 阅读 · 0 评论 -
An Iteratively Refining Method for Eliciting Knowledge from Large Language Models
大型语言模型(LLM)表现出非凡的生成能力,能够生成有价值的信息。尽管取得了这些进步,但先前的研究发现,LLM有时难以遵守特定的约束条件(例如,在特定的地点或特定的时间),有时甚至忽视了这些约束条件,这导致了过于笼统或不完全令人满意的反应。现有的方法试图通过分解或重写输入指令来解决这个问题,但它们在充分强调特定约束和解锁底层知识(例如,在软件开发的背景下编程)方面做得不够。作为回应,本文提出了一种简单而有效的方法——特异性链(CoS)。原创 2024-03-30 10:35:30 · 59 阅读 · 0 评论 -
Contextualization Distillation from Large Language Model for Knowledge Graph Completion
虽然文本信息显著提高了预训练语言模型在知识图谱填充(KGC)中的性能,但从维基百科文章或同义词集定义中收集的现有语料库的静态和噪声性质往往限制了基于PLM的KGC模型的潜力。为了克服这些挑战,我们引入了上下文化蒸馏策略,这是一种通用的即插即用方法,与歧视性和生成性KGC框架兼容。我们的方法首先指示大型语言模型(LLM)将紧凑的结构三元组转换为上下文片段。随后,我们引入了两个量身定制的辅助任务——重建和情境化——允许较小的KGC模型吸收来自这些丰富的三元组的见解。原创 2024-03-11 10:44:29 · 165 阅读 · 0 评论 -
ELAD: Explanation-Guided Large Language Models Active Distillation
大型语言模型(LLM)的部署和应用受到其内存效率低、计算需求和API推理成本高的阻碍。传统的蒸馏方法将LLM的能力转移到较小的模型中,往往无法确定知识是否已经充分转移,这可能导致高成本或蒸馏不完全。在本文中,我们提出了一种解释引导的LLMs主动蒸馏(ELAD)框架,该框架采用主动学习策略来优化注释成本和模型性能之间的平衡。为了提高有效的样本选择,我们引入了一种解释引导的样本选择方法,该方法通过利用解释步骤中的不确定性来识别挑战其推理的样本。原创 2024-04-16 11:13:23 · 90 阅读 · 0 评论 -
Large Language Model Meets Graph Neural Network in Knowledge Distillation
尽管最近社区披露了大型语言模型(LLM)在理解文本属性图(TAG)方面的进步和潜在应用,但LLM的高计算和存储要求以及模型推理过程中的长延迟阻碍了其在生产中的部署。同时,尽管传统的图神经网络(GNN)轻权重,善于学习图的结构特征,但它们掌握TAG中复杂语义的能力在实际应用中受到一定的限制。为了解决这些局限性,我们专注于TAG中节点分类的下游任务,并提出了一种新的图知识蒸馏框架,称为语言图知识蒸馏(LinguGKD),使用LLM作为教师模型,GNN作为学生模型进行知识蒸馏。原创 2024-03-20 10:26:15 · 125 阅读 · 0 评论 -
DISTILLM: Towards Streamlined Distillation for Large Language Models
知识蒸馏(KD)被广泛用于将教师模型压缩为较小的学生模型,在保留模型能力的同时降低其推理成本和内存占用。然而,当前用于自回归序列模型(例如,大型语言模型)的KD方法缺少标准化的目标函数。此外,最近使用学生生成的输出来解决训练推理不匹配的问题,显著增加了计算成本。为了解决这些问题,我们引入了DISTILLM,这是一个用于自回归语言模型的更有效的KD框架。DISTILLM包括两个组成部分:(1)一种新的偏斜Kullback-Leibler发散损失,我们在其中揭示并利用其理论特性;原创 2024-04-04 09:20:22 · 388 阅读 · 0 评论 -
Distilling Large Language Models for Text-Attributed Graph Learning
文本属性图(TAG)是连接的文本文档的图。图模型可以有效地学习标签,但它们的训练在很大程度上依赖于人工注释标签,而在许多应用程序中,人工注释标签很少甚至不可用。大型语言模型(LLM)最近在小样本和零样本TAG学习方面表现出了显著的能力,但它们存在可扩展性、成本和隐私问题。因此,在这项工作中,我们专注于通过在TAG学习中提取LLM到局部图模型的能力,将LLM和图模型与其互补的优势协同起来。原创 2024-04-22 19:12:04 · 230 阅读 · 0 评论 -
Knowledge Distillation and Student-Teacher Learning for Visual Intelligence
本文是蒸馏学习综述系列的第四篇文章,Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks的一个翻译。原创 2023-08-18 10:55:35 · 558 阅读 · 1 评论 -
A Comprehensive Survey of Dataset Distillation
近年来,深度神经模型在几乎每个领域都取得了成功,甚至解决了最复杂的问题陈述。然而,这些模型规模巨大,有数百万(甚至数十亿)个参数,需要大量计算能力,而且无法部署在边缘设备上。此外,性能提升高度依赖于冗余标记数据。为了实现更快的速度并处理由于缺乏标记数据而引起的问题,已经提出了知识蒸馏(KD)来将从一个模型学习到的信息迁移到另一个模型。KD通常以所谓的“学生-教师”(S-T)学习框架为特征,并在模型压缩和知识迁移中得到了广泛应用。本文是关于近年来积极研究的KD和S-T学习。原创 2023-08-18 10:54:53 · 349 阅读 · 0 评论