
LLM Inference
文章平均质量分 68
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Inference-Time Scaling for Generalist Reward Modeling
强化学习(RL)已大规模应用于大语言模型(LLMs)的后训练。最近,通过RL激励LLMs的推理能力表明,合适的学习方法可以实现有效的推理时可扩展性。RL的一个关键挑战是为LLMs在各种领域(超出可验证问题或人工规则)中获得准确的奖励信号。在这项工作中,我们研究如何通过更多的推理计算来改进通用查询的奖励建模(RM),即通用RM的推理时可扩展性,以及如何通过合适的学习方法提高性能 - 计算缩放的有效性。对于RM方法,我们采用点向生成式奖励建模(GRM),以实现对不同输入类型的灵活性和推理时缩放的潜力。原创 2025-05-07 09:30:00 · 241 阅读 · 0 评论 -
ReaLM: Reliable and Efficient Large Language Model Inference with Statistical Algorithm-Based Fault
本文提出ReaLM框架,首次通过大规模错误注入实验系统分析LLM的容错特性,提出基于统计的ABFT算法,并定制低成本在线错误检测电路。基于此,设计了统计ABFT算法和低成本检测电路,在保持模型性能的同时,实现最高35.83%的能效提升。本文提出ReaLM框架,首次系统性分析LLM的容错特性,发现归一化操作后的组件对错误更敏感,并揭示错误频率与幅度的权衡关系。本文提出了一种名为ReaLM的算法/电路协同设计框架,旨在通过利用大型语言模型(LLM)的固有容错性,实现高效且可靠的LLM推理。原创 2025-04-28 09:30:00 · 475 阅读 · 0 评论 -
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
我们研究了一种新的语言模型架构,该架构能够通过潜在空间中的隐式推理来缩放测试时间计算。我们的模型通过迭代一个循环块来工作,从而在测试时展开到任意深度。这与通过产生更多token来扩展计算的主流推理模型形成鲜明对比。与基于思维链的方法不同,我们的方法不需要任何专门的训练数据,可以在小的上下文窗口中工作,并且可以捕获不易用语言表示的推理类型。我们将概念验证模型扩展到35亿个参数和8000亿个token。我们证明,由此产生的模型可以提高其在推理基准上的性能,有时甚至可以显著提高,计算负载相当于500亿个参数。原创 2025-02-23 10:00:00 · 66 阅读 · 0 评论 -
Extending Language Model Context Up to 3 Million Tokens on a Single GPU
在现代大型语言模型(LLM)中,处理非常长的上下文长度带来了重大挑战,因为它会导致推理速度减慢和内存成本增加。此外,大多数现有的预训练LLM无法超越其原始训练序列长度。为了实现高效实用的长上下文利用,我们引入了InfiniteHiP,这是一种新颖实用的LLM推理框架,通过模块化分层token修剪算法动态消除不相关的上下文token来加速处理。我们的方法还允许通过根据LLM内的内部注意力模式选择性地应用各种RoPE调整方法来泛化更长的序列。原创 2025-02-23 09:00:00 · 38 阅读 · 0 评论 -
KunServe: Elastic and Efficient Large Language Model Serving with Parameter-centric Memory
大型语言模型(LLM)服务的有状态特性可以在负载突发或长时间生成请求(如思维链推理)下轻松限制宝贵的GPU内存,从而由于排队传入请求而导致延迟尖峰。然而,最先进的以KVCache为中心的方法通过丢弃、迁移或交换KVCache来处理负载尖峰,这面临着正在进行的请求与传入请求的性能之间的重要权衡,因此仍然严重违反了SLO。本文进行了一项关键观察,即模型参数独立于请求,并在GPU上复制,因此提出了一种以参数为中心的方法,通过选择性地丢弃复制的参数,为请求留下宝贵的内存。原创 2025-01-31 09:00:00 · 375 阅读 · 0 评论 -
A Survey on Large Language Model Acceleration based on KV Cache Management
大型语言模型(LLM)因其理解上下文和执行逻辑推理的能力,彻底改变了自然语言处理、计算机视觉和多模态任务等广泛领域。然而,LLM的计算和内存需求,特别是在推理过程中,在将其扩展到现实世界、长上下文和实时应用程序时带来了重大挑战。键值(KV)缓存管理已成为一种关键的优化技术,通过减少冗余计算和提高内存利用率来加速LLM推理。本调查全面概述了LLM加速的KV缓存管理策略,将其分为token级、模型级和系统级优化。原创 2025-01-28 09:00:00 · 546 阅读 · 0 评论 -
FTP: A FINE-GRAINED TOKEN-WISE PRUNER FOR LARGE LANGUAGE MODELS VIA TOKEN ROUTING
最近,大型语言模型(LLM)通过遵守缩放定律,在各种任务中表现出卓越的性能,这大大增加了模型的大小。然而,推理过程中巨大的计算开销阻碍了在工业应用中的部署。许多工作利用传统的压缩方法来增强模型推理,但这些方法总是会引入额外的训练成本来恢复性能,并且当目标是特定水平的加速时,修剪结果通常会显示出与原始模型相比明显的性能下降。原创 2025-01-20 09:15:00 · 147 阅读 · 0 评论 -
Hansel: Output Length Controlling Framework for Large Language Models
尽管大型语言模型(LLM)取得了巨大成功,但有效控制输出序列的长度仍然是一个挑战。本文中,我们提出了Hansel,这是一种在不影响LLM生成能力的情况下进行长度控制的有效框架。Hansel利用周期性输出的隐藏特殊token来跟踪输出序列的剩余目标长度。结合避免输出突然终止的技术,这种看似简单的方法被证明是有效和通用的,同时不会损害生成文本的连贯性和流畅性。该框架可以在模型的微调阶段应用于任何预训练的LLM,而不管其原始的位置编码方法如何。原创 2025-01-15 10:15:00 · 307 阅读 · 0 评论 -
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive
在最小起草延迟和高推测准确性之间取得最佳平衡,以提高大型语言模型的推理速度,仍然是推测解码中的一个重大挑战。本文介绍了Falcon,这是一种创新的半自回归推测解码框架,旨在增强起草者的并行性和输出质量。Falcon采用了耦合顺序扫视蒸馏技术,该技术加强了同一区块内的token间依赖关系,从而提高了猜测的准确性。我们提供了一个全面的理论分析来阐明潜在的机制。原创 2025-01-14 09:15:00 · 163 阅读 · 0 评论 -
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
大型语言模型(LLM)在一系列自然语言处理任务中表现出了卓越的性能。然而,由于其二次复杂性,它们的巨大尺寸带来了相当大的挑战,特别是在计算需求和推理速度方面。在这项工作中,我们发现了一个关键模式:与语义上有意义的token相比,某些看似无意义的特殊token(即分隔符)对注意力得分的贡献不成比例。这一观察表明,这些分隔符token之间的段的信息可以有效地压缩到分隔符token本身中,而不会丢失大量信息。原创 2025-01-08 15:53:09 · 159 阅读 · 0 评论 -
SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models
大型语言模型(LLM)已经证明了其卓越的能力,但它们的输出有时可能不可靠或事实不正确。为了解决这个问题,我们引入了Self-Logits进化解码(SLED),这是一种新的解码框架,可以增强LLM的真实性,而不依赖于外部知识库或需要进一步的微调。从优化的角度来看,我们的SLED框架通过对比最后一层和早期层的输出逻辑,利用了LLM中嵌入的潜在知识。然后,它利用近似梯度方法使潜在知识能够指导输出的自我细化,从而有效地提高了事实的准确性。原创 2025-01-05 10:15:00 · 149 阅读 · 0 评论 -
SUFFIXDECODING: A MODEL-FREE APPROACH TO SPEEDING UP LARGE LANGUAGE MODEL INFERENCE
我们提出了 SuffixDecoding,这是一种新颖的无模型方法,可通过推测解码加速大语言模型 (LLM) 推理。与依赖草稿模型或专门解码头的现有方法不同,SuffixDecoding 利用根据先前生成的输出构建的后缀树来有效预测候选token序列。我们的方法可以实现灵活的树结构推测,而无需维护和编排额外模型的开销。SuffixDecoding 构建并动态更新后缀树以捕获生成文本中的模式,并使用它们通过基于经验token频率的原则评分机制构建推测树。原创 2024-12-12 10:00:00 · 78 阅读 · 0 评论 -
STAR ATTENTION: EFFICIENT LLM INFERENCE OVER LONG SEQUENCES
由于自注意机制的二次复杂性,使用基于Transformer的大语言模型(LLM)对长序列进行推理既昂贵又缓慢。我们引入了Star Attention,这是一种两阶段块稀疏近似,通过在多个主机上分散注意力来提高计算效率,同时最大限度地减少通信开销。在第一阶段,使用跨主机的块本地注意力并行处理上下文。在第二阶段,查询和响应token通过序列全局关注来处理所有先前缓存的token。原创 2024-12-03 09:15:00 · 395 阅读 · 0 评论 -
SAM Decoding: Speculative Decoding via Suffix Automaton
大型语言模型(LLM)通过将任务统一到文本生成中,彻底改变了自然语言处理,但它们的大参数大小和自回归特性限制了推理速度。SAM解码通过引入一种新的基于检索的推测解码方法来解决这个问题,该方法使用后缀自动机来高效准确地生成草稿。与现有方法使用的n元语法匹配不同,SAM解码在生成文本和文本语料库时找到最长的后缀匹配,每生成一步的平均时间复杂度为O1O1。SAM解码分别为文本语料库和输入提示构建静态和动态后缀自动机,实现快速准确的草稿生成。原创 2024-12-01 09:00:00 · 93 阅读 · 0 评论 -
Inference Acceleration for Large Language Models on CPUs
近年来,大型语言模型在各种自然语言处理(NLP)任务中表现出了卓越的性能。然而,为现实世界的应用程序部署这些模型通常需要高效的推理解决方案来处理计算需求。本文探讨了如何利用CPU加速大型语言模型的推理。具体来说,我们引入了一种并行方法,通过1)利用现代CPU架构的并行处理能力,2)对推理请求进行批处理来提高吞吐量。我们的评估显示,加速推理引擎每秒生成的token提高了18-22x。序列越长,模型越大,提高幅度越大。原创 2024-10-07 10:00:00 · 363 阅读 · 0 评论 -
Explicit Inductive Inference using Large Language Models
据报道,大型语言模型 (LLM) 在推理任务上存在不良证明偏差:当被要求预测前提 P 是否包含假设 H 时,LLM 倾向于使用脱离上下文的假设 H,而不是考虑 P 所包含的 H 的条件真实性。H 作为脆弱代理的真值标签。在本文中,我们提出了一种利用这种偏差进行显式归纳推理的管道。我们的管道使用LLM将前提转换为一组经过验证的替代方案,然后汇总派生的新蕴涵查询的答案以支持原始推理预测。在定向谓词蕴涵基准上,我们证明,通过应用这个简单的管道,我们可以提高LLM在推理方面的整体性能,并大大减轻其证明偏差的影响。原创 2024-09-26 10:02:47 · 283 阅读 · 0 评论 -
Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING
大型语言模型(LLM)的自回归解码是内存带宽受限的,导致高延迟和现代加速器并行处理能力的严重浪费。现有的加速LLM解码的方法通常需要一个草稿模型(例如推测解码),这很难获得,也无法推广。本文介绍了LOOKAHEAD DECODING,这是一种精确的并行解码算法,可以加速LLM解码,而不需要辅助模型或数据存储。它允许按步骤交易日志(FLOP)来减少总解码步骤的数量,在单个或多个现代加速器上更具并行性,并且与并发内存高效注意力(例如FlashAttention)兼容。原创 2024-09-23 10:39:25 · 229 阅读 · 0 评论 -
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
从强语言模型(LM)中训练高质量的合成数据是提高LM推理性能的常见策略。在这项工作中,我们重新审视了这种策略在固定推理预算(例如FLOP)下是否是计算最优的。为此,我们研究了使用更强但更昂贵的(SE)模型与较弱但更便宜的(WC)模型生成合成数据之间的权衡。我们评估了三个关键指标的生成数据:覆盖率、多样性和假阳性率,并表明来自WC模型的数据可能具有更高的覆盖率和多样性,但也表现出更高的假阳性率。原创 2024-09-20 10:37:15 · 133 阅读 · 0 评论 -
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
使LLM能够通过使用更多的测试时间计算来提高其输出,是构建可以在开放式自然语言上运行的一般自我改进代理的关键一步。在本文中,我们研究了LLM中推理时间计算的缩放,重点回答了一个问题:如果允许LLM使用固定但非微不足道的推理时间计算量,它在具有挑战性的提示下能提高多少性能?回答这个问题不仅对LLM的可实现性能有影响,而且对LLM预训练的未来以及如何权衡推理时间和预训练计算也有影响。尽管它很重要,但很少有研究试图了解各种测试时间推理方法的缩放行为。此外,目前的工作在很大程度上为其中一些策略提供了负面结果。原创 2024-09-20 10:16:46 · 689 阅读 · 0 评论 -
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
扩展用于训练语言模型的计算量极大地提高了它们的能力。然而,当涉及到推理时,我们通常会将计算量限制为每个问题只能尝试一次。在这里,我们通过增加生成的样本数量来探索推理计算作为缩放的另一个轴。在多个任务和模型中,我们观察到覆盖率——任何尝试解决的问题的比例——随着样本数量的增加而增加,超过四个数量级。在编码和形式证明等领域,所有答案都可以自动验证,覆盖率的增加直接转化为性能的提高。原创 2024-09-20 09:55:59 · 377 阅读 · 0 评论 -
An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
大型语言模型(LLM)在模型大小和计算预算方面的最佳训练配置已经得到了广泛的研究。但是,如何在推理过程中优化配置LLM还没有得到足够深入的探索。我们研究计算最优推理:设计模型和推理策略,以最佳地权衡额外的推理时间计算以提高性能。作为理解和设计计算最优推理方法的第一步,我们评估了贪婪搜索、多数投票、最佳N、加权投票等多种推理策略及其变体在两种不同的树搜索算法上的有效性和计算效率,涉及不同的模型大小和计算预算。我们发现,具有新颖树搜索算法的较小语言模型通常可以实现帕累托最优权衡。原创 2024-09-19 16:40:59 · 247 阅读 · 0 评论 -
Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models
近几个月来,对 LLM 的推理需求猛增,由于注意力层的二次输入长度复杂性,为低延迟的模型提供服务仍然具有挑战性。在这项工作中,我们研究了在推理时丢弃 MLP 和注意力层对 Llama-v2 模型性能的影响。我们发现,丢弃 dreeper attention 层只会略微降低性能,但在丢弃整个层的同时可以带来最佳的加速。例如,在 13B Llama2 模型中删除 33% 的注意力层会导致平均性能比 OpenLLM 基准测试下降 1.8%。原创 2024-09-12 16:34:34 · 80 阅读 · 0 评论 -
DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving
DistServe 通过解聚预填充和解码计算来提高大型语言模型 (LLM) 服务的性能。现有的 LLM 服务系统将这两个阶段放在一起,并在所有用户和请求中批量处理预填充和解码的计算。我们发现,这种策略不仅会导致强大的预填充-解码干扰,而且还耦合了两个阶段的资源分配和并行计划。LLM 应用程序通常强调每个阶段的单独延迟:预填充阶段的首次token时间 (TTFT) 和解码阶段每个请求的每个输出token的时间 (TPOT)。原创 2024-09-12 09:44:03 · 294 阅读 · 0 评论 -
Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy
最近,动态计算方法通过精心设计的启发式方法或其他预测器跳过了多层计算,从而显示出大型语言模型 (LLM) 的显著加速。然而,在现有方法的解码过程中,不同的样本被赋予不同的计算预算,无法保证稳定精确的加速效果。此外,现有方法通常会跳过层的底部或顶部的多个连续层,从而导致模型的分层表示发生剧烈变化,从而导致性能退化。因此,我们提出了一种 Unified Layer Skipping 策略,仅根据目标加速比选择要跳过计算的层数,然后以平衡的方式跳过相应的中间层计算数量。原创 2024-09-12 09:22:15 · 166 阅读 · 0 评论 -
SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills
大型语言模型(LLM)推理包括两个不同的阶段 - 预填充阶段(处理输入提示)和解码阶段(自动回归生成输出token)。虽然预填充阶段有效地使小批量的 GPU 计算饱和,但解码阶段会导致计算利用率较低,因为它每个请求一次生成一个token。使用流水线并行时,不同的预填充和解码时间也会导致微批处理之间的不平衡,从而导致气泡进一步降低效率。我们推出 SARATHI 来应对这些挑战。原创 2024-09-11 17:42:03 · 828 阅读 · 2 评论 -
A Comprehensive Survey of Accelerated Generation Techniques in Large Language Models
尽管在大型语言模型 (LLM) 中加速文本生成对于高效生成内容至关重要,但此过程的连续性通常会导致高推理延迟,从而给实时应用程序带来挑战。已经提出和开发了各种技术来应对这些挑战并提高效率。本文对自回归语言模型中的加速生成技术进行了全面调查,旨在了解最先进的方法及其应用。我们将这些技术分为几个关键领域:推测解码、早期退出机制和非自回归方法。我们讨论了每个类别的基本原则、优势、局限性和最新进展。通过这项调查,我们旨在提供对 LLM 技术现状的见解,并为自然语言处理这一关键领域的未来研究方向提供指导。原创 2024-09-08 11:19:22 · 176 阅读 · 0 评论 -
Efficient LLM Scheduling by Learning to Rank
在大型语言模型(LLM)推理中,LLM请求的输出长度通常被视为先验未知。因此,大多数LLM服务系统采用简单的先到先服务(FCFS)调度策略,导致前端(HOL)阻塞,降低吞吐量和服务质量。在本文中,我们重新审视了这一假设——我们表明,尽管预测每个请求的确切生成长度是不可行的,但通过学习排名,可以预测一批请求中输出长度的相对排名。排名信息为安排请求提供了宝贵的指导。基于这一认识,我们开发了一种用于LLM推理和服务的新型调度器,该调度器可以比现有方法更好地近似最短作业优先(SJF)调度。原创 2024-09-06 09:37:13 · 543 阅读 · 0 评论 -
Writing in the Margins: Better Inference Pattern for Long Context Retrieval
本文介绍了一种新的大型语言模型推理模式——边缘写作(WiM),旨在优化面向检索任务中长输入序列的处理。这种方法利用键值缓存的分块预填充来执行分段推理,从而能够高效地处理广泛的上下文,并生成和分类引导模型执行特定任务的中间信息(“边距”)。这种方法略微增加了计算开销,同时显著提高了现成模型的性能,而不需要进行微调。具体来说,我们观察到,WiM在推理技能(HotpotQA、MultiHop RAG)的准确性方面平均提高了7.5%,在聚合任务(CWE)的F1得分方面提高了30.0%以上。原创 2024-09-06 09:28:05 · 232 阅读 · 0 评论 -
A Survey on Efficient Inference for Large Language Models
大型语言模型(LLMs)因其在各种任务中的出色表现而引起了广泛关注。然而,LLM推理的大量计算和内存要求给资源受限场景中的部署带来了挑战。该领域的工作一直致力于开发旨在提高LLM推理效率的技术。本文对现有关于有效LLM推理的文献进行了全面的综述。我们首先分析了LLM推理效率低下的主要原因,即模型大小大、二次复杂度注意操作和自回归解码方法。然后,我们引入了一个全面的分类法,将当前的文献分为数据级、模型级和系统级优化。此外,本文还对关键子领域内的代表性方法进行了比较实验,以提供定量见解。原创 2024-08-22 09:57:04 · 610 阅读 · 0 评论 -
New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models
生成准确的逐步推理对于大型语言模型(LLM)解决复杂问题、增强鲁棒性和可解释性至关重要。尽管关于开发高级推理方法的研究层出不穷,但系统分析生成推理链中的各种LLM和推理策略仍然是一个重大挑战。困难源于缺乏两个关键要素:(1)用于评估不同任务上生成的推理链的自动方法,以及(2)用于系统比较的不同推理方法的统一形式和实现。本文旨在填补这一空白:(1)我们引入了AutoRace用于全自动推理链评估。现有的指标依赖于昂贵的人工注释或预定义的LLM提示,无法适应不同的任务。原创 2024-07-28 14:33:05 · 253 阅读 · 0 评论 -
MULTI-TASK INFERENCE: Can Large Language Models Follow Multiple Instructions at Once?
大型语言模型(LLM)通常被提示在每次推理调用中遵循一条指令。在这项工作中,我们分析LLM是否也具有同时处理多个指令的能力,称为多任务推理。为此,我们引入了MTI BENCH(多任务推理基准),这是一个全面的评估基准,包括25个任务中的5000个实例。MTI BENCH中的每个任务都包含2到3个子任务。正如预期的那样,我们首先证明了多任务推理平均将总推理时间减少了×1.46倍,因为它不需要多次推理调用。原创 2024-07-09 15:58:26 · 488 阅读 · 0 评论 -
ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching
Transformer体系结构具有显著的高级自然语言处理(NLP),并且是开发大型语言模型(LLM)(如LLaMA和OPT)的基础,这些模型已经主导了广泛的NLP任务。尽管LLM具有卓越的准确性,但在实际推理中,LLM在计算和内存密集型方面面临着独特的挑战。由于LLM推理的自回归特性,Transformers中注意力层的KV缓存可以通过用线性复杂度存储器访问代替二次复杂度计算来有效地加速LLM推理。然而,随着对处理较长序列的需求增长,这种方法需要增加内存。原创 2024-06-28 17:20:04 · 331 阅读 · 0 评论 -
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs
大语言模型(LLM)广泛应用于智能助手、文本摘要、翻译和手机多模态等任务。然而,当前用于设备上LLM部署的方法保持较慢的推理速度,这导致较差的用户体验。为了促进LLM在设备GPU上的高效部署,我们提出了四种优化技术:(a)支持动态形状模型推理的基于符号表达的方法;(b) 操作员优化和执行优先级设置,以提高推理速度并减少电话滞后;(c) 称为E0M4的FP4量化方法,以减少去量化开销;(d) 一种基于子张量的技术,以消除在LLM推断之后复制KV缓存的需要。原创 2024-06-21 17:36:48 · 108 阅读 · 0 评论 -
Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding
本研究旨在加快具有数十亿参数的大型语言模型(LLM)的推理速度。我们提出了一种用于实现LLM无损加速的智能并行自动校正dEcoding(SPACE)方法。通过集成半自动推理和推测解码功能,SPACE独特地使自回归LLM能够并行化token生成和验证。这是通过专门的半自回归监督微调过程实现的,该过程使现有LLM具备同时预测多个token的能力。此外,自校正解码算法有助于在单个模型调用内同时生成和验证token序列。原创 2024-06-05 09:21:25 · 198 阅读 · 0 评论 -
Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization
摘要1 引言2 相关工作3 我们的方法4 实验5 结论这项工作的重点是基于查询的会议摘要任务,其中生成上下文摘要(会议记录)以响应特定查询。在此任务中使用大型语言模型(LLM)时,即使上下文保持不变,每个新查询也需要对LLM推理端点/API进行新调用。然而,对LLM推理端点的重复调用会显著增加在生产中使用它们的成本,使LLM对于许多真实世界的用例来说不切实际。为了解决这个问题,在本文中,我们研究了在单个提示中组合对相同输入上下文的查询以最小化重复调用是否可以成功地用于会议摘要。原创 2024-05-16 14:49:28 · 78 阅读 · 0 评论 -
Model Compression and Efficient Inference for Large Language Models: A Survey
基于Transformer的大型语言模型已经取得了巨大的成功。然而,在推理过程中产生的大量内存和计算成本使得在资源受限的设备上部署大型模型具有挑战性。在本文中,我们从算法的角度研究了大型语言模型的压缩和高效推理方法。关于分类法,与较小的模型类似,大型语言模型的压缩和加速算法仍然可以分为量化、修剪、蒸馏、紧凑架构设计和动态网络。然而,与较小的模型相比,大型语言模型有两个突出的特点:(1)大多数压缩算法需要在压缩后对模型进行微调甚至重新训练。大型模型最显著的方面是与模型微调或训练相关的非常高的成本。原创 2024-04-05 13:55:14 · 232 阅读 · 0 评论 -
A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens
大型语言模型(LLM)已经在各种任务中展示了非凡的能力。然而,它们的广泛应用受到资源密集型解码过程的阻碍。为了应对这一挑战,当前的方法已经结合了额外的解码头,以实现对多个后续token的并行预测,从而实现推理加速。然而,这些解码头的精度达不到自回归解码方法。鉴于这些局限性,我们提出了Chimera,这是一个专门为推测采样设计的新颖框架。在这个框架内,我们引入了一个轻量级的草稿模型,该模型有效地利用先前生成的token来预测后续单词。为了确保准确性和效率,我们在轻量级草稿模型中提出了两种策略。原创 2024-03-14 19:47:09 · 77 阅读 · 0 评论 -
SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models
随着云平台上托管的大型语言模型越来越多地用于提供推理服务,隐私问题也在升级,尤其是涉及投资计划和银行账户详细信息等敏感数据。安全多方计算(SMPC)是一种很有前途的保护推理数据和模型参数隐私的解决方案。然而,SMPC在大型语言模型的隐私保护推理(PPI)中的应用,特别是那些基于Transformer架构的模型,往往会导致性能显著下降。这在很大程度上是由于Transformer架构中的大量非线性操作,这些操作不太适合SMPC,并且难以有效规避或优化。原创 2024-03-06 10:56:06 · 101 阅读 · 0 评论 -
K-Level Reasoning with Large Language Models
虽然大型语言模型(LLM)已经证明了它们在复杂推理任务中的熟练程度,但它们在动态、交互式和竞争场景中的性能——如商业战略和股市分析——仍然没有得到充分的探索。为了弥补这一差距,我们正式探索了LLM在快速发展的环境中用于决策的动态推理能力。我们介绍了两个基于博弈论的试点挑战,反映了现实世界动态决策的复杂性。这些挑战是明确定义的,能够对LLM的动态推理能力进行清晰、可控和精确的评估。通过广泛的实验,我们发现现有的推理方法在需要k级思维的动态环境中往往会出现问题——这是以前工作中没有解决的关键概念。原创 2024-03-08 14:13:29 · 203 阅读 · 0 评论