
LLM context
文章平均质量分 66
对LLM中的长上下文进行实时学术论文跟踪。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models
最近的许多工作旨在扩展语言模型的有效上下文长度,并且存在各种方法、任务和基准来衡量模型的有效记忆长度。然而,通过深入调查,我们发现目前对模型记忆能力的评估存在局限性。我们对这项工作的局限性进行了广泛的调查,并提出了一种称为遗忘曲线的新方法来衡量长上下文模型的记忆能力。我们表明,遗忘曲线具有对测试语料库和实验设置具有鲁棒性、不依赖于提示的优点,并且可以应用于任何模型大小。我们将遗忘曲线应用于涉及Transformer和基于RNN/SSM架构的各种模型。原创 2025-02-26 15:38:30 · 132 阅读 · 0 评论 -
MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS
扩展有效上下文长度对于向通用人工智能(AGI)推进大型语言模型(LLM)至关重要。然而,传统注意力机制固有的计算复杂性的二次增加带来了令人望而却步的开销。现有的方法要么强加有强烈偏见的结构,如特定于任务的水槽或窗口注意力,要么从根本上将注意力机制修改为线性近似,其在复杂推理任务中的表现仍未得到充分探索。在这项工作中,我们提出了一种遵循“少结构”原则的解决方案,允许模型自主确定参加的地点,而不是引入预定义的偏差。原创 2025-02-20 09:33:20 · 159 阅读 · 0 评论 -
CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels
大型语言模型(LLMs)在各种长上下文任务中得到了很好的研究。然而,高质量的长上下文摘要数据集的稀缺阻碍了这一领域的进一步发展。为了解决这个问题,我们引入了CNNSum,这是一个基于中国小说的多尺度长上下文摘要基准,以人为驱动的注释为特征,由四个子集组成,共695个样本,长度从16k到128k不等。我们评估了许多LLM并进行了详细的案例分析。此外,我们进行了广泛的微调实验,以探索和改进长上下文摘要。在我们的研究中:(1)像GPT-4o这样的高级LLM仍然可能产生主观评论,导致模糊的总结。原创 2025-01-10 09:14:59 · 167 阅读 · 0 评论 -
RETRIEVAL MEETS LONG CONTEXT LARGE LANGUAGE MODELS
扩展大型语言模型(LLM)的上下文窗口最近越来越流行,而通过检索来增强LLM的解决方案已经存在多年。自然的问题是:i)检索增强与长上下文窗口,哪一个更适合下游任务?ii)能否将这两种方法结合起来,实现两全其美?在这项工作中,我们通过使用两种最先进的预训练LLM研究这两种解决方案来回答这些问题,即专有的43B GPT和LLaMA2-70B。原创 2024-11-01 14:14:41 · 60 阅读 · 0 评论 -
Writing in the Margins: Better Inference Pattern for Long Context Retrieval
本文介绍了一种新的大型语言模型推理模式——边缘写作(WiM),旨在优化面向检索任务中长输入序列的处理。这种方法利用键值缓存的分块预填充来执行分段推理,从而能够高效地处理广泛的上下文,并生成和分类引导模型执行特定任务的中间信息(“边距”)。这种方法略微增加了计算开销,同时显著提高了现成模型的性能,而不需要进行微调。具体来说,我们观察到,WiM在推理技能(HotpotQA、MultiHop RAG)的准确性方面平均提高了7.5%,在聚合任务(CWE)的F1得分方面提高了30.0%以上。原创 2024-09-06 09:28:05 · 232 阅读 · 0 评论 -
xLSTM: Extended Long Short-Term Memory
在20世纪90年代,恒定误差转盘和门控被引入作为长短期记忆(LSTM)的核心思想。从那时起,LSTM经受住了时间的考验,并为众多深度学习成功案例做出了贡献,特别是它们构成了第一个大型语言模型(LLMs)。然而,以并行化自我关注为核心的Transformer技术的出现标志着一个新时代的到来,在规模上超过了LSTM。我们现在提出一个简单的问题:当利用现代LLM的最新技术,将LSTM扩展到数十亿个参数,同时减轻LSTM的已知局限性时,我们在语言建模方面能走多远?首先,我们介绍了具有适当归一化和稳定技术的指数门控。原创 2024-08-24 21:17:33 · 260 阅读 · 0 评论 -
Tree Attention: Topology-Aware Decoding for Long-Context Attention on GPU Clusters
自注意力是现代Transformer架构的核心数学运算,由于其序列长度的二次复杂性,也是一个重要的计算瓶颈。在这项工作中,我们推导了标量能量函数,其梯度计算了自我注意块,从而阐明了自注意力的理论基础,提供了对操作的贝叶斯解释,并将其与Hopfield网络等基于能量的模型紧密联系起来。我们的公式表明,通过树约简可以并行有效地计算序列轴上的约简。原创 2024-08-20 18:16:05 · 144 阅读 · 0 评论 -
Meta In-Context Learning Makes Large Language Models Better Zero and Few-Shot Relation Extractors
关系提取(RE)是一项重要任务,旨在识别文本中实体之间的关系。虽然大型语言模型(LLMs)在一般零样本和小样本学习方面显示出显著的上下文学习(ICL)能力,但最近的研究表明,目前的LLMs仍然在零样本和小样本RE方面苦苦挣扎。之前的研究主要致力于设计提示格式和选择好的例子来改进基于ICL的RE。虽然这两个因素对ICL都很重要,但如果能够从根本上提高LLMs在RE中的ICL能力,通过ICL的零样本和小样本RE性能将得到显著提高。原创 2024-07-12 10:16:35 · 114 阅读 · 0 评论 -
RULER: What’s the Real Context Size of Your Long-Context Language Models?
大海捞针(NIAH)测试考察了从长干扰物文本(“大海捞起”)中检索一条信息(“针”)的能力,已被广泛用于评估长上下文语言模型(LM)。然而,这种简单的基于检索的测试只表明了长期上下文理解的一种肤浅形式。为了对长上下文LMs进行更全面的评估,我们创建了一种新的合成基准RULER,该RULER具有针对定制序列长度和任务复杂性的灵活配置。RULER扩展了朴素NIAH测试,涵盖了不同类型和数量的针头。此外,RULER引入了新的任务类别——多跳跟踪和聚合,以测试上下文搜索之外的行为。原创 2024-07-11 10:01:34 · 317 阅读 · 0 评论 -
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
这项工作介绍了一种将基于Transformer的大型语言模型(LLM)扩展到具有有限内存和计算的无限长输入的有效方法。我们提出的方法中的一个关键组件是一种名为Infini注意力的新注意力技术。Infini注意力将压缩记忆纳入朴素注意力机制,并在单个Transformer块中建立掩蔽的局部注意力和长期线性注意力机制。我们展示了我们的方法在长上下文语言建模基准、1M序列长度的密钥上下文块检索和具有1B和8B LLM的500K长度的书籍摘要任务上的有效性。原创 2024-07-11 09:51:55 · 199 阅读 · 0 评论 -
Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
摘要1 引言2 相关工作3 Haystack框架中的摘要4 评估协议5 结果6 讨论7 结论LLM和RAG系统现在能够处理数百万个或更多的输入token。然而,评估此类系统在长上下文任务上的输出质量仍然具有挑战性,因为像“大海捞针”这样的任务缺乏复杂性。在这项工作中,我们认为总结可以在这种评估中发挥核心作用。我们设计了一个综合Haystacks文档的程序,确保特定的见解在文档中重复。原创 2024-07-09 11:14:52 · 166 阅读 · 0 评论 -
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
在传统的RAG框架中,基本检索单元通常很短。像DPR这样的常见检索器通常处理100个单词的维基百科段落。这样的设计迫使检索器在大型语料库上搜索以找到“针”单元。相比之下,读者只需要从检索到的简短单元中提取答案。这种不平衡的“重”检索器和“轻”读取器设计可能导致次优性能。为了缓解这种不平衡,我们提出了一个新的框架LongRAG,由“长检索器”和“长阅读器”组成。LongRAG将整个维基百科处理成4Ktoken单元,比以前长了30倍。通过增加单元大小,我们将总单元从2200万个显著减少到600万个。原创 2024-07-02 17:21:45 · 345 阅读 · 0 评论 -
Benchmarking Long-Context Capability of Multimodal Large Language Models
多模态大型语言模型(MLLMs)在各种应用中显示出巨大的前景,引起了研究人员和从业者的广泛兴趣。然而,对其长期能力的全面评估仍然没有得到充分的探索。为了解决这些差距,我们引入了多模态大海捞针(MMNeedle)基准,专门用于评估MLLM的长上下文能力。除了多图像输入外,我们还使用图像拼接来进一步增加输入上下文长度,并开发了一个协议来自动生成标签,用于子图像级检索。原创 2024-06-25 15:43:47 · 100 阅读 · 0 评论 -
Naive Bayes-based Context Extension for Large Language Models
大型语言模型(LLM)已经显示出很有前途的上下文学习能力。然而,传统的上下文学习(ICL)方法往往受到Transformer架构长度限制的阻碍,这在试图有效集成大量演示示例的监督时带来了挑战。在本文中,我们介绍了一种新的框架,称为基于朴素贝叶斯的上下文扩展(NBCE),通过显著扩展现有LLM的上下文大小,使其能够在增加演示次数的情况下执行ICL。重要的是,这种扩展不需要微调或依赖于特定的模型架构,同时保持线性效率。NBCE最初将上下文拆分为大小相等的窗口,以适应目标LLM的最大长度。原创 2024-06-17 14:05:14 · 183 阅读 · 0 评论 -
A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context LLMs
虽然最近的研究工作集中在开发具有强大长上下文能力的大型语言模型(LLM)上,但由于缺乏长上下文基准,人们对长上下文LLM的性能知之甚少。为了解决这一差距,我们提出了一种用于评估长上下文LLM的多证据、位置感知和可扩展的基准,名为Counting Stars,它通过使用两个任务来评估长上下文LLC:多证据获取和多证据推理。原创 2024-06-02 00:10:52 · 244 阅读 · 0 评论 -
CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models
开发具有强大长上下文能力的大型语言模型(LLM)是近年来的研究热点,导致了精通汉语的长上下文LLM的出现。然而,由于缺乏基准,对这些模型的评估仍不完善。为了解决这一差距,我们提出了CLongEval,这是一个评估长上下文LLM的综合中文基准。CLongEval的特点有三个:(1)数据量充足,包括7个不同的任务和7267个例子;(2) 广泛的适用性,适用于上下文窗口大小从1K到100K的模型;(3) 高质量,除了自动构建的标签外,还有2000多个手动注释的问答对。原创 2024-05-24 09:38:54 · 227 阅读 · 0 评论 -
Infusing Knowledge into Large Language Models with Contextual Prompts
知识注入是一种很有前途的方法,可以增强特定领域NLP任务的大型语言模型,而不是从头开始对大型数据进行预训练模型。这些增强的LLM通常依赖于来自现有知识图谱的额外预训练或知识提示,这在许多应用中是不切实际的。相比之下,直接从相关文档中注入知识更具普遍性,减轻了对结构化知识图的需求,同时对通常在任何知识图谱中都找不到的实体也很有用。基于这一动机,我们提出了一种简单而通用的知识注入方法,通过在输入文本中的上下文中生成提示。我们的实验表明了我们的方法的有效性,我们通过探索微调LLM来评估该方法。原创 2024-05-21 10:54:09 · 210 阅读 · 0 评论 -
Where does In-context Translation Happen in Large Language Models?
自监督的大型语言模型已经证明了通过上下文学习执行机器翻译(MT)的能力,但对于模型在哪里执行提示指令和演示示例的任务知之甚少。在这项工作中,我们试图描述大型语言模型从上下文学习者过渡到翻译模型的区域。通过在GPTNEO2.7B、BLOOM3B、LLAMA7B和LLAMA7B-CHAT上进行的一系列分层上下文掩蔽实验,我们证明了“任务识别”点的证据,即翻译任务被编码到输入表示中,不再需要关注上下文。我们进一步观察到屏蔽整个层时的低性能与任务识别层之间的对应关系。原创 2024-05-20 10:13:43 · 159 阅读 · 0 评论 -
Long-context LLMs Struggle with Long In-context Learning
大型语言模型(LLM)在处理超过32Ktoken的长序列方面取得了重大进展。然而,他们的表现评估在很大程度上局限于困惑和合成任务等指标,这些指标可能无法完全反映他们在更微妙的现实世界场景中的能力。本研究引入了一个专门的基准(LongICLBeach),专注于极端标签分类领域内的长时间上下文学习。我们精心选择了六个数据集,标签范围从28到174个类,涵盖了从2K到50Ktoken的不同输入(小样本演示)长度。我们的基准测试要求LLM理解整个输入,以识别大量的标签空间,从而做出正确的预测。原创 2024-05-17 15:00:29 · 236 阅读 · 0 评论 -
LONGEMBED: EXTENDING EMBEDDING MODELS FOR LONG CONTEXT RETRIEVAL
嵌入模型在IR和RAG等现代NLP应用中发挥着举足轻重的作用。虽然LLM的上下文限制已超过100万个token,但嵌入模型仍被限制在不超过8k个token的狭窄上下文窗口内,不受法律合同等需要长时间输入的应用场景的限制。本文探索了现有嵌入模型的上下文窗口扩展,在不需要额外训练的情况下将限制推到32k。首先,我们在新构建的LONEMBED基准上检查了当前嵌入模型在长上下文检索中的性能。LONEMBED包括两个合成任务和四个精心选择的真实世界任务,以不同长度的文档和分散的目标信息为特征。原创 2024-04-30 10:30:02 · 144 阅读 · 0 评论 -
How Large Language Models Encode Context Knowledge? A Layer-Wise Probing Study
先前的工作已经展示了大型语言模型在检索事实和处理上下文知识方面的有趣能力。然而,对LLM编码知识的分层能力的研究有限,这挑战了我们对其内部机制的理解。在本文中,我们首次尝试通过探测任务来研究LLM的分层能力。我们利用ChatGPT强大的生成能力来构建探测数据集,提供与各种事实相对应的多样性和连贯性证据。我们使用V可用信息作为验证度量,以更好地反映跨不同层编码上下文知识的能力。我们对冲突和新获得的知识的实验表明,LLM:(1)更喜欢在上层编码更多的上下文知识;原创 2024-04-28 19:46:35 · 103 阅读 · 0 评论 -
MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
Transformers的二次复杂性和弱长度外推限制了它们扩展到长序列的能力,尽管存在线性注意力和状态空间模型等次二次解,但它们在预训练效率和下游任务准确性方面的经验表现不如Transformers。我们介绍了MEGALODON,一种用于无限上下文长度的高效序列建模的神经架构。MEGALODON继承了MEGA(带门控注意力的指数移动平均)的架构,并进一步引入了多个技术组件来提高其性能和稳定性,包括复指数移动平均(CEMA)、时步归一化层、归一化注意力机制和带两跳残差配置的预范数。原创 2024-04-24 09:36:20 · 327 阅读 · 0 评论 -
PhaseEvo: Towards Unified In-Context Prompt Optimization for Large Language Models
为大型语言模型(LLM)制作一个理想的提示是一项具有挑战性的任务,需要大量的资源和专家的人力投入。现有工作将提示指令的优化和上下文学习示例视为不同的问题,导致次优的提示表现。本研究通过建立一个统一的上下文提示优化框架来解决这一局限性,该框架旨在实现提示指令和示例的联合优化。然而,在离散和高维的自然语言空间中制定这样的优化方案在收敛性和计算效率方面带来了挑战。为了克服这些问题,我们提出了PHASEVO,这是一个有效的自动提示优化框架,它将LLM的生成能力与进化算法的全局搜索能力相结合。原创 2024-04-10 10:04:50 · 107 阅读 · 0 评论 -
The What, Why, and How of Context Length Extension Techniques in Large Language Models
大型语言模型(LLM)的出现代表了自然语言处理(NLP)的一个显著突破,有助于在文本理解和生成方面取得实质性进展。然而,在这些进步中,值得注意的是,LLM在上下文长度外推方面经常面临限制。理解和扩展LLM的上下文长度对于提高其在各种NLP应用程序中的性能至关重要。在这篇调查论文中,我们深入探讨了为什么它是必不可少的多方面问题,以及高级技术可能给NLP应用带来的潜在转变。我们研究了与延长上下文长度相关的固有挑战,并对研究人员使用的现有策略进行了有组织的概述。原创 2024-03-02 20:02:49 · 723 阅读 · 0 评论 -
Training-Free Long-Context Scaling of Large Language Models
当输入token的数量超过其预训练长度时,大型语言模型处理和生成连贯文本的能力显著减弱。考虑到微调具有较长序列的大规模模型的昂贵开销,我们提出了双块注意力(DCA),它使LLAMA2 70B能够在没有持续训练的情况下支持超过10万个token的上下文窗口。通过将长序列的注意力计算分解为基于块的模块,DCA能够有效地捕获同一块内(块内)和不同块间(块间)的token的相对位置信息,并与Flash attention无缝集成。原创 2024-03-25 18:16:20 · 418 阅读 · 0 评论 -
the Impact of Input Length on the Reasoning Performance of Large Language Models
本文探讨了扩展输入长度对大型语言模型(LLM)能力的影响。尽管LLM在最近取得了进步,但它们在不同输入长度上的性能一致性还没有得到很好的理解。我们通过引入一种新的QA推理框架来研究这一方面,该框架专门用于评估输入长度的影响。我们使用同一样本的多个版本来隔离输入长度的影响,每个版本都使用不同长度、类型和位置的填充进行扩展。我们的研究结果表明,在比技术最大值短得多的输入长度下,LLM的推理性能显著下降。我们表明,退化趋势出现在我们数据集的每个版本中,尽管强度不同。原创 2024-03-15 13:11:25 · 144 阅读 · 0 评论 -
Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models
最近,大型语言模型(LLM)已经显示出非凡的能力,包括理解上下文、参与逻辑推理和生成响应。然而,这是以牺牲严格的计算和内存要求为代价实现的,阻碍了它们有效支持长输入序列的能力。这项调查全面回顾了最近为延长LLM中的序列长度而设计的技术和方法,从而提高了它们对长上下文理解的能力。特别是,我们回顾并分类了一系列技术,包括架构修改,如修改的位置编码和修改的注意力机制,这些技术旨在增强对较长序列的处理,同时避免计算需求的成比例增加。本研究中研究的各种方法可用于LLM的不同阶段,即训练、微调和推理。原创 2024-03-13 16:57:37 · 229 阅读 · 0 评论 -
Resonance RoPE: Improving Context Length Generalization of Large Language Models
本文解决了在配备旋转位置嵌入(RoPE)的大型语言模型(LLM)中训练短测试长(TSTL)场景的挑战,其中在较短序列上预训练的模型在较长序列中面临分布外(OOD)标记位置的困难。我们引入了共振RoPE,这是一种新的方法,旨在通过细化OOD位置的ROPE特征插值来缩小TSTL场景中的泛化差距,显著提高模型性能,而不需要额外的在线计算成本。原创 2024-03-13 14:04:10 · 117 阅读 · 0 评论 -
Can Large Language Models Understand Context?
理解上下文是理解人类语言的关键,大型语言模型(LLM)越来越多地被视为在令人印象深刻的程度上展示了这一能力。然而,尽管LLM的评估涵盖了自然语言处理领域内的各个领域,但对探究其理解上下文特征的语言能力的关注有限。本文通过调整现有数据集以适应生成模型的评估,引入了一个上下文理解基准。该基准测试由四个不同的任务和九个数据集组成,所有这些都具有旨在评估模型理解上下文能力的提示。首先,我们评估了LLM在上下文内学习预训练场景下的性能。实验结果表明,与最先进的微调模型相比,预训练的密集模型难以理解更细微的上下文特征。原创 2024-03-09 09:51:28 · 120 阅读 · 0 评论 -
UniMem: Towards a Unified View of Long-Context Large Language Models
长上下文处理是制约大型语言模型适用性的关键能力。尽管有各种方法致力于增强大型语言模型(LLM)的长上下文处理能力,但它们都是以孤立的方式开发的,缺乏对其优势的系统分析和整合,阻碍了进一步的发展。在本文中,我们介绍了UniMem,这是一个统一的框架,从LLM的记忆增强的角度重新表述了现有的长上下文方法。UniMem有四个关键维度:记忆管理、记忆写作、记忆阅读和记忆注入,为理解各种长上下文方法提供了系统的理论基础。原创 2024-03-08 14:46:31 · 128 阅读 · 0 评论 -
LongAlign: A Recipe for Long Context Alignment of Large Language Models
扩展大型语言模型以有效处理长上下文需要对类似长度的输入序列进行指令微调。为了解决这个问题,我们提出了LongAlign——一个用于长上下文对齐的指令数据、训练和评估的配方。首先,我们使用Self instruction构建了一个长指令跟随数据集。为了确保数据的多样性,它涵盖了来自各种长上下文来源的广泛任务。其次,我们采用打包和排序分批策略来加快对具有不同长度分布的数据的监督微调。此外,我们开发了一种损失加权方法,以平衡打包训练过程中不同序列的损失。原创 2024-03-06 10:28:24 · 214 阅读 · 0 评论