Resonance RoPE: Improving Context Length Generalization of Large Language Models

828 篇文章

已下架不支持订阅

本文提出共振RoPE方法,解决预训练在短序列上的模型在长序列处理中的泛化问题。通过细化OOD位置的RoPE特征插值,提升模型性能,无需额外计算成本。同时,引入POSGEN基准用于细粒度分析。实验显示,应用共振RoPE的模型在识别OOD位置和各类任务上表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章, 针对《Resonance RoPE: Improving Context Length Generalization of
Large Language Models》的翻译。

摘要

本文解决了在配备旋转位置嵌入(RoPE)的大型语言模型(LLM)中训练短测试长(TSTL)场景的挑战,其中在较短序列上预训练的模型在较长序列中面临分布外(OOD)标记位置的困难。我们引入了共振RoPE,这是一种新的方法,旨在通过细化OOD位置的ROPE特征插值来缩小TSTL场景中的泛化差距,显著提高模型性能,而不需要额外的在线计算成本。此外,我们提出了POSGEN,这是一种专门为TSTL场景中的细粒度行为分析设计的新的合成基准,旨在将长上下文中不断增加的token生成难度与识别新token位置的挑战隔离开来。我们在合成任务上的实验表明,在应用共振RoPE后,Transformer能够更好、更稳健地识别OOD位置。在将RESONANCE ROPE应用于当前最先进的ROPE缩放方法YaRN后,我们广泛的LLM实验在上游语言建模任务和各种下游长文本应用程序上也显示出优异的性能。

1 引言

2 相关工作

3 背景

<

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值