本文是LLM系列文章,针对《Leave No Context Behind:Efficient Infinite Context Transformers with Infini-attention》的翻译。
摘要
这项工作介绍了一种将基于Transformer的大型语言模型(LLM)扩展到具有有限内存和计算的无限长输入的有效方法。我们提出的方法中的一个关键组件是一种名为Infini注意力的新注意力技术。Infini注意力将压缩记忆纳入朴素注意力机制,并在单个Transformer块中建立掩蔽的局部注意力和长期线性注意力机制。我们展示了我们的方法在长上下文语言建模基准、1M序列长度的密钥上下文块检索和具有1B和8B LLM的500K长度的书籍摘要任务上的有效性。我们的方法引入了最小有界内存参数,并实现了LLM的快速流式推理。
1 引言
2 方法
3 实验
4 相关工作
5 结论
一个有效的记忆系统不仅对理解LLM的长上下文至关重要,而且对推理、计划、对新知识的持续适应,甚至对学习如何学习也至关重要。这项工作将压缩内存模块紧密集成到朴素点积注意力层中。对注意力层的这种微妙但关键的修改使LLM能够用有限的内存和计算资源处理无限长的上下文。我们表明,我们的方法可以自然地扩展到输入