#今日论文推荐# 科学家提出注意力算法FlashAttention，可执行更少的读写，且运行速度提高2-4倍

研究人员提出了一种名为FlashAttention的新算法，该算法针对Transformer模型的自注意力机制，通过IO感知实现更快、更节省内存的精确注意力计算。FlashAttention解决了Transformer在处理长序列时面临的内存和时间挑战，它执行更少的内存/访问操作，同时保持高计算速度，对比现有近似注意力方法，它在速度和内存效率上有显著提升，为长序列处理提供了有效解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#今日论文推荐# 科学家提出注意力算法FlashAttention，可执行更少的读写，且运行速度提高2-4倍

现在，在计算机领域，Transformer 模型已是图像分类、自然语言处理等分支领域中最为常见的架构。随着技术的不断进步，Transformer 模型在尺寸和深度等方面都完成了更进一步的拓展。
不过，由于这种模型核心的自注意力机制（self attention）的时间和存储复杂度在序列长度上属于二次型，所以，若想为其配备更长的上下文背景，仍然需要面临非常大的挑战。
为了克服这个难题，开发人员提出了很多旨在减少注意力计算和内存需求的近似注意力方法。稀疏逼近法、低秩逼近法以及结合前述两者的方法都在这个范围之下。
需要说明的是，这些方法虽然能够在序列长度上完成将计算需求降低到线性或近似线性的标准，但与标准注意力方法相比，它们无法很好地显示并行计算的时钟加速比，因此也没有更大的应用潜力。
同时，提高注意力速度和内存效率能否有助于 Transformer 模型解决长序列的运行时间和内存挑战，这也是一个值得关注的问题。近似注意力方法可能过于关注降低每秒所执行的浮点运算次数，而忽略了内存/访问的开销。
如今，GPU 的计算速度通常远超内存速度，这使内存/访问成为影响 Transformer 模型执行操作的关键所在。但像 PyTorch 和 Tensorflow 这些常见 Python 深度学习接口，是不允许对内存/访问进行细粒度控制的。所以，对图像处理、数据库连接、数值线性代数这类读写数据占据运行时间很大比例的内存绑定操作来说，拥有 IO 感知功能至关重要。
对此，斯坦福大学计算机系联合纽约州立大学布法罗分校的科研团队，推出了一种基于 IO 感知的注意力算法 FlashAttention，该算法可以在执行更少的内存/访问的基础之上，来计算精确注意力。

论文题目：FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
详细解读：https://www.aminer.cn/research_report/62a94f877cb68b460fd2f00b?download=falsehttps://www.aminer.cn/research_report/62a94f877cb68b460fd2f00b?download=false
AMiner链接：https://www.aminer.cn/?f=cs