LLM - FlashAttention 的 Safe-Softmax 与 One-Pass Tiling 计算 教程

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/144963870

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


FlashAttention

FlashAttention 是高效的 注意力机制(Attention) 算法,加速 Transformer 模型中的自注意力计算,显著减少内存占用。通过将输入分块,在每个块上执行注意力操作,从而减少对高带宽内存(HBM)的读写次数。FlashAttention 使用底层硬件的内存层次结构,如 GPU 的内存层次,提高计算速度和减少内存访问开销,保持注意力机制的精度,通过减少内存访问次数,实现更快的计算速度。FlashAttention 已经被集成到 PyTorch 2.0 中,使得在大规模模型和长序列数据处理中更加高效。

推理过程,包括:

  1. Self-Attention 公式
  2. Safe-Sof
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ManonLegrand

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值