pytorch中的注意力模型写法

hahajing369

于 2020-12-07 22:07:31 发布

阅读量456

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/jingtingxu369/article/details/110845886

这篇博客深入探讨了深度学习中的一种关键机制——注意力机制。通过矩阵运算，作者展示了如何将输入特征的维度变换，然后进行归一化处理，以计算相似度矩阵。这些步骤包括特征维度调整、L2范数归一化以及激活函数ReLU的应用，最终得到一个0到1之间的相似度矩阵。这种方法在理解和优化模型的注意力分配方面具有重要意义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

f = f.view(n,-1,h*w)   #改变f维度，[batch_size,C,H,W]变为[batch_size,C,H*W]
f = f/(torch.norm(f,dim=1,keepdim=True)+1e-5)

aff = F.relu(torch.matmul(f.transpose(1,2), f),inplace=True)    #大小为HW*HW，去掉负值
aff = aff/(torch.sum(aff,dim=1,keepdim=True)+1e-5)      #变为0~1之间

cam = cam.view(n,-1,h*w)
cam_rv = torch.matmul(cam, aff).view(n,-1,h,w)

另外一种方法：

sim_map = torch.bmm(query.transpose(1, 2), key)  #求相似度
sim_map = sim_map / 16
sim_map = sim_map / 0.1
sim_map = self.softmax(sim_map)