一、本文介绍
本文记录的是利用DAT 模块改进 RT-DETR 的多模态融合部分。主要讲解如何利用一些现有的模块二次改进多模态的融合部分。
DAT
全称为Deformable Attention Transformer
,其作用在于通过可变形注意力机制,同时包含了数据依赖的注意力模式,克服了常见注意力方法存在的内存计算成本高、受无关区域影响以及数据不可知等问题。相比一些只提供固定注意力模式的方法,能更好地聚焦于不同模态间的相关区域并捕捉更有信息的特征。
本文将其用于CGA Fusion
模块中并进行二次创新,更好地突出不同模态的重要特征,提升模型性能。
专栏目录:《多模态模型改进》目录一览 | 专栏介绍 ,多模态的全方位改进,提供多模态模型改进完整项目包-开箱即用
专栏地址:YOLO系列模型的多模态融合改进——极易上手、非常好发文的多模态改进教程!