YOLOv12/11/10算法改进【NO.169】引入具有线性复杂性的状态空间模型-CSDN博客

本文链接：https://blog.csdn.net/m0_70388905/article/details/148459586

前言
YOLO算法改进系列出到这，很多朋友问改进如何选择是最佳的，下面我就根据个人多年的写作发文章以及指导发文章的经验来看，按照优先顺序进行排序讲解YOLO算法改进方法的顺序选择。具体有需求的同学可以私信我沟通：

首推，是将两种最新推出算法的模块进行融合形成最为一种新型自己提出的模块然后引入到YOLO算法中，可以起个新的名字，这种改进是最好发高水平期刊论文。后续改进将主要教大家这种方法，有需要的朋友可私信我了解。

第一，创新主干特征提取网络，将整个Backbone改进为其他的网络，比如这篇文章中的整个方法，直接将Backbone替换掉，理由是这种改进如果有效果，那么改进点就很值得写，不算是堆积木那种，也可以说是一种新的算法，所以做实验的话建议朋友们优先尝试这种改法。

第二，创新特征融合网络，这个同理第一，比如将原yolo算法PANet结构改进为Bifpn等。

第三，改进主干特征提取网络，就是类似加个注意力机制等。根据个人实验情况来说，这种改进有时候很难有较大的检测效果的提升，乱加反而降低了特征提取能力导致mAP下降，需要有技巧的添加。

第四，改进特征融合网络，理由、方法等同上。

第五，改进检测头，更换检测头这种也算个大的改进点。

第六，改进损失函数，nms、框等，要是有提升检测效果的话，算是一个小的改进点，也可以凑字数。

第七，对图像输入做改进，改进数据增强方法等。

第八，剪枝以及蒸馏等，这种用于特定的任务，比如轻量化检测等，但是这种会带来精度的下降。

...........未完待续

一、创新改进思路或解决的问题

引入TransMamba，这是一个新颖的框架，它通过共享参数矩阵（例如 QKV 和 CBx）统一了 Transformer 和 Mamba，因此可以在不同标记长度和层的注意力和 SSM 机制之间动态切换。我们设计了内存转换器，通过将注意力输出转换为 SSM 兼容状态来桥接 Transformer 和 Mamba，确保发生转换的 TransPoints 上的无缝信息流。

二、基本原理

摘要：Transformer 是现代大型语言模型的基石，但其二次计算复杂性限制了长序列处理的效率。Mamba 是一种具有线性复杂性的状态空间模型（SSM），其最新进展提供了可观的效率提升，但存在不稳定的上下文学习和多任务泛化问题。本文提出了 TransMamba，这是一个新颖的框架，它通过共享参数矩阵（例如 QKV 和 CBx）统一了 Transformer 和 Mamba，因此可以在不同标记长度和层的注意力和 SSM 机制之间动态切换。我们设计了内存转换器，通过将注意力输出转换为 SSM 兼容状态来桥接 Transformer 和 Mamba，确保发生转换的 TransPoints 上的无缝信息流。还对 TransPoint 调度进行了全面探索，以进一步改进。我们进行了广泛的实验，证明与基线相比，TransMamba 实现了卓越的训练效率和性能，并验证了 Transformer 和 Mamba 范式之间更深层次的一致性，为下一代序列建模提供了可扩展的解决方案。