特征融合篇 | YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-Time Object Detection

最新推荐文章于 2025-04-15 17:30:42 发布

迪菲赫尔曼

最新推荐文章于 2025-04-15 17:30:42 发布

阅读量1.9k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： YOLOv8改进实战🚀 文章标签： YOLO 目标检测人工智能计算机视觉论文改进

原创文章为博主个人所有，未经授权不得转载、摘编、传播、倒卖、洗稿或利用其它方式使用上述作品。违反上述声明者，本站将追求其相关法律责任。

本文链接：https://blog.csdn.net/weixin_43694096/article/details/135733884

YOLOv8改进实战🚀 专栏收录该内容

153 篇文章 ¥299.90 ¥399.90

订阅专栏

YOLO-MS是一种新的实时目标检测器，通过研究不同卷积核尺寸对检测性能的影响，提出了一种增强多尺度特征表示的新策略。在不依赖预训练权重或大型数据集的情况下，YOLO-MS在MS COCO数据集上表现出色，与同类实时检测器相比，拥有更好的AP分数和计算效率平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
我们的目标是为目标检测社区提供一种高效且性能卓越的目标检测器，命名为YOLO-MS。该核心设计基于对不同卷积核尺寸对不同尺度对象检测性能的影响进行的一系列研究。研究结果是一种新策略，能够显著增强实时目标检测器的多尺度特征表示。
为验证我们策略的有效性，我们构建了一个名为YOLO-MS的网络架构。我们从头开始在MS COCO数据集上训练YOLO-MS，而不依赖于任何其他大规模数据集，如ImageNet，或预训练权重。在没有花哨的设计的情况下，我们的YOLO-MS在使用可比较数量的参数和FLOPs时，优于最近的实时目标检测器的最新技术水平，包括YOLO-v7和RTMDet。
以YOLO-MS的XS版本为例，仅具有4.5百万可学习参数和8.7G FLOPs，它在MS COCO上可以达到43%+的AP分数，比具有相同模型大小的RTMDet高出约2%+。此外，我们的工作还可以作为其他YOLO模型的即插即用模块。通常情况下，我们的方法显著提高了YOLOv8的AP分数，从37%+提升到40%+，甚至使用更少的参数和FLOPs。