【datawhale组队学习】YOLO-master -Task02


在这里插入图片描述

Yolo系列的发展历程

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的约瑟夫-雷德蒙(Joseph Redmon)和阿里-法哈迪(Ali Farhadi)开发。YOLO 于 2015 年推出,因其高速度和高精确度而迅速受到欢迎。

  • 2016 年发布的YOLOv2 通过纳入批量归一化、锚框和维度集群改进了原始模型。
  • 2018 年推出的YOLOv3 使用更高效的骨干网络、多锚和空间金字塔池进一步增强了模型的性能。
  • YOLOv4于 2020 年发布,引入了 Mosaic数据增强、新的无锚检测头和新的损失函数等创新技术。
  • YOLOv5进一步提高了模型的性能,并增加了超参数优化、集成实验跟踪和自动导出为常用导出格式等新功能。
  • YOLOv6于 2022 年由美团开源,目前已用于该公司的许多自主配送机器人。
  • YOLOv7增加了额外的任务,如 COCO 关键点数据集的姿势估计。
  • YOLOv8Ultralytics YOLOv8 引入了新的功能和改进,以提高性能、灵活性和效率,支持全方位的视觉人工智能任务、
  • YOLOv9引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 等创新方法。
  • YOLOv10是由清华大学的研究人员使用该软件包创建的。 UltralyticsPython 软件包创建的。该版本通过引入端到端头(End-to-End head),消除了非最大抑制(NMS)要求,实现了实时目标检测的进步。
  • YOLO11 Ultralytics的YOLO 12模型可在物体检测、分割、姿态估计、跟踪和分类等多项任务中提供最先进的 (SOTA) 性能,充分利用了各种人工智能应用和领域的能力。
  • YOLO12 🚀新消息:引入了Attention机制,通过区域注意机制(Area Attention)和剩余效率层聚合网络(R-ELAN),

YOLO12在保持实时性的同时,显著提升了性能和效率。
从发布频率来看:

  • YOLO之父发布了3次(YOLOv1、YOLOv2、YOLOv3)
  • Ultralytics 公司有点像YOLO的官方发布机构。它发布了3次(YOLOv5、YOLOv8和YOLO11)
  • 台湾Chien-Yao Wang团队参与了3次(YOLOv4、YOLOv7、YOLOv9)
  • 中国美团公司参与了1次(YOLOv6),中国清华大学参与了1次(YOLOv10)
  • 美国纽约州立大学布法罗分校和中国科学院大学联合参与了1次(YOLO12)

YOLOv1(2015)

  • 核心贡献:
    • 将目标检测重新定义为单一回归问题:YOLO(You Only Look Once)提出将目标检测简化为单次图像处理任务,直接从像素回归预测物体的边界框坐标和类别概率。
    • 单阶段检测框架(One-Stage Detection):首次将目标检测任务建模为端到端的回归问题,通过单个卷积神经网络直接预测边界框坐标和类别概率,摒弃了传统的两阶段(如R-CNN系列)区域提议机制。
    • 全局图像推理:与滑动窗口或区域提议方法不同,YOLOv1将输入图像划分为 S×S 网格(如7×7),每个网格单元负责预测固定数量的边界框及对应的类别概率,实现全局上下文感知。
    • 联合预测机制:每个网格单元预测 B 个边界框(Bounding Boxes) 和 1 个类别概率分布,边界框包含坐标(x, y, w, h)和置信度(confidence score),并在B个边界框中取其与GroundTruth的IoU最高的那个边界框用于检测。
    • 多任务损失函数:设计统一的损失函数,联合优化边界框定位误差、置信度误差和分类误差,平衡不同任务的梯度贡献。
  • 性能表现:在PASCAL VOC 2007和PASCAL VOC 2012数据集上的 mAP \text{mAP} mAP指标分别为63.4%和57.9%。

YOLOv2(2016)

  • 前序版本及其缺点
    • YOLOv1作为一种开创性的单阶段实时目标检测模型,在速度上表现出色,但存在以下局限性:
      • 小目标的检测能力较弱,容易漏检;
      • 定位精度低(目标位置的预测)<–使用全连接层预测边界框导致;
      • 对密集或重叠目标的检测效果差,容易将多个目标合并为一个边界框。
      • 召回率相对较低–>限制了在复杂场景下的应用。
    • 针对v1中所遇到的问题,研究者们提出了YOLOv2(YOLO9000)
  • 核心贡献:
    • 批量归一化(Batch Normalization):在每个卷积层后加入批量归一化,提升模型收敛速度、稳定性和泛化能力,mAP提升约2%。
    • 高分辨率分类器(High Resolution Classifier):先在ImageNet 上以 448x448 的分辨率微调分类网络 10 个 epochs,再迁移到检测网络,缓解输入分辨率突变导致的性能下降。
    • 锚框机制(Anchor Boxes):引入Faster R-CNN的锚框(Anchor)概念,移除YOLOv1的全连接层,改为卷积层预测锚框偏移量,显著提升召回率(Recall)。
    • 维度聚类(Dimension Clusters):通过K-means聚类分析训练集的边界框尺寸,自动生成更符合数据分布的锚框尺寸(取代人工设计),提升定位精度。
    • 直接位置预测(Direct Location Prediction):约束锚框中心点的预测范围(通过Sigmoid函数限制在网格单元内),避免训练初期锚框大幅偏移导致的发散问题。
    • 细粒度特征融合(Fine-Grained Features):提出“Passthrough层”:将浅层高分辨率特征图(26×26)与深层语义特征拼接,增强小目标检测能力。
    • 多尺度训练(Multi-Scale Training):每10个batch随机调整输入图像尺寸(如320×320到608×608),使模型适应不同分辨率,兼顾速度与精度。
    • 联合分类与检测训练(Joint Classification and Detection):提出WordTree分层结构,联合训练检测数据集(COCO/VOC)和分类数据集(ImageNet),支持检测超9000类物体(YOLO9000)。
  • 性能表现:在PASCAL VOC 2007和PASCAL VOC 2012数据集上的 mAP \text{mAP} mAP指标分别为78.6%和73.4%。在COCO数据集上的 mAP 50 \text{mAP}_{50} mAP50指标为44.0%

YOLOv3(2018)

  • 前序版本及其缺点
    • YOLOv2局限性:
      • 对小目标的检测能力较弱,容易漏检,尤其是在目标密集或重叠的场景中,检测精度会明显下降;
      • 网络结构相对复杂–>导致计算量增加,对硬件资源的要求也相应提高;
      • 对目标形状变化的适应性不足,可能会在复杂场景中影响检测效果。
    • 针对v2中所遇到的问题,研究者们提出了YOLOv3。
  • 核心贡献:
    • 多尺度预测(Multi-Scale Prediction):
      引入 3 种不同尺度的预测层(例如,输入尺寸为416的版本预测层分辨率为13×13、26×26、52×52),分别检测大、中、小目标,显著提升小目标检测能力。通过上采样(Upsampling)与特征拼接(Concatenation)构建特征金字塔网络(类似FPN),融合浅层细节与深层语义信息。多尺度预测极大地提升了YOLO网络对于小目标的检测能力,而此前的YOLOv1和v2版本在这方面表现并不出色。
    • 改进的骨干网络(Darknet-53):设计更深的骨干网络 Darknet-53(含53层卷积),结合残差连接(Residual Blocks),平衡计算量与特征提取能力。与Darknet-19、ResNet-101和ResNet152相比,Darknet-53运行效率更高。
    • 多标签分类(Multi-Label Classification):由于v3版本支持单目标多标签分类(如一个目标既可以被分类为“人”也可以被分类为“女人”),而之前版本中使用的Softmax要求单目标单标签并且标签直接要相互独立、没有交集,因此使用独立的逻辑回归分类器(Logistic Regression Classifier)替代了Softmax,而在逻辑回归分类器中,使用二元交叉熵损失(Binary Cross-entropy Loss)来训练分类器预测边界框。
    • 锚框优化(Anchor Box Clustering):对COCO数据集进行K-means聚类,生成 9组锚框尺寸(每个尺度分配3组),提升先验框与数据分布的匹配度。
    • 简化置信度预测:直接预测边界框的 对象置信度(Objectness Score),而非YOLOv2中的“框与真实框的IoU × 类别概率”。
    • 损失函数调整:边界框定位损失沿用MSE,但优化权重分配,缓解小目标定位误差被大目标淹没的问题。(论文中没提到,但是源码有体现)
  • 性能表现:在COCO数据集上的 mAP 50 \text{mAP}_{50} mAP50指标为57.9%,在416×416分辨率下推理时间为51毫秒/帧(在Nvidia Titan X显卡上)

YOLOv4(2020)

  • 前序版本及其缺点
    • YOLOv3局限性:
      • 在处理密集目标时表现欠佳–>容易出现漏检或误检,尤其是在目标相互重叠的情况下;
      • YOLOv3主要基于矩形边界框进行优化–>对于非常规形状的目标,YOLOv3的检测精度也受到一定限制;
      • 网络结构相对复杂–>模型大小较大–>导致在资源受限的设备上运行时面临挑战;
    • 针对v3中的上述问题,研究者们提出了YOLOv4。
  • 核心贡献:
    BoF(Bag of Freebies, 免费技巧):不增加推理成本但提升性能的技术(如数据增强、损失函数改进)。
    BoS(Bag of Specials, 特殊模块):需少量计算开销但显著提升精度的结构(如注意力机制、复杂特征融合)。
    • 骨干网络优化
      • Mish激活函数:采用平滑非单调激活函数,增强梯度流和模型泛化能力(BoS)。
      • CSPDarknet53:通过跨阶段局部连接(CSP)分割特征图梯度流,减少计算冗余(BoS)。
      • 多输入加权残差连接(MiWRC):优化特征融合过程,提升网络表达能力(BoS)。
      • CutMix数据增强:融合两幅图像局部区域,增强模型对局部遮挡的鲁棒性(BoF)。
    • 检测器创新
      • SPP模块:多尺度最大池化(5×5、9×9、13×13)融合不同感受野特征(BoS)。
      • PANet路径聚合:使用PANet改进FPN,实现双向特征融合,增强浅层信息传递(BoS)。YOLOv4的PANet与原始PANet不同,采用concat融合特征图,允许网络学习更丰富的特征表示。
      • SAM空间注意力模块:通过通道/空间注意力聚焦关键区域(BoS)。
    • 训练策略与损失函数
      • CIoU Loss:使用CIoU Loss优化目标框定位(BoF)。从YOLOv3的IoU Loss改进而来,CIoU Loss联合优化重叠面积、中心距离和宽高比,更精确,提升定位精度。
      • 消除网格敏感度(Eliminate Grid Sensitivity):改进坐标预测公式,缓解网格边界回归偏差(BoF)。
      • 单目标多锚框策略:为单个GroundTruth分配多个锚框,缓解正样本不平衡问题(BoF)。
    • 正则化与数据增强
      • Mosaic增强:四图拼接训练,强化复杂背景和小目标适应能力(BoF)。
      • DropBlock:结构化丢弃特征图连续区域,防止过拟合(BoF)。
      • 类别标签平滑(Label Smoothing):软化硬标签,缓解分类置信度过拟合(BoF)。
    • 训练优化技术
      • 自对抗训练(SAT):对抗扰动生成+微调两阶段训练,提升鲁棒性(BoF)。
      • CmBN跨小批量归一化:累积多步梯度更新,改善小批量训练稳定性(BoF)。
      • 余弦退火调度器:动态调整学习率,避免局部最优(BoF)。
      • 随机训练形状(Random Shapes):多尺度输入增强尺度不变性(BoF)。
    • 后处理与推理优化
      • DIoU-NMS:在非极大值抑制(NMS)中引入中心点距离度量,减少重叠目标误删(BoS)。
      • 超参数自动优化:通过算法搜索最佳锚框和训练参数组合(BoF)。
  • 性能表现:在COCO数据集上达到了43.5%的 mAP \text{mAP} mAP

YOLOv5(2020)

  • 前序版本及其缺点
    • YOLOv4局限性:
      • 网络结构相对复杂,模型规模较大–>模型在训练和推理阶段对硬件资源的需求较高;
      • 小目标检测仍不够精确–>容易出现漏检或误检;
      • 对于密集目标和长宽比较大的目标,检测效果存在一定的局限性;
      • 由于复杂的网络设计–>训练和调整过程相对困难,对开发者的技能要求较高。
    • 针对v4中的上述问题,研究者们优化YOLO框架,提出YOLOv5。
  • 核心贡献:
    • 自适应锚框计算(AutoAnchor):在训练前自动分析数据集并优化 Anchor Box 的尺寸,提升边界框回归效率。
    • Mosaic 数据增强:引入 4 图拼接的 Mosaic 数据增强方法,结合随机裁剪、缩放、色调变换,提升小目标检测和泛化能力。
    • CSPNet 骨干网络:采用 Cross Stage Partial Network (CSPDarknet53) 作为骨干网络,减少计算量并增强特征融合能力。
    • 复合模型缩放(Model Scaling):通过统一缩放深度、宽度、分辨率(借鉴 EfficientNet),提供 YOLOv5s/m/l/x 多尺度模型。
    • Focus 结构与跨阶段特征融合:通过 Focus 模块(切片+卷积)降低计算量,配合 PANet 实现多尺度特征金字塔融合。
    • 损失函数改进:采用 CIOU Loss 替代 MSE 作为边界框回归损失,同时优化分类与置信度损失权重。
    • 混合精度训练与模型量化:支持 FP16/INT8 训练加速,并提供 TFLite/ONNX 等轻量化部署格式。
  • 性能表现:YOLOv5通过配置不同的参数预训练了多个不同大小的模型,其中yolov5x6在COCO数据集上达到了55.0%的 mAP 50 − 95 \text{mAP}_{50-95} mAP5095

YOLOv6(2022)

  • 前序版本及其缺点
    • YOLOv5局限性:
      • 在处理小目标和遮挡目标时表现欠佳,容易出现漏检或误检<–由于其特征金字塔结构不够完善;
      • 尽管采用了多尺度训练技术,但在复杂场景下,YOLOv5的检测精度仍有待提高,尤其是在面对长尾分布数据时,模型对少数类别物体的识别能力较弱;
      • YOLOv5的抗干扰性也存在问题,图像噪声、模糊或遮挡等因素会影响其检测效果。
    • 因此,美团的研究者们优化v4、v5的模型设计和算法,提出YOLOv6以及后续的v6 2.0和v6 3.0版本。
  • 核心贡献:
    • 网络设计
      • EfficientRep Backbone:
        提出 RepVGG-style 骨干网络,通过 重参数化技术(RepOpt) 实现训练时多分支结构与推理时单路径的高效转换,兼顾训练稳定性与推理速度。
        • 小模型使用 RepBlock 作为构建块,训练时采用多分支结构,推理时转换为单路径结构,兼顾效率和特征表达能力。P3
        • 大模型使用 CSPStackRep Block,结合 CSP 连接,在计算成本和精度之间取得平衡。
      • Rep-PAN Neck: 采用 PAN 拓扑结构,并使用 RepBlock 或 CSPStackRep Block 进行增强,实现高效的特征融合。
      • Efficient Decoupled Head: 采用混合通道策略,减少中间卷积层数量,降低计算成本,提升推理速度。完全弃用锚框(Anchor-based),采用 解耦检测头,分离分类和回归任务,简化超参数调优并提升小目标检测精度。引入 动态标签分配(TAL, Task Alignment Learning),根据分类与回归任务的一致性动态匹配正样本。
    • 损失函数
      • 分类损失: 采用 VariFocal Loss (VFL),有效平衡正负样本的学习信号。
      • 框回归损失:
        • 小模型使用 SIoU Loss,大模型使用 GIoU Loss。
        • 大模型还引入 DFL (Distribution Focal Loss),进一步提升框定位精度。将边界框的基础连续分布简化为离散分布,当ground truth的边界模糊时,这种方法能有效提高边界框定位精度。不过YOLOv6种,DFL仅仅引用于YOLOv6M/L。
      • 对象损失: 实验表明对象损失对模型性能有负面影响,因此未被采用。
    • 混合数据增强与量化友好设计
      • 数据增强: YOLOv6 结合了 Mosaic、MixUp 和 RandomAffine 等多种数据增强策略,有效地提升了模型的鲁棒性和泛化能力,使其能够更好地应对各种复杂场景。
      • 量化友好性: YOLOv6 在网络结构设计时考虑了 INT8 量化的友好性,例如避免产生大范围的激活值,限制卷积核尺寸等,从而减少了量化带来的误差,保证了量化模型的精度和性能。
    • 工业应用改进
      • 更多训练轮数: 延长训练时间,提升模型精度。
      • 自蒸馏训练策略(Self-Distillation):提出 轻量级教师-学生协同训练框架,通过知识蒸馏提升小模型(如 YOLOv6s)的精度,无需额外标注或复杂架构。
      • 图像灰边处理: 通过调整灰边大小和 Mosaic 增强策略,在保持性能的同时提升推理速度。
    • 量化和部署
      • RepOptimizer: 使用 RepOptimizer 训练模型,获得更适合 PTQ 的权重分布,提升量化性能。
      • 敏感性分析: 分析模型对量化的敏感性,将敏感层保持为浮点计算,提升 PTQ 性能。
      • QAT 和通道蒸馏: 采用 QAT 和通道蒸馏技术,进一步提升量化模型的精度和速度。
    • 多尺度模型家族(YOLOv6n/s/m/l):提供从 Nano(1.9M参数)到 Large 的多尺度预训练模型,适配不同算力场景(边缘端到云端)。
  • 性能表现:YOLOv6通过配置不同的参数预训练了多个不同大小的模型,其中YOLOv6-L在COCO 2017数据集上达到了52.5%的 mAP \text{mAP} mAP

YOLOv7(2022)

  • 前序版本及其缺点
    • YOLOv6局限性:
      • 处理高密度目标和重叠物体时,容易出现漏检或误检;
      • 尽管模型结构轻量化,但量化性能存在问题<–重参数化结构导致数据分布不佳,影响了量化后模型的精度;
    • 针对v6和v5所存在的问题,研究者们在v5模型的基础上进一步优化模型结构和功能,提出了YOLOv7。
  • 核心贡献:
    • 扩展的高效层聚合网络(E-ELAN):
      改进 ELAN 结构,通过 分组卷积 和 动态通道重组 增强特征复用效率,提升骨干网络(CSPDarknet)的学习能力。引入 梯度路径解耦,优化梯度反向传播,避免深层网络训练中的信息衰减。
    • 动态标签分配(Dynamic Label Assignment):
      提出 动态软匹配策略(DSM),根据预测框与真实框的联合置信度动态分配正负样本,缓解人工阈值设定的局限性。结合 跨网格匹配(Cross-Grid Matching),允许标签分配给相邻网格单元,增强密集目标的检测稳定性。
    • 可训练的“免费”优化策略(Trainable Bag-of-Freebies):
      在不增加推理成本的前提下,通过 多分支辅助训练头(Aux Head) 和 梯度传播优化 提升主检测头的性能。提出 隐式知识蒸馏(Implicit Knowledge Distillation),利用辅助头指导主头学习,无需额外教师模型。
    • 模型缩放策略(Model Scaling):统一设计 深度-宽度-分辨率-特征金字塔缩放规则,生成 YOLOv7-tiny/s/m/l/x 系列,适配不同硬件需求。
    • 复合重参数化模块(Planar Reparam):
      提出 规划重参数化(Planned Re-parameterization),将多分支卷积结构(训练时)合并为单路径(推理时),降低计算冗余。支持 动态卷积核融合,提升 GPU 并行计算效率,如 YOLOv7 在 V100 上推理速度达 161 FPS。
    • 复合数据增强与损失函数优化:
      结合 Mosaic++(增强版拼接)、Random Identity(随机身份替换)和 PhotoMetric Distortion(光度畸变)。提出 MPDIoU Loss,统一优化边界框中心点、宽高比和对角点距离,解决传统 IoU 损失的梯度模糊问题。
  • 性能表现:YOLOv7-E6E(YOLOv7系列的最大模型)在 MS COCO 测试集和验证集上的性能分别达到56.8%和56.8% mAP \text{mAP} mAP;74.4%的 mAP 50 \text{mAP}_{50} mAP50。参数量为151.7M,在V100上的推理速度为36FPS。

YOLOv8(2023)

  • 前序版本及其缺点
    • YOLOv7局限性:
      • 模型尺寸相对较大–>计算资源消耗较高–>移动端或嵌入式设备部署困难;
      • 小目标和密集目标的检测能力较弱,容易出现漏检或误检;
      • 训练过程较为复杂,需要更多的计算资源和优化技巧来达到最佳性能;
      • 模型本身可解释性不足,复杂的网络结构使得理解其内部工作机制较为困难。
    • 针对v7中所存在的问题,ultralytics的研究者们摒弃v7的架构,对v5的架构进行优化和改进,提出YOLOv8。
  • 核心贡献:
    • 统一任务接口(Unified Task Interface):
      支持 目标检测、实例分割、关键点检测、分类 等多任务统一框架,用户仅需调整模式参数即可切换任务。
      提供简洁的 CLI 和 Python API,简化训练、验证、部署流程。
    • 可扩展的模块化架构:
      采用 动态网络设计,通过配置文件(YAML)灵活调整骨干网络、检测头、损失函数等组件,适配不同任务需求。引入 C2f (改进的跨阶段部分连接)模块,结合多分支残差结构和通道重加权机制,增强特征复用并优化梯度流。
    • 自适应训练策略:
      动态锚框优化(AutoAnchor v2):在训练过程中实时调整锚框尺寸,无需预聚类分析。智能学习率调度:根据损失收敛情况自动调整学习率,支持 cosine、linear、one-cycle 等策略。
    • 损失函数与标签分配改进:
      DFL(Distribution Focal Loss):将边界框回归建模为概率分布学习,提升定位精度。
      Task-Aligned Assigner:根据分类置信度与回归IoU动态分配正样本,优化任务一致性。
    • 高效推理优化:
      无锚点(Anchor-Free)检测头:简化输出层设计,减少超参数依赖,提升小目标检测能力。
      混合精度训练与量化感知训练(QAT):原生支持 FP16/INT8 训练,导出 ONNX/TensorRT 模型时自动优化计算图。
    • 多平台部署支持:
      支持 TensorRT、ONNX、CoreML、OpenVINO 等格式一键导出,适配 NVIDIA Jetson、Intel CPU、Apple M1/2 等硬件。提供 NCNN、TFLite 边缘端部署方案,模型体积缩小至 3MB(YOLOv8n-TFLite)。
    • 数据增强与训练加速:
      Mosaic9:扩展至 9 图拼接增强,结合混合尺度、旋转、色彩变换,提升模型泛化能力。
      Batch Size 自动缩放:根据显存容量动态调整批次大小,最大化 GPU 利用率。
  • 性能表现:YOLOv8x(YOLOv8系列的最大模型)在 MS COCO 验证集上的性能达到 53.9% 的 mAP 50 − 95 \text{mAP}_{50-95} mAP5095,参数量仅68.2M。

YOLOv9(2024)

  • 前序版本及其缺点
    • YOLOv8局限性:
      • 小目标检测能力不够理想<–模型采用固定大小的网格划分–>小目标的特征提取不充分,导致检测精度受限;
      • 在复杂背景或遮挡严重的场景中,检测精度受影响,模型难以区分前景目标与背景;
      • 对长宽比差异较大的目标检测效果较差,限制了其在某些特定场景下的应用;
    • 针对v8中所存在的问题,v4和v7的研究者们继续在v7基础上进行优化和整理,提出YOLOv9。
  • 核心贡献:
    • 可编程梯度信息(PGI, Programmable Gradient Information):
      辅助可逆分支(Auxiliary Reversible Branch):通过引入可逆架构生成可靠的梯度信息,缓解深度网络中的信息瓶颈问题,确保主分支在反向传播时能接收完整的目标关联信息,避免传统深度监督的误差累积。
      多级辅助信息(Multi-level Auxiliary Information):整合来自不同特征金字塔层次的梯度信息,避免浅层特征因特定任务目标(如小目标检测)丢失全局语义信息,增强多尺度目标检测的鲁棒性。
      零推理成本:PGI仅在训练阶段引入额外分支,推理时完全移除,保持模型轻量与高效。
    • 广义高效层聚合网络(GELAN, Generalized Efficient Layer Aggregation Network):
      灵活计算块设计:结合CSPNet与ELAN的优势,允许用户根据硬件需求自由替换卷积块(如CSP、Res、Dark块),支持动态调整网络深度与宽度。
      梯度路径规划:通过优化特征复用与梯度流,提升参数利用率。GELAN仅使用常规卷积即超越基于深度可分离卷积(Depth-wise Conv)的SOTA方法,在相同参数量下AP提升0.4-0.6%。
      多尺度适应性:通过调整ELAN与CSP模块的深度(如D_{ELAN}和D_{CSP}),平衡模型性能与计算开销,适配从边缘设备到服务器的多场景需求。
    • 轻量级模型训练突破:
      免预训练优势:仅通过从头训练(Train-from-Scratch)即在MS COCO上超越基于ImageNet预训练的模型(如RT DETR-X),AP达55.6%(YOLOv9-E)。
      动态标签分配优化:结合YOLOv7的引导头(Lead Head)策略,提升正样本匹配效率,缓解轻量模型因参数不足导致的信息丢失问题。
  • 性能表现:YOLOv9-E(YOLOv9系列的最大模型)具有57.3M的参数,在 MS COCO 验证集上的性能达到 55.6% 的 mAP \text{mAP} mAP和 72.8% 的 mAP 50 \text{mAP}_{50} mAP50

YOLOv10

  • 前序版本及其缺点
    • YOLOv9局限性:
      • 计算量较大<–由于引入PGI和GELAN,模型复杂度增加;
      • 在某些配置下,推理速度可能会比v7稍慢,限制了实时性要求极高的场景应用;
      • 主要专注于目标检测任务,对于更广泛的任务支持可能效果不佳。
    • 清华大学团队的研究者们对v8的框架进行优化,提出YOLOv10。
  • 核心贡献:
    • 一致动态双重分配(Consistent Dual Assignments):训练阶段联合优化一对多分支(提供密集监督)和一对一分支(消除冗余预测),推理阶段仅保留一对一分支,彻底移除NMS后处理,端到端延迟降低37%~70%。
    • 深度可分离分类头:基于回归任务重要性分析,发现相比之下,分类头对性能影响较小,因此蒋分类头参数量减少60%(1.51M→0.64M),FLOPs降低63%(5.95G→2.34G)。
    • 空间-通道解耦下采样:分离空间降维与通道扩展(Pointwise+Depthwise卷积),FLOPs减少24%~38%,信息保留率提升15%。
    • 秩导向块设计(Rank-Guided Block):根据特征矩阵秩动态替换冗余模块(如CIB块),参数量减少28%~57%(YOLOv8-X 68.2M → YOLOv10-X 29.5M)。
    • 部分自注意力(PSA):对低分辨率特征(Stage4后)的50%通道进行注意力计算,大模型(YOLOv10-X)AP提升0.5%,计算开销仅增加0.15ms。
  • 性能表现:YOLOv10-X(YOLOv10系列的最大模型)具有29.5M的参数,在 MS COCO 验证集上的性能达到 54.4% 的 mAP \text{mAP} mAP

YOLOv11

  • 前序版本及其缺点
    • YOLOv10局限性:
      • 通过无NMS设计优化了推理速度,但在小目标检测和密集目标检测方面精度较差;
      • 优化以降低计算冗余,但在资源受限的设备上,计算需求仍然是限制因素。
    • Ultralytics的研究者们整合v10和v8的设计理念,提出YOLO11。
  • 模型定位:YOLO11 是 YOLO 系列在 2025 年之前的 SOTA 模型,基于前代版本进行了全面升级,提升了性能与灵活性。 具体指标请访问其文档:yolo11 performance-metrics
  • 主要特性
    • 新功能与改进:YOLO11 在前代模型基础上,集成了多项优化措施,以提升整体表现。
    • 高效特征提取:增强的特征提取能力,在保持高准确率的同时,实现更快的推理速度。
    • 参数优化:YOLO11m 在 COCO 数据集上取得更高的 mAP,参数量相比 YOLOv8m 减少 22%,提高计算效率且不损失精度。
    • 任务支持:广泛适用于 目标检测、实例分割、图像分类、姿态估计、定向边界框检测 等视觉任务。
  • 核心贡献:
    • C3k2 模块:YOLO11 引入了 C3k2 模块,做到了更快的处理速度和更高的参数效率。C3k2是一种 Cross-Stage Partial (CSP) Bottleneck 的高效实现。它取代了 Backbone和 Neck中的 C2F 块,并采用两个较小的卷积而不是一个大型卷积,从而减少了处理时间。
    • C2PSA 模块:在 Spatial Pyramid Pooling-Fast(SPPF)模块之后引入 C2 Position-Sensitive Attention (C2PSA)模块,以增强空间注意力。这种注意力机制使模型能够更有效地关注图像中的重要区域,从而有可能提高检测准确性。其中,YOLO11的(C2PSA)模块是使用了 PSABlock 模块。包括上述 C3k2 模块,也可以说是继承了YOLO10的 C2F 模块。总之,YOLO 这个系列是继承和创新并行的。
    • 其他:更先进的特征提取、简化参数数量、优化的速度和性能、广泛的任务支持在保持性能的同时降低参数两。

YOLOv12

YOLO12
2025年2月,Ultralytics 公司的release页面上悄悄放上了 YOLO12的模型说明。(https://github.com/ultralytics/ultralytics/releases/)
YOLOv12: Attention-Centric Real-Time Object Detectors
“arxiv”: “https://arxiv.org/abs/2502.12524”,
“github”: “https://github.com/sunsmarterjie/yolov12”,
“docs”: “https://docs.ultralytics.com/models/yolo12/”,
Colab Notebook :train_yolov12_object_detection.ipynb
Youtube:YOLO12: Train for Real-Time Object Detection
Blog:How to Train a YOLOv12 Object Detection Model on a Custom Dataset

#  docs/model_data.py
 "YOLO12": {
        "author": "Yunjie Tian, Qixiang Ye, David Doermann",
        "org": "University at Buffalo and University of Chinese Academy of Sciences",
        "date": "2024-02-18",
        "arxiv": "https://arxiv.org/abs/2502.12524",
        "github": "https://github.com/sunsmarterjie/yolov12",
        "docs": "https://docs.ultralytics.com/models/yolo12/",
        "performance": {
            "n": {"size": 640, "map": 40.6, "cpu": "", "t4": 1.64, "params": 2.6, "flops": 6.5},
            "s": {"size": 640, "map": 48.0, "cpu": "", "t4": 2.61, "params": 9.3, "flops": 21.4},
            "m": {"size": 640, "map": 52.5, "cpu": "", "t4": 4.86, "params": 20.2, "flops": 67.5},
            "l": {"size": 640, "map": 53.7, "cpu": "", "t4": 6.77, "params": 26.4, "flops": 88.9},
            "x": {"size": 640, "map": 55.2, "cpu": "", "t4": 11.79, "params": 59.1, "flops": 199.0},
        },
    },

非官方分支汇总

  • YOLOX <— YOLOv3(YOLOX详解@全政宇):2021年,以视觉为生的厂商旷视,推出了YOLOX。当然了,YOLOX并非从YOLOv4或者YOLOv5上进行的升级,而是从YOLOv3上开始升级,所以它的名字确实不好起,不能叫做YOLOv6。。。所以给了一个X。不过这个版本没有得到Ultralytics 公司的承认。(论文:YOLOX: Exceeding YOLO Series in 2021 ,代码仓:https://github.com/Megvii-BaseDetection/YOLOX)
  • YOLOF:YOLOF回答了一个问题——C5单级检测也可以达到多级检测的效果,同时也证明了CNN也可以胜任C5单级检测。(论文:You Only Look One-level Feature,代码仓:https://github.com/chensnathan/YOLOF)
  • YOLOS:YOLOS是一系列基于朴素ViT的目标检测模型。(论文:You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection ,代码仓:https://github.com/hustvl/YOLOS)
  • YOLOP:YOLOP是华中科技大学王兴刚团队提出的全景驾驶感知方面的模型。(论文:YOLOP: You Only Look Once for Panoptic Driving Perception,代码仓:https://github.com/hustvl/YOLOP)


https://blog.csdn.net/m0_52024881/article/details/148070108

参考资料来自Yolo组队学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值