【datawhale组队学习】YOLO-master -Task02-CSDN博客

本文链接：https://blog.csdn.net/m0_52024881/article/details/148798801

文章目录

YOLOv1(2015)
YOLOv2(2016)
YOLOv3(2018)
YOLOv4(2020)
YOLOv5(2020)
YOLOv6(2022)
YOLOv7(2022)
YOLOv8(2023)
YOLOv9(2024)
YOLOv10
YOLOv11
YOLOv12
非官方分支汇总

Yolo系列的发展历程

YOLO(You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的约瑟夫-雷德蒙（Joseph Redmon）和阿里-法哈迪（Ali Farhadi）开发。YOLO 于 2015 年推出，因其高速度和高精确度而迅速受到欢迎。

2016 年发布的YOLOv2 通过纳入批量归一化、锚框和维度集群改进了原始模型。
2018 年推出的YOLOv3 使用更高效的骨干网络、多锚和空间金字塔池进一步增强了模型的性能。
YOLOv4于 2020 年发布，引入了 Mosaic数据增强、新的无锚检测头和新的损失函数等创新技术。
YOLOv5进一步提高了模型的性能，并增加了超参数优化、集成实验跟踪和自动导出为常用导出格式等新功能。
YOLOv6于 2022 年由美团开源，目前已用于该公司的许多自主配送机器人。
YOLOv7增加了额外的任务，如 COCO 关键点数据集的姿势估计。
YOLOv8Ultralytics YOLOv8 引入了新的功能和改进，以提高性能、灵活性和效率，支持全方位的视觉人工智能任务、
YOLOv9引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 等创新方法。
YOLOv10是由清华大学的研究人员使用该软件包创建的。 UltralyticsPython 软件包创建的。该版本通过引入端到端头（End-to-End head），消除了非最大抑制（NMS）要求，实现了实时目标检测的进步。
YOLO11 Ultralytics的YOLO 12模型可在物体检测、分割、姿态估计、跟踪和分类等多项任务中提供最先进的 (SOTA) 性能，充分利用了各种人工智能应用和领域的能力。
YOLO12 🚀新消息：引入了Attention机制，通过区域注意机制（Area Attention）和剩余效率层聚合网络（R-ELAN），

YOLO12在保持实时性的同时，显著提升了性能和效率。
从发布频率来看：

YOLO之父发布了3次（YOLOv1、YOLOv2、YOLOv3）
Ultralytics 公司有点像YOLO的官方发布机构。它发布了3次（YOLOv5、YOLOv8和YOLO11）
台湾Chien-Yao Wang团队参与了3次（YOLOv4、YOLOv7、YOLOv9）
中国美团公司参与了1次（YOLOv6），中国清华大学参与了1次（YOLOv10）
美国纽约州立大学布法罗分校和中国科学院大学联合参与了1次（YOLO12)

YOLOv1(2015)

核心贡献：
- 将目标检测重新定义为单一回归问题：YOLO（You Only Look Once）提出将目标检测简化为单次图像处理任务，直接从像素回归预测物体的边界框坐标和类别概率。
- 单阶段检测框架（One-Stage Detection）：首次将目标检测任务建模为端到端的回归问题，通过单个卷积神经网络直接预测边界框坐标和类别概率，摒弃了传统的两阶段（如R-CNN系列）区域提议机制。
- 全局图像推理：与滑动窗口或区域提议方法不同，YOLOv1将输入图像划分为 S×S 网格（如7×7），每个网格单元负责预测固定数量的边界框及对应的类别概率，实现全局上下文感知。
- 联合预测机制：每个网格单元预测 B 个边界框（Bounding Boxes）和 1 个类别概率分布，边界框包含坐标（x, y, w, h）和置信度（confidence score），并在B个边界框中取其与GroundTruth的IoU最高的那个边界框用于检测。
- 多任务损失函数：设计统一的损失函数，联合优化边界框定位误差、置信度误差和分类误差，平衡不同任务的梯度贡献。
性能表现：在PASCAL VOC 2007和PASCAL VOC 2012数据集上的 $\text{mAP}$ 指标分别为63.4%和57.9%。

YOLOv2(2016)

前序版本及其缺点
- YOLOv1作为一种开创性的单阶段实时目标检测模型，在速度上表现出色，但存在以下局限性：
  - 小目标的检测能力较弱，容易漏检；
  - 定位精度低（目标位置的预测）<–使用全连接层预测边界框导致；
  - 对密集或重叠目标的检测效果差，容易将多个目标合并为一个边界框。
  - 召回率相对较低–>限制了在复杂场景下的应用。
- 针对v1中所遇到的问题，研究者们提出了YOLOv2（YOLO9000）
核心贡献：
- 批量归一化（Batch Normalization）：在每个卷积层后加入批量归一化，提升模型收敛速度、稳定性和泛化能力，mAP提升约2%。
- 高分辨率分类器（High Resolution Classifier）：先在ImageNet 上以 448x448 的分辨率微调分类网络 10 个 epochs，再迁移到检测网络，缓解输入分辨率突变导致的性能下降。
- 锚框机制（Anchor Boxes）：引入Faster R-CNN的锚框（Anchor）概念，移除YOLOv1的全连接层，改为卷积层预测锚框偏移量，显著提升召回率（Recall）。
- 维度聚类（Dimension Clusters）：通过K-means聚类分析训练集的边界框尺寸，自动生成更符合数据分布的锚框尺寸（取代人工设计），提升定位精度。
- 直接位置预测（Direct Location Prediction）：约束锚框中心点的预测范围（通过Sigmoid函数限制在网格单元内），避免训练初期锚框大幅偏移导致的发散问题。
- 细粒度特征融合（Fine-Grained Features）：提出“Passthrough层”：将浅层高分辨率特征图（26×26）与深层语义特征拼接，增强小目标检测能力。
- 多尺度训练（Multi-Scale Training）：每10个batch随机调整输入图像尺寸（如320×320到608×608），使模型适应不同分辨率，兼顾速度与精度。
- 联合分类与检测训练（Joint Classification and Detection）：提出WordTree分层结构，联合训练检测数据集（COCO/VOC）和分类数据集（ImageNet），支持检测超9000类物体（YOLO9000）。
性能表现：在PASCAL VOC 2007和PASCAL VOC 2012数据集上的 $\text{mAP}$ 指标分别为78.6%和73.4%。在COCO数据集上的 $\text{mAP}_{50}$ 指标为44.0%

YOLOv3(2018)

前序版本及其缺点
- YOLOv2局限性：
  - 对小目标的检测能力较弱，容易漏检，尤其是在目标密集或重叠的场景中，检测精度会明显下降；
  - 网络结构相对复杂–>导致计算量增加，对硬件资源的要求也相应提高；
  - 对目标形状变化的适应性不足，可能会在复杂场景中影响检测效果。
- 针对v2中所遇到的问题，研究者们提出了YOLOv3。
核心贡献：
- 多尺度预测（Multi-Scale Prediction）：
  引入 3 种不同尺度的预测层（例如，输入尺寸为416的版本预测层分辨率为13×13、26×26、52×52），分别检测大、中、小目标，显著提升小目标检测能力。通过上采样（Upsampling）与特征拼接（Concatenation）构建特征金字塔网络（类似FPN），融合浅层细节与深层语义信息。多尺度预测极大地提升了YOLO网络对于小目标的检测能力，而此前的YOLOv1和v2版本在这方面表现并不出色。
- 改进的骨干网络（Darknet-53）：设计更深的骨干网络 Darknet-53（含53层卷积），结合残差连接（Residual Blocks），平衡计算量与特征提取能力。与Darknet-19、ResNet-101和ResNet152相比，Darknet-53运行效率更高。
- 多标签分类（Multi-Label Classification）：由于v3版本支持单目标多标签分类（如一个目标既可以被分类为“人”也可以被分类为“女人”），而之前版本中使用的Softmax要求单目标单标签并且标签直接要相互独立、没有交集，因此使用独立的逻辑回归分类器（Logistic Regression Classifier)替代了Softmax，而在逻辑回归分类器中，使用二元交叉熵损失（Binary Cross-entropy Loss)来训练分类器预测边界框。
- 锚框优化（Anchor Box Clustering）：对COCO数据集进行K-means聚类，生成 9组锚框尺寸（每个尺度分配3组），提升先验框与数据分布的匹配度。
- 简化置信度预测：直接预测边界框的对象置信度（Objectness Score），而非YOLOv2中的“框与真实框的IoU × 类别概率”。
- 损失函数调整：边界框定位损失沿用MSE，但优化权重分配，缓解小目标定位误差被大目标淹没的问题。(论文中没提到，但是源码有体现)
性能表现：在COCO数据集上的 $\text{mAP}_{50}$ 指标为57.9%，在416×416分辨率下推理时间为51毫秒/帧（在Nvidia Titan X显卡上）

YOLOv4(2020)

前序版本及其缺点
- YOLOv3局限性：
  - 在处理密集目标时表现欠佳–>容易出现漏检或误检，尤其是在目标相互重叠的情况下；
  - YOLOv3主要基于矩形边界框进行优化–>对于非常规形状的目标，YOLOv3的检测精度也受到一定限制；
  - 网络结构相对复杂–>模型大小较大–>导致在资源受限的设备上运行时面临挑战；
- 针对v3中的上述问题，研究者们提出了YOLOv4。
核心贡献：
BoF（Bag of Freebies, 免费技巧）：不增加推理成本但提升性能的技术（如数据增强、损失函数改进）。
BoS（Bag of Specials, 特殊模块）：需少量计算开销但显著提升精度的结构（如注意力机制、复杂特征融合）。
- 骨干网络优化
  - Mish激活函数：采用平滑非单调激活函数，增强梯度流和模型泛化能力（BoS）。
  - CSPDarknet53：通过跨阶段局部连接（CSP）分割特征图梯度流，减少计算冗余（BoS）。
  - 多输入加权残差连接（MiWRC）：优化特征融合过程，提升网络表达能力（BoS）。
  - CutMix数据增强：融合两幅图像局部区域，增强模型对局部遮挡的鲁棒性（BoF）。
- 检测器创新
  - SPP模块：多尺度最大池化（5×5、9×9、13×13）融合不同感受野特征（BoS）。
  - PANet路径聚合：使用PANet改进FPN，实现双向特征融合，增强浅层信息传递（BoS）。YOLOv4的PANet与原始PANet不同，采用concat融合特征图，允许网络学习更丰富的特征表示。
  - SAM空间注意力模块：通过通道/空间注意力聚焦关键区域（BoS）。
- 训练策略与损失函数
  - CIoU Loss：使用CIoU Loss优化目标框定位（BoF）。从YOLOv3的IoU Loss改进而来，CIoU Loss联合优化重叠面积、中心距离和宽高比，更精确，提升定位精度。
  - 消除网格敏感度（Eliminate Grid Sensitivity）：改进坐标预测公式，缓解网格边界回归偏差（BoF）。
  - 单目标多锚框策略：为单个GroundTruth分配多个锚框，缓解正样本不平衡问题（BoF）。
- 正则化与数据增强
  - Mosaic增强：四图拼接训练，强化复杂背景和小目标适应能力（BoF）。
  - DropBlock：结构化丢弃特征图连续区域，防止过拟合（BoF）。
  - 类别标签平滑（Label Smoothing）：软化硬标签，缓解分类置信度过拟合（BoF）。
- 训练优化技术
  - 自对抗训练（SAT）：对抗扰动生成+微调两阶段训练，提升鲁棒性（BoF）。
  - CmBN跨小批量归一化：累积多步梯度更新，改善小批量训练稳定性（BoF）。
  - 余弦退火调度器：动态调整学习率，避免局部最优（BoF）。
  - 随机训练形状（Random Shapes）：多尺度输入增强尺度不变性（BoF）。
- 后处理与推理优化
  - DIoU-NMS：在非极大值抑制(NMS)中引入中心点距离度量，减少重叠目标误删（BoS）。
  - 超参数自动优化：通过算法搜索最佳锚框和训练参数组合（BoF）。
性能表现：在COCO数据集上达到了43.5%的 $\text{mAP}$

YOLOv5(2020)

前序版本及其缺点
- YOLOv4局限性：
  - 网络结构相对复杂，模型规模较大–>模型在训练和推理阶段对硬件资源的需求较高；
  - 小目标检测仍不够精确–>容易出现漏检或误检；
  - 对于密集目标和长宽比较大的目标，检测效果存在一定的局限性；
  - 由于复杂的网络设计–>训练和调整过程相对困难，对开发者的技能要求较高。
- 针对v4中的上述问题，研究者们优化YOLO框架，提出YOLOv5。
核心贡献：
- 自适应锚框计算（AutoAnchor）：在训练前自动分析数据集并优化 Anchor Box 的尺寸，提升边界框回归效率。
- Mosaic 数据增强：引入 4 图拼接的 Mosaic 数据增强方法，结合随机裁剪、缩放、色调变换，提升小目标检测和泛化能力。
- CSPNet 骨干网络：采用 Cross Stage Partial Network (CSPDarknet53) 作为骨干网络，减少计算量并增强特征融合能力。
- 复合模型缩放（Model Scaling）：通过统一缩放深度、宽度、分辨率（借鉴 EfficientNet），提供 YOLOv5s/m/l/x 多尺度模型。
- Focus 结构与跨阶段特征融合：通过 Focus 模块（切片+卷积）降低计算量，配合 PANet 实现多尺度特征金字塔融合。
- 损失函数改进：采用 CIOU Loss 替代 MSE 作为边界框回归损失，同时优化分类与置信度损失权重。
- 混合精度训练与模型量化：支持 FP16/INT8 训练加速，并提供 TFLite/ONNX 等轻量化部署格式。
性能表现：YOLOv5通过配置不同的参数预训练了多个不同大小的模型，其中yolov5x6在COCO数据集上达到了55.0%的 $\text{mAP}_{50-95}$

YOLOv6(2022)

前序版本及其缺点
- YOLOv5局限性：
  - 在处理小目标和遮挡目标时表现欠佳，容易出现漏检或误检<–由于其特征金字塔结构不够完善；
  - 尽管采用了多尺度训练技术，但在复杂场景下，YOLOv5的检测精度仍有待提高，尤其是在面对长尾分布数据时，模型对少数类别物体的识别能力较弱；
  - YOLOv5的抗干扰性也存在问题，图像噪声、模糊或遮挡等因素会影响其检测效果。
- 因此，美团的研究者们优化v4、v5的模型设计和算法，提出YOLOv6以及后续的v6 2.0和v6 3.0版本。
核心贡献：
- 网络设计
  - EfficientRep Backbone:
    提出 RepVGG-style 骨干网络，通过重参数化技术（RepOpt）实现训练时多分支结构与推理时单路径的高效转换，兼顾训练稳定性与推理速度。
    - 小模型使用 RepBlock 作为构建块，训练时采用多分支结构，推理时转换为单路径结构，兼顾效率和特征表达能力。P3
    - 大模型使用 CSPStackRep Block，结合 CSP 连接，在计算成本和精度之间取得平衡。
  - Rep-PAN Neck: 采用 PAN 拓扑结构，并使用 RepBlock 或 CSPStackRep Block 进行增强，实现高效的特征融合。
  - Efficient Decoupled Head: 采用混合通道策略，减少中间卷积层数量，降低计算成本，提升推理速度。完全弃用锚框（Anchor-based），采用解耦检测头，分离分类和回归任务，简化超参数调优并提升小目标检测精度。引入动态标签分配（TAL, Task Alignment Learning），根据分类与回归任务的一致性动态匹配正样本。
- 损失函数
  - 分类损失: 采用 VariFocal Loss (VFL)，有效平衡正负样本的学习信号。
  - 框回归损失:
    - 小模型使用 SIoU Loss，大模型使用 GIoU Loss。
    - 大模型还引入 DFL (Distribution Focal Loss)，进一步提升框定位精度。将边界框的基础连续分布简化为离散分布，当ground truth的边界模糊时，这种方法能有效提高边界框定位精度。不过YOLOv6种，DFL仅仅引用于YOLOv6M/L。
  - 对象损失: 实验表明对象损失对模型性能有负面影响，因此未被采用。
- 混合数据增强与量化友好设计
  - 数据增强: YOLOv6 结合了 Mosaic、MixUp 和 RandomAffine 等多种数据增强策略，有效地提升了模型的鲁棒性和泛化能力，使其能够更好地应对各种复杂场景。
  - 量化友好性: YOLOv6 在网络结构设计时考虑了 INT8 量化的友好性，例如避免产生大范围的激活值，限制卷积核尺寸等，从而减少了量化带来的误差，保证了量化模型的精度和性能。
- 工业应用改进
  - 更多训练轮数: 延长训练时间，提升模型精度。
  - 自蒸馏训练策略（Self-Distillation）：提出轻量级教师-学生协同训练框架，通过知识蒸馏提升小模型（如 YOLOv6s）的精度，无需额外标注或复杂架构。
  - 图像灰边处理: 通过调整灰边大小和 Mosaic 增强策略，在保持性能的同时提升推理速度。
- 量化和部署
  - RepOptimizer: 使用 RepOptimizer 训练模型，获得更适合 PTQ 的权重分布，提升量化性能。
  - 敏感性分析: 分析模型对量化的敏感性，将敏感层保持为浮点计算，提升 PTQ 性能。
  - QAT 和通道蒸馏: 采用 QAT 和通道蒸馏技术，进一步提升量化模型的精度和速度。
- 多尺度模型家族（YOLOv6n/s/m/l）：提供从 Nano（1.9M参数）到 Large 的多尺度预训练模型，适配不同算力场景（边缘端到云端）。
性能表现：YOLOv6通过配置不同的参数预训练了多个不同大小的模型，其中YOLOv6-L在COCO 2017数据集上达到了52.5%的 $\text{mAP}$ 。

YOLOv7(2022)

前序版本及其缺点
- YOLOv6局限性：
  - 处理高密度目标和重叠物体时，容易出现漏检或误检；
  - 尽管模型结构轻量化，但量化性能存在问题<–重参数化结构导致数据分布不佳，影响了量化后模型的精度；
- 针对v6和v5所存在的问题，研究者们在v5模型的基础上进一步优化模型结构和功能，提出了YOLOv7。
核心贡献：
- 扩展的高效层聚合网络（E-ELAN）：
  改进 ELAN 结构，通过分组卷积和动态通道重组增强特征复用效率，提升骨干网络（CSPDarknet）的学习能力。引入梯度路径解耦，优化梯度反向传播，避免深层网络训练中的信息衰减。
- 动态标签分配（Dynamic Label Assignment）：
  提出动态软匹配策略（DSM），根据预测框与真实框的联合置信度动态分配正负样本，缓解人工阈值设定的局限性。结合跨网格匹配（Cross-Grid Matching），允许标签分配给相邻网格单元，增强密集目标的检测稳定性。
- 可训练的“免费”优化策略（Trainable Bag-of-Freebies）：
  在不增加推理成本的前提下，通过多分支辅助训练头（Aux Head）和梯度传播优化提升主检测头的性能。提出隐式知识蒸馏（Implicit Knowledge Distillation），利用辅助头指导主头学习，无需额外教师模型。
- 模型缩放策略（Model Scaling）：统一设计深度-宽度-分辨率-特征金字塔缩放规则，生成 YOLOv7-tiny/s/m/l/x 系列，适配不同硬件需求。
- 复合重参数化模块（Planar Reparam）：
  提出规划重参数化（Planned Re-parameterization），将多分支卷积结构（训练时）合并为单路径（推理时），降低计算冗余。支持动态卷积核融合，提升 GPU 并行计算效率，如 YOLOv7 在 V100 上推理速度达 161 FPS。
- 复合数据增强与损失函数优化：
  结合 Mosaic++（增强版拼接）、Random Identity（随机身份替换）和 PhotoMetric Distortion（光度畸变）。提出 MPDIoU Loss，统一优化边界框中心点、宽高比和对角点距离，解决传统 IoU 损失的梯度模糊问题。
性能表现：YOLOv7-E6E（YOLOv7系列的最大模型）在 MS COCO 测试集和验证集上的性能分别达到56.8%和56.8% $\text{mAP}$ ；74.4%的 $\text{mAP}_{50}$ 。参数量为151.7M，在V100上的推理速度为36FPS。

YOLOv8(2023)

前序版本及其缺点
- YOLOv7局限性：
  - 模型尺寸相对较大–>计算资源消耗较高–>移动端或嵌入式设备部署困难；
  - 小目标和密集目标的检测能力较弱，容易出现漏检或误检；
  - 训练过程较为复杂，需要更多的计算资源和优化技巧来达到最佳性能；
  - 模型本身可解释性不足，复杂的网络结构使得理解其内部工作机制较为困难。
- 针对v7中所存在的问题，ultralytics的研究者们摒弃v7的架构，对v5的架构进行优化和改进，提出YOLOv8。
核心贡献：
- 统一任务接口（Unified Task Interface）：
  支持目标检测、实例分割、关键点检测、分类等多任务统一框架，用户仅需调整模式参数即可切换任务。
  提供简洁的 CLI 和 Python API，简化训练、验证、部署流程。
- 可扩展的模块化架构：
  采用动态网络设计，通过配置文件（YAML）灵活调整骨干网络、检测头、损失函数等组件，适配不同任务需求。引入 C2f （改进的跨阶段部分连接）模块，结合多分支残差结构和通道重加权机制，增强特征复用并优化梯度流。
- 自适应训练策略：
  动态锚框优化（AutoAnchor v2）：在训练过程中实时调整锚框尺寸，无需预聚类分析。智能学习率调度：根据损失收敛情况自动调整学习率，支持 cosine、linear、one-cycle 等策略。
- 损失函数与标签分配改进：
  DFL（Distribution Focal Loss）：将边界框回归建模为概率分布学习，提升定位精度。
  Task-Aligned Assigner：根据分类置信度与回归IoU动态分配正样本，优化任务一致性。
- 高效推理优化：
  无锚点（Anchor-Free）检测头：简化输出层设计，减少超参数依赖，提升小目标检测能力。
  混合精度训练与量化感知训练（QAT）：原生支持 FP16/INT8 训练，导出 ONNX/TensorRT 模型时自动优化计算图。
- 多平台部署支持：
  支持 TensorRT、ONNX、CoreML、OpenVINO 等格式一键导出，适配 NVIDIA Jetson、Intel CPU、Apple M1/2 等硬件。提供 NCNN、TFLite 边缘端部署方案，模型体积缩小至 3MB（YOLOv8n-TFLite）。
- 数据增强与训练加速：
  Mosaic9：扩展至 9 图拼接增强，结合混合尺度、旋转、色彩变换，提升模型泛化能力。
  Batch Size 自动缩放：根据显存容量动态调整批次大小，最大化 GPU 利用率。
性能表现：YOLOv8x（YOLOv8系列的最大模型）在 MS COCO 验证集上的性能达到 53.9% 的 $\text{mAP}_{50-95}$ ，参数量仅68.2M。

YOLOv9(2024)

前序版本及其缺点
- YOLOv8局限性：
  - 小目标检测能力不够理想<–模型采用固定大小的网格划分–>小目标的特征提取不充分，导致检测精度受限；
  - 在复杂背景或遮挡严重的场景中，检测精度受影响，模型难以区分前景目标与背景；
  - 对长宽比差异较大的目标检测效果较差，限制了其在某些特定场景下的应用；
- 针对v8中所存在的问题，v4和v7的研究者们继续在v7基础上进行优化和整理，提出YOLOv9。
核心贡献：
- 可编程梯度信息（PGI, Programmable Gradient Information）：
  辅助可逆分支（Auxiliary Reversible Branch）：通过引入可逆架构生成可靠的梯度信息，缓解深度网络中的信息瓶颈问题，确保主分支在反向传播时能接收完整的目标关联信息，避免传统深度监督的误差累积。
  多级辅助信息（Multi-level Auxiliary Information）：整合来自不同特征金字塔层次的梯度信息，避免浅层特征因特定任务目标（如小目标检测）丢失全局语义信息，增强多尺度目标检测的鲁棒性。
  零推理成本：PGI仅在训练阶段引入额外分支，推理时完全移除，保持模型轻量与高效。
- 广义高效层聚合网络（GELAN, Generalized Efficient Layer Aggregation Network）：
  灵活计算块设计：结合CSPNet与ELAN的优势，允许用户根据硬件需求自由替换卷积块（如CSP、Res、Dark块），支持动态调整网络深度与宽度。
  梯度路径规划：通过优化特征复用与梯度流，提升参数利用率。GELAN仅使用常规卷积即超越基于深度可分离卷积（Depth-wise Conv）的SOTA方法，在相同参数量下AP提升0.4-0.6%。
  多尺度适应性：通过调整ELAN与CSP模块的深度（如D_{ELAN}和D_{CSP}），平衡模型性能与计算开销，适配从边缘设备到服务器的多场景需求。
- 轻量级模型训练突破：
  免预训练优势：仅通过从头训练（Train-from-Scratch）即在MS COCO上超越基于ImageNet预训练的模型（如RT DETR-X），AP达55.6%（YOLOv9-E）。
  动态标签分配优化：结合YOLOv7的引导头（Lead Head）策略，提升正样本匹配效率，缓解轻量模型因参数不足导致的信息丢失问题。
性能表现：YOLOv9-E（YOLOv9系列的最大模型）具有57.3M的参数，在 MS COCO 验证集上的性能达到 55.6% 的 $\text{mAP}$ 和 72.8% 的 $\text{mAP}_{50}$

YOLOv10

前序版本及其缺点
- YOLOv9局限性：
  - 计算量较大<–由于引入PGI和GELAN，模型复杂度增加；
  - 在某些配置下，推理速度可能会比v7稍慢，限制了实时性要求极高的场景应用；
  - 主要专注于目标检测任务，对于更广泛的任务支持可能效果不佳。
- 清华大学团队的研究者们对v8的框架进行优化，提出YOLOv10。
核心贡献：
- 一致动态双重分配（Consistent Dual Assignments）：训练阶段联合优化一对多分支（提供密集监督）和一对一分支（消除冗余预测），推理阶段仅保留一对一分支，彻底移除NMS后处理，端到端延迟降低37%~70%。
- 深度可分离分类头：基于回归任务重要性分析，发现相比之下，分类头对性能影响较小，因此蒋分类头参数量减少60%（1.51M→0.64M），FLOPs降低63%（5.95G→2.34G）。
- 空间-通道解耦下采样：分离空间降维与通道扩展（Pointwise+Depthwise卷积），FLOPs减少24%~38%，信息保留率提升15%。
- 秩导向块设计（Rank-Guided Block）：根据特征矩阵秩动态替换冗余模块（如CIB块），参数量减少28%~57%（YOLOv8-X 68.2M → YOLOv10-X 29.5M）。
- 部分自注意力（PSA）：对低分辨率特征（Stage4后）的50%通道进行注意力计算，大模型（YOLOv10-X）AP提升0.5%，计算开销仅增加0.15ms。
性能表现：YOLOv10-X（YOLOv10系列的最大模型）具有29.5M的参数，在 MS COCO 验证集上的性能达到 54.4% 的 $\text{mAP}$ 。

YOLOv11

前序版本及其缺点
- YOLOv10局限性：
  - 通过无NMS设计优化了推理速度，但在小目标检测和密集目标检测方面精度较差；
  - 优化以降低计算冗余，但在资源受限的设备上，计算需求仍然是限制因素。
- Ultralytics的研究者们整合v10和v8的设计理念，提出YOLO11。
模型定位：YOLO11 是 YOLO 系列在 2025 年之前的 SOTA 模型，基于前代版本进行了全面升级，提升了性能与灵活性。具体指标请访问其文档：yolo11 performance-metrics
主要特性
- 新功能与改进：YOLO11 在前代模型基础上，集成了多项优化措施，以提升整体表现。
- 高效特征提取：增强的特征提取能力，在保持高准确率的同时，实现更快的推理速度。
- 参数优化：YOLO11m 在 COCO 数据集上取得更高的 mAP，参数量相比 YOLOv8m 减少 22%，提高计算效率且不损失精度。
- 任务支持：广泛适用于目标检测、实例分割、图像分类、姿态估计、定向边界框检测等视觉任务。
核心贡献：
- C3k2 模块：YOLO11 引入了 C3k2 模块，做到了更快的处理速度和更高的参数效率。C3k2是一种 Cross-Stage Partial (CSP) Bottleneck 的高效实现。它取代了 Backbone和 Neck中的 C2F 块，并采用两个较小的卷积而不是一个大型卷积，从而减少了处理时间。
- C2PSA 模块：在 Spatial Pyramid Pooling-Fast(SPPF)模块之后引入 C2 Position-Sensitive Attention (C2PSA)模块，以增强空间注意力。这种注意力机制使模型能够更有效地关注图像中的重要区域，从而有可能提高检测准确性。其中，YOLO11的(C2PSA)模块是使用了 PSABlock 模块。包括上述 C3k2 模块，也可以说是继承了YOLO10的 C2F 模块。总之，YOLO 这个系列是继承和创新并行的。
- 其他：更先进的特征提取、简化参数数量、优化的速度和性能、广泛的任务支持在保持性能的同时降低参数两。

YOLOv12

YOLO12
2025年2月，Ultralytics 公司的release页面上悄悄放上了 YOLO12的模型说明。（https://github.com/ultralytics/ultralytics/releases/）
YOLOv12: Attention-Centric Real-Time Object Detectors
“arxiv”: “https://arxiv.org/abs/2502.12524”,
“github”: “https://github.com/sunsmarterjie/yolov12”,
“docs”: “https://docs.ultralytics.com/models/yolo12/”,
Colab Notebook ：train_yolov12_object_detection.ipynb
Youtube：YOLO12: Train for Real-Time Object Detection
Blog：How to Train a YOLOv12 Object Detection Model on a Custom Dataset

#  docs/model_data.py
 "YOLO12": {
        "author": "Yunjie Tian, Qixiang Ye, David Doermann",
        "org": "University at Buffalo and University of Chinese Academy of Sciences",
        "date": "2024-02-18",
        "arxiv": "https://arxiv.org/abs/2502.12524",
        "github": "https://github.com/sunsmarterjie/yolov12",
        "docs": "https://docs.ultralytics.com/models/yolo12/",
        "performance": {
            "n": {"size": 640, "map": 40.6, "cpu": "", "t4": 1.64, "params": 2.6, "flops": 6.5},
            "s": {"size": 640, "map": 48.0, "cpu": "", "t4": 2.61, "params": 9.3, "flops": 21.4},
            "m": {"size": 640, "map": 52.5, "cpu": "", "t4": 4.86, "params": 20.2, "flops": 67.5},
            "l": {"size": 640, "map": 53.7, "cpu": "", "t4": 6.77, "params": 26.4, "flops": 88.9},
            "x": {"size": 640, "map": 55.2, "cpu": "", "t4": 11.79, "params": 59.1, "flops": 199.0},
        },
    },

非官方分支汇总

YOLOX <— YOLOv3（YOLOX详解@全政宇）：2021年，以视觉为生的厂商旷视，推出了YOLOX。当然了，YOLOX并非从YOLOv4或者YOLOv5上进行的升级，而是从YOLOv3上开始升级，所以它的名字确实不好起，不能叫做YOLOv6。。。所以给了一个X。不过这个版本没有得到Ultralytics 公司的承认。（论文：YOLOX: Exceeding YOLO Series in 2021 ，代码仓：https://github.com/Megvii-BaseDetection/YOLOX）
YOLOF：YOLOF回答了一个问题——C5单级检测也可以达到多级检测的效果，同时也证明了CNN也可以胜任C5单级检测。（论文：You Only Look One-level Feature，代码仓：https://github.com/chensnathan/YOLOF）
YOLOS：YOLOS是一系列基于朴素ViT的目标检测模型。（论文：You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection ，代码仓：https://github.com/hustvl/YOLOS）
YOLOP：YOLOP是华中科技大学王兴刚团队提出的全景驾驶感知方面的模型。（论文：YOLOP: You Only Look Once for Panoptic Driving Perception，代码仓：https://github.com/hustvl/YOLOP）

https://blog.csdn.net/m0_52024881/article/details/148070108

参考资料来自Yolo组队学习