RT-DETR：端到端的实时Transformer检测模型（目标检测+跟踪）

最新推荐文章于 2025-05-21 09:01:44 发布

彭祥.

最新推荐文章于 2025-05-21 09:01:44 发布

阅读量8.3k

点赞数 39

CC 4.0 BY-SA版权

分类专栏： DETR系列 YOLO系列文章标签： transformer 目标检测目标跟踪

本文链接：https://blog.csdn.net/pengxiang1998/article/details/139312939

博主一直一来做的都是基于Transformer的目标检测领域，相较于基于卷积的目标检测方法，如YOLO等，其检测速度一直为人诟病。
终于，RT-DETR横空出世，在取得高精度的同时，检测速度也大幅提升。

那么RT-DETR是如何做到的呢？

在研究RT-DETR的改进前，我们先来了解下DETR类目标检测方法的发展历程吧

首先是DETR，该方法作为Transformer在目标检测领域的开山之作，一经推出，便引发了极大的轰动，该方法巧妙的利用Transformer进行特征提取与解码，同时通过匈牙利匹配方法完成预测框与真实框的匹配，避免了NMS等后处理过程。
随后DAB-DETR引入了动态锚框作为查询向量，从而对DETR中的100个查询向量进行了解释。
Deformable-DETR针对Transformer中自注意力计算复杂度高的问题，提出可变形注意力计算，即通过可学习的选取少量向量进行注意力计算，大幅的降低了计算量。
DN-DETR认为匈牙利匹配的二义性是导致DETR训练收敛慢的原因，因此提出查询降噪机制，即利用先前DAB-DETR中将查询向量解释为锚框的原理，给查询向量添加一些噪声来辅助模型收敛，最终大幅提升了模型的训练速度。
DINO则是在DAB-DETR与DN-DETR的基础上进行进一步的融合与改进。
H-DETR为使模型获取更多的正样本特征，从而提升检测精度，因此提出混合匹配方法，在训练阶段，包含原始的匈牙利匹配分支与一个一对多的辅助匹配分支，而在推理阶段，则只有一个匈牙利匹配分支。

然而，上述方法尽管已经大幅提升了检测精度，降低了计算复杂度，但其受Transformer本身高计算复杂度的制约，DETR类目标检测方法的实时性始终令人难以满意，尤其是相较于YOLO等单阶段目标检测方法，其检测速度的确差别巨大。

为了解决这个问题，百度提出了RT-DETR，该方法依旧是在DETR的基础上改进生成的，从论文中给出的实验结果来看，该方法无论在检测速度还是检测精度方法都已经超过了YOLOv8，实现了真正的实时性。

在这里插入图片描述

创新点1：高效混合编码器：RT-DETR使用了一种高效的混合编码器，通过解耦尺度内交互和跨尺度融合来处理多尺度特征。这种独特的基于视觉Transformer的设计降低了计算成本，并允许实时物体检测。
创新点2：IoU感知查询选择：RT-DETR通过利用IoU感知的查询选择改进了目标查询初始化。这使得模型能够聚焦于场景中最相关的目标，从而提高了检测精度。
创新点3：自适应推理速度：RT-DETR支持通过使用不同的解码器层来灵活调整推理速度，而无需重新训练。这种适应性便于在各种实时目标检测场景中的实际应用。

RT-DETR的代码有两个，一个是官方提供的代码，但该代码功能比较单一，只有训练与验证，另一个则是集成在YOLOv8中，该代码的设计就比较全面了

环境部署

conda create -n rtdetr python=3.8
conda activate rtdetr
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia
cd RT-DETR-main/rtdetr_pytorch  //这个路径根据你自己的改
pip install -r requirement.txt

该算法的环境为pytorch=2.0.1，注意，尽量要用pytorch2以上的版本，否则可能会报错：

AttributeError: module 'torchvision' has no attribute 'disable_beta_transforms_warning'

官方模型训练

参数配置

该算法的配置封装较好，我们只需要修改配置即可：train.py，指定要使用的骨干网络。

parser.add_argument('--config', '-c', default="/rtdetr_pytorch\configs/rtdetr/rtdetr_r18vd_6x_coco.yml",type=str, )

修改数据集配置文件：RT-DETR-main\rtdetr_pytorch\configs\dataset\coco_detection.yml
修改训练集与测试集路径，同时修改类别数。

在这里插入图片描述

随后便可以开启训练：该文件中指定 epochs

RT-DETR-main\rtdetr_pytorch\configs\rtdetr\include\optimizer.yml

首次训练，需要下载骨干网络的预训练模型

在这里插入图片描述

在这里，博主使用ResNet18作为骨干特征提取网络

训练结果

开始运行，查看GPU使用情况，此时的batch-size=8，可以看到显存占用4.5G左右，相较于博主先前提出的方法或者DINO，其显存占用少了许多，DINO的batch-size=2时的显存占用将近16G.

在这里插入图片描述

训练了24轮的结果。

在这里插入图片描述

训练的结果会保存在output文件夹内：

在这里插入图片描述

官方模型推理

在进行模型推理前，需要先导出模型，在官方代码的tools文件夹下有个export_onnx.py文件，只需要指定配置文件与训练好的模型文件：

parser.add_argument('--config', '-c',  default="/rtdetr_pytorch\configs/rtdetr/rtdetr_r18vd_6x_coco.yml",type=str, )
parser.add_argument('

最低0.47元/天解锁文章