江大白 | 无人机小目标检测YOLOMG,复杂场景运动检测,多场景数据集SOTA(附论文及源码)

本文来源公众号“江大白”,仅用于学术分享,侵权删,干货满满。

原文链接:无人机小目标检测YOLOMG,复杂场景运动检测,多场景数据集SOTA(附论文及源码)

导读

在复杂背景与远距场景中,小型无人机检测尤为困难。本文提出YOLOMG模型,融合运动特征与视觉信息,有效提升极小目标检测精度,并发布高挑战数据集ARD100。

论文链接:https://arxiv.org/abs/2503.07115

代码和ARD100数据集链接:https://github.com/Irisky123/YOLOMG

基于视觉的无人机检测因其在对视觉集群、空中避障和恶意无人机检测等众多任务中的重要性而受到越来越多的关注。然而,现有方法在背景复杂或目标微小的情况下往往会出现失败。

本文提出了一种新颖的端到端框架,利用运动引导在复杂环境中准确识别小型无人机。该框架首先创建一个运动差异图来捕捉小型无人机的运动特征。接着,使用双模态融合模块将运动差异图与RGB图像结合,以实现无人机特征的适应性学习。最后,通过基于YOLOv5框架的增强 Backbone 和检测Head处理融合后的特征图,以实现准确的检测结果。

为了验证YOLOMG,作者提出一个新的数据集,命名为ARD100,该数据集包含100个视频(202,467帧),覆盖了各种具有挑战性的条件,与现有无人机检测数据集相比,其平均目标尺寸最小。在ARD100和NPS-Drones数据集上的大量实验表明,作者提出的检测器在具有挑战性的条件下表现出色,并在多个指标上超越了最先进的算法。

1. 引言

基于视觉的无人机检测近年来因其应用在视觉集群[1]、[2]、空中避障[3]和恶意无人机检测[4]等多个任务中而受到越来越多的关注。这项任务比一般目标检测更具挑战性,因为摄像头本身在移动,而且从空中角度观察时,目标无人机通常会被如建筑物和树木等复杂背景所遮挡。此外,当从相当远的距离观察时,目标无人机可能仅出现在摄像头框架内作为一个极其微小的物体。

一些标准的目标检测网络,如YOLO系列、R-CNN系列、SSD和DETR,已被应用于无人机检测[5]-[7]。这些方法在目标无人机与背景明显且较大的简单场景中可以有效地工作。然而,在更复杂的场景中,由于外观特征不可靠,它们往往会出现失败。例如,如图1a所示,当背景场景极其复杂时,目标无人机很容易被背景场景所淹没。此外,当目标无人机远离相机飞行时,它可能在图像中只占据很小的部分。例如,如图1b所示,从大约100米远的地方看到的无人机在1920×1080像素的图像中只占据10×10像素。此外,大多数目标检测网络采用的降采样和池化操作进一步加剧了这些问题。

图片

因此,在恶劣条件下开发有效的无人机检测算法至关重要。

近期的方法将运动特征或时间信息纳入了在恶劣条件下无人机检测的研究中,例如背景减法[8]-[12]、时间信息[13]、[14]和光流[15]-[17]。虽然在一定程度上是有效的,但这些方法可能并不适用于无人机极小且融入城市背景的场景。这些方法仍然存在以下局限性。首先,大多数这些方法仅在NPS-Drones[8]和FL-Drones[15]数据集上进行了测试,它们在更具挑战性条件下的有效性尚未得到充分研究。其次,小型无人机的运动特征难以与背景区分开来,尤其是在摄像机本身移动时。第三,现有方法缺乏对新场景和新类型无人机的泛化能力,这对于实际应用至关重要。最后,许多现有方法计算成本过高,使得它们在空中平台上不切实际。

为解决上述挑战,作者提出了一种运动引导的目标检测器(YOLOMG)用于极小无人机检测。首先,作者引入了一个运动特征增强模块来提取小型无人机的像素级运动特征。接着,作者使用双模态融合模块将运动差异图与RGB图像融合,以自适应地学习无人机的特征。最后,融合的特征图通过基于YOLOv5的增强轻量级 Backbone 网络和 Head 网络进行处理,以生成检测结果。

技术创新总结如下。

  1. 1. 作者引入了一个新的空对空无人机检测数据集,命名为ARD100,该数据集在现有的空对空无人机检测数据集中拥有最多的视频数量和最小的平均目标尺寸(约占总帧大小的0.01%)。它包含多样化的挑战场景,如复杂的城市背景、突然的摄像机运动、低光照条件和微型无人机,显著提高了其在推进无人机检测和跟踪研究方面的实用性。

  2. 2. 作者提出将运动差异图与RGB图像相结合,其中运动差异图作为像素级运动特征,用于检测极小物体。在ARD100数据集上的实验结果表明,YOLOMG在具有挑战性的条件下表现出色,平均精度方面优于最佳对比算法22%。

  3. 3. 作者提出了一种高效的端到端框架,用于检测极小型的无人机,在NPS-Drones数据集上实现了最先进的性能。此外,YOLOMG表现出高效率和强大的泛化能力,在各种指标上优于通用的目标检测器,在未经训练的无人机与鸟类数据集以及低光照条件下均表现出色。

2. 相关工作

A. 基于视觉的无人机检测

近年来,基于视觉的无人机检测引起了越来越多的关注。受到通用目标检测成功案例的启发,一些研究行人将最先进的目标检测网络应用于无人机检测任务。例如,[6]介绍了Det-Fly数据集用于空对空无人机检测,并在其中评估了八种深度学习算法。同样,[5]在三个代表性的无人机数据集上评估了四种先进的深度学习算法。为了提高检测精度,[18]提出了一种结合迁移学习和自适应融合的方法,以提升小目标检测性能。此外,[19]通过剪枝卷积通道和YOLOv4快捷层开发出更薄的模型,以实现实时小型无人机检测。然而,这些研究的结果表明,现有的目标检测网络由于视觉特征不足,在复杂背景、运动模糊和小目标检测方面存在困难。

由于无人机通常处于飞行状态,运动特征和时间信息是区分无人机检测与其他一般目标检测任务的重要线索。文献[15]、[20]是该领域利用时间信息检测飞行物体的早期研究。作者首先以滑动窗口的方式使用两个卷积神经网络(CNN)来获取运动稳定的时空立方体,然后使用第三个CNN网络对每个时空立方体中的无人机进行分类。此外,作者发布了第一个无人机到无人机检测数据集,命名为FL-Drones,该数据集至今已被广泛用于无人机检测研究。文献[8]、[21]创建了一个新的无人机到无人机数据集,命名为NPS-Drones数据集,并提出了一种计算效率高的流程,包括移动目标检测器,随后是目标跟踪器。随后,文献[16]提出了一种基于两阶段分割的无人机检测方法。在第一阶段,通过通道和像素级的注意力获得帧级检测。然后,使用运动边界、跟踪和I3D网络来获取最终的检测结果。最近,文献[14]提出了一种端到端的无人机到无人机检测方法。作者利用YOLOv5 Backbone 网络学习与目标相关的空间特征,并使用VideoSwin Transformer学习无人机运动的时空依赖关系。文献[10]提出使用特征对齐融合模块和背景减法模块来提高无人机检测的性能。这些方法在目标占据整个图像较大部分或背景相对简单时可以很好地工作。然而,它们在极小目标和复杂背景上的性能尚未得到充分研究。

B. 小型目标检测

小目标检测(SOD)由于外观和纹理信息不足而一直是一个挑战。最先进的方法通常利用时间信息或运动特征来增强小目标检测。例如,文献[22]通过堆叠五个灰度帧并使用粗到细的方法,通过两阶段CNN模型生成目标 Heatmap 。其他研究[16]、[23]采用两阶段框架,将帧划分为重叠的块以保留小目标的宝贵外观特征。文献[24]提出了一种基于YOLOv5的时空深度学习模型,该模型处理帧序列以利用时间上下文。文献[25]利用空中物体与背景之间不一致的运动线索定位潜在目标,而文献[26]通过差异图引入自重建机制,以增强小目标的弱表示。尽管这些方法在特定的SOD场景中表现出有效性,但它们尚未在相机自运动显著的无人机到无人机检测场景中得到验证。

3. 提出方法

图片

图2展示了YOLOMG的整体架构。它主要由运动特征增强模块(MFEM)和双模态融合模块(BFM)组成。以下各节将详细介绍每个模块。

A.运动特征增强模块

光流已被应用于一些研究中以提取无人机的运动特征[16],[17],[27]。然而,当目标太小或背景过于复杂时,由于缺乏明显的特征点,光流可能会失效。此外,密集光流网络的高计算成本使得其在移动平台上不切实际。因此,受小型目标检测[10],[26]和视频动作识别[28],[29]成功的启发,作者提出使用像素级差异图来建立无人机的运动特征。

帧差分[30]、[31]是一种简单而有效的检测移动物体的技术,通过捕捉图像之间的像素级变化来实现。假设相邻帧之间的采集时间较短,这些差异很可能是由于移动物体造成的。与现有工作[8]、[32]、[33]一致,作者首先使用图像对齐技术稳定帧,然后应用三帧差分方法来突出显示移动物体。

1. 帧对齐:为了将移动像素从动态背景中分离出来,需要像素级帧对齐以消除相机自运动的影响。在本文中,作者采用二维透视变换进行运动补偿,因为它能够准确地模拟二维背景运动,这种运动是由二维平面在三维世界中的相对运动引起的[8],[32],[33]。

为了在天空和草原等无纹理区域实现计算效率和鲁棒性,作者采用基于网格的关键点来计算单应性矩阵。

B. 双模态融合模块

  1. 1. 融合策略:运动差异图为目标提供位置引导,但易受移动车辆、行人、飞鸟和图像配准错误(如图3中蓝色圆圈所示)等干扰。尽管这些干扰在运动差异图中与无人机相似,但在RGB图像中它们表现出不同的外观特征。因此,作者可以利用RGB图像中无人机的外观特征来区分它们与干扰。受多模态融合目标检测[30]、[35]-[37]的启发,作者将运动差异图和RGB图像视为无人机两种不同的模态。作者采用特征级融合策略,整合来自这两个数据源的信息,同时保持模型轻量。最初,使用双模态融合模块将RGB图像和运动差异图结合。得到的融合特征图随后传递给 Backbone 网络进行下采样,并通过特征金字塔网络(FPN)结构进行跨层融合。最后,特征图被发送到检测Head,生成最终的检测结果。

  2. 2. 网络结构:YOLOMG专注于小型无人机检测,网络结构如图4所示。YOLOMG网络包含35层,并采用16倍下采样。作者的 Backbone 网络是YOLOv5s Backbone 网络的扩展版本,通过减少通道数量来提高计算速度。为了提高小型目标的检测能力,作者在 Neck 网络中通过上采样最后一层的特征图,将其与 Backbone 网络的对应特征图结合,并将它们输入到检测 Head 。这导致了四个用于预测的检测 Head 。此外,特征金字塔网络(FPN)结构在上采样过程中结合了深层和浅层特征,以创建一个鲁棒、高分辨率的语义特征图。与原始YOLOv5s网络相比,作者的设计更轻量级,并且专门针对小型目标检测进行了优化。

图片

  1. 3. 双模态自适应融合:在卷积神经网络的正向传播过程中,所有特征都受到同等关注,这意味着它们被赋予相同的权重。对于双模态输入网络,可能会出现一种情况,其中一个输入质量高,而另一个输入质量低。例如,当背景过于复杂时,RGB图像可能无法为无人机提供足够的判别信息。然而,仍然可以从运动差异图中获得清晰的运动信息。

为了解决这些挑战,作者采用了一种类似于[35]、[36]中讨论的适应性融合策略。作者的策略包含两个部分:一个适应性权重块和一个通道和空间注意力块,如图2右下角所示。首先,RGB特征图和运动特征图通过适应性权重块生成初始权重和混合特征图。接下来,这个混合特征图经过CBAM(卷积块注意力模块)处理,以获得通道权重并生成最终的融合特征图。使用CBAM使作者能够将更多权重分配给高质量输入特征图。

4. 实验

A. 数据集

为了评估YOLOMG的性能,作者在提出的ARD100数据集和公开的NPSDrones数据集上对其进行了测试。

ARD100数据集 该数据集包含100个视频序列,共计202,467帧。所有视频均使用DJI Mavic2或DJI M300相机在低中空高度进行拍摄。如图5所示,该数据集涵盖了众多现实世界挑战,包括复杂背景、低强光条件、突然的相机运动、快速移动的无人机以及极小型的无人机。每个视频以30FPS的帧率、1920x1080的分辨率进行录制。

图片

B. 评估指标与实现细节

  1. 1. 评价指标:遵循相关研究 [14]、[16],本实验的性能评估基于常用的指标,如精确率、召回率和平均精度(AP)。作者将预测与真实值之间的IOU阈值设置为0.5;因此,与真实值匹配且IOU≥0.5的检测目标被视为真阳性。此外,作者采用在单个GPU上测试的每秒帧数(FPS)作为效率指标。

  2. 2. 实现细节:作者的实验在NVIDIA Geforce RTX 2080Ti GPU上进行。在YOLOMG算法的训练中,作者使用动量为0.937、初始学习率为0.01的Adam优化器。作者以8个样本的批次大小训练模型100个周期,并从MS COCO数据集上预训练的YOLOv5s权重开始。

C. 与现有方法的比较

图6展示了YOLOMG与其他方法的视觉对比。结果表明,YOLOMG能够有效地检测极小型的无人机以及在复杂背景下的无人机。相比之下,对比的方法在这些具有挑战性的条件下要么无法检测到目标无人机,要么产生不准确的边界框。更多测试结果可在补充视频中查看。

图片

作者还在NPS-Drones数据集上评估了YOLOMG。部分实验结果来自[16]和[14]。如表2所示,YOLOMG实现了与先前最佳方法相同的最高平均精度。

D.消融研究

差异图:为了测试不同运动差异图的影响,作者使用不同类型的差异图和帧步长进行实验。实验在ARD100数据集上进行,分辨率为640x640。测试结果如表10001所示。作者可以看到,由三帧差分方法生成的运动差异图优于两帧差分方法。此外,两帧间隔比一帧间隔的性能更好。然而,更多的帧数和更大的步长会降低精度指标。这可能是由于更大的间隔扩大了无人机运动特征,但也可能引入更多的噪声。

作者在NPS-Drones数据集(1280分辨率)上对不同类型的差异图和帧步进行了实验。如图IV所示,由三帧差分生成的运动差异图比两帧差分生成的更好,两帧间隔比一帧和三帧间隔的性能更佳。这可能是因为较大的间隔会放大无人机的运动特征,但也可能引入更多的噪声。

为了验证运动差异图的有效性,作者还测试了不同的网络输入。作者发现,在运动差异图的帮助下,作者的算法在检测小目标方面的表现远优于仅使用两帧RGB图像的情况。这表明引入运动差异图可以有效地提高对小目标的检测能力。

小目标检测层:为了验证小目标检测层的效果,作者在没有该层的情况下进行了实验。如表2最后一行所示测试结果,小目标检测层有效地将基于ARD100数据集的AP指标提升了2%的绝对值。

泛化测试:模型泛化是目标检测领域的一个重要问题,它显著影响了算法在实际任务中的鲁棒性。为了测试YOLOMG的鲁棒性,作者使用在ARD100数据集上训练良好的权重,在包含不同种类无人机和不同背景的Drone-vsBird [38]数据集的视频上进行测试。如表5所示,作者提出的YOLOMG算法在新环境和新型无人机上的表现优于通用目标检测器,尤其是在召回率指标上。

图片

此外,作者还测试了算法在低光照条件下的泛化能力。具体来说,作者使用排除低光照场景的ARD100数据集训练算法,随后在夜间收集的数据上评估了检测精度。如表5所示,作者提出的算法在所有评估指标上均显著优于通用目标检测器,从而证明了其优越的泛化能力。图7展示了典型的结果示例。

图片

失效案例:由于所YOLOMG试图通过运动特征引导来检测无人机,因此偶尔会忽略悬停和慢速飞行的无人机。此外,由于极小目标具有非常模糊的外观特征,有时与远处无人机相似的目标会被错误地检测为无人机。图8展示了YOLOMG失效的案例。

图片

E. 讨论

YOLOMG专注于在复杂背景下检测极小型的无人机,利用运动特征。实验结果表明,YOLOMG在各种指标和泛化能力上优于现有方法。这主要归因于两个因素:首先,YOLOMG使用运动差异图来捕捉无人机特有的特征,当目标极小或背景复杂时,这显著增强了目标检测可用信息,而基于外观特征的检测器在这种条件下会因仅依赖于外观特征而遇到困难。像[16]、[17]中那样结合运动特征的现有方法也面临困难,因为它们提取的运动或时间信息对于极小目标来说是不够的。其次,与具有类特定性的外观特征不同,运动差异图作为跨越各种无人机和环境的域不变特征,因此比通用目标检测器提供了更好的泛化能力。

尽管YOLOMG具有优势,但仍存在需要在未来工作中解决的局限性。首先,对运动特征的依赖意味着偶尔会漏掉静止或缓慢移动的无人机。需要一种能够同时学习静止和移动无人机的网络。其次,引入运动差异图增加了计算成本。因此,开发一个更高效的利用运动信息的网络至关重要。

5. 结论

本文提出了一种用于检测极小型无人机的端到端框架。作者生成运动差异图以捕捉小物体的运动特征,并通过双模态自适应融合网络将其与RGB图像融合。为了评估YOLOMG的有效性,作者引入了ARD100数据集,该数据集具有复杂背景、突然的相机运动、低光照条件和微型无人机等特点。在ARD100和NPS-Drones数据集上的实验表明,YOLOMG能够有效地检测小型无人机,并超越了现有方法。

参考

[1]. YOLOMG: Vision-based Drone-to-Drone Detection with Appearance and Pixel-Level Motion Fusion

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值