UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects
作者:Yuankai Chen, Kai Lin, Qihong Wu 等 9 人
单位:Easy Lab, College of Mathematics and Informatics, South China Agricultural University, School of Computer Science and Engineering, Southeast University, School of Mathematics, Foshan University
发布时间:2026-02-26
链接:https://arxiv.org/pdf/2602.22712v1
摘要
无人机图像中的小目标检测面临着诸多挑战,如尺度变化、密集分布以及小目标的主导性。现有的算法依赖于手动设计的组件,而通用检测器并未针对无人机图像进行优化,这使得在准确性和复杂性之间保持平衡变得困难。为了解决这些挑战,本文提出了一种端到端的目标检测框架UFO-DETR,该框架集成了基于LSKNet的主干网络,以优化感受野并减少参数数量。通过结合DAttention和AIFI模块,该模型灵活地建模多尺度空间关系,提升多尺度目标检测性能。此外,提出了DynFreq-C3模块,通过跨空间频率特征增强来增强小目标检测能力。实验结果表明,与RT-DETR-L相比,所提出的方法在检测性能和计算效率上均具有显著优势,为无人机边缘计算提供了一种高效的解决方案。
引言
该论文针对无人机(UAV)图像中的小目标检测所面临的尺度变化、密集分布和复杂背景等挑战,提出了一种名为UFO-DETR的端到端目标检测框架。该框架旨在平衡检测精度和计算复杂性,为资源受限的无人机平台提供高效的解决方案。
▪核心问题: 现有算法难以在无人机小目标检测任务中兼顾准确性和计算效率,尤其是在端到端检测器中,过高的计算开销和对小目标特征提取能力有限是主要瓶颈。
▪解决方案: 提出了一个轻量级的、基于RT-DETR改进的UFO-DETR模型。该模型通过集成多个创新模块,旨在降低计算复杂度的同时,保持对小目标的高精度识别。
▪主要贡献: 1) 采用LSKNet作为骨干网络,其动态感受野设计减少了模型参数并提升了推理速度;2) 在AIFI模块中嵌入可变形注意力(Deformable Attention),以灵活建模多尺度空间关系;3) 设计了跨空间-频率模块DynFreq-C3,通过融合频率域特征来增强对复杂背景下小目标的检测能力。
相关工作
本部分回顾了无人机图像目标检测、实时检测技术以及多尺度特征融合三个方面的研究现状,并指出现有方法的局限性。
▪无人机图像目标检测: 现有方法如FS-SSD、CSIPN等通过引入上下文信息来提升小目标检测精度,但大多依赖空间域特征,且在资源受限的无人机平台上难以平衡模型紧凑性和高性能。
▪实时检测技术: 传统检测器分为两阶段(如R-CNN,精度高但慢)和单阶段(如YOLO,速度快但依赖NMS后处理)。相比之下,基于Transformer的端到端检测器RT-DETR通过移除NMS等步骤,在效率和性能之间取得了更好的平衡。
▪多尺度特征融合: 现有方法如ASPP通过扩大感受野,或如PANet、BiFPN通过构建特征金字塔来融合多尺度特征,但这些结构相对复杂,对小目标检测的增益有限。
方法
为解决无人机图像中小目标特征不显著和背景复杂的挑战,论文提出了一个名为UFO-DETR的轻量级检测框架。该框架基于RT-DETR进行改进,旨在平衡检测性能与边缘设备的计算资源限制。
▪LSKNet骨干网络: 采用LSKNet替换了RT-DETR原有的ResNet骨干。LSKNet通过其大选择核(Large Selective Kernel)机制,能够自适应地调整空间感受野,从而在保持低计算成本的同时,更有效地捕捉小目标及其周围的关键上下文信息。
▪可变形注意力 (Deformable Attention): 将可变形注意力机制集成到AIFI模块中。该机制通过学习偏移量来动态生成采样点,使模型能自适应地关注特征图中的关键区域,有效应对无人机视角变化引起的类内尺度不一致和目标遮挡问题。
▪DynFreq-C3模块: 提出了DynFreq-C3(动态频率卷积RepC3)模块。该模块创新地结合了空间域和频率域信息,利用FDConv捕捉小目标在高频分量中典型的边缘和纹理信息,同时利用DWConv增强空间特征提取,从而提升模型在复杂背景下区分小目标的能力。
实验
本部分通过在VisDrone2019数据集上进行的一系列实验,验证了所提方法UFO-DETR的有效性。实验从消融研究、与其他主流模型的对比等多个角度进行了分析。
▪消融研究: 实验结果表明,每个改进模块都带来了积极效果。与基线模型相比,引入LSKNet显著降低了计算量(GFLOPs从103.5降至37.6)和模型大小(从66.2MB降至26.0MB)。加入DAttention和DynFreq-C3后,模型的mAP50从43.5%逐步提升至46.1%,证明了各模块的累积效应。
▪对比实验: 与YOLO系列和不同版本的RT-DETR等主流模型相比,UFO-DETR在性能和效率方面表现出众。例如,相较于RT-DETR-L,UFO-DETR在mAP50提升2.6%的同时,GFLOPs降低了约60%,模型大小仅为其42%,实现了高精度和轻量化的优异平衡。
▪可视化分析: 可视化结果显示,UFO-DETR在复杂场景中具有更低的漏检率和误检率。Grad-CAM热力图也证实,该模型能更准确地将注意力集中在待检测的目标上。
结论
论文提出了一种专为无人机图像设计的实时端到端检测器UFO-DETR,成功地在检测精度和模型复杂度之间取得了平衡。通过引入LSKNet作为骨干网络,并设计了创新的DynFreq-C3模块来融合空间与频率域信息,模型有效提升了对复杂背景下小目标的识别能力。在VisDrone2019数据集上的实验证明,UFO-DETR在实现比现有方法更高精度的同时,保持了更低的计算成本和实时推理速度。未来的工作将聚焦于优化RT-DETR内部位置关系解码器带来的冗余计算开销。