当前位置：首页>农业>【2026-03-02 论文精读】华南农业大学等推出UFO-DETR!

【2026-03-02 论文精读】华南农业大学等推出UFO-DETR!

2026-08-02 12:17:51

UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects

作者：Yuankai Chen, Kai Lin, Qihong Wu 等 9 人

单位：Easy Lab, College of Mathematics and Informatics, South China Agricultural University, School of Computer Science and Engineering, Southeast University, School of Mathematics, Foshan University

发布时间：2026-02-26

链接：https://arxiv.org/pdf/2602.22712v1

摘要

无人机图像中的小目标检测面临着诸多挑战，如尺度变化、密集分布以及小目标的主导性。现有的算法依赖于手动设计的组件，而通用检测器并未针对无人机图像进行优化，这使得在准确性和复杂性之间保持平衡变得困难。为了解决这些挑战，本文提出了一种端到端的目标检测框架UFO-DETR，该框架集成了基于LSKNet的主干网络，以优化感受野并减少参数数量。通过结合DAttention和AIFI模块，该模型灵活地建模多尺度空间关系，提升多尺度目标检测性能。此外，提出了DynFreq-C3模块，通过跨空间频率特征增强来增强小目标检测能力。实验结果表明，与RT-DETR-L相比，所提出的方法在检测性能和计算效率上均具有显著优势，为无人机边缘计算提供了一种高效的解决方案。

引言

该论文针对无人机（UAV）图像中的小目标检测所面临的尺度变化、密集分布和复杂背景等挑战，提出了一种名为UFO-DETR的端到端目标检测框架。该框架旨在平衡检测精度和计算复杂性，为资源受限的无人机平台提供高效的解决方案。

▪核心问题: 现有算法难以在无人机小目标检测任务中兼顾准确性和计算效率，尤其是在端到端检测器中，过高的计算开销和对小目标特征提取能力有限是主要瓶颈。

▪解决方案: 提出了一个轻量级的、基于RT-DETR改进的UFO-DETR模型。该模型通过集成多个创新模块，旨在降低计算复杂度的同时，保持对小目标的高精度识别。

▪主要贡献: 1) 采用LSKNet作为骨干网络，其动态感受野设计减少了模型参数并提升了推理速度；2) 在AIFI模块中嵌入可变形注意力（Deformable Attention），以灵活建模多尺度空间关系；3) 设计了跨空间-频率模块DynFreq-C3，通过融合频率域特征来增强对复杂背景下小目标的检测能力。

相关工作

本部分回顾了无人机图像目标检测、实时检测技术以及多尺度特征融合三个方面的研究现状，并指出现有方法的局限性。

▪无人机图像目标检测: 现有方法如FS-SSD、CSIPN等通过引入上下文信息来提升小目标检测精度，但大多依赖空间域特征，且在资源受限的无人机平台上难以平衡模型紧凑性和高性能。

▪实时检测技术: 传统检测器分为两阶段（如R-CNN，精度高但慢）和单阶段（如YOLO，速度快但依赖NMS后处理）。相比之下，基于Transformer的端到端检测器RT-DETR通过移除NMS等步骤，在效率和性能之间取得了更好的平衡。

▪多尺度特征融合: 现有方法如ASPP通过扩大感受野，或如PANet、BiFPN通过构建特征金字塔来融合多尺度特征，但这些结构相对复杂，对小目标检测的增益有限。

方法

为解决无人机图像中小目标特征不显著和背景复杂的挑战，论文提出了一个名为UFO-DETR的轻量级检测框架。该框架基于RT-DETR进行改进，旨在平衡检测性能与边缘设备的计算资源限制。

▪LSKNet骨干网络: 采用LSKNet替换了RT-DETR原有的ResNet骨干。LSKNet通过其大选择核（Large Selective Kernel）机制，能够自适应地调整空间感受野，从而在保持低计算成本的同时，更有效地捕捉小目标及其周围的关键上下文信息。

▪可变形注意力 (Deformable Attention): 将可变形注意力机制集成到AIFI模块中。该机制通过学习偏移量来动态生成采样点，使模型能自适应地关注特征图中的关键区域，有效应对无人机视角变化引起的类内尺度不一致和目标遮挡问题。

▪DynFreq-C3模块: 提出了DynFreq-C3（动态频率卷积RepC3）模块。该模块创新地结合了空间域和频率域信息，利用FDConv捕捉小目标在高频分量中典型的边缘和纹理信息，同时利用DWConv增强空间特征提取，从而提升模型在复杂背景下区分小目标的能力。

实验

本部分通过在VisDrone2019数据集上进行的一系列实验，验证了所提方法UFO-DETR的有效性。实验从消融研究、与其他主流模型的对比等多个角度进行了分析。

▪消融研究: 实验结果表明，每个改进模块都带来了积极效果。与基线模型相比，引入LSKNet显著降低了计算量（GFLOPs从103.5降至37.6）和模型大小（从66.2MB降至26.0MB）。加入DAttention和DynFreq-C3后，模型的mAP50从43.5%逐步提升至46.1%，证明了各模块的累积效应。

▪对比实验: 与YOLO系列和不同版本的RT-DETR等主流模型相比，UFO-DETR在性能和效率方面表现出众。例如，相较于RT-DETR-L，UFO-DETR在mAP50提升2.6%的同时，GFLOPs降低了约60%，模型大小仅为其42%，实现了高精度和轻量化的优异平衡。

▪可视化分析: 可视化结果显示，UFO-DETR在复杂场景中具有更低的漏检率和误检率。Grad-CAM热力图也证实，该模型能更准确地将注意力集中在待检测的目标上。

结论

论文提出了一种专为无人机图像设计的实时端到端检测器UFO-DETR，成功地在检测精度和模型复杂度之间取得了平衡。通过引入LSKNet作为骨干网络，并设计了创新的DynFreq-C3模块来融合空间与频率域信息，模型有效提升了对复杂背景下小目标的识别能力。在VisDrone2019数据集上的实验证明，UFO-DETR在实现比现有方法更高精度的同时，保持了更低的计算成本和实时推理速度。未来的工作将聚焦于优化RT-DETR内部位置关系解码器带来的冗余计算开销。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

【2026-03-02 论文精读】华南农业大学等推出UFO-DETR!

最新文章

热门文章

随机文章

【2026-03-02 论文精读】华南农业大学等推出UFO-DETR!

海大集团新加坡基地启用:中国农业科技巨头落地狮城

市发布三十一个主推品种助力农业生产

最新文章

热门文章

随机文章