当前位置：首页>农业>浙江大学农业资源环境学科王珂团队提出用于提取果园的新型融合骨干神经网络

浙江大学农业资源环境学科王珂团队提出用于提取果园的新型融合骨干神经网络

2026-05-31 03:44:58

一种用于提取果园的新型融合骨干神经网络

文章标题:An Improved Backbone Fusion Neural Network for Orchard Extraction

发表期刊:《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》（中科院2区| 最新影响因子：5.3）

引用格式：B. Dong, Z. Wang, C. Chen, K. Wang and J. Zhang, "An Improved Backbone Fusion Neural Network for Orchard Extraction," in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 18, pp. 17961-17974, 2025.

论文链接：https://doi.org/10.1109/JSTARS.2025.3586322

研究背景

果树是重要的经济作物，但其快速扩张也带来了一系列问题，及时、准确地监测果园面积对加强作物管理和优化布局至关重要。基于高分辨率遥感影像和深度学习语义分割模型的果园提取是当前的主流方案。然而，果园兼具自然林地的特点和人工种植的模式，在局部（如树冠边缘）和全局（规则排列）上都具有复杂的语义特征，容易与林地、草地等混淆。现有的基于单骨干神经网络（如CNN类骨干网或Transformer类骨干网）的语义分割模型难以同时高效捕获多尺度、多类型的特征，导致果园的提取精度较低。融合骨干网可能有助于解决该问题，但现有的骨干网融合方法（如同质融合、非渐进式混合融合、级联混合融合等）在融合架构和融合模块上存在局限，无法充分利用异构骨干网络的互补优势，特别是缺乏多向的信息流和动态特征的权重调整机制。因此，提出一套融合骨干网络优化果园的分割提取具有重要意义。

研究方法

本研究提出了一套新型的骨干神经网络融合策略—平行协同自适应融合策略（FSC），主要包括两部分：

（1）双重信息交互融合架构：摒弃传统的主导-辅助结构。在每个阶段，将两个骨干网络输出的特征图通过FS块融合，得到的融合特征图同时作为两个骨干网络下一阶段的输入，实现了信息的双向平行交互。

（2）FS融合块：基于门控注意力机制的融合模块，取代传统骨干网的逐元素相加融合。该模块先将接收到的两个尺寸相同的特征图合并，随后进行降维处理，以减少计算量、避免过拟合，然后使用Softmax函数为两个骨干网络对应通道的特征动态生成注意力权重，最后进行加权求和。这使得网络能在不同阶段自适应地选择最优特征进行融合。在该策略基础上，本研究融合了两种性能优秀的骨干网—ResNet50和Swin Transformer，构建了融合骨干网络FSRNet。该网络采用四层编码器-解码器的U型网络结构，包含使用融合骨干网的编码器、解码器和跳跃连接部分。在跳跃连接处，引入一个结合了通道注意力、空间注意力和上述FS块的联合注意力模块，以消除编码器与解码器特征图之间的语义歧义，实现更有效的特征融合。损失函数方面，针对果园可能存在样本不平衡不平衡问题，采用边缘交叉熵损失函数IELoss和Dice损失函数进行加权组合。

本研究以宁波奉化区的桃园作为实验对象，使用高分二号（GF-2）卫星影像（空间分辨率0.8米），通过人工目视解译结合第三次全国国土调查数据制作真实标签。本研究的数据集进行了增强：在RGB三波段数据基础上，从GF-2影像中提取了归一化植被指数（NDVI），和基于变异系数提取的最优纹理特征（熵），共同构建数据集，以丰富光谱和纹理信息。（图1）。

图1 研究的技术路线及融合骨干网络FSRNet的整体架构

研究结果

（1）消融实验结果

本研究对比了不同的骨干网融合策略（图2）对于模型最终性能的影响，所提出的FSC融合策略在所有指标中取得了最佳性能（表1）。该模型在测试区预测果园的整体准确率（OA）最高达到了89.7%，F1分数为0.864。四种融合的骨干网络在OA和F1分数上都优于单一骨干网络。这证明，利用融合骨干网络能够更有效地完成从高分辨率影像中提取果园的任务。与SARL和RASL相比，DIC策略取得了更高的性能，这反映了交互式架构优于传统的主导-辅助架构。这可能是因为DIC策略的平行融合使得模型能够降低其中一个骨干网络主导决策的风险。相反，SARL和RASL这类由单一骨干网主导的策略，可能会限制另一个网络的潜力，尤其是当主导网络不能很好地适应数据特征时。FSC策略相对于DIC策略在性能上的额外提升，证明了通过FS块进行融合的有效性。这可能是因为FS块能够在每一层内动态调整骨干网络特征的权重，从而在不同尺度上实现最优骨干网络权重的选择，并充分利用不同骨干网络的优势。从分类的可视化结果来看（图3）。图3(a)显示在复杂的地表覆盖场景下，FSRNet也能精确地提取果园，且分类边界清晰。图2(b)显示 FSRNet 能更好地捕捉地表覆盖的真实情况，表明模型在信息提取和特征学习方面的能力得到了增强。图2(c)证明了该网络在减少阴影区域误分类方面的有效性。在图2(d)中，FSRNet降低了将森林和裸地区域误分类的概率。与融合骨干网络相比，单一骨干网络表现出大量的误分类和漏分类。

表1 不同骨干网融合策略的分类结果对比

	Precision	Recall	F1	OA
ResNet50	0.830	0.745	0.785	0.854
SwinT	0.817	0.799	0.808	0.867
RASL	0.871	0.779	0.822	0.871
SARL	0.873	0.796	0.833	0.883
DIC	0.831	0.841	0.836	0.895
FSC	0.886	0.843	0.864	0.897

图2 三种用于对比的骨干网融合策略 (a) Swin Transformer辅助，ResNet50主导同层合成架构（SARL）；(b) ResNet50辅助，Swin Transformer主导同层合成架构（RASL）；(c) 平行协同信息交互架构（DIC）

图3 不同骨干网融合策略以及单一骨干网的分类结果可视化对比

（2）FSRNet与不同模型的对比

本研究对比了FSRNet与常用的深度学习语义分割模型在果树提取上的性能（表2）。首先，对比了基于单一骨干网络的五种经典语义分割模型（DeepLabv3+，PSPNet，SegNet，UNet，FCN）。FSRNet的OA（0.897）和F1（0.864）均显著优于所有单骨干网模型。相比单骨干网络，FSRNet 的F1分数平均提升了约8.5%，OA平均提升了约4.2%，这证明了多骨干融合策略在特征提取能力上具有一定的优势。可视化分类结果（图4）显示，FSRNet准确识别了大部分的果园区域。与之相比，FCN表现出显著的误分类问题，而SegNet、UNet和DeepLabv3+的分类表现稍好，但在更精细的细节上仍显示出更多的混淆。

随后，将FSRNet与六种先进的多骨干融合网络进行了对比，包括 CBNet（ResNet50版和SwinTransformer版）、ABNet、SWT-CNN、FECNet 以及 ViT-Hybrid。对比结果显示，传统融合模型如 CBNet-Res 和 CBNet-Swin 由于缺乏动态权重调整，在全局特征捕获或边界分割上存在明显短板，其F1 分数分别在0.819和0.828左右。ABNet因缺乏自适应融合策略，误分类较多，性能相对较低（F1=0.807）。表现最接近FSRNet 的是 ViT-Hybrid 模型，其 F1 分数约为 0.854。FSRNet 最终以0.897的OA和0.864 的 F1 分数排名第一，相比 ViT-Hybrid，OA 提升了约 1%，F1 分数提升了 0.037（即约 1.2%）。图5展示了不同多融合骨干模型的分类结果。其中，CBNet-Res对一些连片果园区域的识别效果不佳。CBNet-Swin 在规则分布的果园区域表现稍好，但边界分割不准确。ABNet 在大多数图像中存在显著的误分类。SWT-CNN和FECNet整体上误分类较少，但边界分割仍不够充分。ViT-Hybrid缺乏细节精度。整体而言，FSRNet在果园边界分割和复杂背景抑制方面展现出最强的鲁棒性。

表2 与其他模型的分类结果对比

	Precision	Recall	F1	OA
FSRNet	0.886	0.843	0.864	0.897
FCN	0.672	0.735	0.702	0.813
SegNet	0.824	0.724	0.771	0.844
DeepLabv3+	0.791	0.721	0.754	0.836
UNet	0.817	0.741	0.777	0.850
PSPNet	0.806	0.830	0.818	0.872
CBNet(Swin)	0.820	0.793	0.806	0.875
CBNet(Res)	0.804	0.773	0.788	0.862
ABNet	0.832	0.617	0.709	0.781
SWT-CNN	0.835	0.773	0.803	0.869
FECNet	0.852	0.798	0.824	0.883
ViT-Hybrid	0.842	0.813	0.827	0.887

图4 FSRNet与经典单骨干网语义分割模型的分类结果可视化对比

图5 FSRNet与多骨干网融合语义分割模型的分类结果可视化对比

（3）融合骨干网对于果园提取发挥的作用

如图6所示，果园提取中的主要误分和漏分集中在森林和裸地区域。这是因为茂密的果园和森林都可被归为植被，这些土地利用类型的光谱特征高度相似，而新种植或收割后的果园在光谱特征上与裸地几乎无法区分。此外，果园树冠有时可能非常密集，其树木间距类似于某些人工林，而稀疏的果园则与裸地极为相似，这使得仅凭纹理特征难以区分这些土地类型。FSRNet 在应对这些挑战方面表现出色，显著降低了这些土地类型之间的混淆。这种成功归功于该模型能够综合利用局部特征来区分果园边界，并利用全局信息来保持果园的连续性和完整性。这种能力特别适合果园景观的双重特征，即结合了局部纹理变化（如树冠边缘效应）和全局规则的种植格局。相比之下，其他模型通常只孤立地关注局部纹理特征或全局信息，因此难以准确识别果园。例如，ResNet的语义分割结果虽然边缘较为清晰与真实边界更为一致，但明显存在大量的错分区域，而Swin Transformer虽然错分更少，但边缘上的漏分情况更为严重。

图6 FSRNet，SwinTransformer以及ResNet50对果园的漏分与误分结果对比

研究价值

本研究旨在提出一种新的骨干网络融合策略，并基于融合骨干网络提升深度学习语义分割模型对于果园这种复杂地类的提取精度，其核心研究价值主要体现在：

本研究提出的平行协同自适应骨干网融合策略在架构以及融合模块上相较于传统的骨干网融合策略进行了优化。与传统的主导‑辅助式或级联式融合架构不同，该框架采用双向信息交互融合机制，使来自不同骨干网络的特征能够充分地交互，从而在保持各自优势的同时，实现多尺度、多类型特征的互补融合。其次，研究将动态特征权重自适应机制引入骨干网络融合过程，设计了基于注意力门控的FS模块，实现了不同骨干网络、不同层级特征的自适应权重分配与融合，有效克服了传统融合方法中简单加权或拼接导致的特征冗余与信息损失。整个融合策略显著提升了模型对果园这类兼具局部纹理细节与全局空间结构的复杂地物的表征能力。

基于该融合策略，本研究融合了两种性能优秀的骨干网—ResNet50和Swin Transformer，构建了融合骨干网络FSRNet。通过系统的对比实验与消融分析，验证了模型的性能以及各组件对模型性能的贡献。实验结果表明，FSRNet在果园提取任务中各项指标均优于现有先进模型，尤其在果园‑林地、果园‑裸地等易混淆场景中表现出较强的区分能力与边界保持效果。该研究不仅为果园信息快速监测与动态管理提供了高精度、鲁棒性的技术工具，也为其他具有类似地物特性的农业遥感分类任务以及其他地类的语义分割任务提供了可迁移的模型架构与方法参考。

作者简介

第一作者:

董白羽，浙江大学博士研究生，主要从事城市建筑物高度估计，基于深度学习的遥感影像语义分割，夜光遥感与城市化等方面研究。在International Journal of Applied Earth Observation and Geoinformation等期刊发表同行评审论文7篇。

通讯作者:

王珂，浙江大学教授，博士生导师。主要从事国土空间规划、生态修复整治、新农村发展建设、生态系统服务价值评估等方面研究。