本研究提出了一套新型的骨干神经网络融合策略—平行协同自适应融合策略(FSC),主要包括两部分:
(1)双重信息交互融合架构:摒弃传统的主导-辅助结构。在每个阶段,将两个骨干网络输出的特征图通过FS块融合,得到的融合特征图同时作为两个骨干网络下一阶段的输入,实现了信息的双向平行交互。
(2)FS融合块:基于门控注意力机制的融合模块,取代传统骨干网的逐元素相加融合。该模块先将接收到的两个尺寸相同的特征图合并,随后进行降维处理,以减少计算量、避免过拟合,然后使用Softmax函数为两个骨干网络对应通道的特征动态生成注意力权重,最后进行加权求和。这使得网络能在不同阶段自适应地选择最优特征进行融合。在该策略基础上,本研究融合了两种性能优秀的骨干网—ResNet50和Swin Transformer,构建了融合骨干网络FSRNet。该网络采用四层编码器-解码器的U型网络结构,包含使用融合骨干网的编码器、解码器和跳跃连接部分。在跳跃连接处,引入一个结合了通道注意力、空间注意力和上述FS块的联合注意力模块,以消除编码器与解码器特征图之间的语义歧义,实现更有效的特征融合。损失函数方面,针对果园可能存在样本不平衡不平衡问题,采用边缘交叉熵损失函数IELoss和Dice损失函数进行加权组合。
本研究以宁波奉化区的桃园作为实验对象,使用高分二号(GF-2)卫星影像(空间分辨率0.8米),通过人工目视解译结合第三次全国国土调查数据制作真实标签。本研究的数据集进行了增强:在RGB三波段数据基础上,从GF-2影像中提取了归一化植被指数(NDVI),和基于变异系数提取的最优纹理特征(熵),共同构建数据集,以丰富光谱和纹理信息。(图1)。

图1 研究的技术路线及融合骨干网络FSRNet的整体架构
(1)消融实验结果
本研究对比了不同的骨干网融合策略(图2)对于模型最终性能的影响,所提出的FSC融合策略在所有指标中取得了最佳性能(表1)。该模型在测试区预测果园的整体准确率(OA)最高达到了89.7%,F1分数为0.864。四种融合的骨干网络在OA和F1分数上都优于单一骨干网络。这证明,利用融合骨干网络能够更有效地完成从高分辨率影像中提取果园的任务。与SARL和RASL相比,DIC策略取得了更高的性能,这反映了交互式架构优于传统的主导-辅助架构。这可能是因为DIC策略的平行融合使得模型能够降低其中一个骨干网络主导决策的风险。相反,SARL和RASL这类由单一骨干网主导的策略,可能会限制另一个网络的潜力,尤其是当主导网络不能很好地适应数据特征时。FSC策略相对于DIC策略在性能上的额外提升,证明了通过FS块进行融合的有效性。这可能是因为FS块能够在每一层内动态调整骨干网络特征的权重,从而在不同尺度上实现最优骨干网络权重的选择,并充分利用不同骨干网络的优势。从分类的可视化结果来看(图3)。图3(a)显示在复杂的地表覆盖场景下,FSRNet也能精确地提取果园,且分类边界清晰。图2(b)显示 FSRNet 能更好地捕捉地表覆盖的真实情况,表明模型在信息提取和特征学习方面的能力得到了增强。图2(c)证明了该网络在减少阴影区域误分类方面的有效性。在图2(d)中,FSRNet降低了将森林和裸地区域误分类的概率。与融合骨干网络相比,单一骨干网络表现出大量的误分类和漏分类。表1 不同骨干网融合策略的分类结果对比
| Precision | Recall | F1 | OA |
ResNet50 | 0.830 | 0.745 | 0.785 | 0.854 |
SwinT | 0.817 | 0.799 | 0.808 | 0.867 |
RASL | 0.871 | 0.779 | 0.822 | 0.871 |
SARL | 0.873 | 0.796 | 0.833 | 0.883 |
DIC | 0.831 | 0.841 | 0.836 | 0.895 |
FSC | 0.886 | 0.843 | 0.864 | 0.897 |

图2 三种用于对比的骨干网融合策略 (a) Swin Transformer辅助,ResNet50主导同层合成架构(SARL);(b) ResNet50辅助,Swin Transformer主导同层合成架构(RASL);(c) 平行协同信息交互架构(DIC)

图3 不同骨干网融合策略以及单一骨干网的分类结果可视化对比
(2)FSRNet与不同模型的对比
本研究对比了FSRNet与常用的深度学习语义分割模型在果树提取上的性能(表2)。首先,对比了基于单一骨干网络的五种经典语义分割模型(DeepLabv3+,PSPNet,SegNet,UNet,FCN)。FSRNet的OA(0.897)和F1(0.864)均显著优于所有单骨干网模型。相比单骨干网络,FSRNet 的F1分数平均提升了约8.5%,OA平均提升了约4.2%,这证明了多骨干融合策略在特征提取能力上具有一定的优势。可视化分类结果(图4)显示,FSRNet准确识别了大部分的果园区域。与之相比,FCN表现出显著的误分类问题,而SegNet、UNet和DeepLabv3+的分类表现稍好,但在更精细的细节上仍显示出更多的混淆。
随后,将FSRNet与六种先进的多骨干融合网络进行了对比,包括 CBNet(ResNet50版和SwinTransformer版)、ABNet、SWT-CNN、FECNet 以及 ViT-Hybrid。对比结果显示,传统融合模型如 CBNet-Res 和 CBNet-Swin 由于缺乏动态权重调整,在全局特征捕获或边界分割上存在明显短板,其F1 分数分别在0.819和0.828左右。ABNet因缺乏自适应融合策略,误分类较多,性能相对较低(F1=0.807)。表现最接近FSRNet 的是 ViT-Hybrid 模型,其 F1 分数约为 0.854。FSRNet 最终以0.897的OA和0.864 的 F1 分数排名第一,相比 ViT-Hybrid,OA 提升了约 1%,F1 分数提升了 0.037(即约 1.2%)。图5展示了不同多融合骨干模型的分类结果。其中,CBNet-Res对一些连片果园区域的识别效果不佳。CBNet-Swin 在规则分布的果园区域表现稍好,但边界分割不准确。ABNet 在大多数图像中存在显著的误分类。SWT-CNN和FECNet整体上误分类较少,但边界分割仍不够充分。ViT-Hybrid缺乏细节精度。整体而言,FSRNet在果园边界分割和复杂背景抑制方面展现出最强的鲁棒性。
表2 与其他模型的分类结果对比
| Precision | Recall | F1 | OA |
FSRNet | 0.886 | 0.843 | 0.864 | 0.897 |
FCN | 0.672 | 0.735 | 0.702 | 0.813 |
SegNet | 0.824 | 0.724 | 0.771 | 0.844 |
DeepLabv3+ | 0.791 | 0.721 | 0.754 | 0.836 |
UNet | 0.817 | 0.741 | 0.777 | 0.850 |
PSPNet | 0.806 | 0.830 | 0.818 | 0.872 |
CBNet(Swin) | 0.820 | 0.793 | 0.806 | 0.875 |
CBNet(Res) | 0.804 | 0.773 | 0.788 | 0.862 |
ABNet | 0.832 | 0.617 | 0.709 | 0.781 |
SWT-CNN | 0.835 | 0.773 | 0.803 | 0.869 |
FECNet | 0.852 | 0.798 | 0.824 | 0.883 |
ViT-Hybrid | 0.842 | 0.813 | 0.827 | 0.887 |

图4 FSRNet与经典单骨干网语义分割模型的分类结果可视化对比

图5 FSRNet与多骨干网融合语义分割模型的分类结果可视化对比
(3)融合骨干网对于果园提取发挥的作用
如图6所示,果园提取中的主要误分和漏分集中在森林和裸地区域。这是因为茂密的果园和森林都可被归为植被,这些土地利用类型的光谱特征高度相似,而新种植或收割后的果园在光谱特征上与裸地几乎无法区分。此外,果园树冠有时可能非常密集,其树木间距类似于某些人工林,而稀疏的果园则与裸地极为相似,这使得仅凭纹理特征难以区分这些土地类型。FSRNet 在应对这些挑战方面表现出色,显著降低了这些土地类型之间的混淆。这种成功归功于该模型能够综合利用局部特征来区分果园边界,并利用全局信息来保持果园的连续性和完整性。这种能力特别适合果园景观的双重特征,即结合了局部纹理变化(如树冠边缘效应)和全局规则的种植格局。相比之下,其他模型通常只孤立地关注局部纹理特征或全局信息,因此难以准确识别果园。例如,ResNet的语义分割结果虽然边缘较为清晰与真实边界更为一致,但明显存在大量的错分区域,而Swin Transformer虽然错分更少,但边缘上的漏分情况更为严重。

图6 FSRNet,SwinTransformer以及ResNet50对果园的漏分与误分结果对比