AgriFM的预训练数据构建目标在于使模型学习具有高度泛化性的时空遥感特征,而非针对单一地区或农业任务进行拟合。为此,研究团队构建超2500万样本的全球尺度多源时序遥感数据集,覆盖多种气候带、地貌类型与土地覆盖格局。预训练数据主要来源于Sentinel-2、Landsat(L8/L9)以及MODIS,三者在空间分辨率、时间分辨率和观测尺度上存在显著差异。通过引入多分辨率、多时间尺度的数据组合,模型在预训练阶段即可同时学习细粒度空间纹理信息与长时间序列变化特征。
从空间分布上看(图3所示),预训练样本点广泛分布于全球各大洲,覆盖不同地形、植被类型与人类活动强度区域。这种全球均匀采样策略为模型学习通用遥感表征提供了数据基础。
值得注意的是,AgriFM在预训练阶段采用了非配对(non-paired)数据策略。不同传感器的数据在空间和时间上不要求严格对齐,模型分别接收来自不同地理位置和不同观测时间的Sentinel-2、Landsat(L8/L9)和MODIS时序样本进行训练。这一设计显著降低了多源数据融合的先验约束,强调模型对时空统计规律本身的学习能力,而非依赖像素级配准关系。预训练样本是通过随机选择全球范围内的卫星数据位置,并将原始影像裁剪成固定大小的图像(224×224像素)而生成的。采集样本数量如表1所示:
为验证AgriFM模型在不同农业任务中的表现,研究选择了三个具有代表性的区域进行实验(图4所示)。
图4 所有下游任务的研究区位置及数据集详情:a)法国ARA区域用于精细化制图;b)亚洲区域用于冬小麦制图;c)季风亚洲区域用于水稻制图。
法国Auvergne–Rhône–Alpes(ARA)地区,在精细化农业制图实验中,研究选取法国ARA地区作为典型研究区,使用高空间分辨率的Sentinel-2数据对模型进行微调与评估。该部分数据统一来自Sentinel-2卫星,空间分辨率为10m,共使用10个光谱波段。时间上采用跨年划分策略,其中2018年作为训练集,2019年作为验证集,2020年作为测试集,以检验模型的时间泛化能力。每一类数据集均包含2327张影像样本,单幅影像尺寸为256×256像素。该区域包含高度多样化的作物类型,细分为16类,且地块较为细碎,适合验证高分辨率制图能力。利用该区域完成了耕地制图、边界提取和农业土地利用/覆盖制图的应用评估任务。
亚洲区域,冬小麦制图任务利用亚洲区域数据完成,该区域空间跨度大,从华北平原到中亚草原,涵盖多种农业气候带,用于检验模型在大尺度、长时间序列条件下的稳定性。该实验统一使用MODIS数据,空间分辨率为250m,包含7个光谱波段。时间序列从2020年8月到2021年6月,共11个时相,完整涵盖冬小麦从播种、越冬到成熟的生长周期。影像尺寸设置为512像素,以保持区域尺度信息。样本划分方面,训练集包含2711张影像,验证集636张,测试集569张。标签数据基于World Cereal产品生成,为亚洲尺度冬小麦分布提供参考。
季风亚洲区域,水稻制图实验聚焦于季风亚洲区域,该区域是主要的水稻产区,常面临多云雨覆盖的问题,该区域完成水稻制图,验证模型在多源遥感数据融合和抗云雨干扰能力。研究使用两种不同空间分辨率的遥感数据源,以验证模型在短时序和多尺度条件下的适应能力。第一类数据为HLS30,空间分辨率为30m,包含6个光谱波段,时间序列长度为5个时相;第二类数据为MODIS,空间分辨率为250m,包含7个波段,时间序列长度为46个时相。两类数据均覆盖2019年水稻关键生长季。样本数量方面,训练集包含3039张影像,验证集与测试集各1013张。影像尺寸根据传感器差异分别设置为:HLS30为224像素,MODIS为56像素。标签数据通过整合多种现有产品,筛选生成高置信度水稻样本,从而降低标签噪声对实验结果的影响。