一、总体框架
本文将方法划分为两个紧密耦合的阶段:第一阶段从全球多源遥感序列中构建预训练样本,并从全球土地覆盖产品中抽取地表覆盖比例作为监督信号;第二阶段在完成基础模型预训练后,构建一个面向多任务的统一制图框架,通过可扩展解码器将主干输出转化为不同下游任务的像素级制图结果。该设计的关键点在于:用“地表覆盖比例”把不同传感器(分辨率、光谱配置、重访周期不同)的表示学习拉到同一语义目标上,同时让模型在结构上具备从“预训练表征”平滑迁移到“多任务制图”的能力。
二. 全球多源时序预训练数据构建
作者构建了一个覆盖全球的多源时序预训练数据集,输入来自 MODIS(250/500 m)、Landsat-8/9(30 m)、Sentinel-2(10/20 m)。数据被裁剪为 224×224 图像块,并为每个样本生成至少覆盖完整年度的时间序列(最短序列长度≥16),同时过滤“几乎全为背景地类”的样本以增强监督有效性。数据规模上,最终总计 25,244,211 张影像:其中 MODIS 1,574,451 张、Landsat 13,392,029 张、Sentinel-2 10,277,731 张;对应的时序序列数量分别为 51,964 / 335,985 / 345,843。这种“全球分布 + 年周期时序”的构造,使模型在预训练阶段就能接触到多样的作物物候与地表类型组合,为后续农业制图任务提供更强的时空先验。
三. 主干网络:改进 Video Swin
AgriFM 的主干基于 Video Swin Transformer,但核心改动在于:在分层下采样(patch merging)时不仅压缩空间分辨率,也同步压缩时间维度,从而让模型能在计算可控的前提下处理更长、更灵活的序列输入(文中指出预训练迭代中可动态采样 3–32 帧)。与此同时,为三种传感器分别设计 3D Conv 的 patch embedding,使多源输入先被投影到统一 token 空间,再进入四阶段层次化时空特征提取。该结构兼顾“田块边界等细粒度空间细节”与“作物生长季的长时序动态”,为农业制图类像素任务提供更贴合的表征学习路径。
四. 多任务覆盖、数据划分与指标体系
为验证“农业制图通用基础模型”的有效性,作者选择了 5 类下游任务,覆盖法国 ARA 区域的耕地/边界/用地覆被制图,以及亚洲季风区水稻制图、亚洲冬小麦制图。数据划分强调时间泛化:例如 ARA 区域使用 2018 训练、2019 验证、2020 测试;输入时序长度也按任务设定(如 32 帧、24 帧等),以验证模型对不同时间长度的适配能力。评估上采用 Precision/Recall/F1/OA 等指标,并对“正类(如耕地/边界/作物)”与“背景+正类平均”分别汇报,确保既衡量目标类别识别能力,也衡量整体像素级制图质量。