01|导读
农业制图任务不仅需要识别地块纹理和边界细节,还需要理解作物从播种、返青、生长到成熟的完整物候过程。传统方法往往将空间特征和时间特征分开处理,难以同时兼顾田块尺度细节与长时间序列动态。本文速读一篇发表于 Remote Sensing of Environment 的研究,解析其如何构建 AgriFM 多源时序遥感基础模型,统一处理 MODIS、Landsat-8/9 和 Sentinel-2 数据,并服务于农田识别、地块边界提取、农业土地利用/覆盖制图、水稻制图和冬小麦制图等农业遥感任务。
02|文章信息
题目:AgriFM: A multi-source temporal remote sensing foundation model for Agriculture mapping
期刊:Remote Sensing of Environment
作者:Wenyuan Li, Shunlin Liang, Keyan Chen, Yongzhe Chen, Han Ma, Jianglei Xu, Yichuan Ma, Yuxiang Zhang, Shikang Guan, Husheng Fang, Zhenwei Shi
通讯作者:Shunlin Liang
作者单位:香港大学地理系赛马会定量遥感 STEM 实验室、北京航空航天大学宇航学院、武汉大学遥感信息工程学院
研究对象:农业制图与作物制图
核心数据:MODIS、Landsat-8/9、Sentinel-2、GLC_FCS30D 全球土地覆盖产品
核心方法:Video Swin Transformer、多源时序预训练、土地覆盖比例监督、统一农业制图解码器
论文链接:https://doi.org/10.1016/j.rse.2026.115234
引用格式:Li, W., Liang, S., Chen, K., Chen, Y., Ma, H., Xu, J., Ma, Y., Zhang, Y., Guan, S., Fang, H., & Shi, Z. (2026). AgriFM: A multi-source temporal remote sensing foundation model for Agriculture mapping. Remote Sensing of Environment, 334, 115234.
03|研究问题
农业遥感制图通常面临两个关键矛盾:一是作物识别需要完整物候信息,但高分辨率影像时间序列往往不稳定;二是地块边界、农田斑块和小田块识别需要精细空间特征,但很多基础模型在分块嵌入和下采样过程中容易损失细节。
现有遥感基础模型虽然具备较强的通用表征能力,但在农业场景中仍存在不足:部分模型依赖固定时空窗口,难以适应不同作物和不同卫星数据的时序长度;部分模型忽略时间信息,难以捕捉作物生长季内的物候差异。
本文关注的核心问题是:如何构建一个能够同时利用多源卫星、多尺度空间信息和长时间序列物候信息的农业遥感基础模型?
核心矛盾:农业制图既要“看清田块”,也要“看懂物候”。
04|方法思路
文章提出了 AgriFM 多源时序遥感基础模型。整体框架包括两个阶段:第一阶段构建全球多源时序预训练数据集,并利用土地覆盖产品提取土地覆盖比例作为预训练监督信息;第二阶段基于改进的 Video Swin Transformer 进行多源时序特征学习,并通过统一解码器完成不同农业制图任务。
AgriFM 的关键设计在于同步时空下采样。传统模型往往主要在空间维度下采样,而 AgriFM 在 Video Swin Transformer 中同时对空间和时间维度进行协调压缩,使模型既能处理 3—32 帧不等的输入序列,又能保留多尺度空间结构和作物物候特征。
在预训练数据方面,作者构建了超过 2500 万幅影像的全球样本集,覆盖 MODIS、Landsat-8/9 和 Sentinel-2 三类数据源。其中 MODIS 提供高时间频率,Landsat-8/9 提供 30 m 中高分辨率观测,Sentinel-2 提供 10 m 和 20 m 高分辨率多光谱信息。
核心方法:用多源时序基础模型统一学习“空间纹理—地块结构—作物物候”。
05|预训练策略
与常见的掩膜图像建模或对比学习不同,本文采用土地覆盖比例作为监督信号。具体来说,作者从 GLC_FCS30D 全球土地覆盖产品中提取每个遥感图像块内不同土地覆盖类型的比例,并将其作为模型预训练的回归目标。
这种设计的优势在于,土地覆盖比例并不要求像素级完全精确标注,却能为模型提供稳定的地理先验,使模型在预训练阶段学习到农田、林地、草地、水体、建设用地等地表类型的空间语义。
同时,考虑到全球土地覆盖产品本身可能存在标签噪声,作者引入 Mean-Teacher 框架,通过教师网络的指数滑动平均更新,降低噪声监督对模型预训练的影响。
核心提升:土地覆盖比例提供地理先验,Mean-Teacher 提高预训练稳定性。
06|主要结果
结果 1:AgriFM 提升农田识别与边界提取精度
在法国 ARA 区域的农田识别任务中,AgriFM 的正类 F1 达到 83.09%,优于 CNN、CNN-LSTM、3DCNN、ViT 类基础模型和非时序 Swin 类模型。在地块边界提取任务中,AgriFM 的正类 F1 达到 76.27%,说明其层级结构和时序预训练有助于同时保持田块边界细节和区域空间一致性。
结果 2:复杂农业土地利用/覆盖制图优势更明显
在 16 类农业土地利用/覆盖制图任务中,AgriFM 的 F1 达到 60.49%,整体精度达到 77.38%。相较农田二分类任务,多类别作物和土地利用识别更依赖时空特征协同,AgriFM 在稀有类别和主导类别上表现更加稳定。
结果 3:水稻与冬小麦制图表现突出
在季风亚洲水稻制图任务中,AgriFM 的水稻正类 F1 达到 86.97%,整体精度达到 92.14%。在亚洲冬小麦制图任务中,AgriFM 的冬小麦正类 F1 达到 75.85%,整体精度达到 97.27%。这表明多源时序预训练能够有效捕捉作物特有的物候模式。
结果 4:少样本条件下仍具有较强稳定性
当训练样本比例从 100% 降低到 5% 时,AgriFM 在多数任务中仍保持最高或接近最高的 F1 表现,说明预训练模型学习到的农业遥感表征具有较好的迁移能力和数据效率。
07|研究启发
这篇文章的启发在于,它将遥感基础模型从“通用地表表征”进一步推向“农业时空过程表征”。
对于农业遥感而言,空间分辨率、时间连续性和作物物候信息同样重要。单纯追求高空间分辨率,可能无法稳定识别作物类型;单纯依赖长时间序列,又可能损失地块边界和小斑块细节。AgriFM 的价值在于,将多源卫星数据、层级空间结构和作物生长时序整合到统一框架中,为农业制图提供了更适合的基础模型范式。
同时,文章也提示我们,农业遥感基础模型的预训练不一定只能依赖掩膜重建或对比学习。土地覆盖、作物分布、植被参数、土壤水分和生物量等地学产品,都有可能成为遥感基础模型的重要监督先验。
08|一句话总结
这篇文章提出 AgriFM 多源时序遥感基础模型,通过同步时空下采样、土地覆盖比例监督预训练和统一解码器,实现了农田识别、边界提取、农业土地利用/覆盖制图、水稻制图和冬小麦制图等多类农业遥感任务的精度提升。
09|关键图表
图 1|AgriFM 整体流程图
展示从土地覆盖比例提取、多源时序数据预训练,到统一农业制图框架构建的完整流程,是理解文章整体思路的核心图。
图 2|全球预训练样本空间分布
展示 MODIS、Landsat-8/9 和 Sentinel-2 预训练样本在全球范围内的分布,体现模型预训练数据的空间覆盖和多源特征。
图 3|AgriFM 模型结构图
展示多源卫星序列输入、Video Swin Transformer 四阶段特征提取、统一解码器和制图输出之间的关系,是理解模型结构的关键图。
图 6|农田识别与边界提取对比图
直观比较 CNN-LSTM、Galileo、SatMAE、GFM、AgriFM 与标签结果,突出 AgriFM 在田块边界和空间细节上的优势。
图 9|农业土地利用/覆盖制图结果对比图
展示不同模型在多类别农业土地利用/覆盖制图中的空间差异,有助于理解 AgriFM 在复杂类别识别中的优势。
图 12|亚洲冬小麦制图结果对比图
展示不同模型在冬小麦空间识别上的表现,体现 AgriFM 对作物物候信息和低分辨率时序数据的利用能力。
图 13|不同训练样本比例下的性能变化
展示基础模型在少样本条件下的性能趋势,说明 AgriFM 具有较好的数据效率和迁移稳定性。