当前位置：首页>农业>AgriFM:面向农业制图的多源时相遥感基础模型

AgriFM:面向农业制图的多源时相遥感基础模型

2026-05-15 00:13:36

论文简介

论文名称：AgriFM: A multi-source temporal remote sensing foundation model for Agriculture mapping

期刊名称：《Remote Sensing of Environment》

影响因子：11.4

第一作者：Wenyuan Li

在线时间：2026年

摘要

随着人口增长与气候风险加剧，粮食安全压力变大，因此需要精确的农田制图来快速掌握农田分布、田块边界、作物类型与生长状态。农业制图既要看清田块边界等细节，也要理解作物从播种到成熟的物候变化。然而现有方法如传统机器学习（RF、SVM），依赖特征工程和标注样本，难以统一理解空间纹理与时间序列。普通 CNN/LSTM/3D-CNN，可处理单一任务，但难以统一适配多源、多时相、大范围农业制图。ViT 系列基础模型（Prithvi、SatMAE 等），固定大 patch 容易丢失田块边界，且很多模型，时间建模不足。因此需要设计一个专为农业制图的时空基础模型，同时兼顾边界精度、长时序建模和多源数据适配。该研究据此设计了AgriFM模型。

研究方法

数据准备与预训练

作者从全球范围收集了三类卫星数据：

MODIS（250/500 m，7 波段，8 天分辨率，约 1.57M 图像）

Landsat‑8/9（30 m，6 波段，4–7 天分辨率，约 13.39M 图像）

Sentinel‑2（10/20 m 统一为 10 m，10 波段，5 天分辨率，约 10.28M 图像）

每张图像被裁剪为 224×224 像素，并随机采样 3–32 帧的时序序列。预训练监督信号来自全球 30 m 土地覆盖产品 GLC_FCS30D：对每个图像块，根据地理坐标统计其中 8 类主要地物（农田、森林、灌木、草地、湿地、水体、裸地、城市）及背景的面积占比，得到一个 9 维分数向量 p。模型学习从输入卫星图像预测该向量，损失函数为 L1 损失。

图1 研从全球范围内收集的预训练样本的空间分布，这些样本来源于Sentinel-2、Landsat-8/9和MODIS。

骨干网络：改进的Viedo Swin Transformer

为了避免传统的ViT固定 16×16 大 patch 会造成不可逆的空间细节损失，田块边界容易模糊。作者采用了Video Swin Transformer，层次化特征提取，类似 U-Net/CNN 多尺度结构，更适合像素级农业制图。作者还进行了创新型的改造，时空同步降采样，每次降低空间分辨率时，也合并相邻时间帧，支持 3–32 帧变长输入。这种设计支持可变长度输入，并将计算量（FLOPs）降低 60–70%。

图2 基础模型AgriFM的结构包括四个阶段。输入的卫星序列( MODIS、Landsat - 8 / 9、Sentinel - 2)由特定的量纲参数表征：T表示每个序列(随机选取3 ~ 32帧)的时间长度，W和H表示空间宽度和高度(均固定为224像素)。光谱波段数C根据数据源的不同而不同。解码器的目的是对特征进行上采样和融合，以产生映射结果，每个映射结果由各自的标签标记。

Mean-Teather抗噪声预训练

由于 GLC_FCS30D 产品本身存在分类误差，作者引入 Mean‑Teacher 框架：一个教师网络的参数由学生网络的指数移动平均（EMA）得到，学生不仅学习拟合真实分数，还要与教师网络的输出保持一致。这有效抑制了标签噪声，提升了预训练的稳定性。

多源数据融合

三种数据分辨率和覆盖特性不同，不强制空间对齐，而是让不同传感器分别输入同一模型；以土地覆盖分数作为“语义桥梁”，在特征空间形成一致表征。

表1 不同卫星数据源在不同空间分辨率( Sentinel-2 : 10m和20m。Landsat 8 / 9 : 30 m ; MODIS : 250 m和500 m)和时间配置下的性能。数据源列中的数字表示时间帧计数。

通用解密码器与下游任务微调

预训练后，一个 U‑Net 风格的解码器从骨干的四个 stage 提取多尺度特征，逐级上采样并拼接，最终输出像素级预测。下游任务包括：农业用地制图（二分类）、地块边界提取（边缘检测）、农业土地利用/覆盖分类（16 类）、水稻制图（亚洲，HLS30+MODIS）、冬小麦制图（亚洲，MODIS）。

图3 为下游制图任务提供研究区域和数据集的详细信息。

研究结论

1.农业用地制图与地块边界提取全面领先

AgriFM 的农田制图 F1 达到 83.09%，地块边界提取 F1 达到 76.27%，显著优于最佳 ViT 模型（SatMAE：76.80%/62.50%）和最佳 Swin 非时序模型（GFM：81.06%/72.38%）。可视化结果也表明了ViT 类方法边界更容易过平滑，细碎田块结构被弱化。AgriFM 的边界线更接近 Label，说明层次化时空特征保留了田块级细节。

图4 2020年试验数据集农用地制图与田块边界划定结果的可视化对比。只显示每个任务中表现最好的方法，以确保比较的清晰性。耕地像素在绿色中显示，在红色中显示农田边界。用黄色包围盒突出具有显著差异的代表性区域进行详细对比。

2.农业土地利用/覆盖分类更稳健

AgriFM 的平均 F1 为 60.49%，比 GFM（57.75%）和 CNN‑LSTM（44.29%）均有明显提升。尤其在训练样本较少的稀有类别上，AgriFM 的稳定性远超其他方法。AgriFM 在多数类别上保持更高F1，稀有类表现更稳定。说明预训练语义和多时相物候特征对细粒度分类有效。

图5 农用地利用/土地覆盖制图分析：( a )方法度量比较，( b )平衡性能雷达图，( c )按训练样本频率排序的每类F1分数。

3.水稻与冬小麦制图验证跨作物适应性

亚洲季风区的水稻制图中，AgriFM 的 F1 为 86.97%（召回率 90.12%）；在亚洲冬小麦制图中，F1 为 75.85%，均优于所有对比模型。水稻任务使用 HLS30 +MODIS，说明多源时序数据能捕捉水稻复杂物候。冬小麦任务仅用 MODIS 低分辨率序列仍获得最高F1，说明模型具备跨分辨率迁移能力。不同作物、不同时序长度、不同空间分辨率下，AgriFM 均保持稳定优势。

表2、3 水稻冬小麦制图任务性能对比（%）。正列表示水稻/冬小麦识别指标，而平均列表示背景和水稻/冬小麦的平均指标。

结语

AgriFM是第一个专门为农业制图设计的遥感时空基础模型。它针对ViT丢失空间细节的痛点，选用 Video Swin Transformer 并设计了时空同步降采样策略；针对现有基础模型自监督预训练缺乏物理意义的问题，创新性地使用土地覆盖分数作为监督信号，并融合多源卫星数据。在农田制图、边界提取、土地利用分类、水稻和小麦制图五个任务上均取得最优性能，且在小样本场景下表现稳健。然而解码器仍需针对下游任务微调，还不是完全零样本框架。预训练数据虽然超过 2500 万张，但全球覆盖和多样性仍有提升空间。当前主要服务于像素级制图，对点预测、站点回归、参数反演等任务适配不足。未来扩展到植被参数反演、生物物理量估计等更通用地球观测任务。引入更大规模、更丰富来源的数据，如SAR、气象、地形和管理信息。探索与语言模型结合，实现可解释、可交互甚至零样本农业制图。

来源 | 西南交通大学

撰写与排版 | 吴仪

责任编辑 | 官海翔

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

AgriFM:面向农业制图的多源时相遥感基础模型

最新文章

热门文章

随机文章

AgriFM:面向农业制图的多源时相遥感基础模型

河北绿协绿色农业专委会助力衡水植物园盛大开园

苏南建厂!又一家硬核农业科技公司释放战略合作信号,年订单额惊人!

最新文章

热门文章

随机文章