ESSD 中山大学,中国农业大学最新发文 | 全球主要产区 20 年冬小麦动态制图,2001–2020 全球 1km 冬小麦丰度时序数据集
论文题目:Mapping 20-years winter wheat dynamics in global primary planting areas using Gaussian mixture models with adaptive thresholds中文题目:基于高斯混合模型与自适应阈值的全球主要种植区 20 年冬小麦动态制图期刊:Earth System Science Data Discussions, 2026 预印本作者:Yanan Wen, Tuo Chen, Xuecao Li等单位:塔里木大学、中山大学、中国农业大学、中国地质大学(北京)、清华大学、香港大学等数据产品:https://doi.org/10.6084/m9.figshare.32149033任务:2001-2020 年全球主要冬小麦种植区 1 km 分辨率冬小麦比例制图
关键词:冬小麦制图 / 作物分数地图 / MODIS / 自适应阈值 / 全球作物动态 / 食物安全
导读
冬小麦是全球粮食安全中最关键的作物之一。相比只回答“这里是不是冬小麦”,这篇论文更进一步:它希望回答“这个 1 km 像元里,有多少比例是冬小麦”。
这种 fraction map 对全球尺度很重要。真实农业景观并不总是由纯净大田块组成,尤其在田块破碎、作物混种、地形复杂或粗分辨率遥感影像中,一个像元往往混合了多种地物。传统二值作物图会把这种混合结构压扁成 0 或 1,而分数地图能保留更多种植强度和空间异质性信息。
论文提出一个基于 MODIS 长时序影像、随机森林回归和 Gaussian Mixture Model(GMM)自适应阈值的框架,生成 2001-2020 年全球主要冬小麦种植区的 1 km 冬小麦比例地图。产品像元值范围为 0-100,表示该像元内冬小麦种植比例。

背景
全球冬小麦长期动态制图很难,主要有三类原因。
第一,时间跨度长。Sentinel-2 分辨率高,但时间序列较短,不适合直接回溯 20 年以上。MODIS 虽然空间分辨率较粗,但有稳定的长时序观测,适合刻画 2001-2020 年这类长期作物动态。
第二,空间尺度大。全球主要冬小麦产区跨越亚洲、欧洲、北美、南美和大洋洲,不同国家的种植制度、田块尺度、冬小麦密度和遥感数据可用性差异很大。
第三,粗分辨率混合像元问题严重。1 km 或更粗分辨率下,一个像元可能同时包含冬小麦、其他作物、非农地和裸地。直接做二值分类会损失大量信息,也会放大碎片化地区的不确定性。
因此,论文选择先估计冬小麦比例,再通过局地阈值提取冬小麦动态。这种路线比单纯二分类更适合全球长期作物监测。
核心创新
论文贡献可以概括为三点:
构建全球主要产区 2001-2020 年冬小麦 fraction map研究覆盖 53 个主要冬小麦种植国家,输出 1 km 分辨率、20 年连续的冬小麦比例产品。
用公开作物产品生成分数样本论文将 CDL、ACI、EUCROPMAP、中国冬小麦 30 m 产品等高分辨率二值作物图聚合到 1 km,得到冬小麦比例样本;在缺少作物图的地区,则使用 GlobalWheatYield4km 作为辅助参考。
提出基于 GMM 参数的局地自适应阈值策略在 100 km 网格内分析冬小麦比例分布,用单高斯和双高斯参数估计局地最优阈值,让不同国家、不同种植密度和不同混合像元结构下的提取标准更加自适应。
方法总览

整体框架分为三步:
Step 1:生成冬小麦比例回归图使用已有冬小麦产品构建 1 km fraction samples,并结合 MODIS 时序反射率训练随机森林回归模型。
Step 2:估计局地最优阈值在 100 km 网格内拟合冬小麦比例分布的高斯参数,并用这些参数预测每个网格的最优提取阈值。
Step 3:多尺度验证从国家尺度、网格尺度和区域尺度对结果进行验证,包括 FAO 统计、公开作物产品和不同国家/地区的子区域统计。
1 km 冬小麦比例怎么来?

论文首先从已有高分辨率作物图中构建冬小麦比例标签。
具体来说,10 m 或 30 m 的冬小麦二值图被聚合到 1 km。如果一个 1 km 像元中有 60% 的高分辨率像元是冬小麦,那么它的 winter wheat fraction 就是 60。
随后,作者将比例值按 0-10%、10-20%、一直到 90-100% 分层,进行 stratified random sampling。这样做可以避免模型只学到大量低比例或高比例样本,而忽视中间混合像元。
模型输入为 MODIS MOD09GA v061 长时序表面反射率特征,输出为每个 1 km 像元的冬小麦比例。论文采用随机森林回归,并结合此前的 adaptive strategies,通过代表性样本与重复采样提高模型稳定性。
为什么需要 GMM 自适应阈值?
得到 winter wheat fraction 之后,还需要确定哪些像元应被识别为冬小麦有效分布区。问题在于,全球不同区域的种植密度差异巨大:
- 美国、欧洲、澳大利亚等地区田块尺度和种植格局不同,低比例混合像元更多。
- 印度、阿根廷等区域还存在数据质量和参考产品分辨率差异。
如果使用一个全球固定阈值,就很容易在某些地区过检,在另一些地区漏检。

因此,论文在 100 km 网格内拟合冬小麦比例分布。单高斯和双高斯曲线可以描述一个网格内不同作物/非作物混合结构,参数包括:
这些高斯参数被作为特征输入随机森林回归模型,预测每个 100 km 网格的 locally optimal threshold。换句话说,阈值不是人为固定的,而是根据局地冬小麦比例分布自动调整。
数据与验证
研究使用的主要数据包括:
- MOD09GA v061:2001-2020 年每日 MODIS 表面反射率,用于构建长时序特征。
- AAFC ACI:加拿大 30 m 年度作物产品。
- EUCROPMAP:欧洲 2018 年 10 m 作物产品。
- 中国冬小麦 30 m 产品:用于中国区域样本和验证。
- GlobalWheatYield4km:用于缺少冬小麦产品区域的辅助参考。
- FAOSTAT:国家尺度小麦种植面积统计,用于 2001-2020 年时间序列验证。
论文从空间和时间两个角度评估结果:国家尺度与 FAO 统计对比,网格尺度与公开作物产品对比,子区域尺度与中国、美国、欧盟等区域产品对比。
国家尺度结果:与 FAO 统计高度一致

国家尺度上,2001-2020 年每一年都与 FAO 统计进行了对比。论文报告,在全球主要种植国家中,20 年平均 R² 约为 0.81。
从图中可以看到,大多数年份的 R² 都在 0.8 以上,回归斜率也接近 1,说明模型不仅能捕捉空间分布,也能较好反映年度面积变化。
论文也指出,部分年份存在轻微高估,例如 2013 和 2019 年。这可能与随机森林回归的系统偏差、MODIS 可用影像质量以及参考作物产品本身的不确定性有关。
空间对比:比 4 km 产品保留更多分数细节

论文将 2020 年结果与 GlobalWheatYield4km 进行对比。整体空间格局高度相似,说明该框架能够在全球主要产区恢复冬小麦分布。
但由于本文产品为 1 km fraction map,相比 4 km 产品能提供更细的空间信息。图中展示了中国、美国、印度、德国、阿根廷和澳大利亚六个典型区域。在一些低比例或空间破碎区域,两者差异更明显,这也正是分数制图的价值所在:它可以表达混合像元内部的种植强度,而不是简单给出有/无。
5 km 尺度产品验证

论文还将结果聚合到 5 km,与其他冬小麦产品对比。2018 年四个区域整体表现较好,R-value 和 RMSE 分别为 0.78 和 0.04。
具体看:
中国样本点出现更明显的高比例聚集,反映出中国部分冬小麦主产区种植密度更高;美国和欧洲则更多集中在较低比例区间,与其农业景观和田块结构有关。
区域尺度时间动态

在区域尺度上,论文选择中国 24 个省份和美国 37 个州进行时间动态验证,并对欧盟国家进行 2018 年空间对比。
结果显示:
- 中国省级时间动态 R² 均高于 0.95,mean R² = 0.97。
- 美国州级时间动态 R² 高于 0.72,mean R² = 0.80。
- 欧盟国家 2018 年与 EUCROPMAP 对比,R² = 0.88。
这说明该方法不仅能在国家尺度匹配统计面积,也能在子国家尺度较好捕捉区域间差异和年度变化。
不确定性
论文也讨论了几个主要不确定性来源。
首先,方法使用 cropland mask 和 ROC mask 排除非冬小麦像元,因此极低比例的冬小麦像元可能被过滤掉。对于高度碎片化的小农区,MODIS 1 km 观测本身也难以完整表达精细空间镶嵌。
其次,训练标签来自多个公开作物产品。这些 10-30 m 产品虽然分辨率更高,但本身也存在分类误差,尤其在碎片化种植区或作物光谱相似区域。
第三,随机森林回归存在典型的回归偏差:可能低估高比例像元、抬高低比例像元。论文在法国、德国等低比例区也观察到 0-20% 分布区间的差异。
因此,这个产品更适合刻画全球主要冬小麦产区的长期趋势和大尺度空间格局,而不是替代高分辨率地块级作物图。
小结
这篇工作的价值在于,它把全球冬小麦长期动态制图从二值图推进到了分数图。
二值图告诉我们“哪里是冬小麦”,而 1 km fraction map 进一步告诉我们“这个像元中冬小麦占多少”。对于全球作物模型、粮食安全评估、作物种植强度分析和长期变化监测来说,后者的信息量更高。
方法上,论文将公开高分辨率作物图聚合成分数标签,用 MODIS 长时序回归 2001-2020 年冬小麦比例,再利用 GMM 参数为不同 100 km 网格估计局地阈值。这个设计兼顾了长期数据可得性、全球尺度可迁移性和局地种植结构差异。
从验证结果看,产品与 FAO 国家统计、公开作物产品以及中国、美国、欧盟等区域尺度数据都保持较高一致性。对于需要长期、连续、近全球冬小麦动态输入的研究,这个数据集是一个很有价值的补充。
参考
Wen et al. Mapping 20-years winter wheat dynamics in global primary planting areas using Gaussian mixture models with adaptive thresholds. Earth System Science Data Discussions, 2026.