本研究是 Wittstruck 等人于 2025 年发表在《Remote Sensing of Environment》上的一篇文章。
土壤质地是影响土壤保水、通气、养分供应和耕作性的基础属性,也是农业生产、生态评估和土地管理中的关键变量。传统依赖大规模采样和实验室分析的土壤制图方法成本高、更新慢,难以满足田块尺度精细管理对高时空分辨率信息的需求。近年来,遥感与数字土壤制图快速发展,多光谱、热红外、SAR 及地形协变量被广泛用于土壤属性反演,为大范围、高分辨率土壤信息获取提供了新路径。
然而,现有多数方法仍以采样点处提取的光谱或环境变量为主要输入,侧重点位属性预测,较少系统利用遥感影像中的空间上下文信息。随机森林等树模型虽然稳健、易用,但难以直接学习图像邻域内的纹理和空间结构;卷积神经网络能够提取局部图像特征,却受限于固定感受野,在刻画跨尺度、长距离依赖关系方面存在不足。对于质地这类同时受母质、地形、水热条件和耕作过程共同影响的属性而言,仅依赖局部信息往往难以完整表征其形成机制。
视觉 Transformer 近年来在遥感与计算机视觉中表现出优秀的全局建模能力,但在土壤制图中的应用尚处起步阶段。一方面,已有研究多集中于高光谱点数据或小区域实验;另一方面,常见视觉 Transformer 对多模态影像之间差异性的显式利用不足,往往把不同模态简单堆叠后统一切块,难以充分挖掘各数据源之间的互补关系。针对这些不足,本文提出多模态视觉变换器模型 MMVT,面向德国农业表层土壤砂、粉砂和黏土含量的 10 m 高分辨率预测与制图。
研究的核心目标包括三点:首先,构建能够同时利用多源遥感影像与空间邻域信息的多模态 Transformer 架构;其次,系统比较不同输入图像尺寸对模型精度的影响,分析空间上下文在土壤质地预测中的作用范围;最后,将 MMVT 与二维卷积神经网络和随机森林进行对比,评价其在全国尺度和田块尺度土壤制图中的优势与局限。论文试图回答一个具有实际意义的问题:在不依赖复杂预训练策略和粗尺度土壤先验图的情况下,是否能够仅凭多模态遥感信息获得兼具精度与空间细节的高分辨率土壤质地图。
研究区覆盖德国主要农业区,总面积约 16.6 万 km²,地形从北德平原、中部高地到南部阿尔卑斯山前地带差异显著(图1),土壤母质与成土环境复杂多样,因此非常适合开展全国尺度的土壤质地建模。北部低地多受冰川沉积控制,砂质土较多;中部与南部则常见黄土、冲积物和中生代沉积岩风化形成的粉砂质或黏质土壤,不同区域间呈现明显的质地梯度和局部异质性。本研究认为,这种复杂性既增加了建模难度,也能更充分检验模型对多源遥感信息的泛化能力。
样本数据整合自八类土壤调查资料,包括欧洲 LUCAS 表层土壤数据库以及德国多个州级土壤档案。研究仅保留定位精度较高、采样深度不超过 30 cm、位于德国边界内且采样时间在 2000—2024 年间的耕地样本;对于同一地点的多次采样,采用平均值形成代表样本。经过严格筛选后,共获得 3312 个样本用于训练和测试。样本中粉砂含量整体占优,平均约 46%,砂约 36%,黏土约 17%,数值范围覆盖德国主要农业土壤类型。
遥感输入涵盖六类图像模态(表1):多光谱裸土合成图、裸土温度合成图、SAR 裸土合成图、基于指数的植被活力合成图、时间序列地表温度合成图以及地形变量。多光谱数据主要来自 Sentinel-2 与 Landsat 7/8/9,SAR 数据来自 Sentinel-1 双极化 GRD 产品,地形数据来自 SRTM。通过长时间序列、多时相合成与严格的裸土筛选策略,研究尽量提取反映土壤本征差异的遥感信息,同时抑制植被、秸秆、云层与季节噪声带来的干扰。
裸土合成方面,本研究排除了植被旺盛和冬季云量较高月份,并使用 NDVI、NBR2、BSI 等指数筛选裸土像元;对多光谱反射率取中位数,对 SAR 取多时相平均,对 Landsat 地表温度按季度构建多年中位数组合。除此之外,研究还引入坡度、坡向和地形湿润指数等地形协变量,以及 NDVI、NDMI、NDWI 等植被活力指标,用以间接反映水分状况、地形过程和土壤—植被耦合关系。所有变量最终重采样至 10 m,形成全国统一输入数据栈。
为兼顾多模态特征表达与空间上下文利用,本文分别构建了随机森林、二维卷积神经网络和多模态视觉变换器三类模型,并在统一样本划分和评价框架下进行比较。随机森林以采样点所在像元的多模态变量作为输入,不显式考虑空间邻域;二维卷积神经网络与 MMVT 则使用以采样点为中心的图像块,通过不同窗口大小测试邻域信息对精度的影响。本研究特别设置了 1×1、2×2、4×4、8×8、16×16、32×32 和 64×64 像素等多种输入尺度,分别对应从无空间上下文到 640 m×640 m 的空间范围。
随机森林采用多输出回归方式同时预测砂、粉砂和黏土三类粒级含量,利用三者总和约束所蕴含的相互依赖关系。模型使用网格搜索确定树数、最小叶节点样本数和最大特征数,最终设置为 256 棵树、最小叶节点样本数为 2,最大特征数为变量数平方根。该模型代表传统数字土壤制图中成熟而高效的基线方法,具有较强的可解释性与工程可用性。
二维卷积神经网络由四组卷积层序列组成,每组采用 3×3 卷积、批量归一化与 ReLU 激活,并在卷积后接 2×2 最大池化。网络通过全局平均池化和全连接层输出三类质地分量,训练时使用 Adam 优化器与均方误差损失,并通过旋转、翻转等增强手段提高泛化能力。该模型能够从图像块中学习局部空间纹理,但由于卷积感受野随层级逐步扩大,其对长距离依赖和跨模态关系的捕捉能力有限(表2)。
MMVT 是本文的重点创新。与普通视觉 Transformer 直接对整幅多模态图像堆栈进行统一切块不同,本研究首先按照“模态—空间区域”双重逻辑对输入进行分块(图2),使每个补丁同时保留所属模态信息与局部空间结构。随后,各补丁被展平并映射到 128 维嵌入空间,再叠加位置编码,送入 8 层 Transformer 编码器。每层包含归一化、多头自注意力和带 GELU 激活的 MLP,可在全局范围内学习模态间和空间上的相关性。最终网络通过多任务头同时输出砂、粉砂和黏土含量。
这种设计的关键意义在于:它不仅利用 Transformer 的全局自注意力机制建模远距离空间依赖,还显式保留了不同模态的独立性与互补性,使模型能够更有针对性地学习多光谱、SAR、热红外与地形信息之间的交互。本研究认为,土壤质地的形成往往受大尺度地貌背景与局部环境共同影响,MMVT 对多模态全局关系的刻画能力因此比 CNN 更具优势。为保证公平比较,MMVT 与 2D CNN 在相同图像尺寸下开展测试(表3),并采用类似的数据增强和训练策略。
表3 MMVT 的模型配置及不同图像尺寸与补丁尺寸设置
实验采用重复随机划分方案,对每种模型配置进行 30 次训练与测试。每次迭代均将样本随机划分为三分之二训练集和三分之一测试集,并保持不同模型使用同一分割,以确保结果具有可比性。评价指标包括决定系数 R²、均方根误差 RMSE 和性能—四分位距比 (RPIQ)。其中 R² 反映总体拟合能力,RMSE 反映绝对误差大小,RPIQ 则结合样本自然变异度评估模型的实用预测能力。论文同时给出 95% 置信区间,用于判断模型间差异是否具有统计显著性。
本研究还对最佳模型的全国制图结果、小区域纹理图以及田块尺度细节进行可视化分析。由于 MMVT 和 2D CNN 均以图像块为输入,制图时采用滑动窗口方式实现像素级预测。所有模型在输出砂、粉砂和黏土含量后,还进行归一化处理,使三类分量和为 100%,以满足土壤质地组成的物理约束。该处理有助于提升地图结果的合理性和可解释性。
土壤样本描述性统计表明,德国土壤颗粒组成具有明显空间异质性(图3)。北部平原砂含量较高,中南部黄土和山前地区则多表现为粉砂与黏土占优(图4)。裸土复合图(图5)同样揭示了这种区域差异:多光谱裸土合成能较清晰地表现土壤颜色和表面特征,SAR 合成虽然对土壤区域描绘略弱,但仍提供了与粗糙度和含水量相关的重要补充信息;裸土温度和季节地表温度则反映了大尺度气候与地形控制下的热环境差异。这些不同模态之间既存在共性,也保留了各自独特的信息层次,为后续融合建模奠定了基础。
在所有测试配置中,MMVT 在三类质地分量预测上整体优于二维卷积神经网络和随机森林(图6)。最佳配置出现在 32×32 像素输入、4×4 补丁划分的 MMVT 模型上,对砂和粉砂的预测精度最高,分别达到 R²=0.74、RMSE=14.78% 和 R²=0.73、RMSE=12.36%;对黏土的预测精度相对较低,但仍达到 R²=0.52、RMSE=6.30%。与之相比,最优 2D CNN 在同样 32×32 输入下的精度略低,随机森林则在无空间上下文条件下表现更弱,尤其对高值和低值范围的刻画不足。
图像尺寸对深度学习模型性能具有决定性影响。无论是 MMVT 还是 2D CNN,在输入窗口由 1×1 增大至 32×32 时,预测精度持续提升,说明充分的邻域上下文有助于模型理解土壤形成环境与纹理变化;但当窗口继续扩大至 64×64 时,精度反而略有下降,表明过大的空间范围可能引入与中心样本无关甚至相互冲突的信息。MMVT 在无空间上下文的 1×1 条件下仍优于 RF 和多数 CNN 配置,说明其对多模态信息本身的整合能力较强;而 CNN 在 2×2、4×4 等较小窗口下甚至低于 1×1,显示当空间结构不足以形成有效模式时,卷积模型反而容易受到噪声干扰。
二维直方图和回归散点进一步证明了 MMVT 的优势(图7)。该模型的预测值沿 1:1 线分布更集中,斜率更接近 1、偏移更接近 0,对中高值样本的响应更稳定;随机森林对低值存在高估、对高值存在明显低估,尤其在黏土含量较高时回归压缩现象突出;CNN 虽优于 RF,但仍存在更大的离散性和局部偏差。这说明 MMVT 不仅提高了平均精度,也增强了对样本分布全范围的拟合能力。
图7 最优 MMVT、2D CNN 与 RF 的实测—预测二维直方图散点图
在全国尺度制图上(图8),MMVT 预测的砂—粉砂—黏土空间分布与德国参考土壤图高度一致:北部低地以砂质土为主,中央高地和黄土丘陵粉砂比例升高,南部和特定盆地黏土含量更高;沿海和河谷区域的细粒沉积特征也得到了较好刻画。这表明模型已能够从多模态遥感图像中学习到与地貌、母质和区域气候相对应的大尺度土壤格局。
图8 基于 MMVT 预测的德国表层土壤质地空间分布
在不来梅附近子区域和田块尺度对比中(图9、10区域f),三种模型都能反映部分局部纹理差异,但表现存在明显层级差。随机森林由于基于像素独立预测,地图中经常出现边界突变和块状伪影,值域也明显偏窄;2D CNN 能较好利用邻域信息,但地图纹理仍显粗糙,区域过渡较生硬;MMVT 则在场景中呈现出更平滑、连续且细腻的空间变化,尤其在田地边界、河谷过渡和局部质地梯度明显区域,能更自然地给出连续预测结果(图11)。本研究认为,Transformer 的全局上下文建模能力是获得高质量高分辨率土壤质地图的关键原因之一。
论文最重要的贡献在于证明了多模态视觉 Transformer 在全国尺度、高分辨率土壤质地制图中的可行性与优势。不同于依赖粗尺度地学图件或复杂预训练策略的研究,本文主要利用多源遥感数据及其长期合成结果,便实现了与现有方法相比具有竞争力甚至更优的精度,同时生成了空间细节更丰富、视觉上更连续的纹理图。对于精准农业和区域土壤监测而言,这种“高分辨率—高连续性”的制图结果具有直接应用价值。
从机理上看,MMVT 的优越性来自两方面。其一,按模态切块的策略强化了模型对不同数据源差异性的感知,使多光谱、SAR、热红外和地形信息不会在最初阶段被过度混合;其二,Transformer 自注意力突破了局部卷积窗口限制,更适合表达土壤质地这类受多尺度环境因素共同控制的属性。研究对输入窗口的系统分析也提示,在遥感土壤制图中,空间上下文既不能缺失,也不宜无限扩大,寻找与目标属性形成尺度相匹配的窗口范围十分关键。
当然,研究也存在值得关注的限制。首先,尽管 MMVT 在砂和粉砂预测上效果较好,但黏土的精度仍相对有限,说明细粒组分的遥感表征更加复杂,可能还需要更具针对性的特征设计或先验约束。其次,样本来源虽然广泛,但不同地区样本密度并不均衡,可能对局部区域表现产生影响。再次,裸土合成中仍可能混入部分建筑和道路等非土壤对象,SAR 数据时间跨度也短于光学数据,这些都可能影响特征纯度。
未来研究可从几个方向拓展:一是整合更多高质量土壤剖面和州级数据库,提高区域代表性;二是将该框架扩展到有机碳、pH、阳离子交换量等更多土壤属性;三是结合自监督学习、时序 Transformer 或物理知识约束,进一步提升模型对极端样本与复杂场景的适应能力;四是在业务层面评估其在作物管理、耕地分区和长期土壤监测中的实际效益。
本文提出的 MMVT 通过显式建模多模态图像间关系,并引入合适尺度的空间上下文,实现了德国农业表层土壤质地的 10 m 高分辨率预测与制图。实验表明,MMVT 在精度、稳定性以及空间连续性上均优于 2D CNN 和随机森林,最佳输入窗口为 32×32 像素,对砂和粉砂预测表现尤为突出。更重要的是,该模型在全国尺度上恢复了与自然地貌和成土环境高度一致的质地分布模式,在田块尺度上也保留了丰富而自然的局部过渡。研究表明,基于多模态视觉 Transformer 的方法有望成为数字土壤制图从“点预测”走向“高分辨率连续表面重建”的重要技术路线。
本文的价值不只在于把视觉 Transformer 引入土壤质地预测,更在于它针对多模态遥感土壤制图的特点,对传统 ViT 的输入方式做了面向任务的改造。论文清晰展示了“多模态信息整合能力”和“适度空间上下文”对高分辨率土壤制图的重要性,也通过与 RF、CNN 的多层次对比证明:想要获得既准确又具有真实空间纹理的土壤地图,仅靠像素级建模已很难满足需求。对于从事遥感反演、数字土壤制图和农业地学应用的研究者而言,这篇文章不仅提供了一个效果较强的模型框架,也提供了一套值得借鉴的实验设计思路。其现实意义在于,未来若能与更稳定的裸土提取流程、更丰富的样本库和区域业务需求结合,类似 MMVT 的方法有望在农业分区管理、地力评价和资源监测中发挥更大作用。
原文信息:Wittstruck, L., Waske, B., Jarmer, T. 2025. High-resolution texture prediction of German agricultural soils using remote sensing with a multimodal vision transformer. Remote Sensing of Environment, 331, 114985.
阅读原文:https://doi.org/10.1016/j.rse.2025.114985
声明:本推送内容为课题组对论文的理解,因水平有限,难免出现错讹。敬请各位专家、同学批评指正。
本期编辑:姚舒译 硕士
审稿:一审 修岩 博士 二审 张宇飞 老师 三审 边振兴 教授
邮箱:540241263@qq.com