一、研究背景
在气候变化压力日益加剧的背景下,全球粮食安全面临严峻挑战。可持续农业要求兼顾高产与环保,而氮肥管理正是其中的关键矛盾:过量施用会污染水体、增加碳排放并导致土壤退化;施用不足则影响产量并透支土壤肥力。因此,如何平衡产量与环境风险成为核心议题。氮素利用效率是衡量这一平衡的关键指标。提高效率可直接减少氮素盈余,缓解环境压力。尽管政策层面正推动更严格的肥料管理,但传统田间管理仍依赖经验,难以适应日尺度的动态变化,这推动了数据驱动决策的发展。强化学习因其序贯决策与自适应优化能力,被视为实现动态精准施肥的有效路径。然而,现有研究多聚焦增产增收,较少直接优化氮素利用效率等环境指标。奖励函数的设计偏差可能导致智能体忽视环境风险。同时,田间管理还存在施肥次数、物候窗口等现实约束。将约束系统融入学习过程,有望引导智能体探索出兼顾高产与低环境代价的优化方案。
二、研究问题
在协调生产力与可持续性的迫切需求以及政策层面对氮素利用效率(NUE)指标日益关注的背景下,本文重点研究以下问题:
1.环境表现:相较于现有先进的强化学习奖励函数和基准方法,采用以NUE为核心的奖励机制训练的强化学习智能体,在优化关键农学与环境指标方面的效果如何?
2.策略适应性:在以NUE为核心的奖励机制训练下,强化学习智能体在适应不同土壤情景(如土壤类型、初始氮水平)时,其施肥策略的调整能力如何,能否在多样条件下保持优异的指标表现?
三、材料与方法
1.仿真与问题建模
作物生长模型:以荷兰利利斯塔德地区为例,使用WOFOST作物生长模型(集成SNOMIN氮动态模块)模拟雨养冬小麦的氮动态与产量形成。模型参数经田间试验校准。
强化学习环境:构建CropGym环境,将施肥管理建模为一个带约束的马尔可夫决策过程。智能体以周为时间步,观测作物、土壤、天气等状态信息(共20余项特征),并从9个离散动作中选择施肥量。
2.核心奖励函数与约束设计
奖励函数:核心创新是设计了一种以氮素利用效率和氮盈余为核心的新型奖励函数。该函数引导智能体仅在达到预设的氮效率和氮盈余目标范围时,才去追求更高的产量。奖励信号稀疏,主要在收获时计算。
约束条件:采用LagrangianPPO算法处理现实约束,主要包括:整个生长季施肥次数上限(≤3次);仅允许在作物特定发育阶段(出苗至开花期)施肥。

图1氮素利用效率框架图

图2部分描述奖励函数的三维图。x轴与y轴分别表示氮盈余与氮素利用效率的取值范围,z轴展示相应组合的函数输出值
3.智能体训练与对比实验
训练设置:使用随机天气和初始氮条件进行训练,采用E3B内在奖励机制鼓励探索,防止过拟合。
对比基准:为评估性能,与以下基准进行比较:标准实践,模拟当地农民经验的固定施肥方案;优化基准,能预知未来天气、在约束下全局优化的理论上界;其他RL智能体,分别以相对产量、产量-氮损失和利润为奖励函数训练的智能体。
4.评估方案
评估指标:主要评估产量、氮素利用效率、氮盈余和利润,同时分析施肥量、氮损失等。
泛化能力测试:在不同初始氮含量(高/低)和不同土壤排水性(快/慢)的场景下测试训练好的智能体,评估其策略的适应性。
四、研究结果
1.智能体性能表现
在Lelystad冬小麦案例中,NUE奖励训练的智能体在几乎不降低产量的情况下显著改善环境表现(图3):与农户基线N2相比,其产量相近,但施肥量更少、氮盈余更低、氮损失更低,因此更接近目标氮平衡并降低环境风险;在各类RL智能体中,NUEagent的综合奖励最好,relative-yield表现接近,说明以NUE或相对增产为导向的奖励能同时促进高效用氮与减盈余。相反,yield-N-loss通过大幅减肥降低氮损失,但出现负氮盈余和过高NUE,提示存在土壤养分透支风险;financial为追求利润倾向高施肥,导致氮盈余与氮损失代价更大、综合奖励最低,也反映出直接约束NUE与氮盈余更难稳定学习。多年测试的散点与箱线图进一步表明(图4),NUEagent在高效区间内的年份更多,且氮盈余指标整体最优,但仍有少数年份落入“土壤挖矿”区。值得注意的是,2020年开花期极端降雨抑制氮吸收,使其出现异常年份,说明仅依赖即时观测的策略对突发扰动的前瞻性仍有限;同时,算法总体能够满足施肥次数与物候窗口等操作约束。

图3.各智能体的氮素利用效率散点图。图中每个散点代表一个测试年份(样本量n=39)。为展示性能的分布情况,在散点周围绘制了核密度估计曲线

图4.各智能体满足氮高效利用要求的年份数的箱线图。图例顶部(上图)标明了在全部测试年份中,符合氮素利用效率要求的年份数量;图例底部(下图)则标明了符合氮盈余要求的年份数量
2.不同土壤情景下的性能表现
土壤情景试验表明,NUE奖励智能体具有一定的策略可迁移性:在低、高清初始土壤氮两种情景下,其产量、NUE、氮盈余与综合奖励基本保持稳定,且施肥总量始终接近目标水平,说明初始无机氮变化对策略表现影响有限,部分原因在于较高初始氮可能在生长季早期通过淋洗快速损失。相比之下,土壤类型差异带来的影响更显著:在细质土中,各方法普遍出现更低的氮损失,NUE智能体总体能满足NUE与氮盈余目标,并以更少施肥获得不低于对照的产量;而在易旱且易淋洗的粗质土情景中,所有方法的产量均明显下降,凸显该类土壤下维持高产的难度。尽管如此,NUE智能体相较N2仍实现更低的氮损失与更好的氮盈余,但相关指标仍高于目标范围,表明在粗质土条件下仅靠策略调整仍难以完全抵消淋洗与水分胁迫带来的环境与产量压力。
3.与已有文献研究结果的比较
由于既有作物管理强化学习研究很少报告NUE等指标,本文转而将结果与非强化学习文献进行对照以增强解释力。总体上,荷兰冬小麦的NUE与氮盈余水平在大样本农户数据库中大致与本文N2基线相当,说明实验设置与现实生产具有可比性;相关研究还显示粗质土通常会提高氮盈余并降低NUE,而细质土则相反,这与本文土壤情景试验中观察到的规律一致,并从侧面支持强化学习可通过更优施肥策略改善这些指标。与此同时,针对粗质土的实证研究指出该类土壤往往导致NUE下降、利润受损,且在追求盈利时可能更易出现“土壤挖矿”倾向;本文同样发现粗质土显著压低收益并增加管理难度,但对照最优基线结果表明仍存在通过策略优化进一步改进的空间。最后,关于马铃薯的最新研究发现产量波动不一定伴随同等幅度的氮投入变化,高产情形下也可能出现较低氮盈余,提示通过优化施肥时机与施用量可以在维持产量的同时减少氮投入与环境压力,这与本文强化学习方法试图实现的目标一致。
五、结论
本研究通过引入一种能平衡产量、氮盈余和氮素利用效率,并包含实际农艺约束的新型奖励函数,探索了强化学习在模拟作物管理中优化氮素利用效率的潜力。研究进行了两项实验:第一项将NUE智能体与基准方法及其他智能体进行比较;第二项评估了其在多种土壤条件下的稳健性。结果表明,NUE智能体能够实现最优的氮素利用效率和氮盈余水平,在减少氮盈余的同时,对土壤初始氮含量变化表现出稳健性,但在极端土壤质地条件下面临挑战。这些发现凸显了将基于强化学习的施肥策略应用于实际农田时,综合考虑环境约束和实际农艺约束的重要性。
强化学习为制定兼顾农艺与环境目标的适应性施肥策略提供了有效框架。通过纳入实际农艺约束(如有限施肥次数),习得的策略更具可操作性,更易被农户采纳。然而,模拟数据限制了其在现实世界的适用性。基于研究发现,实现一个可部署的强化学习施肥推荐系统,需要采用整体性方法,综合强化学习的多方面考量。本文从强化学习与作物管理相统一的视角,讨论了当前挑战、研究局限及未来方向。我们认为,在实际应用前,强化学习方法必须符合田间实践者的预期,以缩小技术采纳的差距。
本研究的核心动机是弥合机器学习研究者与农学家之间的鸿沟:机器学习研究者常聚焦于算法创新而缺乏足够的农学输入,农学家则认为纯粹的机器学习研究过于理论化,脱离田间实际。通过将性能指标与农业环境指标对齐,并围绕实际田间实践构建约束,本研究为促进两个领域的有效合作搭建了桥梁。为促进后续开发和协作,我们公开了CropGym的文档与代码。通过与农学专家、政策制定者和农民协作,强化学习有潜力从一个有趣的计算工具,发展为保障全球粮食安全和环境管理的实用引擎。

图5.荷兰年度硝酸盐与铵沉积量趋势图(数据来源于Berghuijs等人,2024年)
文献来源
HilmyBaja,MichielG.J.Kallenberg,HermanN.C.Berghuijs,IoannisN.Athanasiadis.Adaptivefertilizermanagementforoptimizingnitrogenuseefficiencywithconstrainedreinforcementlearning[J].ComputersandElectronicsinAgriculture,2025,237:110554.
https://doi.org/10.1016/j.compag.2025.110554.
转自绿水智慧农业
监制:王丽娇