当前位置：首页>农业>《食品科学》:河北农业大学王树桐教授、李波副教授等:基于可解释性机器学习和高光谱成像技术的苹果表面农药异常残留无损检测

《食品科学》:河北农业大学王树桐教授、李波副教授等:基于可解释性机器学习和高光谱成像技术的苹果表面农药异常残留无损检测

2026-06-23 18:47:30

我国是世界最大的苹果生产国与消费国，苹果产业在推动农村经济发展和提高农民收入上占据重要地位。然而，在种植过程中，为防控病虫害而广泛使用的化学农药，尤其是戊唑醇等三唑类杀菌剂，因缺乏科学的施药指导和快速检测手段，易导致农药残留超标，对消费者健康与产业可持续发展构成威胁。需值得注意的是，农药残留超标风险除常规施药不当外，更突出体现于采前与采后的特定环节。例如，部分从业者为保障储藏品质，在苹果摘袋后、采收前违规实施高浓度戊唑醇的应急喷施，或在采后采用杀菌剂流水线浸泡处理。此类非法或非规范操作通常施药浓度高、安全间隔期短，致使果面农药残留水平显著异常，形成了突出的质量安全监管盲区，也对快速检测技术的识别能力提出了更为严峻的挑战。

目前，农药残留检测主要依赖气相色谱（GC）、高效液相色谱（HPLC）及色谱-质谱联用等传统方法。这些方法虽具备较高的准确性与特异性，但仍存在前处理复杂、检测周期长、具破坏性及成本高等局限，难以满足现场快速、无损筛查的实际需求。因此，开发高效、精准且非破坏性的农残检测技术已成为智慧农业与食品安全领域的重要研究方向。

近年来，高光谱成像（HSI）技术作为一种结合光谱与图像信息的先进无损检测手段，在农产品品质与安全检测领域展现出巨大的应用潜力。该技术可以获取从可见光到近红外范围内数百个连续窄波段的光谱数据，形成“图谱合一”的三维数据立方体，从而同时反映样品内部化学成分与外部物理特征。在食品安全检测领域，HSI技术已取得显著进展，化学药剂本身的物理属性与有效成分所引起的光谱特征变化，共同构成了识别残留水平的重要理论依据。例如，Xiao Tianpu等利用HSI（400～1 000 nm）对玉米叶片表面的烟嘧磺隆残留进行检测，发现对高浓度农药残留检测效果具有较好的识别效果。Bian Huitao等基于显微荧光HSI技术建立了哈密瓜表面多种农药残留的高精度判别。Ye Weixin等利用HSI（400～1 700 nm）对多种葡萄表面的农药残留进行预测，并通过特征可视化分析明确了关键贡献波段。这些研究一致表明，高光谱技术在农残无损检测方面具有重要的应用潜力。

尽管HSI技术能够提供丰富的光谱与空间信息，但其数据维度高、波段间冗余性强、噪声干扰大等特点，对传统分析方法构成了严峻挑战。机器学习算法凭借其强大的高维特征提取与复杂模式识别能力，已成为高光谱数据处理与分析的重要工具。例如，Zhang Jing等结合HSI（400～2 500 nm）与机器学习算法，构建了基于决策级融合的区间可变迭代空间收缩-连续投影算法（SPA）-多元线性回归模型，显著提升了大豆蛋白质含量的预测精度。Xiao Tianpu等将HSI与多分支深度学习算法相结合，实现了对玉米生理参数和胁迫水平的早期诊断。Wu Jiahui等则利用支持向量机模型，实现了对不同产地和年份藏红花的精准判别。然而，现有研究多集中于农药残留的通用判别，针对戊唑醇等特定农药在特定违规用药场景下的系统研究仍较为缺乏，其残留所引起的光谱机理尚不明确。更为重要的是，主流机器学习模型支持向量机、极致梯度提升和随机森林等虽在光谱分类中表现优异，但其决策过程通常被视为“黑箱”，模型的可解释性差，导致特征波长与分类结果之间的关系难以阐释，这严重制约了模型在实际应用中的可信度及其在专用检测设备开发中的指导价值。

针对以上问题，河北农业大学植物保护学院的李子豪、王树桐*、李波*等人研究以模拟违规用药场景下苹果表面的戊唑醇残留为研究对象，旨在：1）探究戊唑醇残留质量浓度与苹果表面光谱响应之间的关联规律；2）构建一种兼具高精度与高可解释性的机器学习判别模型；3）利用可解释性机器学习方法（夏普利加性解释（SHAP））解析模型决策机制，筛选出用于判别戊唑醇残留的关键特征波长。本研究不仅为实现苹果农药残留的快速无损检测提供新的技术方案，也将为推动可解释性人工智能在农业传感中的应用提供有益借鉴。

光谱特征分析

在不同戊唑醇残留梯度下，苹果表面的平均反射率曲线如图2所示，各个处理组的平均光谱曲线表现出相似的趋势，但在特定波段范围内表现出明显的质量浓度依赖性差异。在可见光波段（500～600 nm），苹果表面光谱反射率随波长的增加而上升，且随着戊唑醇残留量的增加，反射率呈先增加后降低的非线性变化规律，这通常与农药制剂在果面的分布差异有关。在红光波段（620～700 nm），戊唑醇残留量的增加引发的光谱反射率的变化在波峰和波谷处最为显著。在近红外波段（750～900 nm），戊唑醇残留量的增加导致反射率曲线出现明显的分离现象。该波段对有机物分子键合频与倍频振动具有较强响应，反射特征的系统性变化很可能源于戊唑醇分子中苯环、C—N等官能团的特征吸收。

光谱数据预处理分析

在原始全光谱数据中存在大量噪声，这些干扰信号会降低模型的判别精度。为提高模型的预测准确性与鲁棒性，本研究对原始数据进行SG平滑处理后，分别进行1D、2D和MSC等光谱预处理，经预处理后得到的光谱平均反射率曲线如图3所示。

预处理方法与全波段模型性能分析

为基于全光谱数据，结合多种预处理方法（RAW、1 D、2 D、M S C）与机器学习算法（P L S-D A、XGBoost、SVM、RF、LGBM、DT），构建了多种分类模型（表2）。通过系统比较不同组合在训练集与测试集上的性能，以确定较优的预处理方法与算法组合。

预处理方法对模型预测性能具有显著影响。原始光谱数据（RAW）所建模型性能普遍欠佳，且各模型的分类准确率存在较大差异。测试集最佳OA仅为69.28%（PLS-DA），而其余模型在测试集上的OA均低于60.00%，表明原始数据中存在大量噪声与冗余信息。经1D预处理后，所有模型的性能均得到显著提升。以SVM模型为例，其在训练集上的OA从62.80%提高至90.70%，F1-weight从62.47%提高至90.69%；在测试集上，OA和F1-weight也分别从59.56%和59.01%提升至87.42%和87.43%。XGBoost、PLS-DA和RF模型在测试集上的OA均超过79.00%，表明1D预处理有效抑制了光谱数据中的噪声干扰。经1D和2D微分处理后，所有模型性能均得到显著提升，其中2D预处理效果最为突出。2D-PLSDA和2D-SVM模型在测试集上的OA分别达到93.45%和92.68%，相比原始数据分别提高了24.17个和33.12个百分点，表明微分处理能有效消除基线漂移并放大细微光谱差异，从而增强了与戊唑醇质量浓度相关的特征信息。相比之下，MSC预处理的效果较为有限，仅对部分模型有轻微改善，未能显著提高模型在测试集上的分类性能。

综合比较不同预处理方法下各模型的分类表现，2D-PLS-DA模型在测试集上取得了最高的分类准确率（OA＝93.45%）和F1-weight（93.45%），最适合本研究的分类任务，故后续特征筛选均基于2D预处理后的数据进行。

光谱数据降维和特征波长筛选

在特征波长筛选流程中，均选取性能最优的2D-PLSDA模型作为基准，分别运用VIP、SPA和SHAP-RFA算法进行降维和特征波长筛选。

4.1 VIP

利用内置于PLS模型框架中的VIP算法，自动计算各波长变量的VIP得分。以VIP＞1.0作为显著性阈值筛选特征波长，筛选结果如图4所示，从全光谱中共提取出95个关键特征波长，这些波长集中分布于500～600 nm与650～700 nm两个区域。

4.2 SPA

采用SPA进行特征波长筛选时，将最大特征波长数设置为30。如图5所示，随着所选波长数目的增加，均方根误差值先下降而后逐渐趋于平稳，表明模型误差在此阶段已达到最小值并趋于稳定，后续引入的变量不再提供有效信息。SPA最终优选出的特征波长变量数为16个，此时均方根误差值最低，为1.642。

4.3 RFA

结合SHAP分析与RFA的策略以获取更具解释性的特征波长子集，基于SHAP值的RFA筛选过程如图6所示。首先，基于已构建的2D-PLS-DA模型进行SHAP分析，计算各波长变量的SHAP值，并取其绝对值以量化特征重要性，进而得到所有变量的重要性排序序列。随后，应用RFA算法，依据上述排序从高到低依次将波长变量加入模型，并逐次评估模型的分类性能。结果显示，随着特征波长数量的增加，模型的OA与F1-weight均呈现先快速提升后逐渐稳定的变化趋势。当特征波长数增加至51个时，模型性能趋于稳定，表明该特征子集已充分捕获关键判别信息，进一步增加变量数量对性能提升无显著贡献，故最终确定51个特征波长作为RFA筛选结果。

基于特征波长的模型性能分析

如表3所示，基于不同特征子集构建的PLS-DA与SVM模型性能存在显著差异。总体而言，基于SHAPRFA算法筛选出的51个特征波长所构建的SVM模型，在训练集和测试集上的OA分别达到94.99%、94.87%，不仅显著优于其他特征选择方法所建模型，也略优于使用全部232个波段的模型（全波段-SVM OA＝92.68%）。这表明SHAP-RFA在有效降低数据维度（降维率达78.02%）的同时，最大限度地保留了与分类最相关的关键信息。

相比之下，基于VIP方法筛选95个特征波长所建立的PLS-DA与SVM模型，测试集性能（OA分别为90.76%和90.50%）虽低于全特征模型，但仍保持了可接受的分类能力，说明VIP筛选出的波长变量仍具较强判别力。SPA方法所筛选的16个特征波长所建的PLS-DA模型性能显著下降（测试集OA＝61.75%，F1-weight＝61.33%），表明特征数量过少导致有效信息丢失严重，不足以支撑模型获得良好泛化能力；然而同样基于SPA特征子集的SVM模型仍达到了88.83%的OA，体现出SVM算法在处理低维特征时仍具有较强的建模能力。

通过绘制2D-SHAP-RFA-SVM模型在最优参数下的混淆矩阵（图7）显示，绝大多数样本被正确分类，且误判主要发生在相邻低质量浓度组（如unT与5000T之间），而质量浓度差异大的组间几乎无混淆，表明模型能有效捕捉与质量浓度显著相关的光谱特征。

综合比较可知，2D-SHAP-RFA-SVM模型在测试集上表现最佳，其性能指标均超过94.50%，且所使用的特征数仅为全波长的21.98%，实现了在高精度分类的前提下大幅降低模型复杂度，因此可作为苹果表面戊唑醇异常残留判别的最优模型。

SHAP特征重要性分析

为解析最优模型的决策机制，本研究对2D-SHAPRFA-SVM模型特征贡献进行了可解释性分析。SHAP蜂群图（图8）展示了各质量浓度类别下重要波长的SHAP值分布情况。SHAP分析表明模型的分类决策依赖于一个由可见光与近红外波段共同构成的复杂特征谱，而非单一波段。以20T类别为例（图8a），重要性前15的波长中562.5、728.1、721.1、540.7、881.1、821.3 nm的特征值分布与SHAP值呈正相关，即该处特征值升高会显著增加模型将样本预测为20T类的概率。关键波长同时涵盖了500～600 nm的可见光波段与700～900 nm的近红外波段。

这种多波段协同决策的模式在所有类别中均存在，但主导波段与质量浓度梯度均有直接关联。在低质量浓度类别（5000T）中，关键波长分布较为广泛，可见光波段与近红外波段特征共同发挥着重要作用；在中质量浓度类别中（40T、200T、1000T）中，主要由可见光波段占据分类决策的基础；而在高质量浓度类别（20T）中，近红外波段的贡献趋于主导地位。SHAP分析清晰地揭示了这种随质量浓度梯度变化的差异化特征重要性，描绘了模型决策路径的动态转变。这一发现为探索模型决策机制背后的生物物理学基础提供了关键见解。

图9进一步展示了全局重要性排名前15的特征波长，所选特征在不同类别判别中表现出差异化的影响力。

其中，波长519.0 nm对模型输出的总体贡献最大。特征波长多集中于500～600 nm波段内，其或与戊唑醇药剂在苹果表面的不均匀分布密切相关，该结果将特征波长对数据的贡献与潜在的理化机理相关联，极大地增强了模型的可信度和可解释性。SAHP特征重要性分析为理解模型决策过程及特征波长优化提供了有效工具。

模型的时间泛化性验证

模型的跨期验证结果呈现出性能衰减趋势。基于相同的处理方法获取的自然渗透8 d和15 d的样本数据，采用2D-SHAP-RFA-SVM模型进行分类，其模型准确率分别降至78.07%与70.67%（图10）。该结果表明，模型所依赖的关键光谱特征与农药未充分降解的高质量浓度初始状态高度相关，这与建模数据来源于为自然渗透1 d的样本相符。随着贮藏时间的延长，果实表面戊唑醇的降解以及苹果自身代谢所引起的理化性质变化，共同导致了光谱特征的动态演变。这些新特征在一定程度上会掩盖由初始农药残留所主导的光谱响应模式，致使原有判别特征的显著性逐渐减弱，其说明模型性能衰退主要源于模型学习特征与动态变化的样品状态之间关联性的失效。

讨论

本研究聚焦于采前应急喷施或采后浸泡等违规行为导致的高风险农药残留问题，通过HSI技术与机器学习算法相结合，实现了苹果表面戊唑醇异常残留的精准、无损判别。研究结果表明，随着戊唑醇残留质量浓度的增加，苹果表面光谱在可见光与近红外区域的反射特性呈现系统性变化。该现象与戊唑醇制剂中载体物理特性、药剂分布均匀性所引起的光散射效应，以及戊唑醇分子中苯环、C—N键等官能团的振动吸收密切相关。这一发现为基于光谱技术判别农药残留提供了可靠的物理化学依据。

尽管原始光谱数据可用于构建预测模型，但高维数据中存在的冗余信息和噪声干扰往往导致模型计算效率降低和分类精度下降。因此，光谱预处理已成为高光谱建模中的关键环节。在本实验中，2D预处理在6种机器学习模型中均显著提高了模型性能，这主要是因为微分运算能够有效消除基线漂移和背景干扰，并放大由微量农药残留所引起的细微光谱差异。邓昀等建立林地土壤有机质反演模型时同样发现1.25阶导数处理可以有效提高模型精度。

本研究系统地将SHAP可解释性分析引入农药残留的光谱解析领域。实验结果表明，所提出的SHAP-RFA的综合性能显著优于传统特征筛选方法（VIP和SPA）。VIP算法虽能保留较多特征，但其未能充分考虑变量间的组合效应；SPA算法虽实现极高特征精简度，却因信息损失过大导致模型性能下降；SHAP-RFA算法通过SHAP值量化各特征的边际贡献，采用前向递归添加策略动态评估特征子集的整体性能，从而实现在降维与信息保留之间的最优平衡。本实验最终筛选出的51个特征波长子集，使SVM模型在测试集上达到了94.87%的准确率。这与Hu Junlong等在医学领域利用类似方法大幅降低特征维度仍保持高精度的结论相一致，证明了SHAP-RFA策略在特征选择上具有强大的跨领域适用性和优越性。

更重要的是，SHAP可解释性分析框架有效揭示了模型决策的内在逻辑，使2D-SHAP-RFA-SVM模型在保持优异分类性能的同时，具备良好的分类机理的可解释性。通过SHAP蜂群图可清晰识别不同残留等级中关键波长变量的贡献程度与作用方向，为特征波长筛选与模型解读提供了直观依据。该方法在农业光谱分析中已展现出广泛适用性，如在构建基于高光谱数据的辣椒气孔导度预测模型及甘薯多品质参数评价模型中，SHAP分析均有效实现了特征贡献与模型决策机制的可视化，进一步验证了其在本研究农药残留分类任务中的有效性与实用性。

在应用层面，本研究针对由非法添加、超量施用等引发的高风险农残问题，具有重要的实践指导价值与监管参考意义。当前农产品质量安全监管中，非法添加类农残由于其隐蔽性强、危害程度高，一直是防控重点与难点。部分生产者为追求病虫害防治效果或延长农产品货架周期，违规超量使用农药，这类行为不仅可能导致农药母体化合物残留超标，其在降解过程中产生的代谢产物也往往具有潜在毒性。以戊唑醇为例，其主要降解产物戊唑酮仍保留一定的生物活性与毒性，可能对人体肝脏、神经系统等产生潜在影响。然而，常规检测手段多聚焦于农残的定量分析，容易忽视降解产物所带来的风险隐患。样本中未检测到戊唑醇残留，并不代表其降解产物的危害已消除。针对施药后短期快速筛查技术能够及时捕捉这类“隐性风险”，为后续精准检测与风险管控提供前置预警，这一需求在储存流通环节快速抽检、突发风险排查等场景中尤为迫切。尽管如此，本模型对于田间按推荐剂量规范施用、且在安全间隔期内采收的样本，判别能力可能存在一定局限性。这类样本的农残含量通常低于检出限，风险等级较低，与模型聚焦于“高风险农残”的核心筛查目标存在一定差异。

需要指出的是，本实验模型构建与验证均基于实验室可控环境。为进一步提升模型的鲁棒性与泛化能力，后续研究应开展施药后时序性采样策略，通过采集多品种、多产地及跨生长阶段的苹果样本构建大规模多样化数据集，增强模型在复杂场景中的适应性与实际应用价值。

结论

本研究基于HSI技术与机器学习算法，实现了苹果表面戊唑醇农药残留等级的精准分类，主要结论如下：1）在苹果表面施用梯度质量浓度戊唑醇后，其光谱在可见光和红外区域呈现显著质量浓度依赖性差异；2）在相同分类模型框架下，不同预处理对模型分类准确率有直接影响，2D预处理后建模效果优于1D、MSC预处理；3）基于2D预处理数据，SHAP可解释性分析结合RFA算法，筛选出51个特征波长，所构建的SVM模型（2D-SHAPRFA-SVM）在分类性能上显著优于全波段模型，分类准确率达到94.87%，在数据降维与提升预测精度之间取得了最优平衡；4）SHAP分析精准解析特定农药残留等级的关键响应波长，为模型优化及专用传感器设计提供理论依据；5）模型的时间泛化性验证说明构建稳健的农药残留检测模型应考量农药与基质本身的时变特性，避免因样品状态动态演变而导致的模型性能衰退。更重要的是，本研究聚焦探讨农残检测模型从追求“精度”到追求“精度与可解释性并重”的范式转变，为人工智能技术在农业传感中的可信、可靠应用提供了数据支撑。

作者简介

通信作者：

李波副教授

河北农业大学植物保护学院

李波，副教授，硕士生导师，河北农业大学“青年才俊”引进人才，国家苹果产业技术体系病虫害防控研究室团队成员，研究领域为作物真菌病害流行预测及高光谱遥感技术在苹果病害早期识别与预警中的应用转化工作，助力提升果园病害管理的智能化水平。以第一作者或通信作者在Frontiers in Plant Science、Biological Control、Plant Disease、Frontiers in Microbiology 、International Journal of Molecular Sciences等期刊发表论文8 篇。主持河北省科技厅、教育部国际合作与交流司等部门科研基金6 项。

第一作者：

李子豪硕士研究生

河北农业大学植物保护学院

李子豪，河北农业大学植物保护学院2024级硕士研究生，主要研究方向为农产品质量安全智能无损检测。

引文格式：

李子豪, 刘羽烔, 王树桐, 等. 基于可解释性机器学习和高光谱成像技术的苹果表面农药异常残留无损检测[J]. 食品科学, 2026, 47(5): 324-334. DOI:10.7506/spkx1002-6630-20250914-104.

LI Zihao, LIU Yutong, WANG Shutong, et al. Non-destructive detection of abnormal pesticide residues on apple surfaces based on explainable machine learning and hyperspectral imaging technology[J]. Food Science, 2026, 47(5): 324-334.(in Chinese with English abstract) DOI:10.7506/spkx1002-6630-20250914-104.

点击下方阅读原文即可查看文章相关信息。

实习编辑：李杭生；责任编辑：张睿梅。点击下方阅读原文即可查看全文。图片来源于文章原文及摄图网

近期研究热点

《食品科学》：甘肃农业大学毕阳教授、南米娜高级实验师等：光谱法研究pH值/金属离子对适配体与赭曲霉毒素A相互作用的影响

《食品科学》：贵州习酒股份有限公司万波高级工程师等：酱香型白酒机械化生产实验窖池发酵微生物对轮次基酒风味差异形成原因分析

《食品科学》：中国农业科学院易建勇研究员等：干燥方式对柠檬果胶结构特性、流变行为及凝胶性能的影响

《食品科学》：中国农业科学院茶叶研究所戴伟东研究员、朱荫研究员等：采摘时间对陕西岚皋绿茶挥发性成分与关键香气活性成分的影响

《食品科学》：广东海洋大学李瑞副研究员等：罗非鱼肌原纤维蛋白/卡拉胶寡糖纳米复合物构建及其对姜黄素的控释性能

为了帮助食品及生物学科科技人员掌握英文科技论文的撰写技巧、提高SCI期刊收录的命中率，综合提升我国食品及生物学科科技人员的高质量科技论文写作能力。中国食品杂志社拟定于2026年8月13—14日在安徽合肥举办“第13届食品与生物学科高水平SCI论文撰写与投稿技巧研修班”，为期两天。

长按或微信扫码进行注册

为系统提升我国食品营养与安全的科技创新策源能力，加速科技成果向现实生产力转化，推动食品产业向绿色化、智能化、高端化转型升级，由北京食品科学研究院、中国食品杂志社《食品科学》杂志（EI收录）、中国食品杂志社《Food Science and Human Wellness》杂志（SCI收录）、中国食品杂志社《Journal of Future Foods》杂志（ESCI收录）主办，合肥工业大学、安徽省食品行业协会、安徽大学、合肥大学、合肥师范学院、北京工商大学、中国科技大学附属第一医院临床营养科、安徽粮食工程职业学院、皖西学院、滁州学院、蚌埠学院共同主办的“第六届食品科学与人类健康国际研讨会”，将于 2026年8月15-16日（8月14日全天报到）在中国安徽合肥召开。

长按或微信扫码进行注册

为对标农业农村部2035年科技规划及“十四五”“十五五”发展方向，推动农产品加工与储运的工程化、智能化、绿色化升级，由湖南省农业科学院、湖南农业大学、北京食品科学研究院、国际食品科技联盟（IUFoST）、中国农业大学、岳麓山工业创新中心主办，湖南大学、中南林业科技大学、长沙理工大学、湖南中医药大学、湘潭大学、岳麓山实验室协办，中国食品杂志社、洞庭实验室、湖南省食品科学技术学会、湖南省农产品加工与质量安全研究所、湖南农业大学食品科学技术学院、Springer Nature-《Agricultural Products Processing and Storage》杂志承办的“第二届农产品加工与食品制造国际学术研讨会—创新引领绿色智造，AI赋能科技进步”，将于2026年9月19-20日（9月18日会议报到）在中国湖南长沙召开。