当前位置：首页>农业>农业深度视觉:评估YOLO在植物叶片病害(PLDs)分类中的作用(Yolo全系列解析)

农业深度视觉:评估YOLO在植物叶片病害(PLDs)分类中的作用(Yolo全系列解析)

2026-05-21 04:47:54

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12750877/pdf/13040_2025_Article_497.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

植物叶片病害一直是农业领域的重大难题，会造成严重的产量损失，威胁粮食安全。病害的早期检测至关重要，而深度学习领域近年来的研究成果为实现自动化、高精度检测方案提供了可能。其中应用最广泛、最常用的是YOLO（YouOnlyLookOnce）系列目标检测模型，该系列模型已被用于植物病害的实时检测。

PART/1

概述

本文对基于YOLO的检测方法进行了全新、深入的综述，涵盖从YOLOv1到YOLOv10的各版本模型，以及面向特定应用场景的改进模型，包括香菜病害检测的CTB-YOLO、基于YOLOv10n的BED-YOLO、适用于咖啡病害检测且融合RAG增强策略的YOLOv8等。与现有综述相比，本文的创新点在于：（1）构建了结构化数据集目录，汇总了数据集规模、图像分辨率、病害类别及存在的问题（如样本不均衡、标注缺陷等）；（2）针对不同版本YOLO模型的精度、精确率、召回率、F1值、平均精度均值及帧率等性能指标开展对比基准分析，揭示了模型速度与精度间的权衡关系；（3）前瞻性探讨了当前研究面临的挑战与未来研究方向，包括可部署于移动端的轻量化YOLO模型等。本文可为相关研究提供系统性参考，同时为面向可持续农业的基于YOLO的植物叶片病害检测技术发展提供新的研究思路与支撑。

PART/2

背景

植物叶片病害（PLD）检测已成为农业技术领域最重要的研究课题之一，因其直接影响作物产量、粮食安全与可持续农业生产。及时、准确地检测叶片病害，有助于尽早采取防控措施，最大限度减少作物损失，同时避免农药滥用。

传统病害检测方法主要依赖人工目视检查或经典机器学习算法，虽具备一定实用性，但多数情况下无法识别病害的潜在早期特征，且难以满足大规模田间观测的应用需求。在此背景下，基于卷积结构的深度学习（DL）技术在数字图像的植物叶片病害自动检测与分类任务中展现出极高应用潜力。

未来，叶片病害检测模型若要实现广泛普及并成为提升农业生产力的关键技术，其通用性与实用性至关重要。本文将对现有研究进行梳理、整合与总结，系统分析深度学习在植物叶片病害分类任务中的应用现状。人工智能技术（尤其是深度学习）的实际落地正推动农业领域发生重大变革，农业企业利用深度学习前沿技术开发相关解决方案，为农户与消费者提供收获、分级、植株健康监测、饮品品质管控等多方面服务，正是这一变革的直观体现。

本文将相关文献与已有综述进行对比，结果如表1所示。

表格第一列为参考文献，第二列为文献概述，第三列为所分析的文献数量，最后一列公开了所分析研究的时间跨度（年份）。Sajitha等人发表的综述展示了基于图像的植物叶片病害分类研究，该综述分析了相关系统的多项特征，包括植物数据集来源、各类算法以及机器学习与深度学习方法等。RashmiMukherjee等人全面梳理了近20年间人工智能辅助水稻叶片病害检测的研究进展。AnupamBonkra等人采用文献计量分析，探究了苹果病害早期检测相关研究的权属与合作关系、发文模式、引用规律、当前研究趋势等内容。MeenakshiSrivastava等人提出一种基于深度学习的植物叶片病害检测架构，并采用VGG16、MobileNetV2、Xception、InceptionV3和DenseNet121五种深度卷积神经网络模型实现植物病害的识别与分类。WubetuBarud等人旨在为后续研究者介绍基于不同图像处理技术的各类植物叶片病害识别与分类方法的有效性、评估指标及实验结果。TouhidulSeyam等人提出一种可靠高效的叶片病害早期诊断方法，助力作物保护与产量提升，推动农业技术发展。

本文采用系统性综述方法，梳理并解析了科研文献中用于植物叶片病害分类的深度学习算法。文献检索在ScienceDirect、IEEE、Springer等数据库中完成，检索词与研究主题高度相关。本文核心目标是总结当前基于深度学习（包括各类YOLO改进模型）的植物叶片病害研究进展，构建了全面的植物叶片病害识别相关文献库。本文主要贡献如下：

l对深度学习在叶片病害分类与检测领域的研究文献开展更全面、前沿的综述，涵盖136篇文献及多种深度学习算法，并进行对比与讨论；

l分析深度学习在植物叶片病害研究中采用的评估指标，便于后续研究理解与复现实验结果；

l展示用于植物叶片病害检测与分类的深度学习架构；

l深入剖析将深度学习方法应用于植物叶片病害识别与分类时的主要局限、挑战与潜在发展路径；

梳理相关研究中用于植物叶片病害识别与分类的数据集。

PART/3

新框架解析

用于植物叶片病害识别的深度学习方法

深度学习（DL）是人工智能的一个分支，它能够通过从训练数据中学习泛化规律，对未知数据实现准确分类与预测，是适用于所有需要数据分析领域的灵活工具。深度学习是采用人工神经网络结构的机器学习分支。人工神经网络（ANN）通过被称为神经元的多层互联节点处理输入数据并从中学习，每个神经元均接收输入层或上一层神经元传递的信息。

机器学习主要分为无监督学习、监督学习和强化学习三类。监督学习的训练集为输入-输出配对样本，该方法通过学习得到一个假设函数，实现输入到输出的映射。当输出值为连续无限值时，监督学习称为回归；当输出数据为有限离散值时，则称为分类。分类的核心是将目标划分至不同类别，图1和图2展示了监督学习与无监督学习的区别。与传统机器学习不同，深度学习本身不划分类别，但可同时应用于监督学习、无监督学习与强化学习。

情感分析、语言翻译、图像分类与识别等诸多监督学习任务，均采用卷积神经网络、循环神经网络等深度学习方法；生成模型、自编码器等深度学习算法则用于异常检测、降维、聚类等无监督学习任务。机器人、游戏等领域则借助深度确定性策略梯度（DDPG）、深度Q网络等深度强化学习方法实现优化。

深度学习模型可从输入数据中自主提取特征，是图像识别、语音识别、自然语言处理等任务的理想选择。目前应用最广泛的三种深度学习架构为卷积神经网络（CNN）、前馈神经网络（FNN）和循环神经网络（RNN）。前馈神经网络是最基础的人工神经网络，采用线性信息流，已广泛应用于自然语言处理、图像分类、语音识别等任务。卷积神经网络专为图像、视频识别任务设计，可自动学习图像特征，完美适配目标检测、图像分割、图像分类等应用场景。时间序列、语音属于序列数据，这类数据适合由循环神经网络处理，该网络可保留包含历史输入信息的内部状态，是语音识别、自然语言处理、机器翻译等任务的优选方案。

计算机视觉是人工智能的重要领域，旨在从图像中解析、破译并提取有效信息以完成决策。实现目标的通用识别具有较高难度，而在图像或视频中定位特定目标即为计算机视觉中的目标检测。该任务的两大核心目标是目标定位（确定目标在图像中的精确位置）与目标分类（判定图像中目标的类别，包括叶片病害的类型与严重程度）。目标检测技术可极大助力植物叶片病害分类，提升检测效率与精度。计算机视觉任务能够从图像和视频中识别叶片病害，依据病斑特征区分不同类型的受损叶片，借助YOLO等目标检测技术，可实现植物叶片病害的多类别自动分类。

深度学习技术现已成为提升农业生产效率的核心手段，广泛应用于植物叶片病害分类等多个农业领域的研究中。本综述重点聚焦不同版本YOLO模型在各类叶片病害分类中的应用，梳理了相关研究中最常用的YOLO系列模型。在纳入分析的文献中，YOLOv1至YOLOv8的应用占比持续提升，图3展示了本研究筛选文献中最主流模型的分布情况，直观呈现各型号YOLO在研究中的使用频次。本综述同时指出，多数研究采用了多种神经网络改进模型，其中YOLO是应用最广泛的模型。

YOLO由约瑟夫·雷蒙等人于2015年提出，用于实时目标检测任务。YOLO引入端到端单阶段神经网络，可同时完成图像中目标的分类与定位，彻底革新了目标检测技术。与此前基于区域提议或滑动窗口的目标检测方法不同，YOLO单次前向传播即可处理完整图像，检测速度远超前代模型。YOLO属于单阶段检测器，无需依赖FasterR-CNN等两阶段检测器所用的区域提议网络，一步完成分类与定位，该架构以速度为核心优化方向，适配实时检测场景。2016年YOLO正式发布，大幅推动了单阶段目标检测技术的发展，其网络结构如图4所示。

YOLO借鉴GoogLeNet架构，摒弃原有的inception模块，创新采用1×1卷积与3×3卷积核组合的设计，采用Darknet框架进行训练，并在2007年与2012年的VOCPascal数据集上完成性能验证。YOLO的核心特性为采用1×1卷积与全局平均池化，共计24个卷积层，其中仅4层后连接最大池化层。模型在ImageNet数据集完成预训练后，新增两个随机初始化权重的全连接层与四个卷积层进行微调，除输出层采用线性激活函数外，其余层均使用带泄露修正线性单元（LReLU）激活函数。

YOLOv2是2016年发布的初代YOLOv1的改进版本，它在保留YOLOv1速度快、结构简洁优势的基础上，解决了定位误差大、小目标检测性能差等缺陷，同时引入多项创新技术提升检测精度，尤其优化了多尺度检测任务。YOLOv2参考经典的VGG架构，基于Darknet-19框架构建，包含5个最大池化层与19个卷积层（图5）。

每个卷积层后均接入批量归一化（BN）层，稳定训练过程并提升网络学习能力，减少了随机失活（Dropout）的使用，加快模型收敛速度并提升精度。其最显著的改进之一是在输入数据通道维度上采用1×1卷积进行下采样。与YOLOv1采用224×224低分辨率图像预训练不同，YOLOv2采用448×448分辨率进行预训练，更接近最终检测分辨率，有效提升小目标检测精度，使模型学习到更精细的特征。同时，YOLOv2集成旋转、随机裁剪等多种数据增强策略，优化训练过程。

OLOv3于2018年发布，融合了YOLOv1与YOLOv2的优势，在保持实时检测性能的同时，提升了小目标与多尺度目标检测精度。该版本引入大量新特性与架构改进，鲁棒性与检测精度大幅提升。YOLOv3可实现三个尺度的预测，更好地适配不同尺寸的目标，将深层特征图与浅层高分辨率特征图融合，这种多尺度检测方式使其小目标检测精度远超YOLOv1与YOLOv2。YOLOv3集成特征金字塔网络（FPN），实现高低层特征的联合利用，采用Darknet-53作为特征提取网络。该主干网络包含53个卷积层，远深于YOLOv2所用的Darknet-19，融合1×1与3×3卷积层且无全连接层，具备极高的效率与鲁棒性。Darknet-53借鉴ResNet的残差连接结构，优化梯度传播，提升深度网络的性能表现。与YOLOv2一致，YOLOv3采用锚框进行边界框预测，每个尺度分配3个锚框，总计9个，模型以锚框偏移量的形式预测边界框，每个边界框对应置信度与类别概率，图6展示了YOLOv3的网络结构。

YOLOv4于2020年由阿列克谢·博奇科夫斯基等人提出，通过集成多项提升精度与速度的新技术，进一步完善YOLO系列，是实时目标检测的优质方案。YOLOv4针对GPU进行优化，在实际部署环境中可实现快速可靠的检测，引入了“免费赠品袋”（BoF）与“特殊赠品袋”（BoS）技术组合，同步提升检测精度与训练效率。“免费赠品袋”是一类仅提升训练阶段精度、不增加推理开销的技术，包括马赛克数据增强、自对抗训练（SAT）、DropBlock正则化、类别标签平滑等。DropBlock正则化是一种随机丢弃特征图区块的正则化方法，可缓解过拟合并提升泛化能力；类别标签平滑则降低模型预测的置信度，提升性能并减少过拟合风险，图7展示了YOLOv4的网络结构。

YOLOv5由Ultralytics团队推出，是YOLO系列的里程碑式版本，凭借易用性、易获取性与实时目标检测的优异性能迅速普及。YOLOv5基于PyTorch框架开发，易于使用、训练与部署，架构延续YOLOv4的核心设计，同时集成全新的优化与简化方案，在提升效率的同时实现优异检测效果。YOLOv5提供多种型号（YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x），不同型号的主干网络深度与宽度不同，这种模块化设计实现了速度与精度的灵活权衡，适配多样化应用场景。YOLOv5在网络起始端引入聚焦层（FocusLayer），将输入图像切分为四部分后拼接生成特征图，使空间维度缩减一半、通道数扩充四倍，节省计算资源并提升运算效率。主干网络采用基于跨阶段局部网络（CSPNet）的模块划分特征图，优化梯度传播与计算效率。颈部网络与YOLOv4一致采用路径聚合网络（PANet），融合不同层级与尺度的特征，提升多尺度检测能力。每个检测头输出边界框坐标、目标置信度与类别概率，其网络结构如图8所示。

YOLOv6由美团于2022年推出，该模型针对工业部署环境与实时应用场景进行了优化设计，提升了目标检测性能。YOLOv6通过一系列架构调整、训练策略优化与技术改进，在GPU上实现了高精度检测的同时，保持了高效的推理速度。其设计融合了主干网络、颈部网络与检测头的全方位改进，在提升性能的同时降低计算成本。此外，该模型还引入了增强型数据增强策略、损失函数以及无锚框检测机制。YOLOv6采用基于重参数化VGG（RepVGG）结构设计的EfficientRep主干网络。RepVGG模块运用重参数化技术，在推理阶段将复杂结构转化为简单卷积模块，实现架构简化。重参数化技术使得YOLOv6在训练时可融合多路卷积，推理时则精简为单路卷积，有效优化了推理速度与内存利用率。YOLOv6中的双向特征金字塔网络（BiFPN）针对轻量化场景进行了优化，在不显著增加推理耗时的前提下，实现了更优的多尺度特征融合效果。其网络结构如图9所示。

YOLOv7是YOLO系列的又一重大突破，将实时目标检测的性能推向新高度，兼顾检测效率与精度。YOLOv7引入多项创新技术，在不牺牲检测速度的前提下提升模型精度，成为实时目标检测应用中性能最强大的YOLO版本之一。YOLOv7的架构在主干网络、颈部网络与检测头均做了改进，通过结构革新与创新训练策略提升精度与速度，网络结构如图10所示。

YOLOv7沿用了YOLOv4与YOLOv5中采用的跨阶段局部网络（CSPNet），该网络将特征图分为两部分，对其中一部分进行多层序列处理后再与另一部分融合，以此提升特征学习效率。这种结构优化了梯度传播，可在不增加计算复杂度的情况下构建更深的网络。YOLOv7在主干网络中引入了高效长程注意力网络（ELAN）结构，通过堆叠多个不同卷积核尺寸的卷积层，使模型能够学习并融合多尺度特征，让网络更易识别不同尺寸、不同朝向的目标。同时，YOLOv7还引入了改进型局部卷积结构，进一步提升运算效率，其网络结构如图10所示。

YOLOv8的主干网络为CSP-Darknet，是跨阶段局部网络（CSP）的改进版本。CSP层将特征图划分为两部分，采用跨阶段局部处理的方式，在降低计算量的同时提升特征学习能力。

用于叶片锈病识别的YOLO模型

YOLO将图像中的目标检测任务视为回归问题，以图像为输入，直接输出目标位置与类别。相较于传统目标检测算法，YOLO的优势在于：可学习目标的泛化特征表示、基于全局图像完成检测、运行速度快。

如表11所示，表格第一列为参考文献，其后依次为研究目标、研究方法与实验结果。

用于其他植物叶片病害分类的YOLO模型

基于YOLO的植物叶片病害分类，是对叶片图像中的染病区域进行检测与分类，该方法适用于精准农业中的实时检测场景，此类场景对病害检测的快速性与准确性要求极高。YOLO网络通过引入可训练的优化技巧，在不增加推理成本的前提下，大幅提升实时检测器的精度。通过减少模型参数量与计算量，结合扩展缩放与复合缩放策略，目标检测器的检测速率得到显著提升。在目标检测的速度与精度方面，YOLO性能远超传统检测器，帧率从5帧每秒提升至160帧每秒，同时支持检测模型的便捷微调，内置优化策略可直接使用。

如表12所示，表格第一列为参考文献，第二列为研究目标，第三列为研究方法，最后一列详细展示实验结果。

PART/4

基准测试与对比分析

不同YOLO版本对比

本部分对YOLOv1至YOLOv8各版本进行对比分析，各版本在不同评估指标下的对比结果如表13所示。

YOLO初代版本YOLOv1首次提出基于锚框、单阶段架构的实时目标检测革新思路，其DarkNet-24架构以45帧每秒的速度处理数据，平均精度均值达到63.4%的优异水平。YOLOv2在YOLOv1的基础上延续锚框设计，提升定位精度，同样采用DarkNet-24架构，在保持实时处理能力的同时，平均精度均值大幅提升至69.0%，帧率达52帧每秒。YOLOv3采用多尺度特征提取架构，引入CIoU、GIoU、二元交叉熵等新型损失函数，实现速度与精度的均衡，基于Darknet-53架构，以34帧每秒的速度完成多尺度目标检测，平均精度均值为57.9%。YOLOv4侧重应用CIoU、分布焦点损失、二元交叉熵等复杂损失函数，引入CSPDarknet-53架构，在保证实时处理的同时提升边界框检测精度，尽管平均精度均值降至44.3%，但帧率仍高达65帧每秒。YOLOv5基于PyTorch框架构建改进型CSP-v7架构，精度与效率大幅提升，采用单阶段检测结构与专属损失函数（CIoU、DFL、BCE），平均精度均值达50.7%，帧率更是提升至200帧每秒，在实时应用中表现出色。

后续的YOLOv6、YOLOv7、YOLOv8均持续迭代优化。基于RepConvN构建的YOLOv7，平均精度均值为56.8%；采用EfficientRep设计的YOLOv6，精度提升至52.5%；YOLOv8采用无锚框模型，在保持53.9%高精度的同时，处理速度达到280帧每秒的出色水平。

不同YOLO版本的性能评估

本部分基于PlantVillage数据集对各YOLO版本进行对比。数据集在研究中至关重要，PlantVillage是植物病害分类与检测任务中常用的标准数据集，其构建目的是支撑农业技术研究，尤其是基于机器学习与深度学习模型的植物叶片病害识别研究。该数据集包含健康与染病植株叶片图像，覆盖苹果、番茄、马铃薯、葡萄、玉米等多种作物，包含晚疫病、锈病、霉病、细菌性斑点病等常见病害，总计约5.5万张健康与染病叶片图像，共38个类别，图12展示了该常用数据集的部分样本图像。

本部分在该数据集上训练YOLOv1至YOLOv8模型并对比性能。目标检测器的效果可通过多项指标评估，包括平均精度、准确率、精确率、F1分数、平均精度均值与召回率。其中，平均精度（AP）是基于召回率与精确率计算的最常用统计指标。目标检测器通过在图像或视频中标记高置信度的边界框，定位特定类别目标，完成目标位置预测。完整检测任务包含三个要素：目标类别、包围目标的锚框、置信度。

本研究在PlantVillage数据集上对不同YOLO版本进行了评估。表10对比了YOLOv1至YOLOv8的性能，通过准确率、精确率、召回率、F1分数、平均精度均值（mAP）和帧率（FPS）等指标，直观展现了各版本的实际应用价值、相对优势与性能权衡。本次评估以平均精度均值、准确率、精确率、召回率和F1分数为核心依据。

PART/5

挑战与未来方向

此外，本研究编制表16，汇总了所分析文献的研究难点、优势与不足，并按照预设标准完成优劣列的填写。研究优势列纳入了不仅局限于叶片病害缺陷分类的相关研究，且仅采用样本量超1000张图像、检测精度超80%的文献成果。农业从业者的工作模式将不断变革，并面临新的技术挑战，他们需要重新适配工作内容，提升数据驱动农业下的分析能力。本研究强调深度学习图像分类的重要意义，指出叶片病害分类方法亟需优化升级。

植物叶片病害检测领域的后续研究，需通过模型剪枝、量化、知识蒸馏等技术，研发可部署于移动设备与边缘传感器的轻量化YOLO模型，让农户可在终端设备上完成作物病害的实时诊断。另一大发展趋势是，将YOLO、无人机与物联网平台融合，结合航拍成像与传感数据，实现宏观到微观尺度的全域监测。为提升模型易用性，引入显著图、梯度加权类激活映射等可解释人工智能特性，可视化驱动模型预测的叶片关键敏感区域，增强用户信任度，具有重要研究价值。跨域自适应同样值得关注：在精制数据集上训练的模型，在真实田间场景中性能往往不佳，迁移学习、域自适应、多模态融合（如RGB图像结合高光谱或热成像数据）等方法，在提升模型泛化性上具备潜力。最后，现有数据集标注信息稀缺，因此发展半监督神经网络、生成对抗网络等合成数据生成技术，可在减少人工标注依赖的前提下，扩充数据规模并提升模型泛化能力。