探索AI在渔业监测中的潜力:计算机视觉技术的进步与实践

计算机视觉技术的进步,无论是目标检测技术的性能提升,还是通过软件库实现这些技术的易用性,都促使机器学习技术被广泛应用于各个领域。在渔业研究和管理中,采用机器学习的动机包括监测鱼类种群(例如,种群数量、个体鱼类健康状况、洄游追踪)和选择性洄游。机器学习的自动化提高了监测作业的规模(例如,延长监测周期),并能提供更精细的数据粒度。机器学习为推进渔业研究和管理目标的实现提供了诸多机遇。过去十年,计算机视觉领域发展迅猛,在物体检测、定位和分类技术方面取得了显著进步。与此同时,机器学习软件库的普及提高了应用的可访问性,从而激发了人们对计算机视觉在多个领域应用的研究。在渔业研究和管理领域,研究重点集中在鱼类定位和物种分类上,因为这些工具可以用于评估鱼类种群的健康状况、规模和迁徙情况。为了帮助更好地理解计算机视觉在渔业研究和管理任务中的应用,本文对近期文献进行了综述。与以往的综述不同,本次综述着重探讨了所使用的评估指标和数据集,以及将机器学习应用于渔业研究和管理所面临的挑战。应用场景与常用评估指标和数据集之间的不匹配,会错误地反映新兴计算机视觉技术在渔业研究和管理任务中的有效性。此外,水体、浑浊环境和光照条件的变化也进一步增加了计算机视觉应用的复杂性,并影响了研究结果的普适性。鉴于这些固有的挑战,筛选监测数据、在偏远地区收集探索性数据以及选择性通行和陷阱被视为未来研究的机会。关键词:渔业研究 ; 渔业管理 ; 计算机视觉 ; 机器学习 ; 鱼类检测 ; 鱼类物种分类主要贡献: 本综述指出,目前缺乏针对计算机视觉在渔业研究和管理应用的真实有效的评估指标。文中提出了改进现有应用评估的建议,并探讨了新应用的发展方向。过去十年,计算机视觉(CV)领域取得了显著进展。无论是在目标检测、定位和分类方面,还是在技术的易用性方面,计算机视觉技术都得到了显著提升。性能提升的主要推动力在于机器学习(ML)的突破,这使得构建规模庞大、结构复杂的模型成为可能。这些突破开启了深度学习(DL)时代,而在计算机视觉领域,深度学习的早期应用便是深度卷积神经网络(DCNN)。DCNN的早期应用包括图像分类(例如,对整幅图像进行标记)和图像分割(例如,对图像中的单个像素进行标记)。从那时起,应用不断发展,包括对象定位(例如,在图像中放置对象的边界框或其他标记)和对象检测(例如,在图像中放置对象的边界框,并附上对象的标签)。机器学习软件库的出现,促进了深度学习模型架构从深度卷积神经网络(DCNN)扩展到更广泛的领域。Theano 虽然已停止开发,但它是一个 Python 库,支持数学表达式、多维数组的优化计算,以及实现训练深度学习模型算法所需的功能。Keras 是一个 Python 库,于 2015 年首次发布,它利用 Theano 实现了机器学习模型构建、训练和评估的模块化。这些早期库后来被 Google 开发的 TensorFlow 库所取代。TensorFlow 提供了一个完整的端到端平台来开发机器学习模型。更具体地说,在计算机视觉领域,OpenCV和 YOLO/Ultralytics等库提供了对当前图像分类和目标检测机器学习技术的访问。借助这些库,开发人员不再需要掌握高等数学知识即可训练机器学习模型。通过 Keras、Tensorflow 和 Ultralytics 实现的计算机视觉任务已在医疗保健和交通运输等许多领域得到开发。鱼类数量、种群特征以及个体鱼类特征(例如,物种、长度、重量)的数据对于许多渔业管理任务和相关研究至关重要。上述机器学习库的功能支持许多渔业管理和研究目标。使用 YOLO,可以在视频流帧中定位单个鱼等对象,并按物种进行标记,并跟踪其随时间的变化。还可以估算单个鱼的重量、长度和周长(例如,应用 Keras 支持的标准图像回归任务)。轻量级机器学习模型已被用于控制边缘设备上的选择性通行或用于监控以检测鱼类的意外通过(例如,TensorFlow/TPU)。用于计算机视觉的机器学习库的普及以及通用数据集(例如,鱼类识别真值数据集 (FRGT) 和 QUT Fish)的开发,激发了人们对鱼类分类和检测的广泛兴趣。最近一项对 2015 年至 2024 年已发表文献的回顾显示,深度学习在图像或视频中对鱼类进行分类或检测的应用超过 70 篇。在 FRGT 等评估数据集上,针对特定鱼类的分类器的准确率已超过 98.7% 。鉴于已报道的准确率,目前的机器学习技术似乎已准备好立即应用于渔业研究和管理任务。本综述旨在为已报道的机器学习在鱼类分类和检测方面的应用,以及机器学习在多种渔业研究和管理任务中的适用性提供更多背景信息。具体而言,本综述考察了已报道应用中使用的数据集和评估指标,以及已报道结果的泛化能力。本综述的范围仅限于近期报道的深度学习在鱼类分类和检测方面的应用。与相关研究人员先前的综述不同,本综述侧重于对已报道的评估指标、环境和数据集的解释。此外,本综述并非系统性综述,也不旨在详尽地报告所有已发表的关于鱼类分类和检测的研究成果。本文将简要概述当前的机器学习图像分类和目标检测技术、常用于评估这些技术性能的指标以及近期报道的应用。这些概述指出了机器学习在渔业研究和管理应用中面临的一些挑战。最后,本文提出了一些应对这些挑战的途径,并建议将机器学习应用于渔业研究和管理的其他领域。2.1. 当前用于图像分类和目标检测的机器学习方法深度卷积神经网络(DCNN)架构的特点是其扁平化的全连接神经网络层,这些神经网络层处理堆叠卷积层的输出。DCNN用途广泛,但最常用于图像处理和分类。在图像相关任务中,卷积层提取图像中与尺寸和平移无关的特征表示。通过堆叠卷积层,可以从初始图像中提取复杂的分层数据。这些数据可以通过池化操作进行下采样,从而在保留核心模式的同时减小数据规模。在大多数DCNN中,从卷积层提取的特征会通过全连接神经网络层进行分类。学习过程是通过将输入映射到该深度架构的输出,然后使用反向传播算法更新各层的权重,以最小化预测值与真实标签之间的损失来实现的。目前存在多种用于图像分类的深度卷积神经网络架构。这些架构在卷积层数、每层滤波器数量以及用于缓解过拟合和梯度损失问题的技术方面各不相同。AlexNet 是第一个在图像分类任务上取得优于传统图像分类方法的现代深度卷积神经网络 (DCNN)。该架构由五个卷积层和三个全连接层组成。其他基础的 DCNN 架构包括 VGGNet,它比 AlexNet 更深,具有更多的卷积层和更小的卷积滤波器;GoogLeNet,它引入了 Inception 卷积块,以实现更深、更高效、更准确的分类;以及 ResNet,它引入了残差连接,从而可以构建更深的架构而不会出现信息损失。流行的现代 DCNN 架构包括 DenseNet、EfficientNet 和 Xception。将深度卷积神经网络(DCNN)用于分类的自然延伸是将其与边界框检测器结合,用于目标检测任务。目标检测是识别图像中的目标并定位这些目标实例的过程。早期的两阶段目标检测架构,例如 R-CNN,首先使用区域提议算法生成图像中目标的候选区域。然后,这些区域被送入一个经过微调的卷积神经网络(CNN)架构进行特征提取,并通过额外的支持向量机分类器进行分类,最后使用一个学习到的边界框回归器来细化目标的边界框。这种两阶段目标检测架构的后续迭代包括 Fast R-CNN,它将架构简化为一个更高效的 DCNN,其中包含用于感兴趣区域的分类和边界框回归头;以及 Faster R-CNN,它通过使用 CNN 导出的特征图和不同尺度的候选锚框生成区域提议,从而改进了 Fast R-CNN,实现了更快、更准确的目标检测。以及 Mask R-CNN ,它在 Faster R-CNN 的基础上增加了一个对象分割头、一个新的 CNN 检测骨干网络和一个改进的感兴趣区域生成机制。两阶段检测器的特点是分两步进行:首先生成感兴趣区域,然后对这些区域进行分类。由于这种分段过程,两阶段检测器的速度相对较慢。单阶段检测器,例如 YOLO 和单次多框检测器 (SSD) 系列目标检测架构,一步完成目标定位和分类,因此通常比两阶段检测器更快,适用于实时检测。YOLO架构是一种特别有影响力的单阶段目标检测架构。YOLO 在由深度卷积神经网络 (DCNN) 生成的特征图上同时执行边界框回归和类别预测,从而实现极快的预测速度。另一种流行的单阶段架构是单次多框检测器,即 SSD。SSD 在不同尺度的特征图上,对固定锚框进行边界框回归和标签预测,从而更好地处理不同尺寸的目标。此外,SSD 可用于转换用于目标检测的底层 DCNN 图像分类骨干网络,从而使其可用作 SSD MobileNet 等检测器的检测头。近年来,基于Transformer的架构已成为图像分类和目标检测领域比深度卷积神经网络(DCNN)架构更精确的替代方案。Transformer是一种深度学习架构,它利用注意力机制和编码器-解码器结构来建模序列,并在输入和输出之间建立全局联系。视觉Transformer在图像分类和目标检测方面的优势在于其对图像的全局感知能力,以及不依赖于人工设计的特征(例如锚框)。基于图像的Transformer模型可以接受CNN生成的特征图或图像块本身作为输入。用于计算机视觉任务的基于Transformer的模型示例包括用于图像分类的ViT和用于目标检测的DETR。利用注意力机制,更具体地说是Transformer架构进行鱼类检测和分类,是一项相对较新的进展,有望提升鱼类监测领域的现有技术水平。事实上,许多利用注意力机制和Transformer架构的技术已被用于更好地识别和定位图像中的鱼类。在许多情况下,这种改进非常简单,只需微调现有的Transformer模型,或者在预训练的Transformer模型之上训练分类器即可。例如,根据相关研究人员使用自定义的多层感知器头,对由ViT骨干网络编码的鱼类特征进行分类,该骨干网络已在大量的ImageNet数据集上预训练。由此得到的模型名为Fish-TViT,其性能优于ResNet和类似的基于传统CNN的模型,表明使用Transformer结合迁移学习在具有挑战性的鱼类分类任务中具有强大的潜力。同样,相关研究人员也进行了类似的研究。 有效地利用Transformer提取鱼类的全局特征,构建了一个混合CNN-Transformer鱼类检测模型,该模型更好地体现了局部特征和全局特征在鱼类识别中的作用。注意力机制和Transformer架构在计算机视觉的各个领域都变得越来越有效和实用,因此,这些模型自诞生以来就开始出现在鱼类监测领域也就不足为奇了。图像分类和目标检测使用不同的指标来衡量模型性能。在图像分类中,典型的指标包括精确率、召回率、准确率和 F1 分数。这些指标取决于真阳性 (TP) 的数量,即预测结果与图像真实标签相符的类别;假阳性 (FP) 的数量,即预测结果与图像真实标签不符的类别;真阴性 (TN) 的数量,即模型对没有标签的图像没有做出任何类别预测的情况(在多类分类中,有时会省略此指标);以及假阴性 (FN) 的数量,即模型对有标签的图像没有做出任何类别预测的情况。以下是使用 TP、FP、TN 和 FN 计数计算分类指标的公式。传统的准确率指标,称为I型准确率,仅当模型预测置信度最高的标签与真实标签完全匹配时,才将模型的预测结果计为真阳性。而Top-5准确率则认为,只要图像分类器对图像预测置信度最高的五个标签中,有任何一个与图像的真实标签匹配,就将其视为真阳性。因此,Top-5准确率是一种更为宽松的准确率衡量方法,尤其适用于难以区分的类别。需要注意的是,在类别严重不平衡的情况下,准确率指标可能会因模型在多数类上的表现而产生偏差。因此,可以使用F1分数来代替Top-5准确率,因为它更适合衡量模型在严重不平衡数据集上的性能。对于目标检测任务,常用的评价指标包括平均精度 (AP) 和平均精度均值 (mAP)。这些指标使用精确率和召回率,但真阳性 (TP) 和假阳性 (FP) 的计算还引入了交并比 (IoU),以评估预测标注的边界框对目标的覆盖程度。对于每个预测的边界框,IoU 的计算方法是:预测边界框与真实边界框的交集面积除以它们的并集面积。公式如下:其中 $A{预测}$ 是预测边界框的面积,$A{真实}$ 是真实边界框的面积。图 1 展示了如何计算鱼的样本边界框的 IoU。在将预测结果分类为真阳性或假阳性时,会使用 IoU 阈值。常用的阈值包括 50%、75% 和 95%。为了计算平均精度,需要基于 IoU 阈值下的真阳性 (TP)、假阳性 (FP) 和假阴性 (FN) 值,在不同的置信度阈值下计算每个类别的精确率和召回率。然后,基于这些值绘制精确率与召回率曲线,该曲线下的面积即为平均精度。因此,平均精度取决于 IoU 阈值,所以常见的表示方法有 AP@50(IoU 阈值为 50% 时的 AP)、AP@75(IoU 阈值为 75% 时的 AP)和 AP@50:5:95,其中 AP@50:5:95 指的是从 50% 到 95% IoU 阈值以 5% 为间隔采样的平均 AP。平均精度均值 (mAP) 是所有类别 AP 值的平均值。图 1. 鱼类样本标注的 IoU 示例。在本例中,红色方框代表预测的边界框,绿色方框代表真实的边界框。在这种情况下, $A{pred} \cap A{true} = 189,000$ 像素和 $A{pred} \cup A{true}= 248,092$ 像素,所以 $IoU = \frac{189,000}{248.092} \approx 0.762$ 。2.3. 机器学习在鱼类分类和检测中的最新应用及评估为了展现机器学习技术在鱼类分类和检测任务中的应用和评估方式,我们通过IEEE Xplore、ACM数字图书馆和Google Scholar等学术索引检索了相关研究。此外,我们还查阅了检索到的文献的参考文献和被引文献,以通过引文链扩大综述的范围。在检索过程中,我们根据应用领域和发表年份筛选结果,将研究范围限定在2016年以后发表的、旨在对图像或视频中的鱼类进行分类或定位的文献。最终,我们筛选出75篇已发表的文献,详见表 1 和 表2 。表 1. 按用例、机器学习架构和评估指标分组的鱼类分类示例。表 2. 按用例、机器学习架构和评估指标分组的鱼类检测示例。我们对已识别的文献进行了处理,以确定其机器学习架构类型(例如,深度卷积神经网络 (DCNN)、YOLO)、输出类型(例如,分类、检测)、性能指标以及用于训练和/或评估的数据集。由于性能的解读高度依赖于具体情境(例如,对六种脱水鱼类进行标签标注的准确率与在水下视频站定位超过 500 种鱼类的准确率),因此本文未报告已识别文献的性能水平。本调查的目的是识别在开发鱼类分类器和检测器时使用的性能指标和数据集,以便更广泛地评估这些指标和数据集对渔业研究和管理任务的适用性。如 表 1所示,准确率及相关指标常用于鱼类分类。对于鱼类检测,平均绝对百分比 (mAP) 是一个常用指标。 表 2 中列出了一些报告检测时间的文献。为了更直观地展示机器学习架构和评估指标的使用趋势,表1 和 表2 的内容以堆叠条形图的形式呈现。 图2 展示了机器学习架构按年份的分布情况,总体趋势是深度学习在鱼类分类和检测领域的应用日益增多。此外,自2022年起,YOLO架构的使用量也显著增加。2018年至2024年间,每年至少有四次深度卷积神经网络(DCNN)的应用。 图3 展示了评估指标按年份的分布情况,表明即使到了2023年,准确率或精确率、召回率等相关分类指标仍然是首选的评估指标。直到最近,文献中才开始报道检测时间等其他指标。在回顾已收集的文献时,我们记录了用于训练或评估鱼类分类器或检测器的数据集。由此确定了14个公开可用的数据集,其描述列于 表3。 本文未报告对这些数据集的自定义增强。 表4 列出了这14个数据集的使用地点和时间。为了描述数据集的使用情况,我们选取了 表 4 中报告次数最多的四个数据集,并绘制了堆叠条形图。 图 4 显示了按年份划分的使用情况。据报道,过去八年中,许多数据集被多次使用,其中“鱼类识别真实数据”在 2022 年和 2024 年的使用次数均达到五次或以上。3. 机器学习图像分类在渔业研究与管理中应用所面临的挑战和障碍用于训练和评估鱼类识别与定位机器学习模型的数据集,其特征不应仅限于所包含物种的分布。生命周期中发生的形态变化(例如,远洋鲑鱼与产卵鲑鱼)可能会影响机器学习模型的有效性。随着鱼龄增长,其体型和组成会发生变化,但由于数据采集的挑战或便利性(例如,在洄游过程中或从固定水下摄像机位置采集),数据采集可能无法代表鱼的年龄特征。环境条件可能会在鱼身上留下疤痕(例如,咬痕)或畸形(例如,背鳍缺失)。任何用于图像分类和检测的机器学习技术的价值,部分在于其对新数据的泛化能力,而机器学习模型的泛化程度则通过评估进行经验表征。如果没有更全面地涵盖年龄、健康状况和物种的数据集,就无法充分量化机器学习模型的泛化能力。一般来说,当评估数据集的构成与模型预期应用场景高度吻合时,才能最有效地表征机器学习模型。脱离上下文的原始评估指标可能会产生误导。例如,考虑FRGT数据集上的报告准确率(见表 3 )。虽然报告的准确率很高,但对于其他物种分类任务,并不能保证达到类似的性能水平。FRGT数据集中的物种来自海洋环境,且物种数量有限,但形态特征却非常独特。对于更具挑战性的任务,例如区分鲑科鱼类,预计准确率会更低。如图 4 所示,FRGT 和 QUT Fish 等数据集已被文献反复用于开发和评估鱼类分类器和鱼类检测器。然而,仅使用新兴的基准数据集进行评估可能无法全面表征分类器或检测器在渔业研究和管理方面的性能。 图 5 展示了图像采集如何影响评估,以及任务与评估数据集之间适当匹配的必要性。如果鱼类检测器的预期应用是让脱水后的鱼主动通过成像设备,那么理想的评估数据集应该包含大量以各种姿态(例如,腹部、侧面等)通过成像设备的鱼。图 5. 一个视频室中小嘴鲈鱼沿脱水滑道游动的画面呈现不佳的示例。这条鱼腹部的特征相对模糊,仅凭这张图片很难识别出它的种类。计算机视觉任务常用的评估指标包括准确率和平均精度均值(见图 3 )。准确率适用于图像分类任务,这类任务需要对整幅图像进行标注(例如,将图像标注为“虹鳟鱼”)。然而,图像分类很少能很好地应用于渔业研究和管理任务。采集的图像包含复杂的环境,并且可能包含多种鱼类。通过图像分类,可以检测到特定鱼类的存在,但无法对个体数量或单个鱼类的特征进行计数。此外,当类别分布不平衡时,准确率可能会错误地反映性能。例如,在部署的监控环境中,大多数帧(例如 99%)都不包含鱼。在这种情况下,一个简单的图像分类器,如果对每幅图像都预测“没有鱼”,其准确率至少可以达到 99%,但实际上,这样的模型对于渔业研究和管理任务毫无用处。此外,在缺乏空图像(例如,没有任何鱼的图像)的精选图像分类数据集上评估分类器,会高估模型的性能。这是因为评估数据集中的类别分布与部署环境不一致。限制评估数据集中的空图像数量可以简化分类任务,并影响估计的错误率。尽管存在这些挑战,准确率仍然是评估用于渔业研究和管理任务的交叉验证方法时常用的指标(见图 3 )。平均精度均值 (mAP) 是目标检测中常用的指标。目标检测更适用于渔业研究和管理任务,因为它能够处理图像中的多个目标检测(例如,分别框选出两种不同种类的鱼)。对每条鱼的单独检测有助于统计鱼的数量,而边界框的大小则可以估计每条鱼的大小。需要注意的是,由于非目标数量众多(例如,在一张只有一条鱼和一个边界框的图像中,存在许多实际上并未正确框选鱼的边界框),准确率对于目标检测而言并非一个有意义的指标。这降低了非代表性评估数据集的影响,因为即使是包含鱼的图像也提供了大量的非目标目标来估计错误率。类别分布不平衡仍然可能给检测器评估带来困难,并且需要同时衡量拟合优度和正确标签,这增加了解释 mAP 的复杂性。理想的评估指标应与现场预期和任务相符。标准的计算机视觉评估指标可以指导模型构建过程并估计性能上限(例如,在基准数据集上达到 90% 准确率的鱼类分类器在实际应用中不太可能表现更佳),但无法考虑环境因素。以统计洄游至上游的虹鳟鱼每小时数量的任务为例。基于计算机视觉的方法可能包括两台摄像头覆盖整个河道,并连接到带有跟踪功能的自定义目标检测器。多种因素会影响该方法的整体有效性,例如目标检测器的精度、跟踪算法的丢包率以及河道覆盖范围。跟踪算法如果将一条鱼在视野范围内重复计数两次或多次,或者摄像头覆盖范围存在缺口,都会影响计数结果。在这种情况下,更好的评估指标应该是几天内人工计数和自动计数鱼类洄游数量的差异。该指标衡量系统组装和部署后的有效性,表征各组件的综合有效性以及部署地点的特定环境因素。现场评估还确保所提出的组件适用于部署环境(例如,硬件支持已开发的目标检测器和实时推理)。水体浑浊度和光照条件是支持渔业研究和管理任务的视光谱成像系统面临的常见环境挑战。可见光相机价格低廉、普及率高且图像可直接解读,但杂物和光照会影响其视野范围和图像清晰度。可见光相机只能在白天无人工照明的情况下工作,而水体透明度又会受到各种环境因素(例如降水、流速增加等)的影响。应对水体浑浊和光照干扰的方法包括脱水、过滤和放大。脱水是将图像采集转移到无水环境中,例如脱水滑车或成像舱。人工照明的脱水环境消除了光照和水体浑浊的干扰,有助于获得高质量的图像。脱水确实会给图像处理带来额外的挑战,并且会使鱼类承受从水中取出时的额外压力。然而,对于需要高精度的应用场景(例如,选择性通行),脱水可能是必要的。过滤和放大技术已被用于提高图像质量,但这些技术的适用性和价值取决于具体应用,并最终取决于初始信号的质量。过滤和放大无法恢复相机未捕获的信号。双频识别声呐(DIDSON)等声学系统为可见光相机提供了一种替代方案,由于声学系统不依赖于光线,因此它们可以在无光或浑浊的环境中工作。与可见光谱相机拍摄的图像相比,声学系统的输出在转换为图像时,分辨率通常较低。渔业研究人员和管理者必须意识到水下图像采集的固有局限性。声学系统或增强型可见光谱图像(例如,经过滤波或放大处理的图像)的分辨率无法满足所有渔业研究和管理应用的需求,即使满足,也并非在所有情况下都适用。计算机视觉和机器学习虽然令人着迷,但与其他任何过程一样,其输出质量在一定程度上取决于输入数据的质量。通过监控环境采集的数据量丰富、质量高且种类繁多。每个采集流的数据量可能高达数千小时,而多条采集流的数据量(例如,四台摄像机分别采集四个视野)会迅速增长。人工审核所有采集的数据几乎是不可能的。在这种情况下,计算机视觉(CV)可以帮助我们将数据精简到更易于管理的规模,以便进行后续的专家审核。例如,考虑统计一种稀有鱼类的数量。通过选择性抽样,从监控数据中提取出这种稀有鱼类的图像,并用这些图像训练一个自定义目标检测器。由于训练数据量有限,自定义目标检测器的精度不太可能识别出监控数据集中的所有稀有鱼类。但是,自定义目标检测器会标记出额外的稀有鱼类样本,经专家审核后,将这些样本添加到训练数据中,从而开发出一个改进的目标检测器。这种自举方法会重复多次,以增加稀有鱼类图像的数量。最后,将改进后的目标检测器再次应用于采集的数据,并降低置信度阈值。降低阈值会降低检测器的精度,但会提高稀有物种的召回率。原本需要数千小时的监测数据,现在只需几十小时即可完成人工专家审核。需要注意的是,由于上述挑战,改进后的目标检测器的精度不太可能支持完全自动化的流程,但引入人工参与可以弥补这一不足,并且还能提供有价值的信息。对于物种识别或高精度种群计数等任务,现场部署的全自动目标检测器通常不可行。需要持续的数据采集和后处理,并辅以专家审核。此类环境下的数据采集要求限制了部署地点,使其只能部署在能够存储大量数据的环境中(例如,可手动取用的存储设备以及用于云存储的高速网络连接)。在偏远或孤立的部署环境中,则需要边缘计算。边缘处理通过在采集点处理数据,减少了需要存储或通过网络传输的数据量。数据的简化和综合扩展了支持计算机视觉(CV)的系统的操作范围,但也限制了采集后的分析。一些先前的研究已探索了轻量级计算机视觉(CV)边缘计算设备作为可定制平台的可能性。这些平台非常适合探索性数据采集。使用更通用的目标检测器(例如,检测移动物体、检测“鱼”而非特定物种),可以在偏远地区进行原位数据采集。采集到的数据可能无法代表种群,也无法支持普遍适用的结论,但可以提供特定事件的证据(例如,洄游的时间),从而促进更深入的研究。当然,只要研究目标与检测器的局限性相符(例如,检测某个物种的存在),也可以在这些边缘环境中使用物种特异性目标检测器。总的来说,计算机视觉(CV)边缘计算平台有助于探索性数据采集,为研究人员和管理者提供特定区域内现有资源的证据。这体现了计算机视觉(CV)如何为渔业研究人员和管理者提供倍增器,并通过数据驱动的决策指导未来的研究。渔业管理者利用物理屏障和陷阱来控制鱼类进入栖息地。虽然物理屏障的使用有助于实现许多渔业管理目标,但它们也会分割水域,并无差别地阻断洄游路线。因此,存在一个连通性难题,即既要努力改善目标物种的洄游通道,又要减少目标物种的洄游通道。能够根据物种或其他特征进行选择性洄游或拦截的智能屏障,既可以提高水道连通性,又能推进渔业管理目标的实现(例如,阻止目标鱼类进入产卵栖息地)。据报道,物种特异性目标检测器的精度对于将交叉验证(CV)集成到选择性通道系统中具有良好的前景。在脱水环境下应用的物种特异性分类器已达到 97% 的准确率。这意味着平均而言,检测到的鱼类中有 3% 被错误标记。虽然这样的性能水平可能无法直接支持渔业管理任务,但可以组合多个分类器或目标检测器来进一步提高性能。集成方法(例如,将 CV 方法在多张鱼的图像上的输出结果进行合并)可以解决物种标记错误的问题。如果在鱼通过通道系统时拍摄了九张鱼的图像,其中五张正确标记了鱼的物种,那么系统就正确地标记了这条鱼。此外,分类器或目标检测器可以串联使用。如果两个 CV 方法在识别一条可通行的鱼时平均误分类率为 4%,那么在假设它们相互独立的情况下,如果将它们耦合在一起,则两个 CV 方法都错误分类一条可通行的鱼的概率将为 0.16%。构建具有可接受误分类率的通道系统的最后一个方法是提高决策阈值并设置返回点。提高决策阈值可以提高精确度,但会降低召回率。如果被判定为不可通过的鱼被返回并有更多机会尝试通过,那么较低的召回率可能是可以接受的;许多最初未被通过的可通过的鱼可能会在后续尝试中被通过。通过将通道系统的输出路由到一个封闭的水池(即陷阱)并将标签从“可通过”重构为“陷阱”,选择性通道系统就变成了一个智能陷阱。除了精度之外,选择性通道系统还需要考虑其他因素。由于脱水环境消除了水中杂质或浑浊物带来的噪声,分类和目标检测系统的性能会更好,人工照明也能增强其性能。然而,这就需要一种能够使鱼脱水并单独呈现每条鱼的方法。预测延迟必须足够低,才能保证分拣机制的正常运作。幸运的是,许多最新的分类和目标检测架构都具有低延迟,能够实现实时应用。然而,情况并非总是如此,有时需要将多个系统组合或串联起来以提高精度。计算机视觉技术的进步,无论是目标检测技术的性能提升,还是通过软件库实现这些技术的易用性,都促使机器学习技术被广泛应用于各个领域。在渔业研究和管理中,采用机器学习的动机包括监测鱼类种群(例如,种群数量、个体鱼类健康状况、洄游追踪)和选择性洄游。机器学习的自动化提高了监测作业的规模(例如,延长监测周期),并能提供更精细的数据粒度。机器学习为推进渔业研究和管理目标的实现提供了诸多机遇。目前,评估机器学习在实现这些目标方面的可行性和有效性的研究尚显不足。正如本综述研究所示,大多数机器学习应用报告的评估指标都与准确率或平均绝对百分比(mAP)相关。鱼类分类和鱼类检测无疑是渔业研究和管理系统中的关键组成部分,但并非唯一组成部分。系统中的所有组成部分以及运行环境都会影响系统的整体效能。因此,我们需要针对特定任务的指标来评估这些系统。目前报告的指标需要超越那些用于表征图像分类和目标检测的指标。鱼类分类和检测基准数据集的出现应谨慎对待。近期文献综述中值得关注的数据集包括 FRGT、QUT Fish 和 WildFish,这些数据集在过去三年中应用日益广泛。这些数据集的价值在于它们支持开发用于鱼类分类和检测的机器学习模型。然而,它们在评估方面的价值尚不明确。虽然在图像基准数据集上比较机器学习架构适用于更广泛的计算机视觉研究,但渔业研究和管理任务的环境条件和背景差异很大(例如,水体是否注水、光照、浊度、延迟要求等)。在 QUT Fish 数据集上获得极高 mAP 的机器学习架构,在环境更浑浊、更暗的图像上可能表现不佳。这种泛化能力的不足会错误地反映模型的性能。评估数据集和评估指标一样,应根据渔业研究或管理任务进行定制。渔业研究人员和管理者需要意识到机器学习的局限性以及所报告结果的普适性。虽然新型机器学习架构在数据集上表现出较高的准确率或平均绝对百分比(mAP),但环境条件和背景信息可能成为限制因素。例如,鱼群通过扫描设备时可能呈现不佳,导致分类错误。水体浑浊度会随天气状况而变化。追踪算法在处理大量物体和复杂环境时可能面临挑战。简而言之,研究人员和管理者应该认识到,高性能的鱼类分类器和鱼类检测器并不能立即转化为高性能的系统。可能需要进行一些人工审核和干预。总之,计算机视觉技术的进步已成功应用于鱼类分类和检测。虽然鱼类分类器和检测器的性能要求取决于具体应用,但已报道的准确率或平均绝对精度(mAP)值普遍较高,并且随着新型机器学习技术的开发,这些数值可能会继续提高。鱼类分类器和检测器是支持众多渔业研究和管理任务的系统的基础和必要组成部分。展望未来,对这些系统的评估需要超越用于训练机器学习模型的常用指标。评估指标需要与系统旨在解决的特定渔业研究或管理目标的实际应用预期相一致。此外,拟议的应用应考虑这些集成系统部署环境的固有局限性。如果不采用更真实的评估指标和数据集,计算机视觉和机器学习在渔业研究和管理中的应用研究可能会停滞不前。如果研究只是简单地将最新的图像分类或检测架构应用于现有的鱼类数据集,而不评估上下文中的所有组成部分,则无法真正评估机器学习技术对于渔业研究人员和管理者感兴趣的任务的可行性和有效性。