1.汇报文献:Enhancing maize LAI estimation accuracy using unmanned aerial vehicle remote sensing and deep learning techniques
2.该论文聚焦大田尺度玉米叶面积指数(LAI)精准、大范围监测的核心需求,针对现有无人机遥感LAI估算方法多依赖单一光谱特征、易受土壤背景与光照变化干扰出现饱和效应,传统机器学习算法难以挖掘高维数据复杂非线性关系、单一环境下训练的模型泛化能力不足的问题,提出一种融合光谱、纹理、作物高度多源特征的一维卷积神经网络(1D-CNN)玉米LAI估算方法。研究选取新乡(潮土)、徐州(砂壤土)两个环境差异显著的种植区作为试验场地,利用DJI M210无人机搭载Red-Edge MX多光谱传感器获取田间影像,经DJI Terra软件拼接与辐射定标生成数字正射影像(DOM)和数字表面模型(DSM),提取10个光谱指数、21个纹理特征以及作物高度三类特征,经主成分分析(PCA)完成冗余特征剔除与降维处理后,构建了多元线性回归(MLR)、梯度提升决策树(GBDT)和1D-CNN三种模型开展对比试验,其中1D-CNN采用包含三个卷积层与池化层的深层结构,结合批归一化和Dropout技术防止过拟合,并通过5折交叉验证确保模型评估的稳健性。实验结果显示,1D-CNN结合光谱+纹理+作物高度全特征融合的方案实现了最优估算精度,R²最高达到0.83,其中NDRE、GNDVI为贡献率最高的核心光谱特征,在所有特征组合下1D-CNN的性能均优于传统MLR与GBDT模型,同时在两个土壤、气候差异显著的区域均完成高精度验证,具备优异的跨区域迁移能力与鲁棒性。该研究通过多维度特征互补融合与深度学习自动特征提取的协同优化,为大田玉米LAI高效精准估算提供了低成本、高普适性的技术方案,同时其多源特征构建方法、跨区域验证思路与深度学习模型应用方案,也为无人机遥感在作物长势监测、精准农业管理中的同类应用提供了重要参考。
1.汇报文献:Advancing lightweight and efficient detection of tomato main stems for edge device deployment2.该论文聚焦温室番茄自动修剪作业的主茎精准检测需求,针对田间番茄主茎检测面临复杂背景干扰、叶片密集遮挡、茎秆弯曲不规则,以及传统检测模型计算量大、难以适配资源受限边缘设备的痛点,提出一套轻量级番茄主茎检测、优化与部署全流程方案。研究在北京延庆 Venlo 型智能温室采用英特尔 RealSense D455 相机采集不同生长条件下的番茄植株图像,构建包含 600 张图像的专用数据集,通过半自动旋转包围框分段标注策略贴合弯曲主茎形态,结合几何变换、噪声添加等数据增强手段提升数据集鲁棒性;以 YOLOv8s 为基础网络构建 YOLOR-Slim 模型,基于网络连接图解析层间依赖关系实现组级自动迭代剪枝与稀疏训练,大幅压缩模型计算量与参数量,再通过特征与逻辑混合知识蒸馏策略补偿剪枝后的性能损失,搭配 Z-score 标准化与余弦衰减动态损失平衡机制进一步优化检测精度,最终将模型转换为多格式推理引擎完成跨平台部署。实验结果显示,YOLOR-Slim 在工作站上实现 87.5% mAP@50 的检测精度,仅占用 1.9G FLOPs、1.4M 参数,端到端推理耗时 7.4ms,经 TensorRT FP16 量化优化后在 Jetson Nano 边缘设备上推理时间降至 57.6ms,在叶片重度遮挡、茎秆弯曲变形的复杂场景下仍保持稳定检测效果,综合性能优于传统水平包围框检测、实例分割方法及 MobileNetv4、ShuffleNetv2 等主流轻量级骨干网络,为番茄智能修剪机器人提供了高效可靠的视觉感知基础,也为农业视觉检测任务的轻量化设计与边缘设备部署提供了可复用的技术思路。1.汇报文献:Joint Spatio-Temporal Modeling for Semantic Change Detection in Remote Sensing Images2.该论文针对遥感图像语义变化检测(SCD)任务中,现有方法时空依赖建模不充分、有限变化样本下语义学习困难、双时相结果语义不一致三大核心痛点,提出了基于时空联合建模的语义变化网络SCanNet。该网络采用CNN-Transformer混合架构:先通过改进的三重编解码(TED)CNN框架,解耦语义与变化特征学习,同时更好保留遥感影像空间细节;再设计基于CSWin Transformer的SCanFormer模块作为网络头部,显式建模双时相影像“从-到”语义转换的全局时空依赖。同时,研究提出任务专属语义学习方案,引入伪标签损失与语义一致性损失,利用SCD任务固有先验补充无变化区域的监督信号,解决标注样本稀缺问题,从根源消除双时相结果的自相矛盾。在SECOND高分辨率城市数据集与Landsat-SCD中分辨率荒漠数据集上的实验表明,SCanNet核心指标全面超越现有SOTA方法,Fscd领先幅度超1%,可精准检测非显著变化、大幅减少地物错分,虚假变化占比不足0.3%。该研究为遥感SCD提供了高性能新范式,也为后续少样本时序遥感分析提供了研究参考。1.汇报文献:ShowUI One Vision-Language-Action Model for GUI Visual Agent2.该论文聚焦图形用户界面(GUI)视觉智能体构建需求,针对现有基于语言的智能体依赖封闭API及文本元数据(如HTML)、难以像人类一样直观感知UI视觉元素,且GUI视觉模型面临高分辨率截图计算开销大、动作模态管理与跨模态数据流组织复杂及训练数据质量参差不齐等问题,提出一种名为ShowUI的视觉-语言-动作模型。研究构建了涵盖Web、移动端及桌面端共256K样本的高质量GUI指令微调数据集,通过筛选Web端视觉丰富元素、利用GPT-4o增强桌面端查询多样性以及采用重采样策略平衡数据分布等数据处理手段,采用UI引导的Token选择架构进行高效建模——该方法通过构建基于RGB空间的UI连通图识别冗余图像块,在自注意力计算中随机选取Token并保留原始位置嵌入,从而在降低计算成本的同时维持定位精度;同时引入交错视觉-语言-动作流,将动作标准化为JSON格式并配合系统提示词文档,分别通过动作-视觉流处理导航历史与动作-查询流提升单图多任务训练效率,最终融合模型输出完成交互决策。实验结果显示,ShowUI在零样本UI元素定位任务中实现75.1%的准确率,以2B参数量超越SeeClick(9.6B)等更大规模模型,且UI引导的Token选择机制在训练中减少33%冗余视觉Token、加速1.4倍,兼顾高精度与轻量化,较依赖HTML文本输入或闭源模型的传统方法在Web、Mobile及Online导航任务中表现更优,尤其在处理高分辨率截图与跨设备动作变体时优势显著。该研究通过UI结构化先验与流式训练策略的协同设计,为数字化世界中通用GUI视觉智能体的发展提供了高效技术方案,同时其数据构建与视觉Token压缩方法,也为同类多模态模型在图形界面交互领域的应用提供了重要参考。