点击上方"河南农业大学学报"↑关注我们吧《河南农业大学学报》2025年第59卷第3期刊载了河南农业大学烟草学院付博、于建军、姬小明,河南中烟工业有限责任公司技术中心杨永锋、刘向真、牛洋洋、刘茂林、赵森森和彭桂新的研究论文——“数据集划分及预处理方法对烟叶化学成分近红外定量模型的影响”。该研究由河南省科技攻关项目(232102110168)和河南中烟工业有限责任公司科技项目(C202023)资助。责任编辑李莹。
《河南农业大学学报》公众号每周周二、周三推送本刊刊登的优秀论文,或科技论文写作技巧和科研相关知识等内容,欢迎阅读转发!欢迎点击“阅读原文”免费全文阅读。
投稿地址: https://qkzx.henau.edu.cn/
本研究基于210份多产区烟叶样本,系统对比了4种数据集划分方法、20%~50%梯度比例及69种光谱预处理组合,明确SPXY划分法结合24%预测集比例为最优方案,显著优于RS、KS与LS,且无过拟合。研究揭示了不同化学成分的最优预处理具有组分特异性:总糖/氯离子适配MSC+MA+WAVE,还原糖/烟碱适配MAXMIN+MSC+WAVE,钾适配MSC+WAVE,总氮则直接使用原始光谱,6项指标预测相关系数均高于0.96。创新点:量化了关键驱动机制,即数据集均匀性决定模型稳定性,预处理组合决定噪声去除效率。该成果为烟叶化学成分快速无损检测提供了全流程优化方案,也为近红外定量建模建立了技术规范。
当前烟叶化学成分的检测主要依靠流动分析、气质联用或液质联用等技术,普遍存在前处理烦琐、分析周期长等问题。近红外光谱技术具有无损、快速、绿色、高效的特点,为化学成分无损检测、质量快速判定等领域研究提供了新方法。近年来,烟叶近红外研究主要关注模型构建算法和特征波段的筛选,而在数据集划分和预处理组合方面研究较少。

数据集划分是将样本划分为校正集和预测集,校正集样本特征信息的涵盖范围影响模型的预测准确性,而预测集的分布影响模型评价的准确性。数据集划分比例决定了建模数据和模型评价数据的个数,数据集划分比例不合理会直接影响模型的精准度。

不同预处理方法的组合、包括组合的顺序均能够对模型的准确性造成影响。对于不同的数据集,由于信息和复杂性不同,其最佳预处理方法及组合也不同。即使相同数据集的光谱相同,不同组分的预处理方法也不相同。

因此,数据集的划分方式和预处理方法是建立稳定分析模型的关键。通过研究不同数据集划分方式及划分比例对模型的影响、预处理方式对模型准确率的影响,能够为建立准确、稳定的烟叶化学成分分析模型奠定基础。

烟叶样品是采集于河南、云南、贵州、四川、福建、湖南、黑龙江等产区的210份C3F和B2F初烤烟叶。烟叶总糖、还原糖、烟碱、总氮、钾和氯含量测量参考烟草行业标准。将烟叶样品烘干后研磨成粉末,利用傅里叶变换近红外光谱仪进行光谱采集。

分别用RS、LS、SPXY和KS数据集划分方法对样本进行分割,统计校正集和预测集的分段区间分布频率,绘制校正集和预测集分布散点图,直观展示数据集划分的均匀性。利用PLS回归算法构建定量模型,通过模型效果评价数据集划分方式的优劣。数据集划分比例以预测集占总数据集的比例表示,预测集比例范围为20%~50%,间隔1%递进形成30种数据集划分比例,分别构建PLS定量模型,通过模型效果筛选最佳数据集划分比例。

选用一阶导数、二阶导数、移动平均平滑(MA)、均值归一化(MEAN)、多元散射校正(MSC)、极差归一化(MAXMIN)、标准正态变量变换和小波变换(WAVE)8种预处理算法,按照无预处理、单种预处理、组合预处理等方法探讨预处理方法的优劣。组合预处理方式分别采用2~4种预处理方式叠加,通过随机组合形成69种组合方式,包括组合顺序和预处理叠加个数。数据集利用SPXY方式划分数据集,预测集比例为30%。构建模型,并通过相关系数进行评价。

结果表明,数据集通过SPXY方式划分的校正集和预测集分布更均匀,预测集比例为24%时,构建的模型预测能力更强。烟叶总糖和氯离子定量模型最佳预处理组合为MSC+MA+WAVE;还原糖和烟碱定量模型最佳预处理组合为MAXMIN+MSC+WAVE;钾离子预处理组合为MSC+WAVE,总氮则以原始光谱数据构建的模型预测能力最强。因此,烟叶常规化学成分近红外定量模型经过数据集划分和预处理优化后,提高了模型准确率。

作者简介:
付博,河南农业大学烟草工程系主任,副教授,博士,硕士生导师,河南省教育厅学术技术带头人,河南省教学标兵,河南省精品在线课程、河南省一流课程《卷烟产品设计》负责人。主要从事烟草原料高值化利用及烟草微生物与酶工程研究,主持国家自然科学基金项目1项,主持烟草行业项目13项,发表论文40余篇,主编、副主编农业农村部“十三五”、河南省“十四五”等规划教材5部,获河南省与四川省烟草公司科技进步奖二等奖各1项。

通信作者:
姬小明,河南农业大学烟草学院教授,博士生导师,河南省科技副总,先后承担卷烟调香学、日用食用调香学、烟草香味学、烟草化学进展等本硕课程。主(参)编学术专著及教材14部。目前一直从事烟草品质评价、香料香精、加热卷烟等方面的研究工作。以第一作者和通信作者共发表论文100余篇,其中国外高水评论文50余篇,授权专利5件,先后主持河南省科技攻关、烟草行业等项目20余项,获河南省科技进步奖三等奖、河南省烟草公司科技进步奖二等奖等奖励6项。
友情提醒
由于微信平台算法改版,公号内容将不再以时间排序展示,如果各位想第一时间看到我们的推送,强烈建议星标我们,以及给我们多点【赞】多点【分享】多点【推荐❤】。星标具体步骤为:
(1)点击页面最上方“河南农业大学学报”,进入公众号主页
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,一路有你。
河南农业大学学报
∣做有担当的学术媒体∣


版权声明:
本文为《河南农业大学学报》编辑部原创内容,欢迎转载,请联系授权!
本文所使用图片均出于非商业性的教育和科研目的,如涉及版权等问题,请立即联系我们,我们会予以更改或删除,保障您的权益。
联系方式:
编 辑 ∣ 曾庆东
审 核 ∣ 焦 睿
联系电话 ∣ 0371-56552551
联系邮箱 ∣ hnndxb@henau.edu.cn
♥ 给我在看,你越好看!点个赞吧! ♥
