近年来,在国家大豆生物育种产教融合创新平台的牵头组织下,“问豆”研发团队系统梳理收录大豆育种、栽培、施肥、病虫害防治、气象灾害应对、品种资源、产业政策与市场行情等全领域的学术文献、学位论文、技术手册、行业报告及政策标准,依托超15亿词元(token)的专业语料,搭建起体量庞大、维度全面的大豆专属专业语料库。
“研发‘问豆’大语言模型,96%的工作都集中在数据环节——不仅要保障数据体量充足、品类丰富,更要严控数据质量。”南京农业大学信息管理学院副院长王东波表示,垂直领域大模型的核心竞争力,在于对高质量专业数据的萃取与整合能力。
为保障模型输出内容专业、精准、可靠,“问豆”创新构建深度贴合领域专家思维的三阶段递进式问答架构。
第一阶段为需求解析,智能提取用户提问中涉及的品种、病害、土壤、肥料、农机、加工、市场等核心关键信息,精准细化、聚焦用户实际需求。
第二阶段为知识融合,整合本地专属知识库、权威搜索引擎、学术数据库等多源信息,对照国家官方品种审定、农药登记、肥料认证等权威标准资料完成初步筛选过滤,为模型筑牢高质量专业知识基础。
第三阶段为高质量数据合成与结果输出,研发团队对专业数据、行业报告、学位论文等各类资料进行精准筛选与规范标注,以专家认证、官方审定数据和行业技术标准为刚性准则,对大语言模型的内容生成能力进行严格约束,确保所有输出内容均有据可依、合规专业。