近日,认知智能全国重点实验室联合华中农业大学作物遗传改良全国重点实验室、吉林农业大学、武汉理工大学、安徽农业大学及安徽省农业科学院水稻研究所,共同发布 Agriculture Breeding Claw(ABC)系统,即“农业育种龙虾”。这一系统是全国首发,聚焦农业育种科研中生信分析门槛高、工具链复杂、基层科研人员使用不便等现实痛点,通过自然语言交互打通差异表达分析、GO/KEGG富集分析等关键环节,有望让更多育种科研人员摆脱对少数生信技术人员的依赖,更高效、更自主地开展数据分析与科研探索。
在华中农业大学的一间实验室里,一位做水稻研究的博士生正在等一个结果。
他手上有一批转录组测序数据,想筛选出在特定处理条件下显著变化的基因,再看看这些基因富集在哪些生物学通路上。这是育种研究中最常见的分析需求之一,也是最让人头疼的环节之一。
不是因为科学问题本身有多难,而是做这件事的技术门槛太高了。传统流程要求研究者掌握Linux命令行、R/Python编程、统计检验方法和生信可视化工具,从原始数据到一份可解读的分析结果,熟练的人要花几天,不熟练的可能要一两周。而整个课题组里能干这活的,往往只有一两个人。
如今,他打开一个对话界面,输入了一句话:“帮我筛选差异表达基因,并进行GO富集分析。”
几分钟后,屏幕上依次出现了差异基因列表、火山图、GO/KEGG富集分析结果和代谢通路映射图。没写一行代码,没调一个参数。
这个系统叫Agriculture Breeding Claw,简称ABC系统,也就是“农业育种龙虾”。近日,认知智能全国重点实验室联合华中农业大学作物遗传改良全国重点实验室、吉林农业大学、武汉理工大学、安徽农业大学、安徽省农业科学院水稻研究所共同发布了这一系统。这是实验室AI for Science在农业育种领域的一次重要拓展,也是大模型技术与农业育种场景深度结合的一次具体实践。
要理解ABC系统在做什么,先要理解育种科研里一个长期存在的困境。
我国育种研究正处于从“经验育种”向“设计育种”转型的关键阶段。高通量测序技术让数据产出能力大幅提升,但另一端的分析能力远远没有跟上。数据越来越多,能分析数据的人却严重不足。
吉林农业大学袁晓辉教授对此感触很深。他说,国家政策层面在大力推动育种数智化,但落到基层,大多数科研人员还在用多年前开发的生信软件,人工智能的应用并不广泛。水稻品种改良需要快速验证基因功能,可传统分析流程周期太长,“很多探索性研究被迫放弃”。
华中农业大学作物遗传改良全国重点实验室宋鹏教授也观察到类似的问题。国家重大平台在数据积累和算法研发上已有相当基础,但分散在各课题组和平台之间,尚未形成完整的工具链。许多基层育种人员接触不到、用不上,技术落地“最后一公里”问题格外突出。
生物信息分析和育种科研之间,隔着一堵由编程语言、统计方法和工具链砌成的墙。而大多数育种研究者,是做湿实验出身的。
宋鹏教授用了一个很准确的说法:这堵墙不是不能破,而是以前缺少一个足够自然的交互层。
ABC系统给出的答案是:用自然语言把这堵墙拆掉。
系统的核心逻辑并不复杂——研究者用日常语言描述分析需求,系统自动调用后端工具链,完成从数据处理到结果输出的全流程。武汉理工大学李琳教授介绍,以GSE242459水稻数据集中的基因表达矩阵数据的验证为例,研究者输入自然语言指令后,系统可以完整跑通数据读取、统计检验、差异筛选和可视化图表生成,特定分析环节从“天”级缩短至“分钟”级。
速度提升是直观的,但更大的改变在于:过去只有少数生信人员能做的事,现在课题组里的每个人都可以独立完成。
宋鹏教授说,过去组里的硕士生、博士生想做个常规分析,得排队等生信人员。现在他们可以自己上手了,生信人员也终于能从重复性工作中抽身,去攻克更有难度的方法学问题。
而袁晓辉教授看到了另一层更深的变化。过去做分析是“规划驱动”的,先想好假设,提交需求,等排期出结果,周期一长,很多灵感就凉了。现在研究者可以随时验证想法,“很多hypothesis是在分析过程中自然产生的,而不是先想好再验证”。
他把这种转变概括为从“规划驱动”到“发现驱动”。节奏变了,科研的宽度和深度都会不一样。
在核心分析能力之外,ABC系统有一个设计值得单独说说:双轨对比分析。
做基因数据分析,传统统计方法和大语言模型各有所长。前者严谨可靠,后者擅长发现潜在关联、提供文献佐证。但在大多数现有工具中,这两种路径是分开的,研究者只能二选一。
ABC系统的做法是把两套结果并排放在同一个界面上。传统方法筛出了哪些差异基因、给出了怎样的统计结论,大模型又是如何解读的、关联了哪些文献,研究者可以逐项对比,一致的部分更可信,不一致的地方恰恰值得深挖。
李琳教授表示,这种将两种分析范式在产品中并行呈现、相互校验的设计,在同类系统中并不多见。它不是要用AI替代传统方法,而是让研究者在同一个工作台上获得两种视角,自己判断、自己决策。
此外,系统还融入了育种领域的本体图谱管理,提供交互式的基因本体可视化界面,支持浏览、检索与编辑。研究人员可以在网络图中探索基因间的功能关联,快速定位目标基因的生物学注释。这些都是专门针对育种科研场景做的差异化设计。
把这样一个系统做出来,最难的是什么?
不是模型训练,不是工具链搭建。李琳教授说,最大的挑战是“双向翻译”。
育种专家说“帮我看看差异”,工程师要追问:用哪种统计方法?多重检验怎么校正?反过来,工程师说“这个能做到”,生物学家也未必理解背后的局限在哪里。两个领域的人各自都是行家,凑到一起却常常讲的不是同一套话。
这种跨领域的沟通没有捷径。团队花了大量时间在反复碰撞和场景确认上,一个需求一个需求地对齐,才把“自然语言驱动”“双轨分析”这些想法,从模糊的构想落地成可用的产品。
也正是这种深度碰撞,让ABC系统成为一次真正意义上的产学研协同实践。实验室承担了智能体研发与系统架构设计,华中农业大学、吉林农业大学、安徽农业大学及安徽省水稻研究所提供了专业数据和一线科研需求,武汉理工大学提供了研究方法论支持与技术方案论证。从今年2月底启动到4月中旬完成初版,不到两个月,得益于前期扎实的合作基础和领域积累。
认知智能全国重点实验室自2022年起前瞻布局AI for Science方向,已在科技文献、化学、化工、材料等领域研制了多个垂域模型,支撑科研范式变革。此次联合农业育种领域的全国重点实验室及优势科研院所推出ABC系统,是实验室在AI for Science方向的又一领域拓展。
目前,ABC系统聚焦于水稻育种场景,团队也坦言系统仍处于初期阶段,在功能丰富度上和成熟平台还有差距,原始测序数据的全流程处理也在持续研发中。未来将持续集成更多分析工具、覆盖更广物种品类,为我国种业自主创新与数智化升级持续注入智能动力。
袁晓辉教授的一句话,也许最能概括这件事的意义:“让不懂编程的育种人也能独立做生信分析,把科研探索的主动权真正还给研究者自己。”
育种关乎粮食,粮食关乎国计民生。把最好的技术用在最该用的地方,这件事本身就是答案。