
近日,华中农业大学信息学院、生命科学交叉学院、湖北洪山实验室水稻团队谢为博教授课题组在Molecular Plant在线发表题为“Deep learning uncovers conserved regulatory logic and element dosage underlying stable gene expression in grasses”的研究论文。该研究构建了覆盖五种禾本科植物多个同源组织的调控组图谱,开发了基于深度学习的比较研究框架,并提出“调控等价(regulatory equivalence)”模型,为理解禾本科植物基因表达保守悖论提供了新的视角。华中农业大学信息学院李佳成博士为论文第一作者,谢为博教授为通讯作者。
图1 同源基因在不同禾本科物种中表现出保守的基因表达与染色质开放模式
尽管水稻和玉米等禾本科植物分化已超过五千万年,许多同源基因的表达程序却仍十分保守。然而,驱动这些程序的顺式调控序列在演化中快速更替,其中约七成在水稻和玉米间已检测不到同源序列。这一“调控序列快速变化、基因表达长期保守”的现象,构成了植物基因组学领域的一个悖论。该研究成果为理解这一悖论提供了新的解释。
研究团队选取二穗短柄草、水稻、谷子、高粱和玉米五种代表性禾本科植物,对五类同源组织绘制了染色质可及性图谱并获得配套转录组。基于五个物种共享的9,477个单拷贝同源基因,分析显示同源基因的表达水平在物种间总体保守,物种间两两相关系数中位数约0.75,启动子附近的染色质开放强度也呈现相似分布,说明控制基因表达的近端调控框架在不同物种间被较好保留(图1)。
在此基础上,研究团队基于Basenji框架训练深度学习模型,从DNA序列直接预测多组织染色质可及性。模型在本物种内的预测值与实验数据高度吻合,相关系数约0.80,且一个物种中训练的模型能较好迁移预测其他禾本科物种的染色质可及性,匹配组织的平均相关系数达0.72;而以亲缘很远的拟南芥模型作对照时,相关系数普遍低于0.40。这表明禾本科物种之间共享一套较为保守的“序列到调控功能”规则(图2)。
图2 深度学习模型揭示禾本科植物中保守的跨物种调控逻辑、识别候选调控元件
既然调控序列在演化中如此快速更替,一个关键问题随之而来。真正承担调控功能的元件本身是否也在周转,还是只有非功能的背景序列在变。这就需要先把功能性调控元件可靠地识别出来。研究团队为此在已知转录因子基序扫描、染色质足迹等已有方法之外,开发了Basenji-HMM方法,将深度学习预测的碱基分辨率突变效应与隐马尔可夫模型结合,识别具有方向和强度信息的高影响候选顺式调控元件。与已有方法相比,此方法不仅回答“这个位点像不像调控元件”,还能进一步推断“这个位点可能产生什么调控效应”。
分析发现,答案偏向前者。即便是按功能识别出的调控元件,其跨物种序列保守性同样有限,仅有约30%水稻候选元件在玉米等远缘物种中能找到对位同源序列。真正在物种间保持相对保守的,不是元件的具体身份,而是同源基因周围元件的数量及其加权调控剂量(相关系数最大值分别为0.49和0.55),且这种剂量与染色质可及性及基因表达水平密切相关。
这一现象可以类比拔河比赛来理解。顺式调控元件就像发力的队员,有的推动染色质开放,有的限制开放或调节边界,基因表达则取决于众人的合力。演化中具体队员可以更替、站位可以改变,但只要总合力相近,基因表达便得以维持。基于此,研究团队提出"调控等价"模型,等效的调控输出可以由不同的元件组合实现,从而在元件快速周转的背景下维持基因表达程序的长期保守(图3)。
该研究为禾本科基因表达的长期保守提供了新的机制解释,也带来一个更普遍的启示,即“保守”未必发生在序列层面,而可能体现在功能与剂量层面。相应地,仅依赖保守序列的比较策略,可能系统性地遗漏那些功能重要却快速演化的调控元件。从方法学上看,该研究也展示了人工智能生物学的一条重要路径,即通过建模把研究从“序列空间”拓展到“功能空间”。在这一框架下,深度学习模型不再只是数据分析工具,而是蕴含了分子调控规律、可供剖析的研究对象。
图3 保守的调控元件剂量支持“调控等价”模型
论文链接:
https://www.cell.com/molecular-plant/fulltext/S1674-2052(26)00160-7