3.1. 射干近端到端基因组组装
基因组特征:射干为二倍体物种,预估单倍体基因组大小约为3.99 Gb,且杂合度极低。
组装与评估:结合多种测序技术生成了4.18 Gb的近端到端基因组,包含16条假染色体,Hi-C接触图谱显示出极高的组装连续性与结构保真度。
结构验证:成功鉴定出端粒与着丝粒序列,并通过荧光原位杂交技术独立验证了染色体级别组装的结构完整性。
射干是一种二倍体物种(2n = 2x = 32),其基因组庞大且杂合度较低。通过整合Survey、HiFi、ONT及Hi-C等多种测序数据,成功构建了大小为4.18 Gb的近端到端(T2T)高质量参考基因组。该组装不仅将重叠群锚定为16条假染色体,还精确界定了大多数染色体的端粒和着丝粒区域。荧光原位杂交(FISH)结果进一步证实了该组装在染色体末端和主缢痕位置的准确性,展现出极高的结构连续性与保真度(Fig.1)。
图1. 射干的形态学、近T2T基因组组装及细胞遗传学验证。 (A) 完整植株图像。(B) 叶、地上茎、花、果实、根和根茎的形态。比例尺,1 cm。(C) 染色体假分子的Hi-C接触热图,显示出强烈的染色体内相互作用和高组装连续性。(D) 16条假染色体的基因组景观,从外到内以线性轨道显示:(a) 染色体长度;(b) 基因密度;(c) 重复序列密度;(d) Gypsy重复序列密度;(e) Copia重复序列密度;(f) GC含量;(g) 共线性。(E) 着丝粒(紫色正方形)、端粒(绿色三角形)和基因密度(红色,高;蓝色,低)在基因组中的分布。(F) 中期染色体上端粒重复序列(AACCCT)₃的荧光原位杂交(FISH);强烈的绿色信号定位于染色体末端。比例尺,10 μm。(G) 着丝粒特异性串联重复序列(红色)在中期染色体上的FISH定位。比例尺,5 μm。DNA用DAPI(蓝色)复染。
3.2 基因组注释与评估
重复序列:基因组中绝大部分为重复序列,主要由长末端重复逆转录转座子主导,并在近代经历了大规模扩增。
基因注释:成功注释了数万个蛋白质编码基因及非编码RNA,绝大多数基因获得了可靠的功能注释支持。
基因复制:全基因组重复是主要的基因复制模式,不同复制类型的基因展现出差异化的进化速率与功能富集特征。
质量评估:多项正交评估指标均表明该基因组组装在覆盖度、准确性、完整性及分类一致性方面达到了极高标准。
射干基因组展现出高度重复的特征,重复序列占比超过90%,其中以长末端重复逆转录转座子(特别是Gypsy元件)为主,且在过去600万年内发生了显著的扩增爆发。基因组共注释了33,962个蛋白质编码基因和6,459个非编码RNA,功能注释覆盖率高达98.02%。基因复制分析表明,全基因组重复(WGD)是主要的复制驱动力,且串联重复(TD)基因显著富集于次生代谢物生物合成途径。综合PanDepth、BUSCO、Merqury、LAI及CRAQ等多维度正交指标的评估结果,证实该近T2T基因组在单碱基准确度、结构完整性及序列连续性上均达到了卓越的参考级别质量。
3.3 射干比较基因组学与进化分析
系统发育:基于共有保守基因家族的系统发育分析确立了射干与番红花的姐妹群关系及分化时间。
多倍化历史:同义替换率及共线性深度分析揭示了射干在进化过程中经历了两次谱系特异性的全基因组重复事件。
基因族扩张:射干基因组中显著扩张的基因家族远多于收缩的基因家族,且高度富集于生物防御与次生代谢途径。
跨物种的直系同源群分析与化石校准的系统发育重建表明,射干与同属鸢尾科的番红花(C. sativus)互为姐妹群,约在69.7百万年前发生分化。综合同义替换率(Ks)分布与共线性深度分析,证实射干在与番红花分化后,独立经历了两次全基因组重复(WGD)事件(约54.6和27.3百万年前)。这些古老的多倍化事件驱动了大量基因家族的显著扩张,功能富集分析显示,扩张的基因家族主要集中在应对生物与非生物胁迫的防御反应,以及类黄酮和苯丙素等植物次生代谢物的生物合成网络中。这为射干增强的抗逆性及其特化代谢产物合成能力提供了坚实的基因组学基础(Fig.2)。
图2. 射干的比较基因组学与进化分析。 (A) 射干及其他15个物种的系统发育树,附带节点年龄(MYA)及95%置信区间。绿色和红色标签分别表示显著扩张和收缩的基因家族。蓝色和红棕色椭圆表示通过共线性和Ks分析推断的全基因组三倍化(WGT)和全基因组重复(WGD)事件。(B) 使用WGDI计算的射干、番红花(Crocus sativus)和芦笋(Asparagus officinalis)之间直系同源基因对的同义替换率(Ks)。(C) 使用Ksrates生成的射干旁系同源基因对(峰a、b、c)以及射干与其近缘种(番红花、芦笋)之间直系同源基因对的Ks分布。射干与番红花之间直系同源基因的分化Ks值从0.56修正为0.51(1),而射干与芦笋之间的Ks值从0.98更新为0.84(2)。(D) 使用JCVI生成的射干基因组(Chr1-16)共线性点图,显示出与两次近期WGD事件一致的染色体内共线性。
3.4 串联重复与全基因组重复促进射干异黄酮合成中BcOMTs的复制
基因鉴定:全基因组范围内鉴定出46个BcOMTs基因,并筛选出在根部高表达的候选基因用于鸢尾黄素合成研究。
催化功能:体外酶促及体内瞬时表达实验证实BcOMT03和BcOMT33能够催化野鸢尾黄素发生O-甲基化生成鸢尾黄素。
酶动力学:动力学分析揭示了BcOMT33具有更高的底物亲和力,而BcOMT03表现出更高的催化转化率。
基因族进化:系统发育与共线性分析表明,串联重复和全基因组重复共同推动了BcOMTs基因家族的扩张。
甲基化修饰是驱动射干特征性异黄酮(如质量标志物鸢尾黄素)结构多样化的关键步骤。通过全基因组挖掘与组织特异性表达谱筛选,锁定了多个根部高表达的候选O-甲基转移酶(BcOMTs)。体外酶学实验与本氏烟草(N. benthamiana)瞬时表达系统证实,BcOMT03和BcOMT33能够以野鸢尾黄素为底物,在C5和C3′位点催化O-甲基化反应,协同生成鸢尾黄素。酶动力学分析显示两者在底物亲和力与催化效率上存在互补优势。此外,染色体定位与进化分析表明,BcOMTs基因在染色体上呈现明显的簇状分布,串联重复(TD)与全基因组重复(WGD)事件共同促进了该基因家族的显著扩张,为其在异黄酮生物合成中的功能分化提供了遗传基础(Fig.3)。
图3. BcOMT03和BcOMT33的功能表征。 (A) 所有BcOMTs在射干六个不同器官中的表达热图。红色三角形指示在根中高表达的候选基因。(B) 以野鸢尾黄素(1)为底物的BcOMT03和BcOMT33体外酶促反应HPLC色谱图。(C) BcOMTs与47种植物OMTs的系统发育树;突出显示了COMT和CCoAOMT进化枝。蓝色三角形表示3′/5′-甲基化活性;蓝色五角星表示5-O-甲基化活性。(D) 用携带GFP标签的农杆菌浸润本氏烟草;4天后,在紫外线照射下观察到绿色荧光。在浸润BcOMT03/BcOMT33的本氏烟草提取物中3′-羟基-5,4′,5′-三甲氧基-6,7-亚甲二氧基异黄酮(E)和鸢尾黄素(F)的提取离子色谱图(EIC)。CK = pEAQ-HT-GFP空载体。(G, H) BcOMT33 (G) 和 BcOMT03 (H) 对野鸢尾黄素(1)的动力学分析。(I) BcOMT01-03基因簇在射干、番红花和芦笋中的微共线性。
3.5 BcUGT009/124/119/032是具有底物杂泛性的异黄酮糖基转移酶
基因筛选:鉴定出145个隶属于GT1超家族的BcUGTs基因,并优先挑选根部高表达的候选基因进行功能验证。
催化活性:体外与体内实验证实BcUGT009、119、124和032具备7-O-糖基化活性,且表现出广泛的底物杂泛性。
酶动力学:动力学表征显示BcUGT009是催化效率最高且活性最广的糖基转移酶,在生理条件下的贡献可能最大。
糖基化在射干生物活性异黄酮(如鸢尾次苷B、鸢尾次苷A、鸢尾苷和野鸢尾苷)的合成与积累中发挥着核心作用。基于全基因组鉴定与表达谱分析,从145个假定的UDP-糖基转移酶(BcUGTs)中筛选出高表达候选基因。大肠杆菌异源表达及体外酶促反应结果表明,BcUGT009、BcUGT119、BcUGT124和BcUGT032均能以UDP-Glu为糖基供体,对多种异黄酮底物执行7-O-糖基化修饰,且体内瞬时表达系统进一步验证了其催化功能。这四种酶展现出显著的底物杂泛性,其中BcUGT009凭借适中的底物亲和力与极高的转化率,成为催化效率最高的酶,推测其在射干内源异黄酮糖苷化过程中占据主导地位。共线性分析提示部分功能基因可能在单子叶植物中经历了独立进化(Fig.4)。
图4. 本研究中功能性BcUGTs的概览。 (A) 所有BcUGTs在射干六个不同器官中的表达热图。红色三角形代表被选中进行功能表征的候选BcUGTs。(B) 底物(4–7)及相应糖基化产物(8–11)的化学结构。(C–F) HPLC色谱图(UV 290 nm)证明BcUGT009、BcUGT119、BcUGT124和BcUGT032分别通过酶促反应将鸢尾次苷元B(4)、鸢尾次苷元A(5)、鸢尾苷元(6)和野鸢尾苷元(7)转化为鸢尾次苷B(8)、鸢尾次苷A(9)、鸢尾苷(10)和野鸢尾苷(11)。CK = 阴性对照(空载体)。(G) 瞬时过表达BcUGT009/124/119/032基因后本氏烟草叶片提取物的HPLC色谱图。(H) 本氏烟草叶片提取物中野鸢尾苷的LC/MS分析。(I-L) 以野鸢尾苷元(7)为底物的BcUGT009 (I)、BcUGT119 (J)、BcUGT124 (K) 和 BcUGT032 (L) 的酶动力学分析。
3.6 BcUGT009催化UDP-Glu糖基转移的分子机制
结构模拟:通过计算模拟构建了BcUGT009与UDP-Glu及底物的复合物结构,揭示了适宜的近攻构象与相互作用网络。
关键位点:定点突变证实了参与供体结合的N386/T308,以及作为催化碱和催化对的H32/D135残基的不可或缺性。
催化机制:K404A突变显著扩大了底物通道并大幅提升了催化活性,据此提出了BcUGT009介导的质子转移与亲核攻击机制。
为深入解析BcUGT009催化糖基转移的分子机制,研究结合Boltz2复合物结构预测与AutoDock Vina分子对接技术,精准锚定了底物与UDP-Glu的近攻构象。定点突变实验证实,负责稳定UDP-Glu的N386和T308残基,以及构成催化核心的H32(催化碱)和D135(催化对)对于维持酶活性至关重要。进一步的底物通道分析发现,K404残基的空间位阻限制了催化效率;将其突变为丙氨酸(K404A)后,底物通道显著拓宽,突变体的相对催化产物生成量较野生型激增2.3至7.2倍。基于上述结构与功能证据,提出了一种由H32夺取底物羟基质子增强亲核性,进而攻击UDP-Glu C1位点完成糖基取代的催化反应模型(Fig.5)。
图5. BcUGT009糖基化机制的结构基础。 (A) 预测的BcUGT009/鸢尾次苷元B/UDP-Glu三元复合物。(B) 鸢尾次苷元B和UDP-Glu的结合模式显示出合适的近攻构象。紫色虚线代表糖基化转移过程中的关键氢键距离和亲核攻击距离。黄色虚线表示UDP-Glu与氨基酸残基之间的氢键相互作用。红色虚线代表π-π堆积相互作用。(C) 加入相同剂量的鸢尾次苷元B后,野生型BcUGT009及其突变体相对催化活性的变化。统计显著性通过单因素方差分析(one-way ANOVA)结合Dunnett多重比较校正确定,以野生型作为共同对照。数据以三个独立生物学重复(n = 3)的平均值±95% CI表示,星号表示**** p < 0.0001。(D) 野生型BcUGT009(上)和BcUGT009-K404A突变体(下)之间底物通道的比较。(E) BcUGT009的糖基化机制。
3.7 豆科与非豆科植物中基因家族扩张与异黄酮生物合成
尽管异黄酮传统上被视为豆科植物的标志性次生代谢物,但其同样存在于鸢尾科等非豆科谱系中。本研究首先在基因组水平上完整重建了射干的异黄酮生物合成途径,涵盖了从苯丙氨酸起始的通用苯丙素途径、类黄酮核心途径,以及由异黄酮合成酶(IFS)主导的分支,直至下游由细胞色素P450、O-甲基转移酶和UDP-糖基转移酶介导的特异性修饰过程。通过对12个系统发育多样化植物基因组中13个核心途径酶家族的直系与旁系同源基因进行盘点,发现无论在豆科还是非豆科植物中,能够积累异黄酮的物种普遍具有更高的相关基因拷贝数。这一结果暗示,异黄酮生物合成的遗传基础并非豆科植物独有,而是可能源于关键酶家族在不同植物谱系中的趋同或平行扩张(Fig.6)。
图6. 射干及其他物种中异黄酮的生物合成及遗传基础。 (A) 射干中的异黄酮生物合成途径。该图解说明了从苯丙氨酸到各种最终产物的代谢路线,涵盖了上游骨架形成和下游特异性修饰步骤。(B) 不同植物物种间异黄酮途径同源基因拷贝数的比较。