中国农业科学院&福建农林大学&广西大学最新Nature:解密“甘蔗国王”POJ2878,118条染色体如何撑起全球糖业大厦
📧 通讯作者: Muqing Zhang(广西大学广西甘蔗生物学重点实验室);Ray Ming(福建农林大学国家甘蔗工程技术研究中心基因组与生物技术中心);Xingtan Zhang(中国农业科学院深圳农业基因组研究所)
甘蔗作为全球主要的糖料作物和生物能源原料,其基因组堪称作物界的“珠穆朗玛峰”——拥有10到12套染色体,是一种极端复杂的多倍体。这种复杂性源于历史上人类为了追求更高糖分进行的“高贵化”育种,即将热带种与野生种杂交并反复回交。然而,恰恰是这种复杂的遗传背景,长期阻碍了科学家对其卓越产糖能力的基因解密。本研究直指这一核心难题,选取了被誉为“甘蔗之王”的奠基性品种POJ2878作为解码对象。POJ2878是所有现代甘蔗品种的关键基因供体,解析它的基因组,就如同找到了打开现代甘蔗遗传宝库的钥匙。研究团队利用PacBio HiFi、ONT超长读长以及能捕获三维空间构象的Pore-C等多种尖端测序技术,结合自主研发的C-Phasing算法,首次完成了POJ2878的全定相基因组组装,解析出完整的118条染色体。在这个精细到“单套染色体”的图谱上,研究人员揭示了热带种与野生种亚基因组间的大规模重组与重排事件。通过对981份全球甘蔗种质资源进行重测序,研究追溯了甘蔗的驯化与改良历程,发现超过95%的现代品种都与POJ2878共享大量的同源序列,精准定位了育种家们在百年育种史上“偏爱”的关键基因片段,比如蔗糖合成酶基因SUS2。更进一步,为了攻克多倍体基因难以进行全基因组关联分析的壁垒,团队开发了专为多倍体设计的k-mer关联分析工具KMERIA。结合自主开发的自动化细胞识别技术,研究成功定位了控制甘蔗茎秆薄壁细胞大小和糖分储藏能力的关键基因,如蔗糖转运蛋白ShSUT2,并辅以转基因实验证实,增加其表达可直接让薄壁细胞增大近30%。这项研究不仅构建了甘蔗遗传学的全景框架,更为包括土豆、甘薯在内的所有复杂多倍体作物的育种改良,提供了一套从测序组装到功能基因挖掘的通用型精准作战方案。相关研究成果以"Genetic architecture of sugarcane traits in a polyploid genomics framework"为题发表在Nature上。
• 1. 完成了“甘蔗国王”POJ2878基因组的高精度完全分型组装,首次解析出完整的118条染色体。通过整合PacBio HiFi、ONT超长读长和自主优化的ePore-C三维构象捕获技术,并应用C-Phasing算法,将10.37 Gb的基因组清楚地区分为10个同源组,甚至精准鉴定出SUS2等基因内部仅27个碱基对的结构变异,为大基因组组装设立了新标杆。• 2. 揭示了POJ2878在全球甘蔗育种中的“教父级”核心地位,通过重测序981份来自19个国家的甘蔗种质资源,发现98.15%的基因组区域在现代品种中都能找到POJ2878的“血脉”。研究鉴定出一批包括蔗糖合成、转运基因在内的“育种家偏爱单倍型”,并揭示了中外育种家在选择压力上的显著差异,为未来育种提供了分子路线图。• 3. 建立了一套专门破解多倍体基因组密码的分析工具箱,包含完全分型组装算法C-Phasing、准确区分等位基因表达的Allele-Express,以及绕开传统双等位基因限制的关联分析工具KMERIA。这套组合拳有效解决了多倍体中同源序列相互干扰的瓶颈,成功定位了控制薄壁细胞大小和糖度的关键基因位点。• 4. 解析了甘蔗“高糖”性状的细胞与遗传基础,利用自动化图像识别技术大规模量化了薄壁细胞表型,证实高糖品种的细胞显著大于低糖品种。通过KMERIA关联分析和功能验证,首次证明蔗糖转运蛋白ShSUT2是调控细胞扩张和糖分积累的关键因果基因,过表达可使细胞增大28.92%。• 5. 揭示了甘蔗驯化与改良的基因组印记与“剂量效应”,通过对热带种驯化和现代杂交改良两个阶段的选择性清除分析,鉴定了调控分蘖的TB1、抗冷的CBL1和控制细胞大小的TIP1等关键基因。特别发现SUS2优良单倍型存在最优剂量窗口,并非越多越好,这为多倍体作物的平衡育种提供了重要理论指导。
[1] 图 1 | 基因组组装、亚基因组鉴定与染色体重排。a, 产生甘蔗杂交品种 POJ2878 的单倍型解析基因组组装以及祖先种 S. spontaneum82-114 和 S. officinarum XZ 的T2T 单倍体基因组组装所用流程示意图。基因组采用 PacBio HiFi、ONT-UL 和 Pore-C 测序技术进行测序。对于 POJ2878,通过 C‑Phasing 利用 Pore‑C 接触将 hifiasm 组装的定相 unitig(p_utg)划分为同源或部分同源组及单倍型,并根据测序深度恢复塌陷区域,从而产生完全单倍型解析的组装。对于祖先T2T 单倍体组装,hifiasm 重叠群(p_ctg)经去重后,利用 C‑Phasing 挂载为单倍体染色体,并使用 ONT‑UL 读长填补缺口。b, 利用两套探针(染色体 5g1‑R 和染色体 5g1‑G)标记分别来自 S. spontaneum(红色;1.56–42 Mb)和 S. officinarum(绿色;42–81.72 Mb)的片段,对染色体 5g1 进行寡核苷酸染色(oligo‑FISH)。图像代表一棵 POJ2878 植株的一个中期分裂相细胞。c, 基于亚基因组分配和共线性分析提出的染色体重排模型。不同颜色代表不同的同源或部分同源组;阴影矩形表示源自 S. spontaneum 的序列,实心矩形表示源自 S. officinarum 的序列。d, 118 条染色体之间的原始染色质相互作用,突出显示染色体内和染色体间的相互作用。
[2] 图 2 | 遗传多样性与群体结构分析。a–c, S. spontaneum(S. s.)(a;n = 290)、杂交品种(S. hybrid)(b;n = 613)和 S. officinarum(S. o.)(c;n = 78)的地理分布,展示了取样材料的全球代表性。底图使用 R 包 rnaturalearth 并基于 Natural Earth 数据(http://naturalearthdata.com)生成。d, 重测序材料的系统发育树和混合成分分析(k = 3),显示 S. spontaneum、S. officinarum 和杂交群体之间的遗传关系及混合程度。e, S. spontaneum、S. officinarum 和杂交材料的主成分分析(PCA),突出三个群体的遗传分化和聚类。f, 各群体内的全基因组平均核苷酸多样性(π)以及群体间的固定指数(FST),揭示 S. spontaneum、S. officinarum 和杂交种之间的遗传多样性和分化。g, 三个群体间的连锁不平衡衰减模式;连锁不平衡以 r² 衡量并与物理距离(kb)作图,展示群体特异的连锁不平衡衰减速率差异。
[3] 图 3 | POJ2878 的遗传贡献和育种优选的单倍型分析。a, 573 个甘蔗品种与 POJ2878 之间共享的总 IBD 长度的经验累积分布。x 轴表示每个品种的总 IBD 长度(Mb),y 轴表示品种的百分比。位于821.6 Mb 处的虚线表明95.3% 的品种与 POJ2878 共享至少821.6 Mb 的 IBD 序列。b, 全球(n = 573)、中国(n = 327)和非中国(n = 246)品种群体在50 kb 非重叠基因组窗口中的 IBD 密度。统计学分析采用双侧 Mann–Whitney U 检验;***P < 0.001。小提琴图的宽度反映窗口频数;白色圆点表示平均 IBD 密度;盒体表示四分位距(IQR;第25–75 百分位数);须线延伸至 1.5 × IQR。精确 P 值见源数据。c, IBD 密度在118 条染色体上的分布。红色区域表示较高的 IBD 密度(即育种优选单倍型),绿色区域表示较低值。源自 S. spontaneum、S. officinarum 的染色体和重组染色体分别用绿色、红色和黑色表示。SUS2 以红色高亮以便详细分析。d, 等位基因特异性表达展示具有染色体特异单倍型(如染色体10g5)和祖先起源(y 轴)的基因(x 轴)。单倍型为可视化而任意编号。成熟茎和叶组织的表达水平(n = 3 个重复)以 log2[每百万转录本数(TPM)+ 1] 归一化。黑色方块突出育种选择的单倍型,灰色区域表示单倍型缺失。e, SUS2 的单倍型变异,其中 Ss_hap1 被鉴定为育种优选单倍型。f, 595 个样品中 SUS2 Ss_hap1 拷贝数变异的频率;柱状图代表样品计数和比例。虚线代表...
[4] 图 4 | S. spontaneum、S. officinarum 和 S. hybrid 的选择性清除分析。a, 在 S. spontaneum 群体(n = 290 个独立品种)中通过群体内比较鉴定的选择性清除信号的全基因组分布。以 S. spontaneum82-114 的T2T 单倍体基因组作为参考基因组。b, 在 S. officinarum 群体(n = 78 个独立品种)中以 S. robustum 群体(n = 43 个独立品种)为对照,通过群体间比较鉴定的选择性清除信号。以 S. officinarum XZ 的T2T 单倍体基因组作为参考基因组。c, d, 在 S. hybrid 群体(n = 613)中,分别以 S. spontaneum(c;n = 290)和 S. officinarum(d;n = 78)为对照,通过群体间比较鉴定的选择性清除信号。清除候选区域定义为全基因组 uStat(a)或 XP‑CLR(b–d)值前 5% 的基因组窗口。具有潜在功能相关性的基因在曼哈顿图中突显。e–h, 目标基因座(SUS2(e)、FT(f)、TB1(g)和 BX8(h))的局部群体固定统计量(FST)和 XP‑CLR 图谱,突出显示 S. hybrid 群体中受到强烈选择的区域。i, 选择性清除区域中与生长发育、液泡发育及抗病性相关的等位基因的表达分析。采集茎和叶组织,每个组织设三个生物学重复(n = 3)。表达水平以 log[TPM + 1] 表示。j, 勾勒甘蔗自然选择和人工选择的模型。在野生甘蔗(S. spontaneum)中,与抗病性和根系发育相关的基因受到自然选择。在 S. officinarum 的早期驯化过程中,选择性清除靶向了与开花时间和糖代谢相关的基因。经高贵化育种后,现代甘蔗杂交种(S. hybrid 品种)的作物改良努力...
[5] 图 5 | 薄壁细胞性状的全基因组关联分析。a–d, 四个组代表性的茎横切面,展示薄壁细胞组织:两个祖先种(S. spontaneum(a)和 S. officinarum(b))、低糖甘蔗杂交品种(Cul‑L)(c)和高糖甘蔗杂交品种(Cul‑H)(d)。每组展示一副代表图像。每组显微观察独立重复三次,结果相似。a–d 图标尺均为500 μm。e, 四个组的锤度(Brix %)测定值。每个生物学样品测量15 次(n = 15 个独立生物学重复)。数据表示为均值 ± 标准差。统计学显著性采用双侧 Student’s t 检验。f, 四个组的薄壁细胞大小,从每个生物学样品的15 个显微视野中量化。n = 15 个视野/组。数据表示为均值 ± 标准差。统计学显著性采用双侧 Student’s t 检验。g–i, 265 个品种(n = 265)中薄壁细胞大小(μm²)(g)、细胞密度(细胞数/mm²)(h)和锤度(Brix %)(i)的全基因组关联分析结果。y 轴显示 −log10[P],其中 P 值表示 k‑mer‑性状关联的显著性,使用 KMERIA 中线性混合模型的双侧 Wald 检验确定。水平虚线表示 Benjamini‑Hochberg 错误发现率校正显著性阈值,P 值分别为 5.10 × 10⁻⁷(g)、5.06 × 10⁻⁷(h)和 3.85 × 10⁻¹¹(i)。e 和 f 的精确 P 值见源数据。**P < 0.01。【优点】这是一部多倍体基因组学研究的“工业革命”级范本。文章没有止步于简单地“测出一个序列”,而是针对甘蔗这个堪称地狱难度的基因组,自主打造了从组装(C-Phasing)到定量表达(Allele-Express)再到关联分析(KMERIA)的全套闭环工具,这种极致的“工具驱动型”研究极具气势和实用价值。其次,生物学故事讲得极其丰满且有理有据,不仅宏观上勾勒出全球甘蔗的“家族族谱”,微观上还精细到像SUS2基因内几十个碱基的插入缺失及其最优剂量效应,把宏观育种与微观分子机制完美缝合,指明了精准育种的目标。技术的多维交叉验证也令人印象深刻,比如关键的染色体5g1的重组事件,直接在显微镜下用Oligo-FISH染色体涂染技术做了彩图验证,这种直观的证据极其有说服力。【短处】奠基品种的历史局限性值得深思。虽然POJ2878是‘国王’,但过度锁定一个近百年前的历史品种,可能会让我们在未来育种中陷入‘遗传盲区’。研究揭露了超过95%的品种带有它的血缘,这在种质资源上是一个巨大的脆弱性警示。此外,功能验证的深度略显不足,虽然过表达SUT2看到细胞变大,但如何从细胞层面直接导致糖产量提高的具体生理生化路径,以及这些转基因材料在真实大田环境下的产量表现和抗逆性是否妥协,仍然留有悬念。最后,这张超级复杂的图谱对计算资源的需求是饕餮级的,要让全球大多数甘蔗育种实验室将这套算法落地到日常育种筛选中,可能还隔着一条运维成本和生信人才短缺的鸿沟。声明:仅代表作者个人观点,作者水平有限,如有不科学之处,请在下方留言指正!华研科技(www.cqhuayan.cn)由中科院博士成立,是一支具有科研背景及丰富科研绘图经验的团队,专注于期刊封面、论文插图(TOC/流程图/摘要图/示意图)、科学动画、宣传片、科普视频等设计制作,科研绘图培训/专场培训,为国内外高校和科研院所提供丰富的可视化服务方案。设计作品已发表在Nature、Science、Cell等国际著名杂志上,服务客户的研究领域涵盖生物、物理、化学、医学、计算机、人工智能等各个学科,提供的科学可视化手段包括三维建模、手绘、VR/AR、数字孪生等。华研科技志在为广大科研工作者提供完美的科学可视化服务,节约您宝贵的时间和精力。(如有需要请添加文末微信)