NG|河北农业大学构建陆地棉T2T泛基因组,系统解析了着丝粒、端粒和rDNA等复杂的结构特征,揭示了结构变异在育种演化的作用.
2026年3月“Nature Genetics”杂志在线发表了河北农业大学马峙英团队的“A pangenome reference and population studies link structural variants with breeding traits in Gossypium hirsutum”研究论文,该研究组装了27个代表性陆地棉品种的T2T基因组,系统解析了着丝粒、端粒和rDNA等复杂的结构特征,结合转录组数据和1671份种质的表型数据,鉴定出多个纤维品质相关的结构变异,为棉花育种及改良提供了基因资源和育种靶点。研究人员对1671份陆地棉中的28个代表材料进行了基因组从头组装。首先,为农艺性状优良的品种NDM13构建了T2T(端粒到端粒)无缺口基因组,整合多种测序技术,最终获得2,294.02 Mb的完整基因组,填补了以往品种NDM8中的全部缺口(共18.39 Mb),发现了93个新基因,并解析了着丝粒、端粒和45S rDNA等复杂区域。同时,NDM13中的片段重复识别能力显著提升。随后,又以类似质量完成了另外27个棉花的近T2T基因组组装,总长度平均约2,294.90 Mb,具有高完整性和准确性。同时多个棉花基因组进行了注释,平均每个组装注释了约8万个蛋白编码基因,并鉴定出超过5.1万个保守的单拷贝直系同源基因。重复序列平均占基因组的62.65%,以反转录转座子为主。基于28份陆地棉材料构建了基因泛基因组,共获得85,211个基因家族,其中核心家族占52.95%,可变家族占47.05%。核心基因的表达水平显著高于可变基因和特有基因,尤其在纤维组织中表达最强,主要参与纤维发育等基础生物学过程。这28个基因组揭示了端粒、着丝粒和rDNA等染色体复杂区域的特征。所有染色体(除At09、Dt09、Dt07外)左右端粒平均长度约11.4 kb,含约1470个7-bp重复单元。端粒附近基因的转录活性显著高于其他区域。不同基因组间着丝粒位置和长度存在明显差异,如At08和Dt08上出现移位或延长,可能与附近的倒位有关。着丝粒区域越近,基因表达水平越低。平均每个基因组含236个45S rDNA,主要分布在At/Dt09、At/Dt05等染色体,而在At/Dt01等上缺失。5S rDNA平均拷贝数高达18,213,99.9%以上集中于At09和Dt09。与玉米相比,棉花45S rDNA较少而5S rDNA较多。
研究发现,棉花基因组中SD序列平均长度为470.58 Mb,占基因组的20.5%,显著高于人类(6.7%)。大多数SD块小于50 kb,染色体间SD的长度和数量是染色体内的两倍以上。A亚基因组的SD长度是D亚基因组的1.78倍,与亚基因组大小一致。约10.86%的SD对与基因重叠,其中75.33%会导致基因含量的增减。与SD相关基因的表达水平显著低于非SD区域基因,沉默基因比例更高。此外,研究还检测到平均每基因组1,929个CNV,包括拷贝数增加和减少。特定CNV(如CNV6848)影响多个基因的拷贝数和表达,如RPL28A和ABHD17等基因在不同棉花材料中存在差异表达。这些结果表明,SD和CNV在棉花基因结构创新、拷贝数变异及表达调控中发挥重要作用。
基于28个棉花基因组,鉴定出四种结构变异(SV):插入(INS)、缺失(DEL)、倒位(INV)和易位(TRANS)。平均每个基因组含7,746个SV,总计33,715个非冗余SV覆盖258.15 Mb。INS和DEL数量相对平衡,表明组装质量高。其中5,989个基因相关SV可能影响基因功能,且INS/DEL基因的表达水平显著高于非SV基因。SV在染色体上分布不均,发现202个热点区域,如At01和Dt01上的热点分别富集了木质素合成相关基因簇和抗病相关基因。共检测到81个INV,主要分布在At08、At06和Dt08,多数与重复序列相关,导致基因数目变化。另发现664个TRANS,以染色体间类型为主,易引起基因组成变化,相关基因富集于RNA修饰、酰基转移酶等功能,提示其参与植物生长发育及逆境响应。
为探究现代育种对棉花基因组结构变异(SV)的影响,比较了2000年后的10个现代品种与两个基础种质(Deltapine15和Xuzhou209),发现现代品种的纤维产量和品质更优。在所有现代品种中,分别有398和433个SV与两个基础种质相同,主要涉及基础代谢基因;而与基础种质存在差异的SV分别有7,211和7,930个。其中,关联分析和全基因组关联研究分别鉴定出393个和47个与纤维品质和产量相关的SV,表明这些SV对现代育种有贡献,例如两个具体SV分别影响纤维长度和强度。此外,分析差异SV所在基因(SV基因)发现,多数在组织中表达,功能富集于激素响应、UDP-葡萄糖-4-差向异构酶活性等,可能影响抗逆和纤维发育。相比两个基础种质,现代品种中分别有数千个基因上调和下调,表明差异SV改变了植物生长发育相关基因的表达。
以NDM13为参考,结合27个棉花的非冗余插入缺失,构建了基于图形基因组的整合基因组。他们对1,671份深度测序材料进行基因分型,鉴定出30,840个结构变异(SV),其中93.54%被成功分型,准确率较高。6,542个SV位于基因或调控区,2,382个SV与纤维品质和产量性状(如纤维长度、强度、铃重等)显著相关。进一步分析发现,1,027个SV与基因表达显著相关。例如,一个196 bp的缺失变异位于基因MHCKBL上游,导致该基因表达下降,纤维长度显著缩短;另一个2,845 bp的缺失导致CRPK1基因丢失,影响纤维强度。通过GWAS,共鉴定出2,768个与多项农艺性状显著关联的SV,为棉花遗传改良提供了重要资源。
该文章创新点
(1)构建了优良品种NDM13的无缺口端粒到端粒(T2T)基因组及组装了27个代表性材料接近T2T(near-T2T)的基因组。
(2)系统揭示了多种复杂基因组结构变异及其功能影响。
(3)整合了大规模的表型数据与SV变异,挖掘了隐藏的育种相关变异。
https://doi.org/10.1038/s41588-026-02523-z