(通讯员:陈小可,程铭悦;)
青藏高原面积250多万平方公里,平均海拔4500多米,是世界上海拔最高、面积最大的高原。其独特的地形特征使青藏高原成为众多河流的主要源头,并作为水塔滋养着周边地区近20亿人。青藏高原内多样的水生态系统,包括冰川、湿地、温泉、湖泊和河流,孕育着丰富多样的水生微生物。且这些微生物群可能在青藏高原极端环境条件例如剧烈的温度波动、低氧浓度、低压和强烈的紫外线辐射中表现出独特的组成和代谢模式。然而,青藏高原特别容易受到包括全球变暖在内的气候变化的影响,遭受水储量的大量流失(自2002年以来每年损失100亿公吨)。为了实现“美丽中国”美好愿景,亟需对青藏高原水生微生物资源进行分类和保护。
羊卓雍措 (来源:罗帅)
近期,华中科技大学宁康教授团队与中科院水生所缪炜教授团队搜集了来自青藏高原盐水湖、淡水湖、河流、温泉、湿地以及冰川的498个水体样本并进行了宏基因组测序,建立了一个全面的青藏高原水生微生物组的基因组和基因目录(Tibetan Plateau Microbial Catalog,TPMC)。TPMC中包含着32 355个中高质量的宏基因组组装的基因组(Metagenome-assembled genomes,MAGs)扩展了我们对该地区基因组多样性的了解。这些基因组进一步聚类到10 723个微生物物种,其中88%为未注释物种。除此之外,TPMC中包含近3亿个非冗余基因(15%为新基因); 以及73 864个生物合成基因簇(50%为新基因簇),从而拓展了目前已知的微生物功能多样性。研究团队利用这些数据,研究了青藏高原水生微生物群落在横跨2500公里的距离和超过5公里的海拔范围的中国三级阶梯地形上的生物地理学。研究发现与青藏高原微生物组的微生物组成相似性和共有基因数量随着距离和海拔的差异增大而下降,揭示了一种微生物的传播模式。TPMC是高海拔水生微生物资源的重要资源库,蕴藏着发现新的微生物谱系和功能的巨大潜力,并填补了微生物组生物地理学的知识空白。相关工作以“A genome and gene catalog of the aquatic microbiomes of the Tibetan Plateau”为题发表在Nature Communications。
【文章要点】
TPMC提供了一个庞大的基因组资源,包括来自多种水生生态系统的超过33 000个MAGs
TPMC包含了32 355个中高质量的MAGs(图1a),平均完整度达到78.1%,平均污染度为2.6%(图1b)。其中,25 017个MAGs的质量分数超过50,2 024个被划分为高质量。按照95%阈值的平均核苷酸相似度(Average nucleotide identity, ANI)和30%阈值的对齐分数(Aligned fraction, AF),这些MAGs进一步聚类为10 723个物种(图1c)。通过与来自目前最完整的细菌古菌数据库GTDB的85 205个代表基因组、地球基因组数据库GEM的22 746个代表基因组,以及已发表的青藏高原冰川基因组数据库TG2G的3 241个代表基因组进行比较,10 723个物种中分别有91.64%, 98.46%, 98.78%和99.98%展现出较低的相似性。其中,9 698个物种(90.44%)没有匹配到以上任何公共数据库,包含6 335个质量分数大于50和465个高质量基因组。TPMC将目前的GTDB数据库扩展了约11.5%,将GEM数据库扩展了约46.4%,从而在很大程度上促进了全球微生物组图谱的完成。此外,研究发现绝大多数物种的MAG只在单一地区(n = 9,888, 92.2%)或水生态系统(n = 9,295, 86.7%)中组装出来(图1d-e)。值得注意的是,只在湿地组装出来的MAG数量显著高于其他水生态系统。这些结果表明,青藏高原湿地资源中微生物基因组的发现具有区域与水生系统特异性。
图1 TPMC宏基因组组装基因组的环境和地理分布及其物种水平的聚类
利用GTDB来对TPMC物种做分类注释,研究者发现了TPMC中丰富的物种多样性,涵盖了83个已知门、186个已知纲、470个已知目、952个已知科、1 835个已知属。进一步,研究者构建了TPMC物种的系统发生树,并突出显示了包含超过1%总MAGs的前11个门(图2a)。在这些门中,Pseudomonadota (n = 10 183, 31.5%)、Bacteroidota(n = 7 551, 23.3%)、Actinomycetota(n = 6 163, 19.0%)和Verrucomicrobiota(n = 1 993, 6.2%)占主导地位。然而,仍有相当多的TPMC物种(n = 9,384, 87.5%)仍未被注释。
图2 宏基因组组装基因组进化树及其生物合成潜力
TPMC拥有近3亿个非冗余基因,超过73 000个生物合成基因簇具有巨大的功能潜力
研究者从498个宏基因组中共预测出522 671 245个基因并进一步聚类为296 289 678个非冗余基因。使用NR、UniRef50和Swiss-Prot数据库对非冗余基因目录进行分类和功能注释,得到的注释率分别为82.4%、79.8%和35.1%。使用COG、KEGG、CAZy、GO、CARD和VFDB数据库进行功能注释,得到的注释率分别为66.9%、46.1%、1.7%、17.2%、0.01%和8.9%。共有46 670 736个(15.8%)基因未被任何数据库注释,定义为新基因。
TPMC基因在次生代谢物通路中显示出显著的功能潜力。为了评估TPMC的生物合成能力,研究者对所有32,355个MAGs使用antiSMASH预测总共得到73 864个生物合成基因簇(Biosynthetic gene clusters,BGCs)。这些基因簇被分为8组。萜烯(Terpenes)基因簇是最丰富的一类BGC,占总BGC的43.0%(n = 31,734)。此外,我们从52个门中共鉴定出11 772个(16.0%)核糖体合成和翻译后修饰肽(RiPP)基因簇,从31个门鉴定出7 044个(9.6%)非核糖体肽合成酶(NRPS)基因簇,从18个门鉴定出2 043个(2.8%)聚酮合成酶I(PKS-I)基因簇,从14个门鉴定出1 859个(2.5%)聚酮合酶-非核糖体肽合成酶(PKS-NRPSs)基因簇。其中从Pseudomonadota(n = 24,987, 33.8%)和Bacteroidota(n = 16,670, 22.6%)预测出来的BGC总数超过半数(n = 41,657, 56.4%)。青藏地区淡水湖和祁连山地区的盐水湖在TPMC中表现出最高的生物合成潜力,分别鉴定出21 154个(28.6%)和15,959个(21.6%)BGCs。
为了评估TPMC生物合成基因簇的新颖性,研究者将73 864个BGCs聚类为18 414个基因簇家族(Gene cluster family,GCF)和2 681个基因簇类(Gene cluster clan, GCC)。然后,将GCFs与GCsC跟BiG-SLICE数据库进行比较。该数据库包含来自209 206个公开微生物基因组的1 225 071个BGCs。在TPMC中,研究者鉴定出10 128个(55.0%)新GCFs和1 471个(54.9%)新型GCCs。大多数BGC类型具有超过50%的新GCFs或GCCs(图2b-c)。这些发现表明,青藏高原细菌可能能够产生多种具有独特结构和功能的次生代谢产物,以应对恶劣的环境条件。TPMC具有广泛、多样和新颖的生物合成潜力,可以极大地扩展当前全球BGC资源。
此外,研究者鉴定了11个富含BGCs的物种,这些物种基因组至少能合成超过20个BGCs(图2d)。值得注意的是,来自Pseudomonadota中的具有最多BGC合成潜力的两种具有代表性的新MAG,分别被分类为Myxococcus caerfyrddinensis (80个BGCs,基因组大小为13 Mb)和Corallococcus sicarius(84个BGCs,基因组大小为10 Mb),它们在系统发育上接近,但地理分布不同。前者只在祁连冰川恢复,后者在青藏湿地恢复。近一半的M. caerfyrddinensis的BGCs(n = 38, 47.5%)和C. sicarius的BGCs(n = 35, 41.7%)是新发现的。
中国横跨2500公里的三级阶梯地形上微生物组的生物地理学
TPMG的建立使研究者能够研究从青藏高原到中国东海岸2500公里样带的微生物组生物地理学(图3a)。该样带具有基于海拔的阶梯状地形: 青藏高原本身是第一级阶梯(阶梯1),其特征是超过4公里的海拔; 第二级(阶梯2)在1至2公里之间; 第三级阶梯(阶梯3)则为低于0.5 km 的海拔。为了研究整个样带内微生物组的生物地理学,研究者收集了额外的来自于阶梯2(n = 15)和阶梯3(n = 19)的淡水样本,来自阶梯2(n = 40)和阶梯3(n=24)的河流样本,以及来自阶梯2(n=11)的湿地样本。然后将这109个样本与青藏高原498个样本结合起来分析,并以青藏高原作为参考坐标,比较了青藏高原内以及与其他阶梯之间的差异。分析结果显示,在同一水生态系统中,随着地理距离增加,样品间微生物相似性降低(R = –0.49,P < 2.2×10–16;图3b),而随着海拔差增加相似性也呈下降趋势(R = –0.47,P<2.2×10–16;图3c)。在河流样本中,青藏高原最丰富的Pseudomonadota数量沿着阶梯呈减少趋势,而其他丰富类群如Verrucomicrobia门则呈增加趋势(图3d)。
接着,通过对所有607个样本进行基因聚类分析,研究者构建了一个非冗余基因目录,其中包含329,568,659个单基因序列,并成为目前单一微生物组研究中最大规模之一。在功能层面上,研究者发现同一水生态系统内样品之间共享基因数量随地理距离增加而减少(R = –0.55,P < 22 × 10–16;图3e)以及随不断增加的海拔差而减少(R = –0.53,P < 22 × 10–16;图3f)。有趣的是,这些微生物相似性和功能的变化在河流生态系统中表现出连续性。此外,研究者发现地理因子与环境因子的影响相互交织且不易分离:地理变异(纬度、经度和海拔)与分类组成的相关性(RGeo|Env = 0.15, P = 0.001)略高于环境变异与分类组成的相关性(REnv|Geo = 0.11, P = 0.001)。这些发现揭示了微生物组生物地理学中潜在的扩散模式。对于与青藏高原地理距离和海拔差异越大的各种水生态系统,其微生物组与青藏高原微生物组的组成和功能相似性可能会呈现更少的趋势,这揭示了青藏高原可能不仅作为“水塔”还作为“微生物塔”的作用。
图3 TPMC微生物组生物地理学模式
【结论与展望】
TPMC代表了青藏高原不同水生态系统微生物组资源的综合目录,可为极端海拔和环境条件下的比较研究提供有价值的参考。该目录增进了我们对该地区微生物生物地理的了解,并有助于在酶学、环境保护和医疗保健方面的生物技术应用。
华中科技大学宁康教授和中国科学院水生生物研究所缪炜教授、熊杰研究员为该论文的共同通讯作者,华中科技大学程铭悦博士、中科院水生所罗帅博士和张鹏博士为本论文的共同第一作者。本研究属于P10K计划的成果之一,P10K(万种原生生物基因组计划)旨在破译微生物尤其是原生生物基因组序列,建立包含约一万种原生生物基因组信息的大规模遗传资源数据库,覆盖每个主要分枝的代表物种。P10K项目将在基因组水平完善微生物尤其是原生生物的进化树,帮助人们更好地理解生物多样性起源与进化、多细胞生物与有性生殖、极端环境适应,以及共生关系的形成机制。本研究受到青藏高原第二次科学考察与研究计划、国家自然科学基金、国家重点研究发展计划项目以及国家科技基础资源调查专项等项目资助。
机器学习