在人类基因组项目发布第一个人类基因组草图的20多年后,研究人员发布了人类“泛基因组”草图——这预示着一种新的参考基因组的出现,它能捕获到更多的人类遗传多样性信息。
泛基因组变异图由两个元素组成:序列图,其ode表示定向DNA链,双向边表示连通性关系;嵌入的单倍型路径(彩色线条)代表单个的组合。
“这就像从黑白电视跳到1080p,”加州大学圣地亚哥分校的基因组科学家Keolu Fox说。
“这是我们所有人都一直在等待的事情,”比利时列日大学和刚果民主共和国金沙萨大学的遗传学家Aimé Lumaka说。“当前的参考基因组不仅缺少部分基因组信息,而且最重要的是缺乏多样性,”他说。
该泛基因组草图于5月10日发表在《Nature》,是由人类泛基因组参考联盟(The pangenome consortium)完成的。该国际项目成立于2019年,旨在绘制人类遗传变异的整体分布图,以便遗传学家能够将其他序列与之比较。这样的参考基因组将有助于研究基因与疾病之间的潜在联系。
继2022年发表的第一套完整的人类基因组序列之后, 泛基因组草图填补了人类基因组项目留下的空白。但与原始的人类基因组草图及其后继者不同,前者主要来自一个人的DNA,泛基因组草图代表了来自非洲、美洲、亚洲和欧洲的47人的DNA序列集合。
纽约市西奈山 (Mount Sinai)医学院的遗传学家Eimear Kenny和她的同事通过计算机对所有这些序列进行了比对,形成了一个“泛基因组图”——在概念上类似于伦敦地铁图,其中的分支路径表示遗传变异。研究人员发现,泛基因组使他们能够在每人身上识别出两倍于使用原始线性参考基因组可能识别出的结构变异——大的基因组改变,如基因重复或缺失。该团队将于2024年中期完成350人的序列分析。(MP长篇综述 | 植物泛基因组及其应用)
泛基因组的新发现
泛基因组增加了1.19亿个DNA碱基,这些DNA碱基在现有的人类基因组(参考基因组)中不存在。大部分DNA位于之前未知的基因组部分, 其中包含与DNA其他区域重复的多个基因拷贝。
这些重复部分的变化速度快于基因组的非重复部分,华盛顿大学的人类遗传学家Evan Eichler说,他是人类泛基因组参考联盟的领导者之一。Eichler和同事研究这些重复区域产生的变异类型时发现,"一个非常强烈的信号表明正在发生的变异本质上不同于基因组其余部分的变异,"他说。
这些重复区域的部分区域与人类相对于其他物种的大脑以及与其他灵长类动物区分开来的特征有关。其他一些区域与某些特征或疾病有关。
泛基因组是如何构建的?
大约20年前的人类参考基因组主要来自一个人,但它最终是由60多人的DNA测序拼凑起来的(SN:3/4/21)。这些年来一直在重编和添加,但仍有漏洞。
去年,第一个完整的人类基因组被发布(SN:3/31/22)。这个基因组包含每个人类染色体从端粒到端粒的所有DNA。只是这个基因组不是来自一个完整的个体。它来自一种称为滋养细胞胞瘤的肿瘤。这些异常肿瘤的产生是由一个人的精子与一个空卵结合,父本的染色体被重复。
这样的肿瘤遗传信息"甚至不代表一个个体。它只来自一个个体的一半,"马里兰大学医学院的人类遗传学家Timothy O’Connor 说。他未参与这两个项目中的任何一个。
新的泛基因组草图来自实际的个体,包含来自世界不同地区的47个匿名人的近乎完整的DNA。这个多样性很重要,"因为它帮助我们理解我们自己作为一个单一的人类物种," O’Connor说。
过去的遗传学研究因过度依赖欧洲血统的DNA而受到批评。仅研究一个人群可能意味着错过特定人群产生的遗传变异, O’Connor说。"拥有泛基因组参考序列使我们以更细致的方式评估不同人群的特异性变异。希望这将带来对个体生物学更深入的研究。"
泛基因组对人类健康的重要性如何?
对人类遗传多样性有更全面地了解,可以帮助研究人员揭示各种疾病和紊乱的遗传基础。
研究人员使用泛基因组图谱追踪染色体如何折叠进而使不同部位彼此接调控。科学家可以看到结构变异中的一些折叠和化学标记,这可能会影响基因的开启和关闭。这可能会影响性状或健康。Eichler的团队还绘制了一个基因转换(将另一个拷贝转换为自己的图像)的泛基因组版本。这些基因转换意外地普遍,平均每个人拥有超过2000个这样的转换实例。
随着对人类遗传学更为细致和复杂的认识,基因医学有望得到改善。但Eichler表示,泛基因组在医疗诊所产生影响可能还需要一段时间。
研究人员希望泛基因组能帮助他们更容易诊断导致罕见疾病的基因变化,并找到常见疾病的治疗方法。一旦实现这一目标,临床医生可能会开始将泛基因组数据纳入自己的临床试验。
伦理道德的挑战
在新闻发布会上,Kenny和泛基因组联盟的其他研究人员称,该项目将确保遗传数据在伦理道德允许的范围内收集和使用。Kenny表示,该联盟已承诺样本将不包括本土部落或其他正式政策禁止提供样本的群体的成员。
然而, 包括Fox在内的研究人员担心该项目重复使用其他大规模遗传多样性项目的样本会存在伦理问题的风险(许多正在分析的样本来自2008年启动的1000基因组项目(1000 Genomes Project,该项目旨在绘制26个不同人群的遗传变异图)的参与者。)。例如,20世纪90年代的“the Human Genome Diversity Project”和正在进行的“All of Us Research Program”项目因未能与其抽样DNA所属的社区成员进行充分沟通而受到批评。
“当然,我们将使用新的数据集和新工具进一步推进对人类基因组结构变异的认识。我们应该努力实现从最基本的层面上公平地将代表人数不足的社区纳入这项工作,”亚利桑那州立大学的遗传流行病学家和生物伦理学家Krystal Tsosie说。Tsosie也是以美国原住民科学家和部落成员为主导的非营利研究机构Native BioData Consortium的共同创始人。“如果研究首要的不是使各社区受益,那么我们做的就是根本错误的事情,”她说。
Fox同意Tsosie的看法。他担心人类泛基因组参考项目的数据可能被制药行业用于商业目的而不会给研究参与者或他们的社区带来实实在在的好处。
重新审查知情同意
华盛顿特区的霍华德大学遗传学家Latifa Jackson指出,1000基因组项目部分依靠许多年前收集的样本。“我担心许多参与泛基因组的地区有在20世纪80年代根据不同的政治和社会结构收集的样本,”她说。“我们需要重新审视在30-40年前在不同的政治结构下收集样本的知情同意书。”
“我们认识到这项工作处在基因组研究的最前沿,具有特定特征,包括开放数据访问,这需要大量考虑,其应用也会提出伦理、法律和社会问题,”Kenny在新闻发布会上说。“我们不仅依靠自己的专业知识,而且在世界各地的学者和组织的工作基础上,注意到许多陷阱,并系统地审查,汲取教训,并把这些教训带入这个新计划。”
人类全基因组参考联盟(Human Pangenome Reference Consortium)在此呈现了人类全基因组参考序列的初步草图。该全基因组由来自基因多样化个体队列的47个单体型的二倍体组装构成。这些组装涵盖了每个基因组预期序列的99%以上,并且在结构和碱基水平上的准确性超过99%。基于这些组装的比对,我们生成了一个全基因组草图,其中包含已知变异和单倍型,并揭示了结构复杂位点的新等位基因。此外,与现有参考基因组GRCh38相比,我们还增加了1.19亿个碱基的常染色体多态性序列和1,115个重复基因。其中大约有9000万个碱基来自结构变异。使用我们的全基因组草图来分析短读长测序数据,与参考GRCh38的工作流程相比,可使低频变异发现的错误降率低34%,并且每个单倍型检测到的结构变异数量增加了104%,这使得我们能够对每个样本中的大多数结构变异等位基因进行分型。
访问Github获取组装资源:https://github.com/human-pangenomics/hpp_pangenome_resources
阅读原文内容:
- 1. https://www.sciencenews.org/article/new-human-pangenome-biology-dna-diversity
- 2. https://www.nature.com/articles/d41586-023-01576-y
查看原文信息: