†The International HapMap Consortium., Genotyping centres: Baylor College of Medicine and ParAllele BioScience., Gibbs, R. et al. The International HapMap Project. Nature 426, 789–796 (2003). https://doi.org/10.1038/nature02168

本文是一篇综述性文章,介绍了HapMap工作。作者团队建立了国际HapMap项目,以寻找人类基因组中DNA序列变异的常见模式。国际HapMap项目的目的是通过表征非洲,亚洲和欧洲部分地区祖先群体的DNA样本中的序列变异,其频率以及它们之间的相关性,来确定人类基因组中DNA序列变异的常见模式

目录

  • “标签SNP”与HapMap的概念和经验基础
  • 基因分型
  • 数据分析

相较于直接对患者进行全基因组测序来获取变异信息这一“直接方法”,来自人类群体遗传学的两个见解表明,通过仅限于对潜在疾病相关候选变体的候选基因功能部分(基于先前的功能或遗传假设进行选择)进行测序间接方法(来获知特定基因组区域与疾病之间的关联)相对于直接方法能够在捕获大多数人类序列变异的基础上效率更高:

  • 首先,个体中约90%的序列变异是由于共同的变异
  • 其次,这些基因大多数最初是由历史上的单个突变事件引起的,因此其与祖先染色体上附近发生的突变会有关联
  • 这一关联可用于开发SNP marker。“祖先染色体上附近发生的突变位点”未必需要具有功能,其本身的存在与否即可反映出某种与疾病相关的变异的存在与否。

“标签SNP”与HapMap的概念和经验基础

图中,(a)代表染色体上6,000bp长度中大部分位点基因型是一样的,(b)表示将6kbp上所有SNP位点汇集在一起,区分出了单倍型,(c)代表仅通过3个标签SNP就能辨别出四种单倍型而不用测定全部位点。

nmap mysql爆破_数据分析

SNP等位基因在这些单倍型上的一致性会导致群体中这些等位基因之间的关联(称为连锁不平衡,LD)。因为两个SNP之间重组的可能性随它们之间的距离增加,所以平均而言,SNP之间的这种关联随距离下降。

许多经验研究显示在人类基因组上LD的高度显著水平,以及相近的SNP之间经常强关联。这些强关联意味着,在许多染色体区域只有少数的单倍型,而这些单倍型覆盖了群体在这些区间上的大多数变异类型。通过使用基因组中存在的LD的知识,可以在不损失信息的情况下实现基因分型量的显着减少。

一个区域中SNP之间的强关联具有实用价值:对该区域中少数几个经过精心选择的SNP进行基因分型将提供足够的信息,以预测有关该区域其余普通SNP的许多信息。其结果是,只有少数“标签”SNP能够满足确定一个区域中的每个的常见单倍型的要求。

对于通常比稀有SNP历史更为久远的普通SNP,LD的模式在很大程度上反映了历史重组和人口统计事件。一些重组事件的“热点”重复发生。这些过程的结果是,当前染色体是祖先染色体区域的镶嵌图。这解释了以下观察结果:LD的单倍型和模式由种群内以及通常在种群之间的明显无关的染色体共享。

基因分型

每个基因分型中心负责对分配的染色体区域上所有选定SNP的所有样本进行基因分型。在这些中心中,总共使用了五种高通量基因分型技术,这将为比较它们的准确性,成功率,通量和成本提供机会。

在项目开始时,为所有中心分配了相同的随机选择的1500个SNP,用于在用于该项目的90个CEPH DNA样品中进行分析开发和基因分型。基因分型中心产生的数据平均完成率超过99.2%,准确率超过99.5%(与至少两个其他平台的共识相比)。

其次,每个基因分型实验均包括用于内部质量检查的样品,每个96孔板均包含五个不同样品的重复样品和一个空白。此外,来自trios的数据可检查SNP等位基因的孟德尔遗传是否一致。对于所有种群,无关样本的数据可检查SNP是否处于Hardy-Weinberg平衡状态(遗传交配模式的检验)。尽管一小部分SNP可能出于生物学原因未能通过这些检查,但如果基因分型平台出现一致的错误(例如召回杂合子),则它们更通常会失败。

第三,将随机选择每个中心保存的SNP基因型样本,并由其他中心重新进行基因分型。

这些严格的第三方质量评估将确保项目产生的数据的完整性和可靠性。

数据分析

该项目将采用现有和新方法来分析和显示数据。对于成对的marker间,LD将使用标准的措施,例如来计算\(d'\),\(r^2\)等。各种方法正在定义沿染色体的高LD和单倍型区域上被评估。现有的方法包括 ‘sliding window’ LD profilesLD unit mapshaplotype blocks沿染色体的减数分裂重组率的估计

在项目的第一阶段对LD进行分析后,将确定LD很少或没有LD的区域,并对其进行排名,以进行进一步的SNP选择和基因分型。未来将将开发和评估选择标记SNP的最佳集合的方法,以提供数据视图和标记SNP。

当HapMap用于检查较大的基因组区域时,对数万至数十万的SNP和单倍型进行疾病关联测试将产生多重比较的问题。这将导致难以区分真假结果。因此,新的统计方法,变异的复制研究和功能分析对于确认发现和识别功能上重要的SNP至关重要。