在人类基因组中,适应过程是怎样影响人类基因组多态性的?对此问题,研究者们尚未给出准确的答案。很大一方面原因是人类基因组中,经典的“硬性清除”并不常见;通常适应的发生是通过“软性清除”进行的。本研究通过机器学习的方法,对6个人群人类基因组选择性清除发生的情况进行了探究。结果发现,人类近期适应的发生绝大多数是软性清除,同时还显示,由于选择性清除导致的关联选择效应影响了基因组的绝大部分,这在一定程度上会导致有害突变频率的增加。
背景
研究人类进化的一个核心问题是,适应的发生在多大程度上驱动了进化,以及在多大程度上影响了基因组多态性。随着测序技术的进步,人类基因组数据在最近几年显著增加。这为我们回答上述问题提供了有利的条件。我们可以通过基因组中发生的选择性清除的情况来了解适应的作用。
当一个有利突变受到自然选择的时候,该突变的频率会迅速增加,该位点基因周边的基因多态性会因此出现不同程度的降低;等位基因频谱中,低频和高频等位基因缺失,位点周边连锁不平衡增强。这也就是我们所说的选择性清楚(selective sweeps)。我们可以利用这些特征设计方法来识别基因组中选择性清除。
识别选择性清除的目的通常有两种,一种是来推测基因组水平的适应性进化的速率,通过估计选择性清除对基因组多态性水平影响的平均值来达到这一目的,当然它并不关注具体选择性清除发生在哪儿。而另一种识别选择性清除的目的更为常见,即识别选择性清除在基因组中的位置,以此提示我们适应发生的具体过程。
在果蝇中,很多研究都证实了选择性清除对果蝇自然种群适应发生的重要意义。但是在人类中,相关的研究还不是很清楚。当然,也有一些研究报道了人类基因组中可能的受选择位点。也有一些研究认为人类中适应对基因组多态性影响很小。研究人类基因组一个很大的难题是人类群体史。人类群体经历的瓶颈事件和近期的人口大增长,会很大程度上干扰研究结果,造成很多和选择性清除很相似的基因组信号。此外,很多关于选择性清除的识别扫描工具都是针对硬性清除的,如果人类基因组像果蝇基因组那样受到众多软性清除的影响,那么通过这些工具得到的研究结论会很大程度上低估选择性清除的作用。
本文使用了机器学习方法-S/HIC,对1000基因组工程中的6个群体的基因数据进行了扫描,识别并分类不同类型的选择性清除。本方法受到群体史造成的干扰影响较小。研究显示,软性清除以及和软性清除相关的效应很大程度上影响了人类基因组多态性。同时还显示非洲以外人群受到硬性清除的影响比非洲人群大。
结果
本研究的6个人群:2个西非人群(YRI, GWD),1个东非人群(LWK),1个欧洲人群(CEU),1个东亚人群(JPT),1个美洲人群(PEL)。
选择性清除概况
通过S/HIC方法,在6个人群体中一共识别出了1927个选择性清除,其中190个(9.9%)是所有6个群体共有的。59个(3.1%)是非洲群体共有的;71个(3.7%)是非洲以外群体共有的;701个(36.4%)是单独人群共有的;剩下的906个是非特异性的。在所有1927个选择性清除中,有1776个(92.2%)是属于软性清除。如下表:
【在6个研究人群中,不同类型识别结果的分布】
同时,在1927个选择性清除中,有1408个(73.1%)是属于新发现的,剩余的26.9%在之前的研究中有过报道。
尽管硬性清除比例很少,但是其在非洲以外人群中硬性清除的数量显著比非洲人群多。
选择性清除多涉及肿瘤和病毒感染过程
识别出的选择性清除富集于基因组的编码区和非翻译区,特别是和肿瘤细胞相关的基因区域。软性清除在肿瘤相关基因区域富集度比其他基因组区域多出3.7倍,硬性清除富集度比平均值高出12倍。此外,编码病毒作用蛋白(VIPs)的基因区域软性清除比预期值高出1.9倍。
选择性清除增加了有害变异
S/HIC不仅能够识别出清除位点,还能识别出受清除位点影响的基因组区域。整个基因组有7.6%的扫描窗口被判定为选择性清除,但是基因组中有超过一半的区域受到因选择性清除造而造成的关联影响[41.5% - 74%.0](背景选择作用)。受此影响,硬性清除关联区域有害SNP的富集度是平均值的1.3倍,软性清除关联区域有害SNP的富集度是平均值的1.1倍。
近期清除发生靶标是有性生殖、中枢神经系统和免疫系统
对清除影响的基因进行GO富集性分析,发现在多个人群中“精子发生”(4.5倍)、“精卵识别”(3.9倍)富集于的软性清除中,而“谷氨酸受体信号通路”在每一个群体中都富集于软性清除了。值得注意的是谷氨酸受体是对大脑的发育和功能有重要意义。而且本研究也确实在软性清除中发现了“中枢神经系统发育”相关的基因富集现象。此外还发现了免疫应答,特别是适应性免疫相关的基因富集。
选择性清除实例
一个例子是和精子发生有关的基因。在9号染色体上发现了之前从未被报道过的很强的硬性选择信号。这一新发现的区域含有多个与精子发生基因家族:SPATA31B1, SPATA31D1, SPATA31D3和SPATA31D4。在该区域核酸多态性pi、Tajima’s D显著降低,CLR统计量增高。如下图:
【红色区域 - 硬性清除;浅红色区域 - 硬性清除相关区域;蓝色区域 - 软性清除;浅蓝色 - 软性清除相关区域;同时对于CEU人群,还显示了pi, Zns, Tajima’s D和CLR的信号强度】
另一个与选择性清除有关的例子来自11号染色体。在CADM1基因的区域新发现了一些软性清除的信号。该基因在老鼠中被证实是精子发生必需的基因,同时也是多种肿瘤的抑制性因子。此外,在大脑中突触黏连的地方,CADM1基因会变得很活跃,因而其可能有自闭症有关。所以该基因受到选择,说明了多种适应的发生,包括神经递质、精子发生和肿瘤抑制等。
【图例如上图,黑色区域表示未受到选择性清除影响的中性区域】
结论
之前很多对选择性清除的研究主要是识别“不完全清除”,即在种群中还在发生的清除过程。在人类中,该过程发生比较快,大概是400代(选择系数0.05)- 4000代(选择系统0.005),所以很多已经发生完成的选择性清除可能被之前的研究忽略掉了,本研究使用的S/HIC方法,能够识别已经完成的选择性清除。
本研究最大的发现是,人类基因组中发生的大部分清除事件都是软性清除。所以人类的适应可能并不受限于新发变异数量的多少。人类的适应可以利用既有基因多态性,而且这种适应发生的过程一般会更迅速。在果蝇中,研究同样发现软性清除的普遍性,所以软性清除在群体适应的过程中发挥的重要作用应该是一个普遍的现象。同时在非洲以外人群有相对较多的硬性清除,主要是非洲群体有效人口数量较大,而非洲以外群体经历了群体的瓶颈事件,有效群体数量少,种群多态性降低,适应性可能出现在多态性很低的位点上,所以选择性清除被“硬化”的现象。
本研究另一个重要发现是基因组有超过一半的区域受到清除事件的关联影响,也就是背景选择。这就意味着,平时我们在做群体学模型中用到的“中性假设”存在很大问题,基因组并不是主要受遗传漂变等随机事件的影响,背景选择对基因组多态性发挥了重大的作用。同时这也意味着,很多有害变异可能会因此提升其在群体中的频率。这种现象不仅出现在人类中,有研究发现在狗群体中,也存在因为清除发生而导致有害变异频率升高的事件。
【欢迎转发分享,转载请注明出处】
文献来源:Schrider, D. R., & Kern, A. D. (2017). Soft sweeps are the dominant mode of adaptation in the human genome. Molecular biology and evolution, 34(8), 1863-1877.