黑腹果蝇是很小的双翅目昆虫,起源于撒哈拉以南的非洲,现已经扩散到了除南极洲以外的所有大陆。在过去的两万年的时间内,它从非洲到了欧洲和亚洲,在最近的200年内,它又扩散到了澳大利亚和美洲。因为它的寿命周期短,很好饲养,所以在20世纪初就被William CastleThomas Hunt Morgan作为实验室模式生物。当遗传学定律还备受质疑的时候,Morgan首先通过果蝇证明并拓展了孟德尔的遗传定律,并以此证明了基因及其在染色体上的位置。Morgan也因此获得了诺贝尔奖【谁获得的诺贝尔奖最多?果蝇!】。其后,果蝇被进一步用于遗传学研究,并且取得了巨大进展,比如平衡染色体、特异性基因敲除突变、Gal/UAS系统的基因表达、CRISPR/Cas9基因编辑等。而且黑腹果蝇的基因组只有180Mb,是第一个被全基因组测序、组装、注释的有核生物。

除此之外,果蝇还是群体遗传学的有利研究工具。很多与群体遗传相关的成果都是首先在果蝇中发现的。TheodosiusDobzhansky及其同事最先对果蝇基因组变异进行研究的,尤其是对染色体倒置的变异。他这一开创性的工作揭示了进化是怎样影响基因变异水平的,为后来的进化理论奠定了基础。Hudson通过对5个自然种群中的11个果蝇的Adh基因变异情况的研究,第一次得到了果蝇DNA序列的多态性,并且发现43SNP位点中只有一个是非同义突变。在80年代早期,通过限制酶位点的多态性研究被用来量化不同位点的多态性水平,随后Sanger测序技术的出现,进一步推动了DNA水平上的多态性研究,发现了基因组存在的大量的同义突变、少量非同义突变、以及更罕见的插入缺失变异和转移元件。基于中性理论建立的无效假设,Hudson1987)通过比较不同物种之间的多态性和分化水平差异,提出了Hudson-Kreitman-Aguade(HKA)检验。其后McDonaldKreitman又进一步发展了该方法,称之为McDonald-KreitmanMK)检验,以此来识别蛋白序列中的正向选择。在中性理论的假设下,物种间在分化水平上的非同义替换(Dn)和同义替换(Ds)的比例应当和物种内在多态性水平上的非同义突变(Pn)和同义突变(Ps)的比例一致;如果物种间分化水平大于多态性水平,则意味着有正向选择的存在。通过MK检验,人们在很多物种中都发现了正向选择的现象。此外,通过果蝇,还有一个伟大的发现就是:核酸多态性水平和重组率水平成正相关关系。这也意味着自然选择对基因多态性有重要影响。

 

果蝇研究的数据来源

数据获取技术:利用果蝇作为研究材料的优势之一就是其易于在实验室养殖。通常,实验室种群是在野外采集受孕的雌性果蝇,形成一只单雌系品种。这样能够保证一个群体的遗传性状稳定。

单雌系:单雌系始于一只受孕的果蝇,其后代杂交。只要精心照顾,单雌系可以维持数年。如果种群数量比较小,那么这种高度的后代杂交会造成基因多态性的迅速丢失和杂合子的减少。所以一个比较好的单雌系几乎全部都是纯合子,整个单雌系应该看作是一个单独的基因组(不再是两个)。但是也存在一个问题,比如一些来自赤道地区的果蝇很难完成一个系的近亲交配,这可能是由于染色体倒置的存在,而且倒置区域含有有害隐形突变。在这些种群中可以发现长达500Kb的残留杂合子区域。此外,通常单雌系在实验室饲养的时候种群数量都不大,所以如果这期间出现新的突变,这些突变很可能会很快累积到很高的频率。所以单雌系在实验室养的时间越久,其和最初饲养时候的遗传状态差别越大,对野外品系的代表性也越差

单倍体胚胎测序:为了解决单雌系中残留的杂合子,Langley2011)通过扩增一个单倍体胚胎,然后对其测序。果蝇卵如果被含有ms(3)K81基因的雄性果蝇受精,那么该卵将无法进行发育,通过对这些未发育卵的基因组进行扩张和测序,可以得到高质量的测序数据。虽然一个卵只含有一个基因组,但是却能使我们得到phasedDNA数据。

基因组半克隆测序:以实验室高度近亲交配或单雌系为参考,拿实验室品系和野外品系杂交。对杂交子一代和实验室品系分别进行测序,然后通过生物信息学技术将实验室品系基因和野外品系基因进行区分,这样可以得到phased的野外品系的基因组数据。这种方法已经用在了果蝇的研究中,比如用它获得了200个北美黑腹果蝇野外种群的基因组数据。

池测序(Pool-Seq):在提取DNA之前将很多个不同个体放在一起,然后再提取DNA、测序。和单个个体的测序相比,池测序花费很低,对估计种群的基因频率很准确。当然,它的缺点是无法得到个体基因型和单倍体结构的信息,同时,也很难区分低频变异和测序错误。

值得注意的一点是,上面的各种方法都无法得到一个自然种群的杂合子个体的比例,也无法得到一个二倍体个体的杂合子位点的比例。

果蝇研究项目

第一个黑腹果蝇的基因组大概在2000年完成。在此基础上,果蝇基因组不断得到完善,参考序列的质量不断提高,基因注释进一步详细。所有版本的基因组和注释信息都向公众开放(www.flybase.org)。果蝇也是很早完成种内群体变异测序的物种之一,包括3个非洲种群(Malawi)和6个北美种群(NorthCarolina)。

DGRP(Drosophila Genetic Reference Panel)DPGP(Drosophila Population GenomicsProject)

最先对黑腹果蝇自然种群基因变异做研究的项目就是DGRPDPGP。两个研究分别独立测定了超过160个单雌系果蝇群体,所有的样本都来自北美,其中DGRP后来又把样本量扩展到了205个。  研究的主要目的是获得能够进行GWAS分析的果蝇全基因组测序数据。相关的基因型数据和表型数据都在网站可查(http://dgrp2.gnets.ncsu.edu)。DGRP的数据非常适用于定量遗传学,不过它的样本来源都是一个地方(美国东北部),很多地区(尤其是非洲地区的果蝇)没有包含在其中。也因此,DGRP的数据并不适用果蝇群体史的研究。

DPGPwww.dpgp.org)是一项还在进行的大规模果蝇测序计划,该计划除了北美的果蝇群体之外,还测序了非洲果蝇群体(Malawi,非洲),通过测序发现非洲群体的多态性比北美群体高出40%。其后进一步扩展了测序范围,又测定了22个非洲群体的139个个体,形成了DPGP2。通过DPGP2的分析,确认了非洲果蝇群体很高的多态性(尤其是Zambia群体)。之后,扩展了Zambia群体的样本量,增加到了197个,也就形成了DPGP3。值得说明一点的是,DPGP2DPGP3都是通过单倍体胚胎测序完成的。

DGNDrosophila Genome Nexus):DGN是一个整合了很多果蝇个体基因组的库,其中包括了DPGPDGRP。其目的是通过整合这些资源,来比较它们之间的不同。最近的DGN版本(v.1.1)总计包含了1121个来自非洲、欧洲、北美和澳洲的83个群体的果蝇个体基因组。通过比较这些群体可以看到来自不同地区果蝇的杂合子水平差异很大。

Dros-RTECDrosEU不同于之前对一个群体中的果蝇个体进行测序,Dros-RTEC(北美)和DrosEU(欧洲)使用过Pool-seq方法对野外群体的整体测序,以此来定量描述自然种群果蝇基因组在不同时间和空间上的变异水平。截至目前,DrosEU已经测试和分析了来自欧洲30个地区的48个的样本,并且首次发现果蝇群体结构随经度变异的现象。同时,对这些数据群体基因组学分析显示了很多新的受到正向自然选择的位点。Dros-RTEC测定了北美23个地区72个样本。该研究项目关注于果蝇对季节的快速适应,因而很多样本是在一个地点不同时间采集的,这样可以定量描述SNP多态性和倒置多态性随季节的变化规律。对数据的分析结果显示,与季节相关的等位基因频率显示出很强的周期性浮动。

其他果蝇数据源:除了上面提到的几个著名的果蝇相关研究项目外,还有很多通过对果蝇自然种群的研究,比如通过Pool-seq方法对北美和澳洲果蝇随温度梯度变化的研究,还有对奥地利维也纳、意大利博尔扎诺等地果蝇的研究,对550个南非果蝇种群的Pool-seq测序研究。这些研究对了解果蝇对不同空间时间的适应起到了很重要的作用。


中性进化

果蝇群体学分析

在果蝇亚组中有两个物种是全球范围内分布的,即D. melanogaster(黑腹果蝇)和D. simulans。剩余的8个物种仅分布在热带地区。

果蝇群体基因组学概况_java

果蝇的这种分布特征使得人们开始认为D. melanogasterD. simulans是起源于非洲热带地区的,现在这一推测被越来越多的人认可。在这一推测下,其他地区果蝇基因组的多态性应该比非洲地区的果蝇基因组多态性低。这和人类起源于非洲的猜想是很相似的。

David &Capy将世界分布的黑腹果蝇群体分为三个组:祖系种群、古代种群和新种群。祖系种群位于撒哈拉以南的非洲,大概在230万年之前从D. simulans中分化出来;古代种群分布在欧亚大陆,是在最后一次冰河世纪末期从非洲扩散出来的;新种群分布在美洲和澳大利亚,是祖系种群和古代种群跟随欧洲商船扩散并形成的混合群体。黑腹果蝇这一群体扩散模型虽然是根据少数基因位点推测的,但是越来越多的证据支持了这种推测。


果蝇群体基因组学概况_java_02

早期的研究发现,在非洲东部和南部的果蝇群体比西部群体更加接近于突变-漂变平衡,也就是非洲西部的群体LD水平更高,基因多态性水平更低。这说明非洲东部和南部可能是黑腹果蝇起源的地区。通过对撒哈拉以南非洲种群的研究,发现在大概6万年以前,果蝇经历了群体数量的迅速扩张。在很多相关的研究中,也发现非洲祖系种群(赞比亚、津巴布韦)中有过多的低频多态位点。通过溯族研究,也证实了种群扩张这一现象。最近,Kapopoulou估计赞比亚种群(祖系)和西非种群的分化时间大约在7.2万年之前。

走出非洲

通过对欧洲果蝇种群的分析显示欧洲种群和非洲种群的分离时间大概是1.3万年之前。不过这些研究没有将基因流考虑在内,因而估计的分离时间可能比实际的分离时间更短。Kapopoulou最近的分析将种群间的基因流考虑在内,估计的分离时间大概在4.8万年之前。亚洲和欧洲种群的分离时间估计同样受到了基因流的影响,不考虑基因流时,分离时间估计在5000年前,而如果考虑了基因流,分离时间在2.2万年之前。

黑腹果蝇的北美种群是近200年内被带入美洲的,不过自从进入美洲,其在25年的时间内就遍布了整个美国,意味着该种群经历了迅速的群体扩张。使用贝叶斯方法,对39DGRP果蝇基因组的分析显示,北美种群中是由85%的欧洲种群和15%的欧洲种群混合而成。这种非洲群体和欧洲群体的再次相遇能够解释北美和澳洲果蝇的南北差异,局部的自然选择压力抵抗了种群之间的基因流的同质化作用。同时这也为研究种群迁徙和自然选择在不同环境中的相互作用提供了很好的材料。

重组

在大多数真核生物的有性生殖中,重组确保了减数分裂中同源染色体的分离以及新基因型的出现。在减数分裂过程中,DNA双链可能断裂,并和直系同源序列进行重新组合,这儿有两种情况,一种是交叉互换(crossoverCO另一种是非交叉互换(non-crossoverNCO,基因转换)

果蝇群体基因组学概况_java_03

CO是互换了同源染色体互换了一段序列,而NCO就将一段序列复制到了另一段染色体上,并替换了原来的序列。不管是CO还是NCO,这两种重组在基因组进化中都发挥了重要的作用,它们决定了序列不同位点之间的关联系和相互影响性。 不过在黑腹果蝇中,重组只发生在雌性个体,雄性个体没有重组(“achiasmy”)。

90年代,很多果蝇相关的研究发现在重组率低的序列区域基因的多态性也低。重组似乎是基因多态性的主要决定因素。这一现象促使人们对重组和多态性之间的关系进行了更多的研究。

通常重组率的估计依赖于重组地图,将CO发生的频率(CM)量化到染色体物理图(bp)上。Begun & Aquadro20个果蝇基因的研究中,发现了CO发生率和核酸多态性水平之间有强正相关性。还有研究发现,CO在中心粒和端粒区域的发生频率明显降低

除了重组地图外,其他的方法也可以用来估计重组率。在一个群体中,连锁不平衡(LD)是对历史重组事件的反应,所以通过LD可以推测重组率,即重组参数ρ = 4Neϒ,其中ϒ就是每代每对碱基的交叉互换率。LDhatLDHelmet是可以用来估计重组率的软件。和人类基因组相比,果蝇基因组有更高的SNP密度,重组率也比人类高出很多,并且在基因组中有大量自然选择的印记。

Comeron提出了一种区分CONCO的方法。在果蝇中,在很近的序列区域内,CO之间会相互干扰,很少同时发生多个CO事件。基于NCO对序列影响的区域大小,Comeron分别估计了CONCO的发生率,并且得到了分辨率高达2kb的重组地图。CO的分布不同,NCO在染色体上的分布是均一的,有没有端粒都对其影响不大,NCO之间也很少会相互干扰。而且NCO的发生率比CO要大(有时可超100倍)。

在真核生物中,GC:AT的错配会优先修复GC错配,导致GC含量升高,这一现象也被称为GC偏倚(gBGC在人类基因组中,GC含量和CO发生率成正比,在高GC的区域基因重组发生率也高。

染色体倒置

染色体倒置于100年前最先在果蝇中发现。它是基因组的结构变异,对基因组的进化产生了很大的影响:倒置断点可能会打断基因序列,或者导致基因拷贝。当然,最重要的影响还是对重组的抑制,导致区域无法进行正常的重组互换。在人类中,倒置会产生很多生理疾病,而且多是有害的后果。倒置在果蝇的研究有很多,但是直到二代测序技术的应用,才使得人们能够在基因组层面定量研究倒置的影响。在果蝇中,倒置的发生频率和种群所处的纬度成相关关系,比如黑腹果蝇中的In(3R)Payne倒置。通过对非洲果蝇的研究发现,很多全球范围内存在的倒置在果蝇离开非洲之前就已经存在了;对DGRP果蝇的研究发现,倒置对种群分化产生很大影响,而且在倒置区域的分化水平也不是均匀分布的,分化水平在倒置区域的两端最高,中间最低,这说明倒置并不是完全抑制分化的。

转移元件

转移元件(Transposableelement, TE)是可以自由移动、自我复制的DNA重复序列,几乎在每一种真核生物基因组中都存在。因为TE本身就是突变因素(插入功能基因中,或者导致染色体异位重组),所以TE在种群进化和适应中扮演重要角色。(近乎)中性理论认为,TE的插入通常是中性或者有害的,但是少数情况下,也有有利的。一般认为TE在种群中是‘转移-选择平衡模型’,即TE序列在一个恒定水平下,在种群中自我复制,而自然选择(尤其是负向选择)会不断移除种群中的有害TE。这一模型预测TE在种群中应该是以很低的频率存在的。还有一种模型是“突发转移模型”(burst-transposition,认为TE的转移在种群中并不是恒定的,而是有一段时间内存在大规模转移。

用果蝇来研究TE的历史已经有25年了,但是最近数年的种群基因组大数据的出现使得人们有足够的证据来验证之前人们关于TE的假设和推论。在欧洲种群果蝇和北美DGRP果蝇中,分别有1020817639TE插入。大量的非外显子区域的低频TE插入,更加支持‘转移-选择平衡模型‘。不过也有研究显示TE家族的转移率差异很大,似乎也支持“突发转移模型”,但同时也发现了负向选择(purifying selection)对TE在种群中分布的巨大影响作用。

 

自然选择

果蝇一直被用来研究适应发生的基因机制,早在80年代初期,PCRSanger测序的联合使用使得人们有足够的数据对正向选择和负向选择做比较。其中最有代表性的成果就是重组率和多态性之间的正相关关系。这种正相关关系以为这自然选择对基因组的影响是十分巨大的,同时也动摇了中性理论在分子进化中的地位。在1991年,McDonald & Kreitman对果蝇Adh基因位点的多态性进行了研究,并提出由种群之间正向选择而造成的非同义替换的比例α = 1-(DsPn)/(DnPs),之后很多对果蝇的研究显示α=0.5,即果蝇种群中存在大量正向选择。

Hitchhiking效应

Hitchhiking最早于1974年由Maynard SmithHaigh提出。选择不仅造成被选择位点本身多态性降低,与之相关联的中性位点的多态性也会降低,受影响的中性位点的数量和重组率成反比,重组率越低,受影响的位点数量越多。Hitchhiking模型综合描述了受选择位点的压力、局部重组率和周围中性位点分布情况的关系。当种群中出现了一个有利突变时,该突变会造成附近中性位点的分布变化,在附近基因组上留下印记,这种正向选择过程和因此在基因组上留下的印记也被称为selective sweep(具体来说就是hard sweep)。很多检测群体中自然选择的算法和工具都是通过对这种印记的检测来实现的。果蝇是最早用来检测选择印记的生物,并且已经发现了很多与之相关的适应性位点。Selective sweep还有另一种形式,即soft sweep,即选择发生在1)复发性的有利突变2)现有多态性位点基础上。上述两种情况意味着,在选择发生时,受选择的位点存在不同类型的单倍体上(hard sweep受选择的位点仅存在于一种类型的单倍体),这也意味着,相对于hard sweep而言,soft sweep在基因组上留下的选择印记不会那么明显。对北美果蝇DGRP的研究发现,基因组中不仅存在大量的selective sweep,而且其中大部分是soft sweep。这也意味着在现有多态位点基础上或者多复发性突变基础上产生的正向选择对果蝇的适应有重要意义。

复发性hitchhiking和背景选择

复发性hitchhiking模型描述selective sweep的发生率和有利突变的适应度分布对基因组多态性水平的影响。很多研究结果显示,正向选择的发生率和强度都非常大,基因组中很多中性位点都受到正向选择的影响。但是同时也显示很难区分基因组中少数基因大效应和多数基因小效应之间的作用。

正向选择的这种对基因组的巨大影响受到了背景选择(background  selection)的挑战。由于负向选择对有害基因的作用,造成使得与之相关联的中性位点多态性受到影响,这种现象就是背景选择。Comeron的研究发现,背景选择的强度与局部重组率和有害突变率有关联,在常染色体中大概有70%的位点多态性水平都可以通过背景选择来解释。Elyashiv对果蝇基因组中的正向选择和负向选择同时做了模型研究,发现负向选择对基因多态性的影响要比之前人们认为的正向选择对基因多态性的影响大得多1.6 -2.5倍)。在黑腹果蝇和D. simulans果蝇之间,只有4% 的替换是由于强正向选择造成的,大部分(35-45%)的替换是很弱的正向选择所用。

所以我们在对基因组的研究中,不仅要知道正向选择对基因组多态性的影响,还有意识到背景选择同样在基因座多态性中发挥了重要的作用

对非编码DNA区域的选择

自本世纪初,越来越多的研究证据显示DNA的保守序列中只有一小部分是蛋白编码基因。在不同物种之间非编码区域显示了很高的相似性,这些区域也被称之为“保守非编码元件”conserved non-coding elements, CNE)。在果蝇中,大概有30%-40%的基因组区域是CNE,这么多的CNE的存在可能是因为很多顺式调节元件和功能性非编码RNA区域与CNE有重合,使得CNE变得如此保守。果蝇中,非编码DNA区域的进化速度比同义位点的进化速度慢,而且非编码DNA区域的物种之间的分化程度程度比多态性位点要大,这就意味着非编码DNA区域也受到自然选择,这和蛋白质的进化很像。通过MK的方法对津巴布韦果蝇群体非编码DNA区域的研究显示,内含子和基因间区中有20%的分化是正向选择造成的,UTR区域有60%的分化是正向选择造成的,所以推出正向选择对非编码DNA区域(尤其是UTR)区域有很大影响。对欧洲果蝇的研究得出了同样的结论。所以CNE区域不仅是突变率很低的“突变冷点”区域,也受到了负向选择和正向选择的作用。凸显了非编码区域对进化的重要作用。

对同义突变密码子使用的选择

MK检验的假设是四重简并位点(同义突变位点)是中性进化的,而非同义突变位点都受到了很强的负向选择或者正向选择。但实际上,同义突变位点和四重简并位点也可能受到自然选择,也就是密码子使用偏倚。对果蝇多态性和分化模式的比较显示,果蝇的同义突变位点确实受到了自然选择。同时发现,密码子偏倚水平和表达水平成正相关关系,和分化水平成负相关关系。在绝大多数果蝇中,密码子都倾向于GC结尾,对密码子偏倚的选择可能是导致GC含量增加的原因之一。一些研究在黑腹果蝇中寻找到了GC偏倚的选择证据,但是也有一些研究缺得到了相反的结果,发现很多对AT结尾的选择压力。

适应性染色体倒置

染色体倒置对生物的适应和进化发挥了很重要的作用。倒置可能会带来很高的适应性,因为倒置抑制了重组,避免了倒置区有利基因因重组而解离,能够在群体中迅速得到固定。在果蝇基因组中存在很多固定的倒置区域。同时倒置能够抑制基因流,对物种的分化起到了促进作用。

适应性转移元件(TE)插入

和其他很多类型的变异一样,TE的插入通常认识是有害的或者中性。当然有些TE会有有利的效应,因而受到正向选择。比如,如果插入直接影响了功能基因的表达,或者修饰了基因调节元件。

X进化(faster-X evolution

Charlesworth提出如果一个X相关联位点突变是半隐形的,那么它的进化率比常染色体上的位点要快。在雄性个体中(XY),X染色体上的隐性基因也会受到自然选择的作用,而且X染色体的重组率是常染色体的1.8,这就避免了Hill-Robertson干扰,提高了选择的效率。这些因素都是导致X染色体上的位点进化更快的原因。快X进化在不少果蝇中都能观测到。尽管非洲果蝇种群的X染色体上的多态性和常染色体差不多,但是其他种群中X染色体的多态性要比常染色体低,这可能是果蝇迁移出非洲后为适应当地环境而产生的正向选择的结果。在X染色体上重组对多态性的影响表现不那么突出,仅仅有比较弱的正相关性。

果蝇物种之间的分化水平在X染色体上的表现差异比常染色体更大。密码子使用偏倚在X染色体上也更为显著。当然,并不是所有的研究都证实快X进化的存在,有些研究并没有观察到X染色体上的基因比常染色上的进化的更快。


展望:时间和空间渐变群(cline

生物分布的地理空间广泛,以果蝇为例,不同种类的果蝇分布在不同的环境梯度中。这就为研究局部适应的进化机制提供了很好的素材。而且这种研究在果蝇中已经有很长的历史了。大多数研究都是研究随纬度渐变,比如对北美果蝇和澳大利亚果蝇的研究,还有一些研究观察到了随经度渐变的现象。很多果蝇的性状表现出了渐变趋势,如体重、翅长、繁殖力、寿命、热冷抵抗性等。同样在基因层面,也有这种渐变趋势,比如微卫星序列、SNP、转移元件和染色体倒置等。除了这些空间维度的渐变,在时间上有存在这种现象,对不同季节的快速适应导致了在时间上的渐变群的存在。

二代测序使得人们有大量数据在基因组层面对渐变群进行研究。人们发现,呈现渐变趋势的位点在基因组上并不是均匀分布的,而是聚集在大的染色体倒置区域,这也意味着染色体倒置在生物个体的局部适应中发挥了重要作用。另外,人们还发现有些渐变的多态性在不同的大陆上表型出了相同的形式,比如不管是In(3R)Payne倒置区还是Adh基因,在北美和澳洲大陆都发现有相同的分布(parallel adaptiveevolution,这意味着他们可能经历的相似的选择压力。不过很多对渐变群的研究发现渐变趋势并没有人们想象的那么大,在北美黑腹果蝇种群中,最南端的弗罗里达群体和最北端的Maine群体的比较中,只有不足0.1%SNP频率的差异的0.5以上。在其他果蝇群体也有这一现象。



===== THE END ====

资料来源:Haudry, A., Laurent, S., & Kapun, M. (2018). Population genomics on the fly: recent advances in Drosophila. arXiv preprint arXiv:1810.04910.

欢迎转发分享,转载请注明出处!

果蝇群体基因组学概况_java_04