本文对拟果蝇进化重测序实验中不同时间点的选择位点进行了比较,说明了足够的世代数对准确研究选择位点的重要性。

进化重测序实验evolve and resequence通常是将实验群体置于实验室环境,通过若干代的培养,并且在选取一定的世代数进行基因组测序,以此观察整个适应过程中等位基因频率的变化,并识别受选择位点。

随着测序价格降低,进化重测序实验应用越来越广泛。实验可以设置不同的群体数量大小,不同的重复数,不同的选择压力,以及不同世代数。但是受到实验材料的限制,特别是对于世代时间比较长的生物,世代数通常在二十代以内,很少有能够达到上百代的。

足够的世代数对实验有很大影响。足够的世代数意味着能够观测到足够显著的等位基因频率变化,以及产生一定的重组,得到更高分辨率的识别图谱。

方法

本实验的实验设置为:拟果蝇,60个世代,每10代进行一次池测序,同时设置10个重复。

本实验在3个层次上比较了短期和长期选择位点的差异:

1)SNP水平:Fisher检验和CMH检验识别SNP,通过Nest模拟,模拟初始参数匹配真实数据,以此确定筛选阈值和FDR。在第60代,一共筛选出了56,166个有意义SNP。

2)扫描窗口水平:窗口大小5000 SNP;通过随机过程在基因组中选择56,166个SNP,并判断每个窗口有意义的SNP数量,以此作为预期值。将预期值和实际值比较,选择出有意义的窗口。同时根据SNP的p值大小,对有意义的窗口内的SNP进行了排序,P值最小的排序第一。如果短期和长期选择没有差异,那么其P值在各个窗口内的排序也应该差别不大。

3)单倍体区块水平:对单倍体区块进行重建,比较单倍体区块识别率(即被包含在单倍体区块中的有意义SNP的比例)。

比较方法:Jaccard指数 - 两个集合的交集和并集比值:

果蝇进化重测序实验的短期和长期选择位点差异_java

取值范围0-1,0表示没有重叠,1表示两个集合完全一致。

结果和讨论

世代时间越长结果一致性越高


果蝇进化重测序实验的短期和长期选择位点差异_java_02

【通过Jaccard衡量不同世代之间选择出的有意义的窗口(上三角)及SNP(下三角)的相似性】

通过相似性的比较,可以看出,世代时间越靠后得到的结果相似性越好。比如对于SNP,第10代vs第20代时J=0.15;而第50代vs第60代时J=0.40。所以世代时间越长,表现出的选择压力信号越可靠。

此外,对各个窗口内SNP的排序也显示世代时间越长,结果的一致性越好。如下图(你可以理解为ROC曲线,但是本人对此结论有异议,越临近的两个世代结果一致性肯定越好,此图为所有世代和第60代比较,显然越靠近第60代一致性越好。):

果蝇进化重测序实验的短期和长期选择位点差异_java_03

【对不同世代vs第60代的窗口内SNP排序,每个窗口选取不同比例的SNP(横坐标)时,对应SNP的重叠比例(纵坐标),每条灰线表示一个窗口,黑线表示整体平均水平。】

对于SNP的检验是基于各个SNP位点相互独立的,但它们显然不是相互独立的,很多是存在LD的。所以,有必要对单倍体区块进行比较(单倍体区块考虑了LD的因素)。

单倍体区块的识别结果和SNP/窗口结果类似,世代时间越长,对单倍体区块的识别率越高。如下图:

果蝇进化重测序实验的短期和长期选择位点差异_java_04

【不同世代时间对单倍体区块的识别率】

通过上述在SNP,窗口和单倍体区块三个水平上的分析可以看出,实验世代数越多,得到的选择信号越稳定,越可靠。早期时间点可能存在较多的假阳性。

当然,这种短期和长期的结果不一致还有可能是其他因素导致的,比如选择位点和选择压力在实验早期和晚期本身就在改变,或者存在基因的交互作用,或者实验过程中存在未被观察到的环境改变等。

少数被所有世代共同识别的位点


从第10代到第60代,每个时间点都有超过27,000个SNP被识别出来,但是只有5%的SNP位点是所有时间点共有的。这一比例是非常低的。这也提示我们,如果要做meta分析,比较不同实验筛选出的SNP位点,那么结果可能更差。

对各个时间点窗口的比较表现出了很低的一致性(虽然比SNP的一致性高一些)。所以,在进化重测序的分析中,基于窗口或者单倍体区块的结果的稳定性要好于基于SNP的结果。

果蝇进化重测序实验的短期和长期选择位点差异_java_05

【和第60代识别出的结果比较,其他各个世代结果的一致性。比如第10代和第60代相比,只有5%的SNP位点(白条)和24%的窗口(黑条)是和第60代一致的。】

短期识别信号并不能真实反映其背后的适应基础


各个重复组表现出平行选择信号的位点在实验短期内更容易被识别到。这提示我们在进化重测序实验中,如果一些重复组特异的选择信号,在较短的世代数内可能会被遗漏掉,从而使我们得到的结果变成一个有偏结果。

结论

进化重测序实验中,短期和长期结果存在较大的差异。世代时间越长,进化重测序实验结果的稳定性和可靠性越高。在进化重测序实验中,应当尽可能增加世代数。


【谢谢阅读】



资料来源:Langmüller, AM, Schlötterer, C. Low concordance of short‐term and long‐term selection responses in experimental Drosophila populations. Mol Ecol. 2020; 29: 3466– 3475. 

https://en.wikipedia.org/wiki/Jaccard_index

https://www.synthego.com/blog/crispr-drosophila

果蝇进化重测序实验的短期和长期选择位点差异_java_06