在进化重测序实验(E&R)中,在可控环境下将人工选择持续施加给实验生物群体,并且通过基因组测序比较实验前后等位基因频率变化,以此来识别和选择相关的基因位点。很多实验参数能够影响识别能力,比如群体数量、选择压力大小、实验重复数、实验持续时间长短等。本研究基于模拟数据来探讨在小群体短期高强度的选择压力下,QTL自身相关特性会怎样影响实验识别选择位点能力。这些QTL位点相关的特征包括:影响某一性状的QTL位点数量、起始频率、效应大小、在染色体上分布情况、基因表达模型(显隐性)以及位点之间的相互作用情况。

进化重测序在很多物种中都有应用,比如大肠杆菌、酵母菌、果蝇、线虫、小鼠等。使用进化重测序在大肠杆菌中发现了600个耐高温位点,在果蝇中发现了十余个能够促进果蝇发育的基因区域。

在真核生物中,进化重测序实验受到了很多实验条件的限制,比如受试群体数量、繁育世代数等。为了实验的顺利实施,受试群体数量通常不会很大,繁育世代数也有限。此外,会施加很强的人工选择压力,以便在较短的时间内能够观测到相应的变化。但是,这同样会导致较大的遗传漂变,而且基因重组不能在较短的时间内发挥作用,很容易在实验群体中出现明显的关联选择和Hill-Robertson干扰问题。进而使得进化重测序实验的检测能力降低,出现较多的假阳性。

有研究通过模拟高等真核生物的进化过程来探讨影响进化重测序实验的群体因素,比如群体中的重组率、LD水平、QTL位点周边的核酸多样性水平等。此外,也研究了选择压力大小,群体大小,实验持续时间长短和实验重复数对进化重测序的影响。但是这些研究通常存在2个问题。首先模型中的选择系数通常是固定的。而实际上对于QTL中的位点,其选择压力大小是和各个位点的效应大小相关联的,不能使用固定的选择系数。其次,很多研究是建立在基因高重组区或者建立在单一位点上的,忽略了位点之间的关联效应,所以限制了识别QTL位点的能力。

很多QTL位点自身相关的因素也会影响到进化重测序的实验效能。比如,控制一个性状的QTL位点的数量多少、这些位点在染色体上的分布情况(均匀分布还是聚类分布?)、每个位点的效应大小(所有位点等效,还是服从某种分布?)、受选择位点的起始频率(起始于低频位点、高频位点?)、基因表达模型(隐形模型、线性模型、相加模型等?)、各个位点之间是否存在交互作用epistasis。已经有研究发现,位点的效应分布和起始频率能够显著的影响进化过程。所以并不是所有的性状都适合使用进化重测序进行QTL位点的研究,有些性状的QTL位点识别可能会存在偏倚。

此外,很多进化重测序实验是昆虫类的生物上进行的(比如果蝇等),主要是因为其世代时间短,易于繁殖,可以维持较大的群体数量。但是对于一些脊椎动物(比如小鼠、鱼),进化重测序通常只能限制在很少的世代数,并对性状施加高强度的选择压力。当然,对于一些动物的驯化,比如鱼、鸡、山羊等,虽然通常不涉及的重测序,但是也是一个短期施加较大选择压力的进化过程。对于这些短期小样本高选择压力的进化实验,QTL位点的相关因素会怎样影响对其的识别能力呢?本文就通过模拟来研究这些因素的影响:影响某一性状的QTL位点数量、在染色体上的分布、效应大小分布、起始频率、基因表达模型、位点交互作用。

方法

使用SLiM进行模拟,连续模拟4代。过程如下:

  1. 准备阶段burn-in,创建起始群体
  2. 构建QTL位点
  3. 对性状进行连续4代选择
  4. QTL位点检测识别
  5. 实验效能分析

准备阶段:群体参数为30Mb长度的中性进化的染色体,二倍体群体数量N=1000,持续时间10N,突变率,重组率

构建QTL位点:对于标准模型,从上述准备好的群体中随机选择n个中性位点作为影响某个性状的QTL位点,其中随机选取一半(n/2)位点,作为正效应(+1)位点,野生位点为0;另一半为负效应(-1)位点,野生位点为0。同时,对于该标准模型,假设所有QTL位点基因表达模式都是相加效应。性状平均值在选择起始时为0,个体的性状分布为正态分布。忽略环境因素对性状的影响。在此标准模型基础之上,研究分别改变QTL位点数量、位点分布、效应大小分布、起始频率、基因表达模式、基因交互作用等,来研究这些因素对实验结果的影响。

对性状的连续选择:将准备好的群体分为两部分,一部分是高性状值群体,另一部分是低性状值群体。对于高性状值群体,每一代选择性状值的前10%作为繁育下一代的亲本;对于低性状值群体,每一代选择性状值的后10%作为繁育下一代的亲本。在此选择过程中,群体数量保持了1000,突变率认为0,重组率维持在1cM/Mbp。

QTL位点检测识别:每一代随机选取50个个体来衡量等位基因频率。使用两个统计量来描述等位基因频率变化,一个是D,另一个是transformed-D。其中D是在完成选择之后,位点在高性状值群体中的频率和在低形状值群体中频率的绝对差值;transformed-D是考虑到高频起始位点通常会有较大的变化差值之后,进行的三角函数变化,以此剔除起始频率差异造成的影响。此外,还用到了WFABC和ApproxWF两种贝叶斯推断方法,这两种方法在既往研究中都有使用到。

实验效能分析:ROC曲线比较

结果

性状值对选择压力的响应

经过4代的人工选择,向高性状值选择的群体性状值逐步升高【上图A\B 紫色】,向低性状值选择的群体的性状值逐步降低【上图A\B 橙色】。具体到某些受选择位点,有很多位点向选择的方向增加频率,但是有不少位点频率一直处于较低水平,甚至还有一些位点频率增大之后又降低,这可能是受到遗传漂变的影响,同时也受到各个位点的相关关联作用影响【上图C】。transformed-D值能够很明显的体现出受选择QTL位点和中性位点的分布差异【上图D】,说明transformed-D值可以用来检测QTL位点。上图E表示在30Mb的模拟染色体上各个位点的transformed-D值分布。

标准模型下各种检测方法的比较

本研究使用了四种方法比较标准模型下对QTL位点的识别能力:D, transformed-D, WFABC和ApproxWF,结果发现,D和transformed-D的检测识别能力要比WFABC和ApproxWF强,结果如下图:

即便WFABC和ApproxWF两种方法使用了全部5个时间点的数据,其识别能力仍然比D和transformed-D低。本文后续分析使用transformed-D作为统一的检测方法。

QTL位点自身因素对检测能力的影响

  1. 位点数量 此处比较了位点数是2、10、20、50、100和200等6种情况下的检测识别能力。结果如下

【针对不同QTL位点数的检测能力比较】

位点数越多,检测识别能力越差。首先,位点数越多,各个位点之间的距离越小,重组发生的可能性越低,各个位点之间的相互干扰越大;其次,位点数越多,平均每个位点数带来的表型效应越小,选择压力越小,因而可以产生的信号值越低。

在标准模型下,100个位点在FDR=5%的情况下,只有13%的QTL位点被正确的识别了出来!如果仅仅考虑正确的识别比例,13%确实不是一个理想的结果,很大原因是一些低频位点在选择早期因为遗传漂变的原因,在群体中丢失了。当然,如果考虑位点对表型的效应贡献,中等频率位点比低频位点对表型的贡献度更大一些,所以从贡献度大小来说,检测能力会比13%提升一下,可以达到40%。

  1. QTL位点分布 在标准模型下,我们假设QTL位点是均匀分布在染色体上的,但是实际上很多QTL位点会簇集存在,比如一些与农作物驯化相关的位点。为此,本研究建立以一个簇集模型,假设所有的QTL位点集中在30Mbp染色体中部的3MBp的区间内,和标准模型(30Mbp染色体上均匀分布)进行比较。

当QTL位点为10时,簇集分布的QTL位点不利于检测识别【上图A绿色】,主要是各个位点之间相互干扰,位点之间重组降低。但是当位点数较多时,比如100个【上图B】,簇集分布比均匀分布更有利于检测识别。可能是因为QTL位点数较多时,在选择开始时,已经有很多有利位点位于同一个单倍体上了,避免了重组将该单倍体破坏,该单倍体更具有选择优势,在群体中的频率会迅速增加。也就是说重组率增高并不一定总是利于自然选择,有时候也会通过破坏有利单倍体阻碍选择进程。

  1. 位点效应大小分布 在标准模型中,每个QTL位点的效应大小都是一样的,要么+1要么-1。但实际上,位点效应的大小差别很大。本研究假设了各个位点效应分布服从指数分布,以此与标准模型比较检验效能大小差异。

如果我们以能够准确识别出的QTL位点的比例来衡量检验效能大小,那么位点效应的指数分布不利于QTL位点的识别,因为大量的QTL位点是小效应位点,在进化过程中,很容易丢失,或者因为受到其他位点干扰,难以表现出选择信号。【上图A、D】

如果以对表型的贡献度大小来衡量检验效能大小,那么位点效应指数分布则更有利于QTL位点的识别【上图B、E】,因为某些效应较大的QTL位点更容易受到选择作用,对表型的贡献度也更大。

上图C、F表示在QTL位点数分别为10和100时,检测到的QTL位点对表型的贡献度。

  1. 起始等位基因频率分布 在标准模型中,我们假设的QTL位点的起始频率分布和中性位点频率分布是一样的,但是实际中,这些位点可能存在其他选择压力,导致起始频率分布偏离中性位点频率分布。为此,本研究假设了两种极端情况,一种是QTL起始频率均位于5%以下,另一种是均位于5%以上。

在起始频率<5%时,对QTL位点的识别效能降低(位点比例),因为此时大量的位点受遗传漂变的影响,在进化过程中丢失了。反之,起始频率>5%时,对QTL位点的识别能力大大增加(位点比例)。【上图A】

但是从对表型的贡献度角度看【上图B】,标准模型的识别效能最高,其次是起始频率>5%的模型,最后是起始频率<5%的模型。

  1. 基因表达模式 在标准模型中,我们使用的相加模型,但实际上显性模型也很常见。在完全显性模型中,显性杂合子和纯合子具有相同的表型值,选择压力无法区分这两种基因型。正向选择会使得等位基因频率先增加,然后维持在中等频率。这时产生的选择信号和等位基因频率持续增加产生的信号很相似,所以检测方法很难区分开。因而在FDR较低的检验水平下,检测方法在完全显性模型中对QTL位点的检测能力比相加模型要低。当然,在FDR较高的检验水平下,在相加模型中的检测能力要低于完全显性模型【下图AB】。

如果受选择QTL位点是完全隐性,那么只有在该等位基因纯合的情况下才能表现出相应性状,杂合子和中性位点表现一样,检测识别出的QTL位点数会降低。上图CDE分别表示在相加模型、完全显性和完全隐形情况下,检验统计量Transformed-D的频率分布。

由此可见,即便是基因表达模式的差异也会在很大程度上影响到检验方法对QTL位点的识别能力。

6.交互作用 此处考虑10个QTL位点存在交互作用的情况下对检验识别能力的影响,其中交互作用包括4种:协同作用、拮抗作用、sign和reciprocal sign。

sign:一个基因的存在会使得另一个基因的效应反转,比如有害变为有利;reciprocal sign: 两个基因的同时存在使得它们的效应同时都进行了反转。

交互作用的存在会削弱对QTL位点的检验效能,如下:

对于每一种交互作用而言,其交互作用越大,对检验效能的影响也越大。针对4种交互作用而言,协同作用对检验效能的影响最小,而sign和reciprocal sign对检验效能的影响最大。

讨论

本文主要讨论了QTL本身特性对QTL位点识别能力的影响,包括QTL位点数量、位点分布、效应大小、起始频率、基因表达模式和交互作用。位点数越少越有利于提高检测识别能力。当位点数较少时,QTL位点簇集分布不利于提高检测识别能力,但是当位点数较多时,位点的簇集分布却能够提升识别能力。QTL位点效应为指数分布时,能够正确识别的位点比例降低,但是从对性状的贡献度来说,却提升了检测识别效能。起始频率低,不利于提升检测识别能力,起始频率高仅能提升正确识别的QTL位点的比例。当受选择位点是完全显性时,设定较高的FDR有利于提升检测识别能力;当完全隐形时,从对表型的贡献度来说,相较于标准模型,其检测识别能力降低。QTL位点交互作用的存在通常会降低对QTL位点的检测识别能力。

QTL本身特性对检测识别能力的影响是十分复杂的,所以如果我们仅仅根据检测出的位点来对一个性状的QTL进行描述,可能会存在一定的偏倚。同时,本研究也显示,我们很难用一个固定的参数来作为进化重测序实验的最优实验参数,进化重测序实验的设置要依赖于所要检测性状的QTL位点的属性。

就本研究的模拟数据来看,通过进化重测序对QTL位点的识别能力并没有达到令人满意的程度,主要开始因为群体数量较小,遗传漂变效应明显。此外,本模拟实验只经历了4代,而且没有设置实验重复以及较高的LD水平,都在一定程度上影响了本实验对QTL位点的识别。

【谢谢阅读,欢迎转发分享】

资料来源:Lou, R. N., Therkildsen, N. O., & Messer, P. W. (2020). The Effects of Quantitative Trait Architecture on Detection Power in Short-Term Artificial Selection Experiments. G3: Genes, Genomes, Genetics.