1, 序言

看到一篇论文, 介绍的特别好, 包罗万象, 读文章时好像看到作者指点江山, 摘抄学习如下, 引用部分是我的吐槽.

2, 摘要

基因组选择(genomic selection, GS)是畜禽经济性状遗传改良的重要方法。随着高密度SNP芯片和二代测序价格的下降,GS技术越来越多被应用于奶牛、猪、鸡等农业动物育种中。然而,降低全基因组SNP分型成本、提高基因组育种值(genomic estimated breeding value,GEBV)估计准确性仍然是GS研究的主要难题。本文从全基因组SNP分型策略和GEBV估计模型两个方面进行了综述,并对目前GS技术在主要畜禽品种中的应用现状进行了介绍, 以期为GS在农业动物育种中的深入开展提供借鉴和参考。


两个挑战, 第一, 成本问题. 第二, 准确性问题.


3, 基因组选择的优势

由于GEBV计算可以不依赖系谱记录和表型信息,这就为早期选择提供了可能,可以大幅度缩短世代间隔,提高遗传进展,降低农业动物的育种成本[5,6]。此外,对于传统育种受限的性状,如低遗传力的性状和难以测量的性状,GS也更加具有优势。



  • 1, 模型简单, 依赖信息少;
  • 2, 对于特定性状优势明显;
  • 3, 有一定的投入产出比


4, 基因组选择的流程

GS一般包括以下步骤(图1):首先建立参考群体(reference population),参考群体中每个个体都有已知的表型和基因型,通过合适的统计模型可以估计出每个SNP或不同染色体片段的效应值;然后对候选群体(candidate population)每个个体进行基因分型,利用参考群体中估计得到的SNP效应值来计算候选群体中每个个体的GEBV;最后,根据GEBV排名对个体进行选留,待选留个体(selected candidates)完成性能测定后,这些个体又可以被放入参考群体,用于重新估计SNP的效应值,如此反复。


  • 参考群, 候选群


5, 为什么减低成本这么重要

随着商业化高密度SNP芯片的普及和二代测序价格的下降,GS越来越多被应用于除奶牛以外其他农业动植物的育种实践中,如猪(Sus scrofa)[7,8]、鸡(Gallus gallus)[9,10]、水产动物[11,12]、水稻(Oryza sativa)[13]、玉米(Zea mays)[14]等。尽管如此,基因分型成本仍然是GS技术推广和应用的重大障碍,大多数育种企业限于长久的基因分型成本投入而不敢大规模应用。多数已开展GS研究的研究院所或企业也囿于基因分型方面的投入,不得不通过缩小参考群体规模或降低标记密度来降低成本。较小的参考群或较低的标记密度一定程度上影响了GEBV的准确性,从而低估了GS技术在动物育种中的潜力,反而阻碍了这一技术的推广和应用。因此,降低个体分型费用一直是GS的研究热点之一。



  • GS最早是在奶牛中应用, 现在在猪, 鸡育种中开始应用, 在作物比如水稻, 玉米更要靠后, 主要是因为成本问题.
  • 成本过高, 企业顾虑较大, 不敢大规模应用. 反应在参考群体较小, 降低芯片密度来降低成本. 这反过来影响GS的准确性. 恶性循环.
  • 所以, 成本是最大的制约因素.


6, 未来GS的发展

随着基因分型个体数极大累积或标记密度极大提高,传统基于单点SNP信息的统计模型无法利用所有个体表型数据或所有标记位点信息,此时基于单倍型的GEBV预测模型可以解决这一问题。通过将已知功能的基因组学信息,包括基因结构、甲基化区域、转录因子调控结合位点、选择信号候选区域等信息,以单倍型信息整合进GEBV预测模型,从而提高GEBV的准确性.



  • GS的方法学中, 比如测序个体远远小于芯片SNP的数目, 才衍生出很多方法, 包括RRBLUP, GBLUP, 随着测序个体数的增加, 动则上万或者几十万的测序个体, 安装目前GBLUP, 一步法的方法, 求逆是一个极大的挑战, 当然也有一系列应对措施, 比如APY方法(Algorithm for Proven and Yong)
  • 未来空间立体的GS选择, 比如考虑转录, 甲基化, 调控, 选择信号等信息


7, 常见的基因芯片

高通量时代的SNP分型技术以高密度SNP芯片为代表,Illumina公司Infinium技术和Affymetrix公司Axiom技术是目前最流行的高密度SNP芯片解决方案。

Illumina芯片

Illumina Infinium芯片是基于微珠的 BeadArray 生物芯片,首先在玻璃基片(称为Wafer)上,通过光蚀刻的方法蚀刻出许多个排列整齐的小孔,每个小孔直径约为3 μm,这些小孔刚好可以容纳一个微珠(图2A)。微珠是芯片的核心部分,每个微珠的表面偶联了几十万条相同序列的DNA片段。这些DNA片段的长度是73个碱基,分成2个功能区域(图2B),靠近珠子一侧的23个碱基的序列被称为Address序列,是标识微珠的标签序列,相当于微珠的身份证号码(ID号);远离珠子端的50个碱基被称为探针序列,是针对某一个特定的SNP位点设计的,作用是与目标DNA进行互补杂交。Address序列与探针序列之间是一一对应的关系。在Illumina芯片生产过程中,把几十万种微珠按设定的比例混合好,撒到玻璃基片上,微珠随机落入基片的小孔中,通过检测微珠上DNA片段单碱基延伸时所掺入的dNTP上所带的荧光信号来区别不同的基因型(图2C)。

文献阅读: 基因组选择技术在农业动物育种中的应用_方差Affymetrix 芯片

Affymetrix 芯片制作也是通过“光蚀刻”完成的,即在一张大的玻璃基片上合成DNA探针,探针的3′端固定到玻璃基片上,相同序列的探针都是针对同一个SNP设计的(图3A)。Affymetrix Axiom分型芯片是基于连接反应进行基因型检测:首先设计4套显色探针,A、C、G、T各一组,这些探针长度都是9个碱基,其中只有3′末端的第1个碱基是特异的,从第2个碱基到第9个碱基都是简并的;3′端是C或G碱基的探针的5′端带有一个生物素标签,最后会被染成红色荧光;3′端是A或T碱基的探针的5′端带另外一种标签,最后会被染成绿色荧光(图3B)。以一个基因型为GT的SNP位点为例(图3C),先设计这个SNP位点的特异性探针(通过羟基连接在芯片上,也称为“捕获探针”),该探针正好延长到SNP位点旁边的一个碱基处;当样本DNA经过变性后,单链DNA会与捕获探针退火杂交;再加入4种显色探针,通过连接酶进行连接,因为连接酶对连接位点前后几个碱基进行精确识别,所以只有与目标DNA片段完全互补的显色探针才会被连接酶连接到捕获探针上去;连接反应完成后,将游离的显色探针洗掉,再用带荧光标记的染色试剂进行染色;最后,在激光扫描仪中对芯片进行扫描,扫描过程中,如果看到该探针上所发出的光是单纯红色,就可以判断这个位点的SNP型是GG型纯合子;如果发出的荧光是单纯的绿光,那么就可以判断这个SNP是TT型纯合子;如果发出的光,既有红光又有绿光,而且红光和绿光的光强差不多,则可以判断这个SNP位点是GT的杂合子。


  • 关于芯片的不同类型, 学习中…


8, 其它几种获得基因组SNP信息的方法

简化基因组

GBS、ddGBS和RAD-seq是目前最普及的3种简化基因组测序方法,它们的主要区别在于是否在接头连接后进行片段选择,以及PCR后是否进行片段选择.

特点:

GBS相较于其他简化基因组测序技术具有相对简单的建库步骤,省去了包括机械随机打断、片段长度选择、末端修复等步骤,在很大程度地节约了人力和物力,可以在一次实验中对大量的样本进行同时测序。GBS技术适合应用于有高质量参考基因组的物种;对于没有参考基因组的物种,也可以通过de novo拼接,以拼接后的片段作为参考序列来开发标记。GBS分型技术所获得的SNP位点通常在目标群体中多态性较好,而不像高密度SNP芯片那样只能固定地检测特定的位点。这一特点使得该技术非常适合在中国地方品种或高度纯化的品系中进行分型,从而获得更大的信息量。


感觉目前应用的还比较少, 稳定性是一个因素.


基因组重测序

基因组重测序(whole-genome resequencing, WGS)是对参考基因组序列已知物种的个体进行全基因组测序,并在个体或群体水平进行序列差异性分析的测序方法。

特点:

相比高密度SNP芯片或者简化基因组测序,基因组重测序的方法可以全面地挖掘基因序列差异和结构变异,在全基因组水平上鉴定并检测与重要经济性状相关的突变位点,具有重大的科研价值和产业价值。通过基因组重测序可以找到大量的SNP、拷贝数变异(copy number variation, CNV)、插入缺失 (InDel)、结构变异( structural variation, SV)等遗传变异。由于当前测序价格相对较高,因此降低测序乘数是主要的测序策略,一般为0.1~2×,即低覆盖度重测序。



  • WGS中, 可以增加CNV, InDel, 和SV, 这可以加到模型中, 提高估算的准确性.
  • 和GBS一样, 成熟度还有待发展, 现在主流的是芯片.


9, 基于单倍型的GS策略

基于基因组重测序的GS还有另外一个策略(图4),即首先对群体中遗传贡献较大的个体进行10~30×的中高覆盖度的重测序,结合单倍型估计技术构建群体主要的单倍型库;对于大多数个体采用高密度SNP芯片或简化基因组测序技术进行分型,通过基因型填充获得全基因组的遗传变异,从而用于GEBV的预测。

文献阅读: 基因组选择技术在农业动物育种中的应用_方差_02> 这个技术感觉很有前景啊, 很惭愧之前没有听过应用, 以后要补补课了.

10, 芯片, GBS和二代测序的论述

高密度SNP芯片和简化基因组测序具有各自的优势。随着测序价格的继续下降,以及生物信息学分析的流程化,基于二代测序技术的全基因组重测序进行SNP的鉴定和分型会越来越普及,特别是对于一些没有标准化芯片的非模式物种。当然,也可以选择20~30个代表性的个体进行重测序,获得这个群体具有一定代表性的SNP数据集,利用这些数据设计芯片,从而进行“廉价”的大规模基因分型。但是,遇到无标准化芯片的物种,测序无疑是最佳选择。即使对于一些有标准化芯片的模式生物,全基因组重测序也常常是更好的选择。在商业化SNP芯片密度不够的情况下,简化基因组测序是很好的替代方法,因为即使只对基因组的很小一部分进行测序,就可以轻松获得几十万的SNP标记。在地方猪种中,高密度SNP芯片也有其局限性。以藏猪为例,PorcineSNP60芯片效果不理想,因为芯片上的SNP位点都是从常见的品种中筛选出来的,这些位点在藏猪这样的特殊亚种中多态性比较差。因此,简化基因组测序或全基因组重测序的效果会优于芯片。总之,在具体研究中,应该根据具体情况来选择全基因组SNP分型方案。随着测序价格的不断降低,测序的确会不断侵蚀芯片的市场空间,成为一种趋势。


现在猪育种中, 有中芯一号了啊…


11, 贝叶斯和GBLUP方法介绍

贝叶斯

Meuwissen等[1]首次提出GS理论时,提供了两种贝叶斯(Bayesian, Bayes)方法用以解决SNP标记数目通常远远多于表型记录的问题,即BayesA和BayesB。BayesA假设所有SNP 位点都有效应,且所有SNP效应的方差服从尺度逆卡方分布的正态分布,其中的两个参数——自由度和尺度参数与遗传结构直接相关,能够确定遗传结构,而这两个参数都是事先给定的。BayesA使用MCMC(马尔科夫链蒙特卡洛方法)方法构建Gibbs抽样链,在模型中对标记效应进行求解。BayesB与BayesA的区别在于对SNP效应的先验假设不同。BayesA假设所有SNP 都有效应,而BayesB假设只有一小部分标记位点有效应,其他大部分染色体片段效应为0 (无效应位点的比例为π);这一小部分有效应的位点,其效应方差服从的分布与BayesA一样。BayesB中有效应位点的比例(1-π)在模型中是预先设定的,通常为0.05左右。与BayesA不同,BayesB 使用混合分布作为标记效应方差的先验,所以难以构建标记效应和方差各自的完全条件后验分布,因此BayesB使用MH (Metropolis-Hasting)抽样对标记效应和方差进行联合抽样。

在Meuwissen 提出的两种贝叶斯模型基础之上,研究人员又提出了多种GEBV估计的Bayes模型。BayesC 模型[34]使用混合分布作为标记效应的先验分布,但在BayesC模型中,π是未知的,需要在模型中求解得到,其他与BayesB相同。Habier等[34]还提出了BayesCπ、BayesDπ方法:BayesCπ 与BayesC的主要区别在于BayesCπ假设有效应的SNP的效应方差相同,而BayesC假设其效应方差是不同的。BayesC和BayesCπ相比于BayesA和BayesB的最大改进之处在于对模型中无效应SNP位点的比例π进行估计[16,35]。BayesDπ[34]在模型中假设π值服从U[0,1]的均匀分布,同时也要对尺度参数进行求解,其假设尺度参数的先验分布为Gamma(1,1)分布,其后验分布也是Gamma分布,可以直接从后验分布中抽样。Bayes LASSO (Least Absolute Shrinkage and Selection Operator)[36,37,38,39,40]假定SNP标记效应服从Laplace分布,而Lpalace分布等价于方差服从指数分布的正态分布。Laplace分布与BayesA假定的SNP标记效应Student’s t分布具有相同的特点:具有比正态分布更重的两尾概率。在高维数据线性回归中常用到的方法除了LASSO,还有EN (Elastic net)[41],这两种方法都是在惩罚函数中增加约束项,同时实现变量选择与参数估计,可以将很多变量效应压缩至(接近)0。Bayes LASSO在GS算法应用中的一种拓展策略是使用广义正态分布作为标记效应先验。Bayes LASSO的思想和BayesA一样,不同之处在于它假设标记效应服从另一种分布-拉普拉斯分布,所以标记效应的后验分布也随之改变。

其他的贝叶斯方法,如Bayes SSVS[42]、fBayesB[43]、wBSR[44]、BAL/IAL[45]、emBayesR[46]、EBL[47]、BayesRS[48]和Bayes TA[49]等,都是在前人研究基础之上对模型中的先验假设进行变换和模型中的参数进行优化,以期寻找最适合群体的假设模型和参数。目前广泛应用的贝叶斯算法仍是BayesA、BayesB、BayesCπ和Bayes LASSO,这是由于它们计算的结果稳定,具有较高的GEBV估计准确性。总之,在经典贝叶斯方法基础上,贝叶斯方法的改进算法及其参数优化策略围绕着以提高GEBV估计的准确性为目的,通过生物遗传算法与实际的群体情况相结合,寻找最适的模型假设和参数优化方法,使得GEBV更具有育种价值。



  • 我这样成段成段的复制, 真的不构成侵权么???
  • 贝叶斯的方法, 没有具体做过, 目前主要使用GBLUP, 一步法


GBLUP方法

GBLUP和一步法, 都属于GBLUP方法.

GEBV的方法是通过构建基因组关系矩阵(G矩阵)替换基于系谱信息构建的分子血缘关系矩阵(numerator relationship matrix, NRM或A矩阵),进而使用最佳线性无偏预测(best linear unbiased prediction, BLUP)方法直接估计GEBV,即GBLUP法。VanRaden[16]提出了G矩阵的构建方法,将SNP基因型进行编码,纯合基因型分别编码为1和-1,杂合基因型为0,假设pi为位点i的第二个等位基因的频率,则每个基因型编码后的值减去相应的处于哈代-温伯格平衡(Hardy-Weinberg equilibrium, HWE)时的均值2×(pi-0.5),得到Z矩阵,按照公式 (1-1)即可计算得到G矩阵:

G = Z Z ′ / ( 2 ∑ p i ( 1 − p i ) ) G=ZZ′/(2∑pi(1−pi)) G=ZZ′/(2∑pi(1−pi))

与贝叶斯方法相比,GBLUP不需要先利用参考群体估计SNP标记效应,再计算GEBV;而是可以直接将有表型及无表型个体可以放在同一个模型中,同时估计出有表型和无表型个体的GEBV及其准确性[50]。从计算速度来讲,GBLUP比Bayes方法快很多,因此更加适用于现场应用时快速获得GEBV[51]。Azevedo等[52]比较了GBLUP与几种改进的Bayes LASSO之间的准确性,通过对多种不同遗传力、不同遗传基础性状的GEBV估计,认为GBLUP总体上表现最好,其次是BayesA或BayesB。


  • 我看也有文献说是BayesB最好, 不过应用最广以及价值最大的目前是GBLUP没错


一步法GBLUP (single-step GBLUP, ssGBLUP)模型是传统基于系谱信息的BLUP法和基于SNP标记信息的GBLUP法的合并,它的模型形式上与BLUP及GBLUP法并无区别。如公式(1-2)中,ssGBLUP是用H矩阵替代GBLUP中的G矩阵,从而将没有基因型的个体与有基因型的个体放在同一个模型中进行EBV或GEBV的估计,H矩阵结构如公式(1-3):

文献阅读: 基因组选择技术在农业动物育种中的应用_统计模型_03

可以使用MME方程, 直接利用H逆矩阵:

文献阅读: 基因组选择技术在农业动物育种中的应用_方差_04ssGBLUP有效地解决了畜禽GS实施中如何充分利用已有表型记录的历史数据等问题,广泛被用于育种实践中[58,59]。因为大多数育种群体具有丰富翔实的系谱和表型记录,但限于经费、人力、时间等因素,难以对全部个体进行基因型测定,特别是一些年代久远的个体因为没有DNA组织样品而无法再进行基因型测定。ssGBLUP能将无基因型个体的系谱及表型数据和有基因型的个体的基因组信息结合起来[60,61],会大大提高基因组选择的准确性。Christensen等[58]对2668头杜洛克猪群体的日增重和饲料转化率两个性状进行基因组选择准确性分析,结果表明多性状模型的ssGBLUP准确性最高,比常规BLUP方法准确性提高了16%。Tsuruta等[62]用有系谱和表型记录的7 860 183头美国荷斯坦奶牛和17 293头有基因型数据的个体,对荷斯坦奶牛的18个性状进行分析,结果也证明ssGBLUP的准确性明显高于常规BLUP方法。


  • SSBLUP相对于BLUP方法, 对于低遗传力和繁殖性状, 估算的准确性能提高50%, 这是很666的.


12, GS在牛育种中的应用

区域化的奶牛GS育种体系使得参考群体规模迅速扩大,GS选择准确性逐渐提高,大大促进了GS技术在奶牛育种中的普及。除了常规的产奶量和乳脂率等性状,奶牛GS研究也开始关注一些常被忽视但非常有应用潜力的性状,如肢蹄健康、饲料转化率和甲烷排放量等[63]。我国于2008年开始启动奶牛GS研究,2012年正式将GS技术应用于荷斯坦奶牛的遗传评估中,评估的性状共14个,包括产奶量、体细胞计数、体型评分等,其中产奶性状基因组预测准确性为0.59~ 0.76,比传统BLUP方法提高了0.13~0.30。

文献阅读: 基因组选择技术在农业动物育种中的应用_统计模型_05目前,奶牛GS的参考群体一般由经后裔测定和基因型测定的验证公牛组成。除了通过区域合作扩大参考群体外,对母牛进行基因型测定,也是扩大参考群体的一条重要途径。随着高密度SNP芯片和二代测序成本的下降,将来所有母牛可能进行基因型测定。Buch等[64]使用验证公牛与经基因型测定的女儿构建参考群体,结果表明GS的准确性比仅使用验证公牛时要高。对于荷斯坦以外的奶牛品种,如娟姗牛、瑞士褐牛、西门塔尔、挪威红牛等,由于其群体相对小,并且地理分布分散,参考群相对较小,影响了GS技术的应用。



  • 特殊性状, 甲烷排放量也可以用GS选择了, 人工智能采集数据后, 我相信以后也可以选择双眼皮的牛…GS潜力无限大…
  • 牛的参考群一般较小, 扩大参考群的方法是加入母牛, 而不仅仅是验证公牛, 不影响准确性, 性价比高.


13, GS在猪育种中的应用

与奶牛不同,在猪的育种体系中,GS应用的前提是提高GEBV估计的准确性[58],这是因为在传统育种体系中,猪的世代间隔已经控制在较短的时间,很难再对其进行大幅缩减。因此,猪的GS应用主要是靠提高GEBV的准确性来获得额外的遗传进展,特别是对传统育种中选择准确性低的性状,如繁殖性状、屠宰性状、肉质性状、抗病性状等,GS具有更大的优势。


  • 牛GS的显著效果是降低世代周期, 猪的应用时提高估算的准确性, 对于一些低遗传力的性状, 比如繁殖性状, 屠宰性状, 肉质性状, 抗病性等进行选择. 这在常规分析中, 选择效果较差.


14, GS在鸡育种中的应用

从个体角度,GS在鸡育种中很难普及,因为其个体价值远小于基因分型成本。但是,如果从整个育种体系的角度来看,为了培育特定目标群体进行配套系生产的话,GS在鸡的应用还是有一定的潜力的。Long等[69]利用5000个与后代死亡率相关的SNP标记对肉鸡0-14天龄的死亡率进行预测,结果显示当利用SNP信息的进行选择时,其准确性与不使用SNP信息相比提高了50%~90%。随后,陆续开展了关于饲料转化效率、肉鸡6周龄体重、胸肌面积、腿评分等性状[70,71]及蛋鸡产蛋量、蛋重、沙门氏菌抗性等性状[72,73]的GS研究。美国海兰公司对蛋鸡进行GS研究,研究了包括产蛋量、蛋重、蛋壳质量和性成熟等重要经济性状,目标是将世代间隔缩短一半,即从12个月减为6个月,从而提高年遗传进展;其方案是使用高密度SNP芯片测定个体基因型,并对GS群体的大小及结构进行优化,使选择准确性最大化,且年近交速率不增加。



  • 鸡中GS应用, 第一可以进行配套系的研究.
  • 对于一些繁殖性状以及肉质性状, 也有很高的提高效果, 因为鸡要么是蛋鸡(繁殖), 要么是肉鸡(肉质), 肉鸡中保持肉质不变, 提高繁殖性能, 也是创收的途径.
  • 最终要的一点, 相对于猪和牛, 鸡的群体大啊, 准确性高.


15, 展望

GS作为一种新的畜禽遗传评估方法,比传统BLUP方法有明显的优势。随着基因分型成本的下降,GS技术有望在国内大型育种公司中应用普及。由于已有的SNP芯片在特定群体中多态性差,越来越多的研究和应用开始使用自定制高密度SNP芯片,如猪的PorcineSNP55K芯片,在肉鸡、肉牛和蛋鸡等物种中也有相应报道。随着二代测序价格的下降,基于二代测序技术的GS优势日趋明显,有望在5~10年内替代高密度SNP芯片,成为GS应用的主要分型手段。基于二代测序的GS技术主要面临的是分型准确性和分析时效性的问题,分型准确性可以通过优化测序方案和基因型填充策略来提高;而数据分析的时效性需要借助于自动化/智能化分析流程的建立以及基于“硬件加速”技术的软件开发。随着基因分型个体数极大累积或标记密度极大提高,当前常用的基于单点SNP的GEBV估计模型将具有局限性,基于单倍型信息的统计模型可能会成为未来的研究方向。除此之外,在统计模型中增加显性效应、上位效应和印记效应的应用会越来越多[74]。最后,借助目前智能化农牧设备开发的热潮,应该尽快将GS应用从“育种场→实验室→育种场”的所需样品收集、表型测定、数据分析、个体选留等流程整合进入常规育种生产中,加快GS在动物育种中的应用。


  • 这样看来, 二代测序前景是光明的, 道路是曲折的.


参考文献

谈成, 边成, 杨达, et al. 基因组选择技术在农业动物育种中的应用[J]. 遗传, 2017(11):82-94.