近日,GPB在线发表了西南民族大学青藏高原动物遗传资源保护与利用(四川省、教育部)重点实验室题为“GAPIT Version 3: Boosting Power and Accuracy for Genomic Association and Prediction”的软件文章,我们的“要文译荐”栏目很高兴邀请到西南民族大学王嘉博博士和美国华盛顿州立大学张志武教授共同为大家系统介绍该全基因组关联分析与预测软件的具体情况。
要点介绍
研究问题:
全基因组关联分析与预测软件(GAPIT version 3)的构建。
研究背景:
GAPIT是一款基于R语言平台编译,整合了多种全基因组关联分析和全基因组选择新算法,集输出相关图形、表格于一身的免费软件。全基因组关联分析包括一般线性模型(General Linear Model, GLM);混合线性模型(Mixed Linear Model, MLM);压缩式混合线性模型(Compressed Mixed Linear Model, CMLM);改进版压缩式混合线性模型(Enrichment CMLM, ECMLM);快速式混合线性模型(Fast-LMM);快速选择式混合线性模型(Fast-LMM-Select);逐步排它性混合线性模型(Settlement of MLMs Under Progressively Exclusive Relationship, SUPER);多位点混合线性模型(Multiple Loci Mixed Model, MLMM);固定随机模型循环概率模型(Fixed and random model Circulating Probability Unification, FarmCPU);和贝叶斯信息与连锁不平衡迭代嵌套式模型(Bayesian-information and Linkage-disequilibrium Iteratively Nested Keyway, BLINK)。全基因组选择包括基因组最佳线性无偏估计(genomic Best Linear Unbiased Prediction, gBLUP);压缩式最佳线性无偏估计(Compressed BLUP, CBLUP);和SUPER 最佳线性无偏估计(SUPER BLUP, SBLUP)。截止目前GAPIT已经发展到第三个版本,前两个版本累计引用超过1400余次,从2016年至今,GAPIT网站累计获得34,000次以上的网页访问,使GAPIT成为目前世界上研究人类疾病、动植物育种全基因组学关联分析和预测的重要分析工具。
主要成果1:
整合目前最新的全基因组关联分析算法(MLMM, FarmCPU和BLINK)以及全基因组选择预测算法(CBLUP, SBLUP)。
主要成果2:
经过逻辑重排,代码优化,使多种算法独立存在于GAPIT3中,用户无须分别下载、安装和维护。
主要成果3:
创建交互式输出,包括交互式曼哈顿图,交互式分位数-分位数(Quantile-Quantile, QQ)图以及交互式全基因组选择预测结果。
软件主页及Github连接:
https://github.com/jiabowang/GAPIT3
背景和研究对象
基因组学研究一直是研究生物基因与性状潜在关系的重要热点,全基因组关联分析(Genome Wide Association Study, GWAS)和全基因组选择预测(Genomic Selection/Genomic Prediction, GS/GP)是基因组学研究中两项重要的研究内容。 GWAS的重点是寻找与特定性状相关的有效遗传位点(通常是单核苷酸多态性,Single Nucleotide Polymorphisms,SNPs),而GP在动植物育种领域被用来估计基因组育种值并预测表型值,以此来进行育种规划和选择。而计算机软件方法在GWAS和GP研究中关系着研究结果的统计学效力、计算效率以及最终推广应用的可行性。
软件简介
GAPIT目前发展到第三个版本,现已经整合最新的全基因组关联分析算法(GLM, MLM, CMLM, ECMLM, SUPER, FarmCPU和BLINK)以及全基因组选择预测算法(GBLUP, CBLUP, SBLUP),前两个版本累计被他引超过1400余次,从2016年至今,GAPIT网站累计获得34,000次以上的网页访问。GAPIT是目前世界上研究人类疾病、动植物育种全基因组学关联分析和预测的主要分析工具。
软件主要结构
为了适应多种方法的不断融入和比较,我们将GAPIT原有逻辑结构进行了重排,以方便集成外部软件包,即使有些没有整合在GAPIT3中的算法也可以使用GAPIT3的输出模式进行方法之间的比较。GAPIT分为五个模块:(1)数据与参数(DP); (2)质量控制(QC);(3)中间元件(IC);(4)充分统计量(SS);(5)解释和诊断(ID)。这些模块中的任何一个都是可选的,可以跳过。但是,GAPIT3不允许以相反的顺序执行模块(图1)。
图1 GAPIT逻辑模块及适应性拓展
软件集成的算法
GAPIT目前整合了多种算法,我们比较了这些算法的优势以及适宜性,方便用户了解这些算法,并选择适合自己数据类型的算法(图2)。
图2 GAPIT三个版本中统计方法的比较
集成算法与独立算法比较
目前GAPIT整合的第三方软件和算法包括:MLMM, FarmCPU, BLINK-R和BLINK-C。我们比较了这三款软件独立运行和在GAPIT3中估计遗传标记P值的结果,同时还比较了使用MLM在rrBLUP, EMMAREML, BGLR以及GCTA和在GAPIT中预测的结果(图3)。结果显示GWAS结果中,GAPIT中运行的四款软件与其独立运行的计算结果完全一致;GP结果中仅有BGLR中MLM与GAPIT中的存在一定偏差,其他三款软件与GAPIT中的预测结果完全一致。BGLR中的MLM是采用马尔科夫链(Markov Chain Monte Carlo, MCMC)进行估计遗传方差与环境方差的比值(λ),而在rrBLUP, EMMAREML, GCTA以及GAPIT中均采用谱分解法估计λ,因此造成了预测上的轻微波动。
图3 GAPIT中的方法与独立运行下GWAS和GP结果比较
交互式关联分析结果
GAPIT3包含两种类型的交互式报告。首先,用户现在可以与曼哈顿图、QQ图和预测与观察表现型的散点图交互,提取标记和个体信息。例如,通过在数据点上移动光标或指向设备,用户可以找到标记的名称和位置,或个体的名称和表型,用户也可以用鼠标点击特定的染色体进行选择、排序、剔除和缩放视角,这类交互结果使用web浏览器显示(图4)。其次,用户可以使用鼠标或触控板等指向设备旋转图形,也可以选择、剔除选择的子群体,如3D主成分分析(Principal Component Analysis, PCA)图(图5)。
图4 交互式输出结果截图
图5 交互式3D PCA截图
软件的计算时间比较
GAPIT3中GWAS和GP算法的计算时间与标记数呈线性关系(图6)。然而,它们将计算复杂度与个体数量混合在一起。大多数方法的计算时间复杂度是个体数的立方,包括GBLUP, CBLUP以及SBLUP。GWAS中只有两种方法对个体数量具有线性计算时间:FarmCPU和BLINK。与直接使用这些包相比,在GAPIT中使用MLMM, FarmCPU和BLINK包时,计算时间有适度的增加。BLINK方法有两个版本:C版本和R版本。当C版本单独作为标准操作时,比R版本要快得多。当它们在GAPIT内执行时,情况就相反了。这是因为GAPIT直接使用R版本的输入和输出,而当GAPIT执行C版本时,输入和输出数据必须在内存和磁盘之间进行转换。
图6 多方法计算时间比较
GAPIT数据统计
GAPIT的使用量、网页论坛的访问量以及引用次数在过去几年始终稳定增加。截止2021年8月6日,前两个版本累计被引超过1400余次,从2016年至今,GAPIT网站累计获得34,000次以上的网页访问。自2012年GAPIT第一版本发表后,GAPIT谷歌论坛累计活跃800多个关于使用、功能、BUG以及修正建议等相关主题,累计回帖数量达到2900多次,总计访问量达到了74,000次以上。
图7 GAPIT谷歌论坛使用情况
总结与展望
GAPIT作为一款面向全基因组关联分析和选择预测的软件,已经受到了世界范围遗传学者和更多科学家的关注和使用。目前已有的版本累计被引超过1400多次,其不断发展并整合的新方法为人们更快、更精准的探测潜在遗传关联位点,以及预测个体的遗传育种值和表型值提供了巨大的帮助。为了充分推进动植物遗传进展的不断进步,以及人类遗传疾病的攻克,GAPIT将不断强化自身功能性、可视性以及方法性,引领GWAS和GP的方法研究、软件发展以及结果信息的阅读质量。最后,我们计划与美国俄勒冈州立大学合作继续深入开发GAPIT软件,将GAPIT在全面的R档案网络(CRAN)上得以加载,更好地为世界上全基因组关联分析和选择预测研究提供帮助。
文章编译来源: Jiabo Wang, Zhiwu Zhang. GAPIT Version 3: Boosting Power and Accuracy for Genomic Association and Prediction. Genomics Proteomics Bioinformatics 2021. https://doi.org/10.1016/j.gpb.2021.08.005. 英文全文详见: https://www.sciencedirect.com/science/article/pii/S1672022921001777.