大家好,我是邓飞,之前推荐过这本《Genome-Wide Association Studies》,2022年出版的,内容比较前沿。

昨天介绍的第一章:《Genome-Wide Association Studies》第一章:GWAS分析的主要步骤和关键要点

今天介绍第二章。

这本书的目录:

第二章:GWAS表型数据的准备和管理_人工智能

第二章:GWAS表型数据的准备和管理_python_02

主要内容:

  • 1,表型数据异常值处理
  • 2,表型数据,使用原始数据,blup值,平均值,还是blue值对结果的影响
  • 3,异常值不清理,会造成假阳性,特别是频率比较低的位点,对异常值更敏感。
  • 4,稀有位点有效,以及假阳性的影响,这是需要权衡的。
  • 5,使用空间分析校正表型,提升狭义遗传力,增加GWAS中显著性位点的power
  • 6,选择合适的统计模型,同时考虑假阳性和假阴性的影响

GWAS分析流程:

第二章:GWAS表型数据的准备和管理_机器学习_03

表型数据的误差来源:计算矫正值之前,需要将这些误差值删除。

1,图片噪音,由于图片数字化时产生的噪音

第二章:GWAS表型数据的准备和管理_机器学习_04

2,技术问题,导致的误差

第二章:GWAS表型数据的准备和管理_java_05

3,人为误差,采集数据时没有布置好,导致的误差

第二章:GWAS表型数据的准备和管理_人工智能_06

表型数据的清洗方式对GWAS结果影响很大:

第二章:GWAS表型数据的准备和管理_机器学习_07

第二章:GWAS表型数据的准备和管理_java_08

上面是数据是否清洗,检测的结果,可以看到,第10条染色体在数据清洗后,没有了显著性位点,这些位点可能是假阳性。

如何正确对待异常值?

1,尽可能的检查和消除异常值,最大化的捕获表型方差

2,清洗标准,可以根据群体结构和分析目的,综合考虑每种方法的优缺点

3,另外,建议可以识别异常值,但是不能删除,异常值也是有价值的信息,可以分别测试不同的结果

注意:表型值的准确性才是最重要的,再好的模型弥补不了数据的缺陷。表型数据不好,一切都是白搭

为何植物多环境数据(MET)要使用BLUE值或者BLUP值,不用平均值?

第二章:GWAS表型数据的准备和管理_人工智能_09

BLUE和BLUP重叠更多,平均值结果不太好。blup和blue重复了32个,blue和平均值重复了26个,blup和平均值重复了20个。之前写过博客:用BLUE值作表型进行GWAS分析

结论:

1,异常值识别方法是 GWAS 分析的一个重要标准。因此,一种或另一种方法的选择取决于标准的优化和遗传分析的战略决策。

第二章:GWAS表型数据的准备和管理_线性回归_10

2,缺乏对数据清理的关注会直接影响检测到的 QTL 的数量和效果,并可能导致最终结论模糊。

第二章:GWAS表型数据的准备和管理_python_11

3,数据集的组织和存储方式应便于重新分析。这要求对检测到的异常值进行识别,但不从信息系统中删除,并且将异常值检测规则保留为 GWAS 分析的元数据。

第二章:GWAS表型数据的准备和管理_机器学习_12

4,GWAS 分析的基因型平均值必须通过考虑实验空间变化的稳健模型(例如混合模型)来估计。

第二章:GWAS表型数据的准备和管理_java_13

5,使用考虑空间趋势的混合模型增加了显着QTL的数量,这可能是由于性状的狭义遗传力和GWAS的统计能力增加的结果。

第二章:GWAS表型数据的准备和管理_线性回归_14

6,估计基因型平均值的方法的选择会影响 GWAS 的统计功效。因此,所选方法的后果可以通过选择更高(或更低)的 GWAS 分析阈值来抵消。

第二章:GWAS表型数据的准备和管理_python_15

飞哥总结:

1,异常值一定要处理,不正确的数据一定要删掉

2,多环境数据,推荐使用混合线性模型的空间分析进行矫正表型,这样结果更可靠。使用的软件:asreml、sommer等包。

3,对于不确定的异常值,可以放到模型中跑一下,去掉跑一下。另外,样本比较小的群体,多试试GWAS模型,比如MLM、BLINK、Farmcpu等方法。

下一篇,介绍《基因型分型平台选择》,欢迎继续关注。