第二章：GWAS表型数据的准备和管理

原创

育种数据分析之放飞自我 2024-09-14 14:06:44 ©著作权

文章标签 python 人工智能机器学习线性回归 java 文章分类 Oracle 数据库

©著作权归作者所有：来自51CTO博客作者育种数据分析之放飞自我的原创作品，请联系作者获取转载授权，否则将追究法律责任

大家好，我是邓飞，之前推荐过这本《Genome-Wide Association Studies》，2022年出版的，内容比较前沿。

昨天介绍的第一章：《Genome-Wide Association Studies》第一章：GWAS分析的主要步骤和关键要点

今天介绍第二章。

这本书的目录：

第二章：GWAS表型数据的准备和管理_人工智能

第二章：GWAS表型数据的准备和管理_python_02

主要内容：

1，表型数据异常值处理
2，表型数据，使用原始数据，blup值，平均值，还是blue值对结果的影响
3，异常值不清理，会造成假阳性，特别是频率比较低的位点，对异常值更敏感。
4，稀有位点有效，以及假阳性的影响，这是需要权衡的。
5，使用空间分析校正表型，提升狭义遗传力，增加GWAS中显著性位点的power
6，选择合适的统计模型，同时考虑假阳性和假阴性的影响

GWAS分析流程：

第二章：GWAS表型数据的准备和管理_机器学习_03

表型数据的误差来源：计算矫正值之前，需要将这些误差值删除。

1，图片噪音，由于图片数字化时产生的噪音

第二章：GWAS表型数据的准备和管理_机器学习_04

2，技术问题，导致的误差

第二章：GWAS表型数据的准备和管理_java_05

3，人为误差，采集数据时没有布置好，导致的误差

第二章：GWAS表型数据的准备和管理_人工智能_06

表型数据的清洗方式对GWAS结果影响很大：

第二章：GWAS表型数据的准备和管理_机器学习_07

第二章：GWAS表型数据的准备和管理_java_08

上面是数据是否清洗，检测的结果，可以看到，第10条染色体在数据清洗后，没有了显著性位点，这些位点可能是假阳性。

如何正确对待异常值？

1，尽可能的检查和消除异常值，最大化的捕获表型方差

2，清洗标准，可以根据群体结构和分析目的，综合考虑每种方法的优缺点

3，另外，建议可以识别异常值，但是不能删除，异常值也是有价值的信息，可以分别测试不同的结果

注意：表型值的准确性才是最重要的，再好的模型弥补不了数据的缺陷。表型数据不好，一切都是白搭

为何植物多环境数据（MET）要使用BLUE值或者BLUP值，不用平均值？

第二章：GWAS表型数据的准备和管理_人工智能_09

BLUE和BLUP重叠更多，平均值结果不太好。blup和blue重复了32个，blue和平均值重复了26个，blup和平均值重复了20个。之前写过博客：用BLUE值作表型进行GWAS分析

结论：

1，异常值识别方法是 GWAS 分析的一个重要标准。因此，一种或另一种方法的选择取决于标准的优化和遗传分析的战略决策。

第二章：GWAS表型数据的准备和管理_线性回归_10

2，缺乏对数据清理的关注会直接影响检测到的 QTL 的数量和效果，并可能导致最终结论模糊。

第二章：GWAS表型数据的准备和管理_python_11

3，数据集的组织和存储方式应便于重新分析。这要求对检测到的异常值进行识别，但不从信息系统中删除，并且将异常值检测规则保留为 GWAS 分析的元数据。

第二章：GWAS表型数据的准备和管理_机器学习_12

4，GWAS 分析的基因型平均值必须通过考虑实验空间变化的稳健模型（例如混合模型）来估计。

第二章：GWAS表型数据的准备和管理_java_13

5，使用考虑空间趋势的混合模型增加了显着QTL的数量，这可能是由于性状的狭义遗传力和GWAS的统计能力增加的结果。

第二章：GWAS表型数据的准备和管理_线性回归_14

6，估计基因型平均值的方法的选择会影响 GWAS 的统计功效。因此，所选方法的后果可以通过选择更高（或更低）的 GWAS 分析阈值来抵消。

第二章：GWAS表型数据的准备和管理_python_15

飞哥总结：

1，异常值一定要处理，不正确的数据一定要删掉

2，多环境数据，推荐使用混合线性模型的空间分析进行矫正表型，这样结果更可靠。使用的软件：asreml、sommer等包。

3，对于不确定的异常值，可以放到模型中跑一下，去掉跑一下。另外，样本比较小的群体，多试试GWAS模型，比如MLM、BLINK、Farmcpu等方法。

下一篇，介绍《基因型分型平台选择》，欢迎继续关注。

上一篇：《Genome-Wide Association Studies》第一章：GWAS分析的主要步骤和关键要点

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯