我们进行全基因组关联分析时需要表型与基因型数据,表型数据是自己试验所测出来的数据,而基因型数据一般是测序公司所测出的,随后用R、Tassel等软件进行关联分析可视化。

         我们在测表型数据时根据自己试验需求测,比如测玉米叶长等性状,100份材料在三个环境点二个重复,每份材料测五株,我们每个点就会得到1000份数据,三个环境就是3000份数据。这是总的一个原始数据,而我们分析时一般需要对原始数据进行处理,对一些异常值去掉然后再去分析,缺失数据可用NA代替。每个地点的每份材料求一个均值,然后可用单个点的数据求blup值,也可以用三个点整合数据求blup值,用blup值当作材料的表型值进行后续分析,总之一个材料对应一个值,看自己试验需求,如果用blup值定位结果不好也可以尝试算blue值试一试。

        原始基因型数据一般需要进行过滤筛选,然后拿筛选后的基因型进行分析。一般先对基因型数据进行群体结构分析,看看这个材料能分成几个亚群,之后在与表型数据进行关联分析。而我们进行关联分析时可以用单个点的blup值进行关联也可以用多个点的blup值进行关联分析。用单点的就需要把每个点都跑一遍GWAS,看看有没有共定位的位点,相应的图就会翻倍,而用多个点的就只有一个图,总之还是看自己试验需求,用适合自己的方法。

       在选用GWAS模型时也是一样,可以跑一个模型也可以跑多个模型,可以用一个模型写也可以用两个模型或者更多的模型看有没有模型上共定位的位点,总之也是看哪个结果好就用哪种方法,根据自己认为好的结果再进行后续分析、验证之类的。

        以上是个人对全基因组关联分析(GWAS)的一些看法,总之哪个结果好我就用哪个😂。