欢迎关注”生信修炼手册”!

PCA我们称之为主成分分析,是一种经典的数据降维算法,通过将高维数据用几个主成分表示,从而将其映射到低维空间。在实际处理中,由于我们只能对二维和三维数据有直观的感受,所以通常绘制二维和三维的散点图。

PCA本质上属于排序分析的一种,降维之后的数据在二维或者三维平面通过散点图进行展示,两个样本点间的距离越接近,说明这两个样本越一致, PCA图在生物信息学中应用的非常广泛,该算法适用范围广泛,在基因组,转录组等多种数据分析中都有应用,本文主要介绍在chip_seq数据分析中的PCA分析。

在转录组中,我们可以通过基因表达谱来对样本进行PCA分析,在chip_seq数据分析中,为了得到类似基因表达谱的数据,研究人员提出了一种思想,将基因组划分为等长的区间,称之为​​bin​​​,然后计算每个区间内的coverage。得到样本中所有​​bin​​的coverage之后,就可以利用该数据进行PCA分析。具体的操作步骤如下,通过deeptools来实现

1. 计算bin的coverage

输入文件为比对基因组产生的bam文件,用法示意如下

multiBamSummary bins \
--bamfiles file1.bam file2.bam \
--binSize 10000 \
--numberOfProcessors 10 \
--outRawCounts results.txt \
-o results.npz \

2. PCA分析

通过​​plotPCA​​命令实现,用法示意如下

plotPCA \
-in results.npz \
-o PCA.png

输出结果示意如下

chip_seq质量评估之PCA分析_数据

软件默认选择第一和第二主成分来绘制二维的散点图,在该图中通过观测样本点之间的距离,可以对数据质量做出一些基本判断,理论上讲,input和抗体处理的样本之间应该有较大距离,而生物学重复样本之间应该比较接近。

需要注意的是,前两个主成分的贡献率是一个比较重要的指标,假设两个主成分的贡献率之和为90%, 意味着二维散点图只能表征原始样本90%的信息,当贡献率太低时,散点图上表示的信息和原始样本的信息相去甚远,就不具有太大的参考意义了。

下半部分的​​Scree plot​​, 类似碎石图,只不过采用了双坐标轴的形式,蓝色柱状图表征了前5个主成分的特征值,红色曲线代表累计的特征值,每个点代表累计特征值的比例。当红色曲线趋于平缓时,说明即使再添加后面其他的主成分,所展示的信息也不会有显著变化了,即前几个主成分已经可以有效代表总体的信息了,在上图中,前4个主成分能够有效代表总体的信息。

虽然通过碎石图我们可以筛选出主成分,但是由于我们最多只能直观观察三维空间,所以PCA分析中最多只能绘制3维散点图,如果前3个主成分不能有效代表总体的信息,我们只能考虑使用其他降维算法了,这个问题也是所有降维算法的一个通病。

·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!

chip_seq质量评估之PCA分析_二维_02