前言
一般而言,我们做完pathway富集分析,就做下气泡图或bar图来进行展示,但它们实际上只考虑了富集因子和Pvalue。如果我们不关注这两个因素,而是在乎样本本身的pathway丰度呢?
对于KEGG热图绘制,大部分是做到KO层级,因为基因/蛋白和KO的绝大部分都是一对一的对应关系。如果一定要做Pathway的丰度热图呢?一般的方法是将该通路中的基因/蛋白的丰度进行累加来表示该pathway的丰度。
好了,现在我们来计算并绘制热图吧。
数据处理
得到pathway富集分析结果文件一般是这样的:
Proteins字段中的基因/蛋白是用分号隔开的。
除此之外,我们还需要一个基因表达矩阵:
四组样本,每组3个重复,共12个。
我们的目标就是整理成这样的table,用来绘制热图:
从两个表可知,数据处理关键就是pathway中的蛋白丰度求和。把pathway中对应的各蛋白展开,再匹配到表达矩阵上,最后归并求和就好了,思路清晰了就动手吧。
得到的结果是这样的:
Proteins列中的蛋白都一一和Pathway对应起来了。后面就好办了,直接贴代码:
现在已经得到想要的数据了。
绘图
这个就不用多解释了。
图片大概成这样:
根据需要挑选一些pathway展示吧,太多不好看。
Ref: https://stackoverflow.com/questions/28719088/r-semicolon-delimited-a-column-into-rows
作者:Bioinfarmer,若要及时了解动态信息,请关注同名微信公众号:Bioinfarmer。