欢迎关注”生信修炼手册”!

在chip_seq数据分析中,peak calling是核心,得到peak区间之后,我们首先需要对peak进行注释。所谓的注释其实是一个比较宽泛的概念,其中包含了以下多种类型的注释信息

1. enrichment profile

profile是一个生信分析中的高频词汇,在不同组学数据中有不同的含义,在这里代表的是peak区域的reads在基因组上的分布。最基础的注释内容就是查看peak区域的reads在各个染色体上的分布,示意如下

peak注释信息揭秘_折线图

enrichment代表的是富集,这里的富集是针对某个特征位点而言的,比如最常见的在转录起始位点两侧peak reads的分布图,示意如下

peak注释信息揭秘_柱状图_02

折线图反映的是所有转录本上peak区域reads的分布情况,为了将所有转录本用一个值来表示,通常会取均值。对应的还有一种热图的展示方式,每一行代表一个转录本,示意如下

peak注释信息揭秘_折线图_03

除了TSS这种单个位点的分布外,还可以展示整个基因组上的分布,示意如下

peak注释信息揭秘_柱状图_04

2. genome location annotation

这种注释主要分析peak区间与基因组各种区间的overlap情况,比如5’UTR,3’UTR, exon等区域,然后绘制饼图或者柱状图,示意如下

peak注释信息揭秘_折线图_05

peak注释信息揭秘_折线图_06

根据注释文件的不同,划分的基因组区域也有所变化。

3. gene annotation

这部分注释主要分析peak区间与基因的关系,可以细分为overlap gene和nearest non-ovlap gene两种。第一种分析确定peak区间位于哪些基因的区域,示意如下

peak注释信息揭秘_柱状图_07

第二种分析peak上下游最近的区间没有交集的基因,示意如下

peak注释信息揭秘_数据分析_08

之所以做基因注释,是为了探究转录因子或者组蛋白修饰的靶基因,目前对于靶基因的筛选策略并没有统一的说法,以上两种注释筛选出来的基因都可以作为候选的靶基因,然后进行后续的GO/KEGG等功能富集分析。

·end·

—如果喜欢,快分享给你的朋友们吧—


扫描关注微信号,更多精彩内容等着你!

peak注释信息揭秘_柱状图_09