技术简介
为了更经济有效地进行DNA甲基化分析,Illumina公司提供了一个更强大的甲基化分析平台: Illumina InfiniumMethylationEPIC BeadChip (DNA甲基化850K芯片),不但包含了原450K芯片90%以上的位点,并额外增加了增强子区的350,000个位点,可以对正常样本和FFPE样本单个CpG位点进行定量甲基化检测,该芯片是目前最适合甲基化图谱分析研究的全基因组DNA甲基化芯片。
850K芯片覆盖了全基因组853,307个CpG位点,全面覆盖CpG岛、启动子、编码区及增强子。覆盖CpG岛、RefSeq基因、ENCODE开放染色质、ENCODE转录因子结合位点、FANTOM5增强子区域。850K芯片包含以下位点:
• CpG岛以外的CpG位点;
• 人类干细胞中鉴定到的非CpG甲基化位点(CHH位点);
• 在正常样本VS肿瘤样本(多种类型肿瘤)以及不同类型组织中鉴定到的差异甲基化位点;
• FANTOM5项目鉴定到的增强子区域;
• ENCODE项目开放染色质和增强子区域;
• DNase超敏位点;
• miRNA启动子区域;
• 原450K芯片>90%的位点;
ChAMP是一个功能异常强大的R包,包括了从甲基化芯片原始数据预处理、标准化到差异的识别等全面的功能。2016年作者对该包进行了更新,新增功能包括细胞类型异质性纠正,差异甲基化块分析,基因集富集分析,功能表观模块分析以及基于图形用户界面的作图。之前的文章中已经介绍了老版本ChAMP用于分析450K数据,本文将以EPIC数据为例介绍该包的新功能。
1 实例分析
本文使用了EPIC dataset GSE86831数据集,包括15个样本四种表型:a transformed prostate cancer cellline (LNCaP); primary cell cultures of prostate epithelial cells (PrEC);patient-matched cancer associated fibroblasts (CAF) and non-malignant tissueassociated fibroblasts (NAF)。在GEO中下载IDAT文件以及样本信息文件:
1、数据加载,值得注意的是,样本信息文件以及样本文件应在同一文件夹:
myLoad <- champ.load(directory ="../Data",arraytype = "EPIC")
2、绘制beta值密度分布图:
QC.GUI(arraytype="EPIC")
左上角表示的是multi-dimensional scaling,每个点表示一个样本,右上角表示type-1和type-2探针密度分布图,左下角表示每个样本的beta值密度分布,右下角表示所有样本的系统聚类图。
如果type-1和type-2探针有显著差异,则需要进行校正,本文使用的是BMIQ方法,
myNorm <-champ.norm(arraytype="EPIC")
BMIQ标准化后结果图,红线表示type-1的beta分布图,黑线表示type-2的分布图,蓝线表示标准化后的type-2分布图。
3、差异甲基化探针DMP鉴定:
myDMP <- champ.DMP(arraytype ="EPIC")
鉴定完DMP以后,DMP.GUI()函数可以对数据集进行可视化操作:
A图展示DMPs在基因组上的分布,B图显示CpG位点甲基化值的箱式图,C图显示显著富集在基因NFIX上的CpG位点,D图展示了70个CpG最为富集的基因。
4、鉴定差异甲基化区域及其可视化:
myDMR <- champ.DMR(arraytype ="EPIC",method="DMRcate",cores=1)
DMR.GUI(DMR=myDMR,arraytype="EPIC",compare.group=c("PrEC_cells","LNCaP_cells"))
使用bumphunter算法鉴定差异甲基化块DMB:
myBlock <- champ.Block(arraytype ="EPIC")
Block.GUI(arraytype="EPIC",compare.group=c("PrEC_cells","LNCaP_cells"))
左上角表示显著的DMRs,右上角表示每种表型的DMR,下图则为DMB的可视化结果。
5、对DMBs和DMRs进行GSEA分析:
myGSEA <- champ.GSEA(DMP=myDMP,arraytype= "EPIC"),此外细胞类型异质性的校正可以使用champ.refbase()函数,值得一提的是,当前只支持血液数据集的校正。
6、计算拷贝数变异:
myCNA <- champ.CNA(control = F,arraytype= "EPIC")
通过比较每个样本与对照表型计算拷贝数变异或者比较每个样本与平均拷贝数来计算变异情况。
上图表示NAF样本的拷贝数变异
7、差异甲基化基因模块分析:
myEpiMod <-champ.EpiMod(arraytype="EPIC")
点表示基因,点的颜色表示正常与癌症组织的甲基化差异程度,边的权重表示两个基因甲基化差异程度。