温馨提示:本章内容图片很多,建议在电脑上观看。

通过GenomeStudio的methylation 模块,可以方便的对甲基化芯片数据进行分析。这个软件主要提供了定量和差异两种分析,今天先看一下如何进行定量分析。

在使用软件之前,我们必须先准备好输入文件,需要两种类型的输入文件:

  1. 甲基化芯片的原始数据
  2. 芯片的注释信息,后缀为 .bpm 的文件

以illumina 官方下载的450K Demo 数据集为例,解压缩之后的文件如下图
GenomeStudio methylation : 对DNA甲基化水平进行定量_原始数据

HumanMethylation450_15017482_v.1.1.bpm 是450K 芯片的探针注释文件,可以从官网下载得到;​​5640269011​​​是芯片的​​Sentrix_ID​​, 在这个目录下是该芯片上的12个样本的原始数据,目录结构如下

5640269011/
├── 5640269011_R01C01_Grn.idat
├── 5640269011_R01C01_Red.idat
├── 5640269011_R01C02_Grn.idat
├── 5640269011_R01C02_Red.idat
...
├── 5640269011_R06C02_Grn.idat
├── 5640269011_R06C02_Red.idat

当芯片原始数据和探针注释文件准备好之后,就可以开始分析。
​​​GenomeStudio​​ 软件中有三个概念:

  1. project
  2. groupset
  3. group

分析时,我们首先需要新建一个project ,在这个project 下,包含所有待分析的样本的数据,然后新建一个groupset, 指定样本的分组信息,一个groupset 下面可以有多个group, 比如我们常见的control/case 实验实际,样本就会有两个group;
启动软件之后,点击 ​​​File​​​ -> ​​Project​​​ -> ​​Methylation​​​ 新建一个甲基化的项目,会弹出如下的对话框,让我们选择芯片平台,对于450K和850K 而言,选择 ​​Infinium​​​, 然后点击 ​​OK​​ 进入下一步

GenomeStudio methylation : 对DNA甲基化水平进行定量_数据_02

接下来选择 ​​Next​​​ 就行,在如下所示的对话框中,选择芯片类型,选择 ​​Infinium HD​​ 就行

GenomeStudio methylation : 对DNA甲基化水平进行定量_数据_03

在下面的输入框中输入项目保存的目录,并给项目起一个名字

GenomeStudio methylation : 对DNA甲基化水平进行定量_原始数据_04

接下来在​​Repository​​​ 中选择原始数据存放的目录, 在​​Barcode​​​ 中选择芯片对应的​​Sentrix ID​​​,  把想要分析的样本添加到​​Project Data​​​ 中,通过​​Project Data​​ 左侧的工具条,可以添加,删除样本

GenomeStudio methylation : 对DNA甲基化水平进行定量_数据_05

接下来新建​​groupset​​​,  勾选​​New​​​, 输入groupset 的名字,然后根据样本分组,新建不同的group。中间的格子代表样本,可以选中,​​Ctrl​​​ 可以多选,​​Project Groups​​ 左侧的工具条可以新建group , 并将选中的样本添加到该group下,我这里为了测试,将样本分成了case和control 两个group. 每个group下6个样本

GenomeStudio methylation : 对DNA甲基化水平进行定量_数据_06

最后选择对应的分析内容,这里我只计算样本的甲基化水平,勾选​​Methylation​​​, 然后为这个分析命名​​Name​​​, ​​Normalization​​​ 选择归一化的方法,none 表示不需用归一化,​​Content Descriptor​​​ 选择芯片探针注释数据.bpm,这些都设置好之后,点击 ​​Finish​​ 运行。

GenomeStudio methylation : 对DNA甲基化水平进行定量_原始数据_07

运行完成之后的截图如下:

GenomeStudio methylation : 对DNA甲基化水平进行定量_数据_08

默认情况下有3个窗口:

  1. Samples Table :  每个样本的汇总信息,比如检测到的cpg位点数
  2. Group Methylation Profile : 不同group的甲基化表达谱
  3. Sample Methylation Profile : 所有样本的表达谱

每个窗口下方都有对应的工具条,可以做许多的分析,这里我们只对​​Sample Methylation Profile​​进行说明, 我们的目的是获取所有样本甲基化水平表达谱,这里给出的Beta 值就是我们想要的结果。

对于这个表格,可以选择 如下所示的工具,选择想要展示的列的信息

GenomeStudio methylation : 对DNA甲基化水平进行定量_工具条_09

根据自己的目的,选择想要展示和隐藏的列,可以展示的列,可以鼠标选中之后,上下拖动,调整表头的顺序

GenomeStudio methylation : 对DNA甲基化水平进行定量_数据_10
在分析过程中,我们一般需要所有样本的​​​Detection Pval​​​ 和 ​​Avg_Beta​​​ 的信息。​​Detection Pval​​ 表示这个探针信号的可信度,越小越好,我们可以根据一定的阈值对可信度低的探针进行过滤,比如将pvalue > 0.01 的探针过滤掉。

​Avg_Beta​​​ 值就是甲基化水平的表达量,beta 值的计算公式为 M / (M + U +100), M 代表甲基化的信号,U 代表非甲基化的信号,之所以分母中加100,是为了防止分母为0的情况,100 是一个常用的标准。
当调整好表头之后,我们就可以将表格数据导出。

GenomeStudio methylation : 对DNA甲基化水平进行定量_原始数据_11

总结

  1. GenomeStudio 分析甲基化芯片数据,需要后缀为​​.bpm​​的探针注释文件和​​.idat​​格式的原始数据,要注意原始数据存放的目录格式;
  2. 通过​​project​​->​​groupset​​->​​group​​, 将所有样本数据导入,并设置好分组,就可以运行了;
  3. 对于探针数据的可信度,会有对应的p值,我们可以过滤掉p值较高(比如>0.01)的探针数据,对于甲基化水平,常用beta值来表征,通常我们都需要导出p值和beta值的表格。