温馨提示:本章内容图片很多,建议在电脑上观看。
通过GenomeStudio的methylation 模块,可以方便的对甲基化芯片数据进行分析。这个软件主要提供了定量和差异两种分析,今天先看一下如何进行定量分析。
在使用软件之前,我们必须先准备好输入文件,需要两种类型的输入文件:
- 甲基化芯片的原始数据
- 芯片的注释信息,后缀为 .bpm 的文件
以illumina 官方下载的450K Demo 数据集为例,解压缩之后的文件如下图
HumanMethylation450_15017482_v.1.1.bpm 是450K 芯片的探针注释文件,可以从官网下载得到;5640269011
是芯片的Sentrix_ID
, 在这个目录下是该芯片上的12个样本的原始数据,目录结构如下
5640269011/
├── 5640269011_R01C01_Grn.idat
├── 5640269011_R01C01_Red.idat
├── 5640269011_R01C02_Grn.idat
├── 5640269011_R01C02_Red.idat
...
├── 5640269011_R06C02_Grn.idat
├── 5640269011_R06C02_Red.idat
当芯片原始数据和探针注释文件准备好之后,就可以开始分析。
GenomeStudio
软件中有三个概念:
- project
- groupset
- group
分析时,我们首先需要新建一个project ,在这个project 下,包含所有待分析的样本的数据,然后新建一个groupset, 指定样本的分组信息,一个groupset 下面可以有多个group, 比如我们常见的control/case 实验实际,样本就会有两个group;
启动软件之后,点击 File
-> Project
-> Methylation
新建一个甲基化的项目,会弹出如下的对话框,让我们选择芯片平台,对于450K和850K 而言,选择 Infinium
, 然后点击 OK
进入下一步
接下来选择 Next
就行,在如下所示的对话框中,选择芯片类型,选择 Infinium HD
就行
在下面的输入框中输入项目保存的目录,并给项目起一个名字
接下来在Repository
中选择原始数据存放的目录, 在Barcode
中选择芯片对应的Sentrix ID
, 把想要分析的样本添加到Project Data
中,通过Project Data
左侧的工具条,可以添加,删除样本
接下来新建groupset
, 勾选New
, 输入groupset 的名字,然后根据样本分组,新建不同的group。中间的格子代表样本,可以选中,Ctrl
可以多选,Project Groups
左侧的工具条可以新建group , 并将选中的样本添加到该group下,我这里为了测试,将样本分成了case和control 两个group. 每个group下6个样本
最后选择对应的分析内容,这里我只计算样本的甲基化水平,勾选Methylation
, 然后为这个分析命名Name
, Normalization
选择归一化的方法,none 表示不需用归一化,Content Descriptor
选择芯片探针注释数据.bpm,这些都设置好之后,点击 Finish
运行。
运行完成之后的截图如下:
默认情况下有3个窗口:
- Samples Table : 每个样本的汇总信息,比如检测到的cpg位点数
- Group Methylation Profile : 不同group的甲基化表达谱
- Sample Methylation Profile : 所有样本的表达谱
每个窗口下方都有对应的工具条,可以做许多的分析,这里我们只对Sample Methylation Profile
进行说明, 我们的目的是获取所有样本甲基化水平表达谱,这里给出的Beta 值就是我们想要的结果。
对于这个表格,可以选择 如下所示的工具,选择想要展示的列的信息
根据自己的目的,选择想要展示和隐藏的列,可以展示的列,可以鼠标选中之后,上下拖动,调整表头的顺序
在分析过程中,我们一般需要所有样本的Detection Pval
和 Avg_Beta
的信息。Detection Pval
表示这个探针信号的可信度,越小越好,我们可以根据一定的阈值对可信度低的探针进行过滤,比如将pvalue > 0.01 的探针过滤掉。
Avg_Beta
值就是甲基化水平的表达量,beta 值的计算公式为 M / (M + U +100), M 代表甲基化的信号,U 代表非甲基化的信号,之所以分母中加100,是为了防止分母为0的情况,100 是一个常用的标准。
当调整好表头之后,我们就可以将表格数据导出。
总结
- GenomeStudio 分析甲基化芯片数据,需要后缀为
.bpm
的探针注释文件和.idat
格式的原始数据,要注意原始数据存放的目录格式; - 通过
project
->groupset
->group
, 将所有样本数据导入,并设置好分组,就可以运行了; - 对于探针数据的可信度,会有对应的p值,我们可以过滤掉p值较高(比如>0.01)的探针数据,对于甲基化水平,常用beta值来表征,通常我们都需要导出p值和beta值的表格。