前言
在龙星课程的第四天,马坚教授主要讲解了表观基因组学和染色质状态,本文对课程部分内容进行概述。
马坚教授首先通过几个简单的例子引出了表观基因组学,例如具有相同DNA序列的物种具有不同的表型,如yellow mouse和Agouti mouse的基因组完全相同,但二者表型差别很大,且yellow mouse更容易患癌症、糖尿病、肥胖等疾病,而Agouti mouse的Agouti基因被甲基化,其患病风险明显降低。此外,同卵双生子的研究进一步说明了DNA甲基化与年龄的关系:50岁的同卵双生子在DNA甲基化模式上呈现出显著差异,暗示了高低甲基化事件的发生,而3岁的同卵双生子具有非常相似的DNA甲基化模式(Fraga et al. PNAS 2005),如下图所示。
1 表观遗传学
表观遗传学机制主要包括DNA甲基化、组蛋白修饰及二者之间的互作,表观遗传在正常细胞的生长、分化、增殖过程中发挥重要作用,DNA甲基化、组蛋白修饰的异常可能会导致癌症等疾病的发生。此外,表观遗传学机制具有细胞和组织特异性,通常与环境因素共同作用影响疾病的发生发展。研究发现DNA甲基化在哺乳动物基因组上分布不均一,大多数的甲基化发生在重复元件上,并且以CG位点甲基化为主。DNA甲基化较少发生在基因的启动子区,主要富集在基因体上(Lister et al. Nature 2009),如下图。
1 WGBS
本次课程中马坚教授简要介绍了重亚硫酸盐测序的原理和数据处理过程,重亚硫酸盐使DNA序列中非甲基化的胞嘧啶(C)转化成尿嘧啶(U),而甲基化的胞嘧啶保持不变,经PCR扩增后,尿嘧啶转化为胸腺嘧啶(T)。最后对PCR产物进行测序,并与未经处理的序列比较判断CpG位点是否发生甲基化。该方法的精确度和可靠性都很高,适用于定位关键性的CpG位点。下图为Bismark工具处理WGBS数据的基本流程。
1 染色质状态
不同水平的染色质结构通常与转录激活或抑制密切相关。染色质结构是层次化的,其底层是DNA序列,可以发生胞嘧啶甲基化;DNA序列折叠形成核小体——染色质的结构单元,由147
bp的DNA缠绕组蛋白八聚体构成,构成核小体的组蛋白H2A、H2B、H3、H4可发生不同的化学修饰,这些组蛋白修饰和变异构成了染色质的主要结构;最终形成三维结构(如下图所示)。
哺乳动物基因组中的组蛋白修饰有助于划分功能性元件,活性启动子区通常被H3K4me2、H3K4me3标记;转录区通常富集H3K36me3和H3K79me2;转录抑制基因通常位于H3K9me2、H3K9me3或H3K27me3区域;增强子区域通常富集H3K4me1、H3K4me2、H3K27ac及组蛋白乙酰转移酶p300;CTCF结合位点区域通常发挥边界作用,如绝缘子等。目前用于检测组蛋白修饰的高通量技术主要为ChIP-seq,可以检测到组蛋白富集的峰值区域并对其DNA序列进行测序,ENCODE中存储了大量的ChIP-seq数据。
接下来马老师介绍了隐马尔科夫(HMM)模型与动态贝叶斯网络(DBN)的算法原理,并比较了ChromHMM和Segway(基于DBN)软件的差异:第一,二者分辨率不同,ChromHMM分辨率为200bp,Segway分辨率为1bp;第二,ChromHMM使用Bermoulli模型,而Segway使用Gaussian模型;第三,解码方式不同;第四,ChromHMM对于所有细胞类型使用相同的模型,而Segway对于每个细胞类型使用一种模型。
(ChromHMM输出结果)
本文中的图片,均来自授课老师的讲课教材,感谢授课老师的精彩的课程安排与无私的分享。感谢哈工大的老师及工作人员在课程期间的精心准备与辛苦组织,提供了我们一个非常棒的学习机会。规格严格,功夫到家!!!