解密Hi-C数据分析中的分辨率

原创

庐州月光 2022-06-21 09:17:16 ©著作权

文章标签 数据生物信息学数据分析 文章分类 数据分析人工智能

©著作权归作者所有：来自51CTO博客作者庐州月光的原创作品，请联系作者获取转载授权，否则将追究法律责任

欢迎关注”生信修炼手册”!

Hi-C基于传统的染色质构象捕获技术，在DNA连接时引入生物素标记分子，标记交联的染色质，然后富集带有生物素标记的junction reads, 再结合高通量测序和下游的生物信息学分析，可以在全基因组范围内研究染色质的空间互作关系。

在Hi-C文库中，我们得到的是互作染色质形成的junciton reads, 通过将这些reads 比对到参考基因组之后，可以分析染色质之间的互作。以下图为例

解密Hi-C数据分析中的分辨率_数据

图中蓝色和红色对应的染色质区域有互作，黑色和黄色对应的染色质区域有互作，在对应的Hi-C文库中，我们可以得到如下所示的junction reads

解密Hi-C数据分析中的分辨率_生物信息学_02

将这些reads正确比对到参考基因组上之后，就可以确定对应的染色质区域之间存在互作，而对应的junction reads的数目越多，则代表两个区域交互作用发生的频率越高。

解密Hi-C数据分析中的分辨率_生物信息学_03

对于所有区域的互作信息，通常会用一个交互矩阵interaction matirx来表示，该矩阵是一个方阵，每一行或者列都代表一个染色质区域，方格的颜色代表代表两个区域交互作用的强弱，示意如下

解密Hi-C数据分析中的分辨率_生物信息学_04

在构建矩阵的过程中，我们首先需要确定每一行代表的染色质区域的范围，互作的片段是通过酶切来得到的, 理论上存在10的11方种唯一的酶切片段。如果想要精确分析所有酶切片段之间的交互，首先需要足够的测序深度，涵盖所有类型的酶切片段，这就要求非常庞大的测序数据量，其次对于如此庞大的交互矩阵，数数据分析阶段对于计算资源的消耗也是一个天文数字。

为了有效利用Hi-C文库中的信息，科学家提出了binning的概念，将基因组划分为等长的窗口，这样的窗口称之为bin, 利用窗口内reads的分布来研究不同窗口之间的互作关系。这样的处理相比最原始，最直接的染色质互作数据，其分辨率确实是有一定程度的丢失，但是基于全基因组范围，仍然能够挖掘出很多有效信息。

bin窗口的长度称之为分辨率。如果分辨率为1Mb, 以人类基因组为例，在交互矩阵中会有3000左右的行。bin窗口的长度越小，则基因组区域的划分越细致，对于染色质三维构象的研究的就越精细。

不同分辨率对于测序量的要求不同，适用的场景也不同。基于不同分辨率的Hi-C数据，陆续发现了A/B compartments, TAD拓扑结构域，染色质环等空间结构。

·end·

—如果喜欢，快分享给你的朋友们吧—

扫描关注微信号，更多精彩内容等着你！

解密Hi-C数据分析中的分辨率_数据分析_05