前言
没去龙星课程的小伙伴们不要着急,关注我们的公众号,一样可以进行学习,本文今天主要介绍的是转录因子结合motif 的分析。
众所周知,转录因子主要结合在基因的启动子区和远端增强子区域调控基因表达。
1 如何寻找motif
转录因子频繁结合的DNA 序列称之为motif ,目前可以使用软件MEME依赖最大期望法EM寻找motif,方法的原理分为4步。
1.估计k-mer 的motif模型(PWM)
2.对于输入序列的每个k-mer,识别给定PWM模型的可能性
3.基于输入序列的所有k-mer的位置频数,计算新的PWM模型
4.循环这一过程,迭代出最好的PWM
例如:Find a 6-mer motif in 4sequences
1. MEME uses an initial EM heuristic to estimate thebest starting-point
PWM matrix:
2. MEME scores the match of all 6-mers to currentmatrix
3. Re-estimate the PWM based on the weightedcontribution of all 6-mers
4. MEME scoresthe match of all 6-mers to current matrix
5. Re-estimate the PWM based on the weightedcontribution of all 6-mers
6.MEME scores the match of all 6-mers to current matrix
Iterations continue until convergence
根据位置权重矩阵PWM,展现出每个位置最常富集的碱基,识别基因特异结合的motif ,例如GATA1结合的motif 是[AT]GATA[AG]。
本文中的图片,均来自授课老师的讲课教材,感谢授课老师的精彩的课程安排与无私的分享。感谢哈工大的老师及工作人员在课程期间的精心准备与辛苦组织,提供了我们一个非常棒的学习机会。规格严格,功夫到家!!!