定义:融合基因是指两个或者多个基因联合起来,一起转录形成一个转录本;
检测的意义:融合基因可以作为某些疾病的特异分子标记,比如
bcr/abl融合基因存在于95%以上的慢性粒细胞白血病患者中;
AML1/ETO融合基因主要见于急性粒细胞白血病部分分化型患者中;
CBFβ/MYH11融合基因是M4Eo型白血病的分子标志;
PML/RARα融合基因是急性早幼粒细胞白血病(APL)的分子标志;
检测方法:
只有少数的融合基因是因为染色体易位等原因,在DNA水平上联合在一起,而大多数的融合基因在DNA水平上并没有真正的融合在一起,只是在转录的时候共同转录而已,
所以通常利用RNA-seq来研究融合基因;只要检测到一个转录本来源于不同的基因,就可以识别出融合基因;
fusionMap 可以利用RNA_seq的数据来检测融合基因,http://www.arrayserver.com/wiki/index.php?title=FusionMap
原理:
通过两种方式来检测融合基因:
1) 对于没有mapping 上的基因组的unmapped reads, 通过识别 Fusion junction-spanning reads 来识别融合基因;这部分reads 在mapping的时候由于插入缺失的限制,没有能够mapping 上任何一个基因;
2)对于mapping 上基因组的reads, 通过识别 Inter-transcript read pairs 来识别融合基因,这部分reads 的R1端和R2端分别mapping 到不同的基因
在fusionmap 中,假定融合基因由2个基因组成,对于没能比对上基因组的Fusion Junction-spanning reads, 又分为两类:设定一个阈值,如果这条reads 在两个基因中比对上的长度都大于阈值,就属于seed reads; 如果在任意一个基因中比对上的长度小于阈值,就属于Rescued reads;
安装:
由于fusionmap 是一个在windows 平台上开发的一个.exe 文件,为了能够在linux 平台上运行,需要安装mono 这个软件,就用官网推荐的版本就可以
下载fusinomap 安装包,下载物种对应的数据库
测试:
结果:
FusionID : 识别到的融合基因的ID,前缀都为FUS,第一个数字为融合基因的起始位置,第二个数字为融合基因的终止位置,这里的位置实际上都是累积位置,把所有的染色体按照字母顺序首位相连构成一条参照的染色体,这样每个基因在这条染色体上都有一个位置,所以这里的位置都是累积位置,可以发现,终止位置的数字总是比起始位置大;括号里的内容是形成融合基因的两个基因的链的方向
Strand : 形成融合基因的两个基因的链的方向, 包括++, --, +-, -+ 四种组合
Position1: 检测到的融合基因的起始位置
Chromosome1 : gene1 所在的染色体
Chromsome2: gene2 所在的染色体
Position2: 检测到的融合基因的终止位置
knowGene1 : gene1 的symbol
KnowTranscriptStrand: gene1的转录本的方向,有多个转录本,就有多个方向
KnowGene2: gene2 的symbol
KnowTranscripitStrand : gene2的转录本的方向,有多个转录本,就有多个方向
FusionGene: 融合基因的名字,有gene1->gene2
SplicePattern: 剪切模式,在融合基因的断点处的剪切模式,GT-AG, 在真核生物中存在可变剪切,不同物种间的exon之间的剪切位点是保守的,fusionmap 通过识别剪切位点作为融合基因的breakpoint, 还有其他几种常见的剪切模式,比如GC-AG,AT-AC
在fusionmap 的输出结果中,还会给出accepted_hits.FusionReads.bam 文件,这个文件记录了fusionmap 识别到的融合基因的reads, 举一个具体的例子:
以FUS_10436924_1077001566(++) 融合基因为例,对应的bam文件中的内容为:
ST-E00169:303:HC7LFALXX:3:2109:11921:42147 67 1 10436820 60 106M22S 17 7952031 0 CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Seed
ST-E00169:303:HC7LFALXX:3:2112:29680:36451 179 1 10436895 60 31M9S 17 7952031 0 ACACACACACACACACACACACACACACACACATACACAC F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1224:28270:28206 179 1 10436898 60 28M12S 17 7952031 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2124:27681:49267 179 1 10436898 60 28M12S 17 7952031 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1209:27651:10503 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2208:30036:65968 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2209:4026:58848 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2110:31020:2452 179 1 10436901 60 25M9S 17 7952031 0 ACACACACACACACACACACACACACATACACAC JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2219:23632:11664 179 1 10436904 60 22M12S 17 7952031 0 CACACACACACACACACACACACATACACACACA JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2109:11921:42147 131 17 7952031 30 106S22M 1 10436820 0 CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Seed
ST-E00169:303:HC7LFALXX:3:1209:27651:10503 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1224:28270:28206 115 17 7952031 60 28S12M 1 10436898 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2110:31020:2452 115 17 7952031 60 25S9M 1 10436901 0 ACACACACACACACACACACACACACATACACAC JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2112:29680:36451 115 17 7952031 60 31S9M 1 10436895 0 ACACACACACACACACACACACACACACACACATACACAC F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2124:27681:49267 115 17 7952031 60 28S12M 1 10436898 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2208:30036:65968 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2209:4026:58848 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2219:23632:11664 115 17 7952031 60 22S12M 1 10436904 0 CACACACACACACACACACACACATACACACACA JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
这里实际上保存的是fusionmap 识别到的融合基因的reads, 比如 ST-E00169:303:HC7LFALXX:3:2109:11921:42147 这条reads 的比对出现了两次,第一次比对到染色体1 上,比对情况为106M22S, 就是说这条reads 的前106bp 比对到染色体1上,比对上的起始位置为10432860; 第二次比对到染色体17上,比对情况为106S22M,就是说这条reads的后22bp比对到染色体17上,比对上的起始位置为7952031,由于在两个基因上的比对长度一个为106,一个为22,都超过了预先设定的最小比对长度,所以认为该reads 为Seed reads, 根据这个比对情况,我们就可以认为检测到了一个融合基因,由1号染色体和17号染色体上的两个基因共同转录生成了一个转录本;
其他reads的比对情况也是一样的道理,可以发现,识别到的某个融合基因的breakpoint的位置是固定的,对于一个融合基因,只有识别到两条以上的reads支持该融合基因时,才认为检测到的是一个真实的融合基因,可以通过reads 比对的起始位置和终止位置来判断,如果起始位置和终止位置相同,则可能为相同模板的PCR 产物, 只能算作1条;只有起始和终止位置不同时,才可以算作不同的reads, 在fusionmap 输出的报告文件中,还有几列保存了这些信息;
accepted_hits.UniqueCuttingPositionCount : unique cut 的次数,和上面说的支持融合基因的reads数目是一个道理,实验时将转录本随机打断进行测序,只有存在多个打断的位置,才会出现多条支持该融合基因的reads, 这个数字越大,证明该融合基因的准确度越高;
黑色的线条是真实存在的融合基因形成的转录本,灰色的fragment是随机打断该转录本生成的序列,红色为融合基因对应的breakpoint,图中一共4条reads, 但是中间的2条reads 位置相同,可能是PCR 重复,所以实际上只能说有3条reads 支持该融合基因;fusinomap 在统计reads 数目的时候,实际上只看在第二个基因中的终止位置是否相同来判断,对于例子中的融合基因,报告中的值是3
accepted_hits.SeedCount : Seed reads 的个数
accepted_hits.RescuedCount : Rescude reeds 的个数
SplicePattern : fusionmap 会识别融合基因的breakpoint 处的剪切模式,并对其进行分类,GA-TC这样的剪切模式是最常见的,类型为CanonicalPatter[Major],接下来比较常见的是GC-AG 和 AT-AC, 类型为CanonicalPatter[Minor], 对于其他的剪切模式,一般不常见,类型为NonCanonicalPatter;如果一个融合基因的breakpoint 处的剪切模式越常见,则检测到的该融合基因为真实存在的融合基因的可能信越大
Frameshift: breakpoint 处的密码子框的类型,3个碱基构成一个密码子,标记为0,1,2, 示意图如下:
FrameshiftClass: 上述几种常见的Frameshift 都归为In-Frame, 其他类型为 Frame-Shift;
OnExonBoundary: 融合基因的breakpoint 是否位于基因的外显子的边界,一共有三种类型,None, Single, Both
Distance : 融合基因的breakpoint 在两个基因之间的距离,如果两个基因位于不同的染色体,值为-1;