定义:融合基因是指两个或者多个基因联合起来,一起转录形成一个转录本;

检测的意义:融合基因可以作为某些疾病的特异分子标记,比如

  bcr/abl融合基因存在于95%以上的慢性粒细胞白血病患者中;

  AML1/ETO融合基因主要见于急性粒细胞白血病部分分化型患者中;

  CBFβ/MYH11融合基因是M4Eo型白血病的分子标志;

  PML/RARα融合基因是急性早幼粒细胞白血病(APL)的分子标志;

检测方法:

  只有少数的融合基因是因为染色体易位等原因,在DNA水平上联合在一起,而大多数的融合基因在DNA水平上并没有真正的融合在一起,只是在转录的时候共同转录而已,

所以通常利用RNA-seq来研究融合基因;只要检测到一个转录本来源于不同的基因,就可以识别出融合基因;

  fusionMap 可以利用RNA_seq的数据来检测融合基因,http://www.arrayserver.com/wiki/index.php?title=FusionMap

原理:

  

ECG EMG融合 TCN_安装包

  通过两种方式来检测融合基因:

  1) 对于没有mapping 上的基因组的unmapped reads, 通过识别 Fusion junction-spanning reads 来识别融合基因;这部分reads 在mapping的时候由于插入缺失的限制,没有能够mapping 上任何一个基因;

  2)对于mapping 上基因组的reads, 通过识别 Inter-transcript read pairs 来识别融合基因,这部分reads 的R1端和R2端分别mapping 到不同的基因

 

ECG EMG融合 TCN_php_02

 

  在fusionmap 中,假定融合基因由2个基因组成,对于没能比对上基因组的Fusion Junction-spanning reads, 又分为两类:设定一个阈值,如果这条reads 在两个基因中比对上的长度都大于阈值,就属于seed reads; 如果在任意一个基因中比对上的长度小于阈值,就属于Rescued reads;

安装:

  由于fusionmap 是一个在windows 平台上开发的一个.exe 文件,为了能够在linux 平台上运行,需要安装mono 这个软件,就用官网推荐的版本就可以

  下载fusinomap 安装包,下载物种对应的数据库

测试:

  

结果:

  

ECG EMG融合 TCN_bc_03

  FusionID : 识别到的融合基因的ID,前缀都为FUS,第一个数字为融合基因的起始位置,第二个数字为融合基因的终止位置,这里的位置实际上都是累积位置,把所有的染色体按照字母顺序首位相连构成一条参照的染色体,这样每个基因在这条染色体上都有一个位置,所以这里的位置都是累积位置,可以发现,终止位置的数字总是比起始位置大;括号里的内容是形成融合基因的两个基因的链的方向

  Strand : 形成融合基因的两个基因的链的方向, 包括++, --, +-, -+ 四种组合

  Position1: 检测到的融合基因的起始位置

  Chromosome1 : gene1 所在的染色体

  Chromsome2: gene2 所在的染色体

  Position2: 检测到的融合基因的终止位置

  knowGene1 : gene1 的symbol

  KnowTranscriptStrand: gene1的转录本的方向,有多个转录本,就有多个方向

  KnowGene2: gene2 的symbol

  KnowTranscripitStrand : gene2的转录本的方向,有多个转录本,就有多个方向

  FusionGene: 融合基因的名字,有gene1->gene2

  SplicePattern: 剪切模式,在融合基因的断点处的剪切模式,GT-AG, 在真核生物中存在可变剪切,不同物种间的exon之间的剪切位点是保守的,fusionmap 通过识别剪切位点作为融合基因的breakpoint, 还有其他几种常见的剪切模式,比如GC-AG,AT-AC

  在fusionmap 的输出结果中,还会给出accepted_hits.FusionReads.bam 文件,这个文件记录了fusionmap 识别到的融合基因的reads, 举一个具体的例子:

  以FUS_10436924_1077001566(++) 融合基因为例,对应的bam文件中的内容为:

  



ST-E00169:303:HC7LFALXX:3:2109:11921:42147	67	1	10436820	60	106M22S	17	7952031	0	CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA	AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Seed
ST-E00169:303:HC7LFALXX:3:2112:29680:36451	179	1	10436895	60	31M9S	17	7952031	0	ACACACACACACACACACACACACACACACACATACACAC	F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1224:28270:28206	179	1	10436898	60	28M12S	17	7952031	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2124:27681:49267	179	1	10436898	60	28M12S	17	7952031	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1209:27651:10503	179	1	10436900	60	26M12S	17	7952031	0	CACACACACACACACACACACACACACATACACACACA	F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2208:30036:65968	179	1	10436900	60	26M12S	17	7952031	0	CACACACACACACACACACACACACACATACACACACA	JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2209:4026:58848	179	1	10436900	60	26M12S	17	7952031	0	CACACACACACACACACACACACACACATACACACACA	JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2110:31020:2452	179	1	10436901	60	25M9S	17	7952031	0	ACACACACACACACACACACACACACATACACAC	JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2219:23632:11664	179	1	10436904	60	22M12S	17	7952031	0	CACACACACACACACACACACACATACACACACA	JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2109:11921:42147	131	17	7952031	30	106S22M	1	10436820	0	CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA	AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Seed
ST-E00169:303:HC7LFALXX:3:1209:27651:10503	115	17	7952031	60	26S12M	1	10436900	0	CACACACACACACACACACACACACACATACACACACA	F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1224:28270:28206	115	17	7952031	60	28S12M	1	10436898	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2110:31020:2452	115	17	7952031	60	25S9M	1	10436901	0	ACACACACACACACACACACACACACATACACAC	JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2112:29680:36451	115	17	7952031	60	31S9M	1	10436895	0	ACACACACACACACACACACACACACACACACATACACAC	F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2124:27681:49267	115	17	7952031	60	28S12M	1	10436898	0	CACACACACACACACACACACACACACACATACACACACA	JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2208:30036:65968	115	17	7952031	60	26S12M	1	10436900	0	CACACACACACACACACACACACACACATACACACACA	JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2209:4026:58848	115	17	7952031	60	26S12M	1	10436900	0	CACACACACACACACACACACACACACATACACACACA	JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2219:23632:11664	115	17	7952031	60	22S12M	1	10436904	0	CACACACACACACACACACACACATACACACACA	JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA	ZF:Z:FUS_10436924_1077001566(++)	ZT:Z:Rescued



  这里实际上保存的是fusionmap 识别到的融合基因的reads, 比如 ST-E00169:303:HC7LFALXX:3:2109:11921:42147 这条reads 的比对出现了两次,第一次比对到染色体1 上,比对情况为106M22S, 就是说这条reads 的前106bp 比对到染色体1上,比对上的起始位置为10432860; 第二次比对到染色体17上,比对情况为106S22M,就是说这条reads的后22bp比对到染色体17上,比对上的起始位置为7952031,由于在两个基因上的比对长度一个为106,一个为22,都超过了预先设定的最小比对长度,所以认为该reads 为Seed reads, 根据这个比对情况,我们就可以认为检测到了一个融合基因,由1号染色体和17号染色体上的两个基因共同转录生成了一个转录本;

  其他reads的比对情况也是一样的道理,可以发现,识别到的某个融合基因的breakpoint的位置是固定的,对于一个融合基因,只有识别到两条以上的reads支持该融合基因时,才认为检测到的是一个真实的融合基因,可以通过reads 比对的起始位置和终止位置来判断,如果起始位置和终止位置相同,则可能为相同模板的PCR 产物, 只能算作1条;只有起始和终止位置不同时,才可以算作不同的reads, 在fusionmap 输出的报告文件中,还有几列保存了这些信息;

  accepted_hits.UniqueCuttingPositionCount : unique cut 的次数,和上面说的支持融合基因的reads数目是一个道理,实验时将转录本随机打断进行测序,只有存在多个打断的位置,才会出现多条支持该融合基因的reads, 这个数字越大,证明该融合基因的准确度越高;

  

ECG EMG融合 TCN_bc_04

     黑色的线条是真实存在的融合基因形成的转录本,灰色的fragment是随机打断该转录本生成的序列,红色为融合基因对应的breakpoint,图中一共4条reads, 但是中间的2条reads 位置相同,可能是PCR 重复,所以实际上只能说有3条reads 支持该融合基因;fusinomap 在统计reads 数目的时候,实际上只看在第二个基因中的终止位置是否相同来判断,对于例子中的融合基因,报告中的值是3

accepted_hits.SeedCount      : Seed reads 的个数
  accepted_hits.RescuedCount : Rescude reeds 的个数

     SplicePattern : fusionmap 会识别融合基因的breakpoint 处的剪切模式,并对其进行分类,GA-TC这样的剪切模式是最常见的,类型为CanonicalPatter[Major],接下来比较常见的是GC-AG 和 AT-AC, 类型为CanonicalPatter[Minor], 对于其他的剪切模式,一般不常见,类型为NonCanonicalPatter;如果一个融合基因的breakpoint 处的剪切模式越常见,则检测到的该融合基因为真实存在的融合基因的可能信越大

  Frameshift:  breakpoint 处的密码子框的类型,3个碱基构成一个密码子,标记为0,1,2, 示意图如下:

  

ECG EMG融合 TCN_安装包_05

   

ECG EMG融合 TCN_bc_06

    FrameshiftClass: 上述几种常见的Frameshift 都归为In-Frame, 其他类型为 Frame-Shift;

    OnExonBoundary: 融合基因的breakpoint 是否位于基因的外显子的边界,一共有三种类型,None, Single, Both

    Distance : 融合基因的breakpoint 在两个基因之间的距离,如果两个基因位于不同的染色体,值为-1;