FusionMap 检测融合基因
定义:融合基因是指两个或者多个基因联合起来,一起转录形成一个转录本;
检测的意义:融合基因可以作为某些疾病的特异分子标记,比如
bcr/abl融合基因存在于95%以上的慢性粒细胞白血病患者中;
AML1/ETO融合基因主要见于急性粒细胞白血病部分分化型患者中;
CBFβ/MYH11融合基因是M4Eo型白血病的分子标志;
PML/RARα融合基因是急性早幼粒细胞白血病(APL)的分子标志;
检测方法:
只有少数的融合基因是因为染色体易位等原因,在DNA水平上联合在一起,而大多数的融合基因在DNA水平上并没有真正的融合在一起,只是在转录的时候共同转录而已,
所以通常利用RNA-seq来研究融合基因;只要检测到一个转录本来源于不同的基因,就可以识别出融合基因;
fusionMap 可以利用RNA_seq的数据来检测融合基因,http://www.arrayserver.com/wiki/index.php?title=FusionMap
原理:

通过两种方式来检测融合基因:
1) 对于没有mapping 上的基因组的unmapped reads, 通过识别 Fusion junction-spanning reads 来识别融合基因;这部分reads 在mapping的时候由于插入缺失的限制,没有能够mapping 上任何一个基因;
2)对于mapping 上基因组的reads, 通过识别 Inter-transcript read pairs 来识别融合基因,这部分reads 的R1端和R2端分别mapping 到不同的基因

在fusionmap 中,假定融合基因由2个基因组成,对于没能比对上基因组的Fusion Junction-spanning reads, 又分为两类:设定一个阈值,如果这条reads 在两个基因中比对上的长度都大于阈值,就属于seed reads; 如果在任意一个基因中比对上的长度小于阈值,就属于Rescued reads;
安装:
由于fusionmap 是一个在windows 平台上开发的一个.exe 文件,为了能够在linux 平台上运行,需要安装mono 这个软件,就用官网推荐的版本就可以
下载fusinomap 安装包,下载物种对应的数据库
测试:
结果:

FusionID : 识别到的融合基因的ID,前缀都为FUS,第一个数字为融合基因的起始位置,第二个数字为融合基因的终止位置,这里的位置实际上都是累积位置,把所有的染色体按照字母顺序首位相连构成一条参照的染色体,这样每个基因在这条染色体上都有一个位置,所以这里的位置都是累积位置,可以发现,终止位置的数字总是比起始位置大;括号里的内容是形成融合基因的两个基因的链的方向
Strand : 形成融合基因的两个基因的链的方向, 包括++, --, +-, -+ 四种组合
Position1: 检测到的融合基因的起始位置
Chromosome1 : gene1 所在的染色体
Chromsome2: gene2 所在的染色体
Position2: 检测到的融合基因的终止位置
knowGene1 : gene1 的symbol
KnowTranscriptStrand: gene1的转录本的方向,有多个转录本,就有多个方向
KnowGene2: gene2 的symbol
KnowTranscripitStrand : gene2的转录本的方向,有多个转录本,就有多个方向
FusionGene: 融合基因的名字,有gene1->gene2
SplicePattern: 剪切模式,在融合基因的断点处的剪切模式,GT-AG, 在真核生物中存在可变剪切,不同物种间的exon之间的剪切位点是保守的,fusionmap 通过识别剪切位点作为融合基因的breakpoint, 还有其他几种常见的剪切模式,比如GC-AG,AT-AC
在fusionmap 的输出结果中,还会给出accepted_hits.FusionReads.bam 文件,这个文件记录了fusionmap 识别到的融合基因的reads, 举一个具体的例子:
以FUS_10436924_1077001566(++) 融合基因为例,对应的bam文件中的内容为:
ST-E00169:303:HC7LFALXX:3:2109:11921:42147 67 1 10436820 60 106M22S 17 7952031 0 CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Seed
ST-E00169:303:HC7LFALXX:3:2112:29680:36451 179 1 10436895 60 31M9S 17 7952031 0 ACACACACACACACACACACACACACACACACATACACAC F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1224:28270:28206 179 1 10436898 60 28M12S 17 7952031 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2124:27681:49267 179 1 10436898 60 28M12S 17 7952031 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1209:27651:10503 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2208:30036:65968 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2209:4026:58848 179 1 10436900 60 26M12S 17 7952031 0 CACACACACACACACACACACACACACATACACACACA JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2110:31020:2452 179 1 10436901 60 25M9S 17 7952031 0 ACACACACACACACACACACACACACATACACAC JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2219:23632:11664 179 1 10436904 60 22M12S 17 7952031 0 CACACACACACACACACACACACATACACACACA JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2109:11921:42147 131 17 7952031 30 106S22M 1 10436820 0 CTCTTTTCTTTTTTCTTGTGCTGAGAATCTCGTTAGTAGCATGTGGCCTAACAAAAGGAAAAAATGTTTTTAAACACACACACACACACACACACACACACACACACATATACACACACAAAAACAGA AAFFFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJAFJJ<FJJFJ<JAF-A ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Seed
ST-E00169:303:HC7LFALXX:3:1209:27651:10503 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA F-JFFFJJF<JJJJJJJJJJJJJJJJJJJFJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:1224:28270:28206 115 17 7952031 60 28S12M 1 10436898 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJJFJFJJJJJJJJJJJJJJJJJFJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2110:31020:2452 115 17 7952031 60 25S9M 1 10436901 0 ACACACACACACACACACACACACACATACACAC JJJJJJJJJJJJJJJJJJJJFJJJJJJFJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2112:29680:36451 115 17 7952031 60 31S9M 1 10436895 0 ACACACACACACACACACACACACACACACACATACACAC F7<JJJJF<JFJJJJFFJJJFJJJFJJJJFFJJFFFAAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2124:27681:49267 115 17 7952031 60 28S12M 1 10436898 0 CACACACACACACACACACACACACACACATACACACACA JJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJFJAJFA-AA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2208:30036:65968 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA JJJJJJJJFJJJJJJJJJJJJJJJJJJJJFJJJFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2209:4026:58848 115 17 7952031 60 26S12M 1 10436900 0 CACACACACACACACACACACACACACATACACACACA JAJFJJJJF<JJJFJJJJJJJJJJJJJJJJJ<JFFFAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
ST-E00169:303:HC7LFALXX:3:2219:23632:11664 115 17 7952031 60 22S12M 1 10436904 0 CACACACACACACACACACACACATACACACACA JJJJJJJJJJJJJJJFJJJJJJJJJJJJJFFAAA ZF:Z:FUS_10436924_1077001566(++) ZT:Z:Rescued
这里实际上保存的是fusionmap 识别到的融合基因的reads, 比如 ST-E00169:303:HC7LFALXX:3:2109:11921:42147 这条reads 的比对出现了两次,第一次比对到染色体1 上,比对情况为106M22S, 就是说这条reads 的前106bp 比对到染色体1上,比对上的起始位置为10432860; 第二次比对到染色体17上,比对情况为106S22M,就是说这条reads的后22bp比对到染色体17上,比对上的起始位置为7952031,由于在两个基因上的比对长度一个为106,一个为22,都超过了预先设定的最小比对长度,所以认为该reads 为Seed reads, 根据这个比对情况,我们就可以认为检测到了一个融合基因,由1号染色体和17号染色体上的两个基因共同转录生成了一个转录本;
其他reads的比对情况也是一样的道理,可以发现,识别到的某个融合基因的breakpoint的位置是固定的,对于一个融合基因,只有识别到两条以上的reads支持该融合基因时,才认为检测到的是一个真实的融合基因,可以通过reads 比对的起始位置和终止位置来判断,如果起始位置和终止位置相同,则可能为相同模板的PCR 产物, 只能算作1条;只有起始和终止位置不同时,才可以算作不同的reads, 在fusionmap 输出的报告文件中,还有几列保存了这些信息;
accepted_hits.UniqueCuttingPositionCount : unique cut 的次数,和上面说的支持融合基因的reads数目是一个道理,实验时将转录本随机打断进行测序,只有存在多个打断的位置,才会出现多条支持该融合基因的reads, 这个数字越大,证明该融合基因的准确度越高;

黑色的线条是真实存在的融合基因形成的转录本,灰色的fragment是随机打断该转录本生成的序列,红色为融合基因对应的breakpoint,图中一共4条reads, 但是中间的2条reads 位置相同,可能是PCR 重复,所以实际上只能说有3条reads 支持该融合基因;fusinomap 在统计reads 数目的时候,实际上只看在第二个基因中的终止位置是否相同来判断,对于例子中的融合基因,报告中的值是3
accepted_hits.SeedCount : Seed reads 的个数
accepted_hits.RescuedCount : Rescude reeds 的个数
SplicePattern : fusionmap 会识别融合基因的breakpoint 处的剪切模式,并对其进行分类,GA-TC这样的剪切模式是最常见的,类型为CanonicalPatter[Major],接下来比较常见的是GC-AG 和 AT-AC, 类型为CanonicalPatter[Minor], 对于其他的剪切模式,一般不常见,类型为NonCanonicalPatter;如果一个融合基因的breakpoint 处的剪切模式越常见,则检测到的该融合基因为真实存在的融合基因的可能信越大
Frameshift: breakpoint 处的密码子框的类型,3个碱基构成一个密码子,标记为0,1,2, 示意图如下:


FrameshiftClass: 上述几种常见的Frameshift 都归为In-Frame, 其他类型为 Frame-Shift;
OnExonBoundary: 融合基因的breakpoint 是否位于基因的外显子的边界,一共有三种类型,None, Single, Both
Distance : 融合基因的breakpoint 在两个基因之间的距离,如果两个基因位于不同的染色体,值为-1;
FusionMap 检测融合基因的更多相关文章
- tophat-fusion 鉴定融合基因
tophat-fusion 是一款利用RNA_seq 数据鉴定融合基因的工具,官网链接如下: http://ccb.jhu.edu/software/tophat/fusion_index.shtml ...
- NGS检测ALK融合大起底--转载
导读: ALK融合是非小细胞肺癌的关键驱动机制之一,在NSCLC患者中发生的频率约为3-7%.针对ALK融合的抑制剂克唑替尼.色瑞替尼以及Alectinib在治疗ALK融合阳性的NSCLC患者中都取得 ...
- fusion--RNAseq
融合基因(Fusion gene)是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程.其有可能是染色体易位.中间缺失或染色体倒置所致的结果. 异常的融合基因可以引起恶性血液疾病以及肿瘤.例如 ...
- perl 截取 fastq文件
#!/usr/bin/perl -w use warnings; use strict; input_fastq trim_length}; ; my ($fastq, $trim_length) = ...
- RNA -seq
RNA -seq RNA-seq目的.用处::可以帮助我们了解,各种比较条件下,所有基因的表达情况的差异. 比如:正常组织和肿瘤组织的之间的差异:检测药物治疗前后,基因表达的差异:检测发育过程中,不同 ...
- xgene:WGS,突变与癌,RNA-seq,WES
人类全基因组测序06 SNP(single nucleotide polymorphism):有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了. 一个普通黄种人的基因组,与hg19这个参 ...
- BCR-ABL融合基因及检测
费城染色体 费城染色体(Philadelphia chromosome, Ph (or Ph') chromosome),或称费城染色体易位(Philadelphia translocation),是 ...
- FusionCancer-人类癌症相关的融合基因的数据库
RNA-seq 测序可以用于融合基因的发现,在过去的十几年里,RNA-seq 测序数据不断增加,发现的融合基因的数据也不断增加: FusionCancer 是一个人类癌症相关的融合基因的数据库,利用N ...
- 通过FISH和下一代测序检测肺腺癌ALK基因融合比较
ALK FISH探针是FDA批准的用于检测肺癌患者中ALK重排的方法,这些患者可能受益于ALK激酶抑制剂.FISH测定在技术上可能具有挑战性并且难以解释.已经有研究者提出以ALK免疫组织化学和下一代测 ...
随机推荐
- MySQL Proxy 实现 MySQL 读写分离提高并发负载
还在学习,学完了在写笔记 (这个先安装lua:https://www.cnblogs.com/fps2tao/p/9163959.html ) 工作拓扑: MySQL Proxy有一项强大功能是实现“ ...
- mysql不重启修改参数变量
分享下mysql不重启的情况下修改参数变量的方法. 通常来说,更新mysql配置my.cnf需要重启mysql才能生效,但是有些时候mysql在线上,不一定允许你重启,这时候应该怎么办呢? 例子: m ...
- 批处理学习笔记1 - Hellow World
记录自己学习批处理的一点总结吧. 批处理的好处: 可以配合vs,在build完文件之后执行自己的批处理命令. 可以批量修改文件名,或者进行复杂的查询等,对文件可编程操作. 从Hellow world开 ...
- UnityTestTools測试工具
由于工作关系,要了解Unity上的測试工具,该工具基于Nunit框架.通过查阅资料了解到在Unity5.3中做出了一些改变,自带的仅仅剩下单元測试工具,假设想用其它的工具比方断言.集成測试,就须要前往 ...
- Effective JavaScript Item 46 优先使用数组而不是Object类型来表示有顺序的集合
本系列作为Effective JavaScript的读书笔记. ECMAScript标准并没有规定对JavaScript的Object类型中的属性的存储顺序. 可是在使用for..in循环对Objec ...
- In search of the perfect URL validation regex
To clarify, I’m looking for a decent regular expression to validate URLs that were entered as user i ...
- Oracle PLSQL Demo - 02.SELECT INTO单行赋值[SELECT INTO variables]
declare v_sal number; begin ; dbms_output.put_line(v_sal); end;
- pairRDD中算子reduceByKeyLocally
原型: def reduceByKeyLocally(func: (V, V) => V): Map[K, V] 该函数将RDD[K,V]中每个K对应的V值根据映射函数来运算,运算结果映射到一个 ...
- dp之区间:最大k乘积
题目:给你一个n(1<=n<=15)位数,求将它分成m段,用m-1个*连接起来的最大乘积....... 思路:定义dp[i][j]为将前i位数分成j段的最大乘积,那么dp[i][j]==m ...
- c# 操作Word总结【转】
http://www.cnblogs.com/eye-like/p/4121219.html 在医疗管理系统中为保存患者的体检和治疗记录,方便以后的医生或其他人查看.当把数据保存到数据库中,需要新建很 ...