如何通过RNA-Seq了解转录本的结构
[转载]如何通过RNA-Seq了解转录本的结构
已有 1942 次阅读 2014-12-26 15:22 |个人分类:转录组测序|系统分类:科研笔记|关键词:RNA-Seq,转录组测序,转录本结构| RNA-seq, 转录组测序, 转录本结构 |文章来源:转载
测序转录组的方法可不止一种。一些研究人员的目标是计数转录本,评估表达水平,则测序可代替DNA芯片。而另一些研究人员感兴趣的是转录本的结构。大家都知道,真核生物的基因常常经过选择性剪接。是否包含特定的外显子,这有着深远的生物学影响。
前一个应用比较简单,也更加广泛。它与Illumina测序平台的特征相吻合,这些平台提供了短的RNA序列,但每次有数十亿个。而对于后一个阵营的研究人员而言,生物信息学工具和长读取计数才是问题的关键。
长长短短的读取
据Pacific Biosciences的首席科学官Jonas Korlach介绍,哺乳动物的转录本大约在1,000至3,000个碱基,并以多种形式存在。例如,一个基因有5个外显子,则可能出现各种配置,如12345、1245、1345、245等等。弄清这些不同形式的结构和丰度应该不是什么难事,只要测序每个RNA分子并计算其数量。然而,问题在于目前的测序技术无法做到这一点。
Illumina的HiSeq v4试剂每次运行大约产生40亿个高度准确的读取,这对转录组测序而言是足够了。然而,每个双端读取的长度在2 x 125 bp,这就难以确定哪些片段是在一起的。如果这些读取中包含重复元件,则很难定位到基因组中。
斯坦福大学遗传学教授Michael Snyder在接受采访时表示:“你仔细想想,我们研究转录组的方式是疯狂的。我们得到RNA,将其炸成碎片,然后又尝试将它们组合回去,了解转录组一开始是个什么样子。这是一种可怕的方式。”
Pacific Biosciences的单分子测序系统PacBio RS II产生了平均长度在8,500 bp的读取,这足以覆盖大多数的转录本。但RS II的每个SMRT Cell只产生50,000至80,000个读取,这对于全面读取每个转录本而言还是太少。目前,市场上的长读取技术还有Illumina的Moleculo技术和Oxford Nanopore Technologies的纳米孔技术。
混合方法
对于许多研究人员来说,两全的解决方案就是将两种方法相结合。在最近一项发表于PNAS上的研究中,Snyder的研究团队采用混合策略,利用PacBio的长读取和Illumina的短数据来测序一位儿童及其父母的淋巴母细胞转录组。同时,Illumina的读取也能用来检查PacBio碱基检出的错误[1]。
华盛顿大学西北基因组中心的技术开发主任Jason Underwood也在H1人胚胎干细胞系的转录组分析中采用了这种策略[2]。他们的“混合测序(hybrid sequencing)”方法鉴定出H1细胞中表达的数百个新基因/长链非编码RNA(lncRNA)以及数千个已知基因的异构体。
不过,Underwood并不总是利用短读取来进行错误校正,在分析鸡的转录组结构时,他只使用了长读取技术[3]。他利用SMRT测序来产生鸡胚胎心脏的全长cDNA,鉴定出9,000多个新颖的转录异构体,以及Ensembl注释中未包含的500多个基因。
据Korlach介绍,PacBio的技术让研究人员能捕获全部的转录本多样性。在这种称为Iso-Seq的方法中,用户合成cDNA并筛分,创建出不同长度的文库,然后环化并测序。PacBio的SMRT分析软件对相同结构的转录本进行聚类,从而最大限度减少测序错误。互补的策略是环化测序(circular consensus sequencing,CCS),其中cDNA被环化并反复测序,以产生更加准确的平均读取。
鉴于PacBio的读取次数相对较低,一些研究人员将这种技术与选择一些基因的方法相结合。在一项最新的研究中,瑞士巴塞尔大学Peter Scheiffele领导的研究团队利用PacBio方法,对成年小鼠大脑中的370,000个轴突蛋白转录本进行测序,鉴定出这个家族中近1,400个独特的异构体[4]。
分析工具
为了理解那些数据,Scheiffele的团队使用了一种称为GMAP的算法程序,这也是Underwood使用的。分析转录本结构的其他生物信息学工具包括Cufflinks、SpliceMap和 SigFuge。SigFuge由北卡罗来纳大学教堂山分校D. Neil Hayes副教授的实验室开发,是一种鉴定有趣的结构变异的工具。Hayes则使用它来鉴定数千个患者样本中的癌症标志物。“如果变异很重要,那么它应当是经常性的,”他解释道。有了SigFuge,“我们能够检测RNA结构中经常性的结构变异。”
但是你需要多少序列才能找到它们呢?Hayes认为没有简单的答案。“一般来说,越多越好。但是你测序越多,研究就越昂贵。”他认为每个肿瘤转录组需要6000万个Illumina读取。
作为一般准则,Underwood建议对全转录组分析感兴趣的用户至少分析每个样品的100万个读取。“最低和最高表达的RNA之间可能相差5至6个数量级,”他说。因此,即使是最稀有的转录本,100万个读取应该也够了。这大约需要PacBio仪器上的20个SMRT cell,或每次运行8个cell,2.5次运行。(Jeffrey M. Perkel )
参考文献
[1] Tilgner, H, et al., “Defining a personal, allele-specific, and single-molecule long-read transcriptome,” Proc Natl Acad Sci USA, 111:9869-74, 2014. [PubMed ID: 24961374]
[2] Au, KF, et al., “Characterization of the human ESC transcriptome by hybrid sequencing,” Proc Natl Acad Sci USA, 110:E4821–30, published online November 26, 2013, doi: 10.1073/pnas.1320101110. [PubMed ID: 24282307]
[3] Thomas, S, et al., “Long-read sequencing of chicken transcripts and identification of new transcript isoforms,” PLoS ONE, 9:e94650, 2014. [PubMed ID: 24736250]
[4] Schreiner, D, et al., “Targeted combinatorial alternative splicing generates brain region-specific repertoires of neurexins,” Neuron, in press, 2014. [DOI: 10.1016/j.neuron.2014.09.011]
转自测序中国。
如何通过RNA-Seq了解转录本的结构的更多相关文章
- RNA -seq
RNA -seq RNA-seq目的.用处::可以帮助我们了解,各种比较条件下,所有基因的表达情况的差异. 比如:正常组织和肿瘤组织的之间的差异:检测药物治疗前后,基因表达的差异:检测发育过程中,不同 ...
- RNA seq 两种计算基因表达量方法
两种RNA seq的基因表达量计算方法: 1. RPKM:http://www.plob.org/2011/10/24/294.html 2. RSEM:这个是TCGAdata中使用的.RSEM据说比 ...
- RNA剪接体 Spliceosome | 冷冻电镜 | 结构生物学
冷冻电镜 为什么冷冻电镜 (Cryo-EM) 技术的发明可以获得2017诺贝尔化学奖?知乎看法 Press release: The Nobel Prize in Chemistry 2017 We ...
- RNA测序相对基因表达芯片有什么优势?
RNA测序相对基因表达芯片有什么优势? RNA-Seq和基因表达芯片相比,哪种方法更有优势?关键看适用不适用.那么RNA-Seq适用哪些研究方向?是否您的研究?来跟随本文了解一下RNA测序相对基因表达 ...
- c语言结构体以及结构体指针的使用
结构体: 正常定义一个结构体: typedef struct node{ ]; int len; }Seq,*llink; 定义结构体指针: Seq *s;或者llink t;之后关于s与t的用法,其 ...
- featureCounts 软件说明
featuresCounts 软件用于定量,不仅可以支持gene的定量,也支持exon, gene bodies, genomic bins, chromsomal locations的定量: 官网 ...
- Differential expression analysis for paired RNA-seq data 成对RNA-seq数据的差异表达分析
Differential expression analysis for paired RNA-seq data 抽象背景:RNA-Seq技术通过产生序列读数并在不同生物条件下计数其频率来测量转录本丰 ...
- xgene:WGS,突变与癌,RNA-seq,WES
人类全基因组测序06 SNP(single nucleotide polymorphism):有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了. 一个普通黄种人的基因组,与hg19这个参 ...
- 转录组测序(RNA-seq)技术
转录组是某个物种或者特定细胞类型产生的所有转录本的集合.转录组研究能够从整体水 平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应 用于基础研究.临床诊断和药 ...
随机推荐
- 【转】剖析异步编程语法糖: async和await
一.难以被接受的async 自从C#5.0,语法糖大家庭又加入了两位新成员: async和await. 然而从我知道这两个家伙之后的很长一段时间,我甚至都没搞明白应该怎么使用它们,这种全新的异步编程模 ...
- c语言fork 多进程
fork函数的作用 一个进程,包括代码.数据和分配给进程的资源.fork()函数通过系统调用创建一个与原来进程几乎完全相同的进程,也就是两个进程可以做完全相同的事,但如果初始参数或者传入的变量不同,两 ...
- node升级的正确方法
本文主要是针对安装了node的用户如何对node进行升级或者安装指定版本:没有安装node的可以参考连接node安装方法 . 安装方法: 1.产看node版本,没安装的请先安装: $ node -v ...
- makefile或shell中的一些变量
总是记不住,作个笔记 $@ 所有目标文件 $< 第一个依赖文件的名称 $? 所有的依赖文件,以空格分开,这些依赖文件的修改日期比目标的创建日期晚 $^ 所有的依赖文件,以空格分开,不包含重复的依 ...
- Python日志模块logging&JSON
日志模块的用法 json部分 先开一段测试代码:注意 str可以直接处理字典 eval可以直接将字符串转成字典的形式 dic={'key1':'value1','key2':'value2'} ...
- c#继承 里氏转化原则
继承: 是c#中面向对象一个重要概念: 用一个已经存在的类去定义一个新的类 新的类叫做 子类/派生类 已经存在的类叫做 父类/基类 c#中所以类的最终基类都是Object类 声明 访问修饰符 ...
- 读书笔记——《redis入门指南(第2版)》第四章 进阶——4.1-5
.1事务 redis中事务是一组命令的集合. 事务同命令一样都是redis的最小执行单位,Redis保证一个事务中的命令要么都执行,要么都不执行.如果redisClient在发送EXEC命令前掉线,则 ...
- 模拟SQL用户 EXECUTE AS USER
EXECUTE AS USER= @domain SELECT SUSER_NAME(), USER_NAME(); REVERT 以下语句可以模拟SQL用户,具体使用场景自行脑补.
- 涂抹mysql笔记-管理mysql库和表
mysql的表对象是基于库维护的,也就是说它属于某个库,不管对象是由谁创建的,只要库在表就在.这根Oracle不同Oracle中的表对象是基于用户的.属于创建改对象的用户所有,用户在表就在.mysql ...
- PHP中empty、isset和is_null的具体区别?
1.isset()用来检测一个变量是否已声明; 2.empty()用来检测一个变量是否为空如果有如下情况返回真值: 1)空字符串 2)false 3)空数组 4)NULL 5)0 6)0.0 7)un ...