Strand Specific mRNA sequencing 之重要性与分析

  • A+
所属分类:Bioinformatics
 

研究生物基因转录体的方法有许多种,而使用次代定序仪系统进行转录体定序是目前相当热门的一种方式,科学家们使用 RNA-seq 分析转录体表现主要期望能够获得三种重要信息:

1. 了解整个转录体构造、splicing 位置以及批注基因的功能。

2. 将所有转录体的表现量多寡定量。

3. 找出 alternative splicing 的可能性方式。

相较于使用转录体反应 DNA-RNA 杂合为基础的 RNA microarray,可以直接地得知转录体的方向性,但目前 RNA-seq 所常用的制备方法必须反转录成 cDNA,因此缺少了转录体序列的方向性,而分析上针对这个问题所作的解决方式为,例如:利用转译的蛋白质基因预测 open reading frame、利用 3’端定序量常较 5’端多的 bias、以及藉由真核生物 splicing 位置方向来做判断。但即使如此,发展能区分出方向性的 RNA-seq 制备方式是很重要的,这是因为当面对较小基因体的物种,如微生物或低等真核生物时,基因会密集的出现在 DNA 的正负股上,而无法确认方向性会造成评估基因表现量上的误判,另外,当转录体表现时,也有机会产生负股调控基因的转录体,这些转录体并不转译,但与蛋白质表现量却息息相关。

目前被用来制备 strand-specific RNA-seq library 的方式五花八门,容易会让操作者困惑不知该选用何种方法为佳,因此 2010 年 9 月 Levin 等人于 Nature Methods 上发表了一篇文章统整了这些制备方式,笔者使用同一来源的 RNA 作为材料,用不同的制备方式制造 cDNA library,尔后使用 illumina 定序系统获得序列数据再分析,而评断这些制备方式孰优孰劣的标准在于:

1. Library complexity-这些 reads 的独特性高低、

2. Strand specificity-将 reads mapping 到已知方向性的 transcripts 上观察方向正确性

3. Eveness and continuity of coverage at annotated transcripts-观察 reads 们在基因上的 coverage 是否够平均分布

4. Performance at 5’ and 3’ ends, defined as agreement with known end annotation-将reads mapping 到已知方向性transcripts 上观察 5’、3’ end 的表现。

图 a.

图 b.

笔者将不同制备方式所呈现出的结果以统计的方式做分析,最后得到的结论为:在 cDNA second strand 合成时导入 dUTP,尔后再于 library 完成后裂解掉带有 dUTP 的那股以获得具方向性 library 的方法为最好的方式,统计上在 library complexity 方面 (图 a),可以看到 dUTP 在 SE 以及 PE 部份都有 42%、84%的高复杂度,甚至与 control 差不多,而在 strand specific 方向正确性方面 (图 b-gray bar),包括了 dUTP method共有四种制备方式在此都表现得不错,大约只有 0.47-0.63%转录自负股,与已知的 genes annotation 是吻合的。再来,在序列 Evenness 与 continuity of coverage 方面 (图 b-blue bar),使用 dUTP method 占第二名 (0.76)。

图 c.

图 d.

最后,在 5’、3’ end performance 上 (图 c),使用 dUTP method 在基因两端的 reads 数上覆盖率为 62%与73%。将 dUTP method 制备出的 library 与 control library 做比较后 (图 d.) 发现,两者呈现高度的相关性,也因此根据以上统计后的数值,以及制备流程的方便性,dUTP method 是在制备 strand-specific mRNA library上比较合适的方式。

参考文献:

Levin JZ, Yassour M, Adiconis X, Nusbaum C, Thompson DA, et al. (2010) Comprehensive comparative analysis of strand-specific RNA sequencing methods. Nat Methods 7: 709-715.

Strand Specific mRNA sequencing 之重要性与分析的更多相关文章

  1. RNA Sequencing

    RNA Sequencing 选择其他单元: RNA Sequencing 国内领先的转录组定序基地 Transcriptome Sequencing可全面性并快速地获得某一物种特定细胞或组织在某一状 ...

  2. gdb运行时结合汇编堆栈分析

    一.从源代码文件到可执行文件         从C文件到可执行文件,一般来说需要两步,先将每个C文件编译成.o文件,再把多个.o文件和链接库一起链接成可执行文件.但具体来说,其实是分为四步,下面以ex ...

  3. 功能的显著性分析——GO Enrichment Analysis

      Gene Ontology(GO)是基因功能国际标准分类体系.GO富集分析是对差异基因等按GO分类,并对分类结果进行基于离散分布的显著性分析.错判率分析.富集度分析,得到与实验目的有显著联系的.低 ...

  4. 多元统计之因子分析模型及Python分析示例

    1. 简介 因子分析是一种研究观测变量变动的共同原因和特殊原因, 从而达到简化变量结构目的的多元统计方法. 因子分析模型是主成分分析的推广, 也是利用降维的思想, 将复杂的原始变量归结为少数几个综合因 ...

  5. Directional RNA-seq data -which parameters to choose?

    Directional RNA-seq data -which parameters to choose? REF: https://chipster.csc.fi/manual/library-ty ...

  6. kallisto:Near-optimal RNA-Seq quantification

    Near-optimal RNA-Seq quantification https://pachterlab.github.io/kallisto 文章标题:   Pseudoalignment fo ...

  7. 使用R语言的RTCGA包获取TCGA数据--转载

    转载生信技能树 https://mp.weixin.qq.com/s/JB_329LCWqo5dY6MLawfEA TCGA数据源 - R包RTCGA的简单介绍 - 首先安装及加载包 - 指定任意基因 ...

  8. 08 Translating RNA into Protein

    Problem The 20 commonly occurring amino acids are abbreviated by using 20 letters from the English a ...

  9. 能力素质模型咨询工具(Part 2)

    核心能力素质模型数据库 1. 工作态度 通用 (1)热爱本职工作,对工作充满信心 (2)在没有明确的规定或领导指示的情况下,能够积极主动地承担职责范围内的各项工作,并能够积极地配合其他同事/部门工作 ...

随机推荐

  1. redis实现分布式锁 转自importnew 记录一下

    前言 分布式锁一般有三种实现方式:1. 数据库乐观锁:2. 基于Redis的分布式锁:3. 基于ZooKeeper的分布式锁.本篇博客将介绍第二种方式,基于Redis实现分布式锁.虽然网上已经有各种介 ...

  2. 2018-2019-2 《网络对抗技术》Exp0 Kali安装 Week1 20165233

    Exp0 Kali安装 安装过程 1.首先我的Mac上已经安装好了VMware Fusion,所以直接下载对应的虚拟机版本的Kali即可. 2.进入Kali官网进行下载. 以下为下载链接: Kali ...

  3. PLSQL developer常用技巧

    1.PL/SQL Developer记住登陆密码 在使用PL/SQL Developer时,为了工作方便希望PL/SQL Developer记住登录Oracle的用户名和密码: 设置方法:tools- ...

  4. 巧用JLINK来实现nrf51822的蓝牙设备流水号

    项目需求:在蓝牙广播的时候名字为 SN_设备流水号(如SN_00000001). 我们可以在原来的代码中进行一下修改和增加 ; 备注这个地址0X0001B160根据自己具体情况来设定 /**@brie ...

  5. 亿图eddx与visio转换

    Visio支持的格式 AutoCAD 绘图文件格式 (.dwg..dxf) 压缩增强型图元文件 (.emz) 增强型图元文件 (.emf) 可交换图像文件格式 (GIF) JPEG 文件交换格式 (. ...

  6. Linux tomcat启动慢, Creation of SecureRandom instance for session ID generation using [SHA1PRNG]took [xx] mil

    启动慢的解决链接:  http://blog.csdn.net/u011627980/article/details/54024974

  7. starling 第一天

    flashplayer_27_sa_debug: https://files.cnblogs.com/files/dt1991/flashplayer_27_sa_debug.rar flashpla ...

  8. display:inline、block、inline-block区别

    display:inline.block.inline-block区别 display:block就是将元素显示为块级元素. display:inline就是将元素显示为行内元素. inline-bl ...

  9. 快速可靠网络传输协议 KCP(转)

    KCP 是一个快速可靠协议,能以比 TCP浪费10%-20%的带宽的代价,换取平均延迟降低30%-40%,且最大延迟降低三倍的传输效果.纯算法实现,并不负责底层协议(如UDP)的收发,需要使用者自己定 ...

  10. ECLIPSE修改xml配置文件TOMCAT不生效的解决

    昨天和今天一直想研究一下SSH的项目,但把项目导入ECLIPSE后配置数据库时发现无论如何修改配置文件,TOMCAT上的文件还是旧文件,从未变过. 感觉很神奇也很崩溃,重启ECLIPSE,CLEAN, ...