参考文章:http://weibo.com/p/23041883f77c940102vbkd?sudaref=passport.weibo.com

软件连接:https://github.com/alexdobin/STAR/

因为不连续的转录本结构,相对短的片段长度,和测序技术持续增加的通量,高通量RNA-seq数据的准确比对是一个有挑战性且仍未解决的问题。当前可用的RNA-seq比对器遭受高比对错误率,低比对速度,片段长度限制和比对偏差。结果:为了比对我们的大量(> 800亿片段)ENCODE转录组RNA-seq数据集,我们基于一种以前未描述的RNA-seq比对算法开发了STAR(Spliced Transcripts Alignments to a Reference,STAR)软件,该算法使用了未压缩后缀阵列中的连续最大可比对种子搜索,接着种子聚类和缝合过程。STAR在比对速度上胜过其他比对器50多倍,在一个普通的12核服务器上,每小时比对5.5亿2 x 76 bp双端片段到人类基因组上,同时改进了比对敏感性和准确性。除了典型剪接的非偏从头检测外,STAR能够发现非典型拼接和嵌合(融合)转录本,并能够比对全长RNA序列。使用逆转录聚合酶链式反应扩增子的罗氏454测序,我们实验上验证了1960个新的基因间剪接点,具有80-90%的准确率,证实了STAR比对策略的高准确性。可用性和实现:STAR被实现为一个单机C++代码。STAR是在GPLv3许可证下发布的免费开源软件。

1:STAR的比对分析基本上可以分为两步:一是genomeGenerate(类似于tophat的index);二是:序列比对

2:关于第一步genomeGenerate运行一次就可以了:

STAR --runMode genomeGenerate --runThreadN 10 --genomeFastaFiles/home/share/genome/Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa--sjdbGTFfile/home/share/genome/Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf--sjdbOverhang 89

—runMode:运行程序模式,默认是比对,所以第一步这个参数设置很关键

—runThreadN: 运行的线程数

—genomeDir: 这个参数很重要,是存放你声称index文件路径,需要你事先建立一个有可读写权限的文件夹

—genomeFastaFiles: 基因组fasta格式文件

—sjdbGTFfile :GTF注释文件

—sjdbOverhang: 这个值为你测序read的长度减1,是在注释可变剪切序列的时候使用的最大长度值

5:运行比对

STAR不但可以进行比对,还可以输出可变剪切,转录本融合,以及控制输出格式为SAM或者BAM,并对输出的BAM可进行选择性排序输出。最主要在比对的过程中还提供了ENCODE的比对参数。

STAR --runThreadN 20 --readFilesIn/home/fanyc/RNA-seq/raw_data/SRR993723.sra_1.fastq/home/fanyc/RNA-seq/raw_data/SRR993723.sra_2.fastq--quantMode TranscriptomeSAM --outSAMtype BAM SortedByCoordinate--outFileNamePrefix /home/fanyc/RNA-seq/STAR/23--outFilterType BySJout --outFilterMultimapNmax 20 --alignSJoverhangMin 8 --alignSJDBoverhangMin 1 --outFilterMismatchNmax 999 --outFilterMismatchNoverLmax0.04 --alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 --chimSegmentMin 20

上面结合了ENCODE的参数,同时又加上了比对输出为BAM格式,并对BAM格式进行排序。另外输出可变剪切,以及转录本融合的结果。

—readFilesIn 输出的原始测序数据

--outSAMtype BAM SortedByCoordinate 输出格式为BAM并排序

--chimSegmentMin20 输出融合转录本,20代表比对的最短的碱基数目

--outFileNamePrefix  输出文件的前缀

--quantMode TranscriptomeSAM  转录本定量

6:生成的文件:

Chimeric.out.junction  融合转录本

Aligned.sortedByCoord.out.bam  比对输出

Aligned.toTranscriptome.out.bam 转录本比对输出

SJ.out.tab 可变剪切结果输出

关于转录组比对STAR软件使用的更多相关文章

  1. STAR软件的学习

    下载地址与参考文档 https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz wget https://github.com/alexdobin/ ...

  2. 转录组组装软件stringtie

    StringTie是約翰·霍普金斯大學计算机生物中心开发的一款转录组组装软件,在组装转录本的完整度,精度和速度方面都较以往的cufflinks 有很大的提升,也是目前有参考基因组转录组主流的组装软件. ...

  3. 比对软件之STAR的使用方法

    建索引 普通比对 二次比对 用于cufflinks和stringtie的比对 待续~ 参考:比对软件STAR的简单使用

  4. 11、比对软件STAR(https://github.com/alexdobin/STAR)

    转载:https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484731&idx=1&sn=b15fbee5910 ...

  5. Nature Methods | 新软件SAVER-X可对单细胞转录组学数据进行有效降噪

                                                                          图片来源(Nature Methods)   摘要 单细胞转 ...

  6. 【Star CCM+实例】开发一个简单的计算流程.md

    流程开发在CAE过程中处于非常重要的地位. 主要的作用可能包括: 将一些经过验证的模型隐藏在流程中,提高仿真的可靠性 将流程封装成更友好的界面,降低软件的学习周期 流程开发实际上需要做非常多的工作,尤 ...

  7. star ccm+ 11.02安装

    STAR CCM+是CD-Adapco公司的主打软件,其安装方式较为简单,这里以图文方式详细描述STAR CCM+11.02安装过程. 1 安装准备工作2 正式安装3 软件破解4 软件测试 1 安装准 ...

  8. 规范化的软件项目演进管理--从 Github 使用说起

    规范化的软件项目演进管理 从 Github 使用说起 1   前言 首先,本文的层次定位是:很基本很基础的 Github 工具的入门级应用,写给入门级的用户看的. 基本上工作过几年的人,下面描述的这些 ...

  9. 写在MongoCola在Github上获得200个Star之后

    MongoCola MongoCola是一个开源的MongoDB管理工具. 由于最初版本的设计失误,所以现在只能在Windows上使用,虽然可以在OSX上使用,但是非常别扭. 契机 MongoCola ...

随机推荐

  1. PHP预定义接口

    目录 引言 IteratorAggregate(聚合式aggregate迭代器Iterator) Countable ArrayAccess Iterator 总结 引言 在PHP中有好几个预定义的接 ...

  2. python反射

    python反射 python的反射是基于字符串的形式去对象(模块)中操作其成员.此操作是动态的,常用于web开发中url参数中对应模块或者函数的反射. 下面开始具体说明: 场景需求: 我的pytho ...

  3. 企业应用系统设计分享PPT

    因今天上午需要为团队做一个分享,所以昨晚连夜写了一个<企业应用系统设计>的PPT,因为时间比较短,写的比较急.现在把PPT贴出来,做一个记录.同时也希望对大家有用. 文件我上传到了百度网盘 ...

  4. 强连通分量的Tarjan算法

    资料参考 Tarjan算法寻找有向图的强连通分量 基于强联通的tarjan算法详解 有向图强连通分量的Tarjan算法 处理SCC(强连通分量问题)的Tarjan算法 强连通分量的三种算法分析 Tar ...

  5. python 中的map(), reduce(), filter

    据说是函数式编程的一个函数(然后也有人tucao py不太适合干这个),在我看来算是pythonic的一种写法. 简化了我们的操作,比方我们想将list中的数字都加1,最基本的可能是编写一个函数: I ...

  6. .bash_profile for mac‘ envionment variables

    A typical install of OS X won't create a .bash_profile for you. When you want to run functions from ...

  7. Beta版本——第五次冲刺博客

    我说的都队 031402304 陈燊 031402342 许玲玲 031402337 胡心颖 03140241 王婷婷 031402203 陈齐民 031402209 黄伟炜 031402233 郑扬 ...

  8. 云计算之KVM安装(二)

    云计算之KVM安装(二) 调整虚拟机 虚拟化Intel使用的是intel VT-X AMD使用的是AMD-V 创建虚拟机步骤 1.准备虚拟机硬盘 2.需要系统iso镜像 3.需要安装一个vnc的客户端 ...

  9. 常见linux命令释义(第五天)——shell变量学习

    由于时间有限,我写这篇博客的时间上限为30分钟.仅作为学习笔记而用,内容会尽量的讲清楚.如果讲的不清楚,你来打我啊! 玩笑开过,正式开始今天的学习. linux系统的中一些命令是在/bin下,这个是一 ...

  10. UVA3026Period(最短循环节)

    题目链接 题意: 给定长度为n的字符串s,求他的每个前缀的最短循环节 分析: kmp预处理 next[]数组,然后对于 前 i 个字符,如果 next[i] > 0 && i % ...