fastx_toolkit软件使用说明
高通量测序数据下机后的原始fastq文件,包含4行,其中一行为质量值,另外一行则为对应序列,我们都了解高通量的数据处理首先要进行质量控制,这些过程包括去接头、过滤低质量reads、去除低质量的3’和5’端,去除N较多的reads等,而针对高通量测序数据的质控软件也有很多,在这里给大家介绍一款“老牌子”的质控工具fastx_toolkit,它是一个软件包,包含了多个质控命令,下面我们就逐个讲解其参数及使用:
1. fastq_quality_converter [-h] [-a] [-n] [-z] [-i INFILE] [-f OUTFILE]直观观察质量值
[-h] =打印帮助
[-a] = 输出ASCII的质量得分(默认).
[-n] = 输出质量值数据.
[-z] = GZIP压缩输出.
[-i INFILE] = 输入fasta/fastq格式的文件.
[-o OUTFILE] = 输出fasta/fastq文件.
2. fastq_masker [-h] [-v] [-q N] [-r C] [-z] [-i INFILE] [-o OUTFILE]屏蔽低质量碱基
[-q N] =质量门限值,质量值低于这个门限值的将被mask掉,默认值为10
[-r C] = 用C替代低质量的碱基,默认用N来替代
[-z] = 输出用GZIP压缩.
[-i INFILE] = 输入FASTA文件
[-o OUTFILE] = 输出文件
[-v] = 详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR
3. fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]过滤低质量序列
[-q N] = 最小的需要留下的质量值
[-p N] = 每个reads中最少有百分之多少的碱基需要有-q的质量值
[-z] =压缩输出
[-v] =详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR
4. fastq_quality_trimmer [-h] [-v] [-t N] [-l N] [-z] [-i INFILE] [-o OUTFILE] 修剪reads的末端
[-t N] = 从5'端开始,低与N的质量的碱基将被修剪掉
[-l N] = 修建之后的reads的长度允许的最短值
[-z] = 压缩输出
[-v] =详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR
5. fastq_to_fasta [-h] [-r] [-n] [-v] [-z] [-i INFILE] [-o OUTFILE]fastq转换成fasta [-r] = 序列用序号重命名
[-n] = 保留有N的序列,默认不保留
[-z] = 压缩输出
6. fastx_trimmer [-h] [-f N] [-l N] [-t N] [-m MINLEN] [-z] [-v] [-i INFILE] [-o OUTFILE]从3'开始到5'哪些部分保留
[-f N] = 从第几个碱基开始保留,默认第一个
[-l N] = 后面从第几个碱基开始保留,默认全部碱基都保留.
[-t N] =序列尾部修剪掉N个碱基.
[-m MINLEN] = 修剪掉长度小于MINLEN的序列.
7. fastx_quality_stats [-h] [-N] [-i INFILE] [-o OUTFILE]fastq文件的质量值进行统计
[-i INFILE] = 输入fastq文件
[-o OUTFILE] = 输出的文本文件名字
[-N] =使用新的输出格式,默认使用老格式
老格式输出文件:下面一行代表输出文件的一列
column=1到36
count = 这列有多少碱基
min = 这列的碱基质量最小值
max = 这列的碱基质量最大值
sum = 这列的碱基质量的总和
mean =这列的碱基质量平均值
Q1 = 1/4碱基质量值
med = 碱基质量值的中位数
Q3 = 3/4碱基质量值.
IQR = Q3-Q1
lW = 'Left-Whisker' value (for boxplotting).
rW = 'Right-Whisker' value (for boxplotting).
A_Count =本列A的数目
C_Count = 本列C的数目.
G_Count = 本列G的数目.
T_Count = 本列T的数目.
N_Count =本列N的数目.
max-count =碱基数目的最大值
新的输出格式:
循环数
最大数目
对每个循环的碱基 (ALL/A/C/G/T/N):
count = 本列碱基的数目
min = 本列碱基质量的最小值
max = 本列碱基质量的最大值.
sum = 本列碱基质量的综合.
mean = 本列碱基质量的平均值
Q1 = 1/4碱基质量值
med = 碱基质量值的中位数
Q3 = 3/4碱基质量值
IQR = Q3-Q1
lW = 'Left-Whisker' value (for boxplotting).
rW = 'Right-Whisker' value (for boxplotting).
8. fastq_quality_boxplot_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]绘制碱基质量分布盒式图
[-p] =产生.PS文件,默认产生png图像
[-i INPUT.TXT]=输入文件为 fastx_quality_stats的输出文件
[-o OUTPUT] =输出文件的名字
[-t TITLE] =输出图像的标题
9. fastx_nucleotide_distribution_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]绘制碱基分布图
[-p] =产生.PS文件,默认产生png图像.
[-i INPUT.TXT] =输入文件为 fastx_quality_stats的输出文件
[-o OUTPUT] =输出文件的名字.
[-t TITLE] =输出图像的标题
10. fastx_clipper [-h] [-a ADAPTER] [-D] [-l N] [-n] [-d N] [-c] [-C] [-o] [-v] [-z] [-i INFILE] [-o OUTFILE] 去掉接头序列
[-a ADAPTER] =接头序列(默认为CCTTAAGG)
[-l N] = 忽略那些碱基数目少于N的reads,默认为5
[-d N] = 保留接头序列后的N个碱基默认 -d 0
[-c] = 放弃那些没有接头的序列.
[-C] = 只保留没有接头的序列.
[-k] = 报告只有接头的序列.
[-n] = 保留有N多序列,默认不保留
[-v] =详细-报告序列编号
[-z] =压缩输出.
[-D] = 输出调试结果.
[-M N] =要求最小能匹配到接头的长度N,如果和接头匹配的长度小于N不修剪
[-i INFILE] = 输入文件
[-o OUTFILE] = 输出文件
转载本文请联系原作者获取授权,同时请注明本文来自熊朝亮科学网博客。
链接地址:http://blog.sciencenet.cn/blog-1509670-848270.html
fastx_toolkit软件使用说明的更多相关文章
- http加速软件使用说明
HTTP加速软件使用说明 http加速软件使用于卫星链路,在卫星链路时延高的情况下提高http的传输速率 1.1 软件包依赖 (1)squid-3.4.5.tar.gz (2)trafficserve ...
- 手机APP软件使用说明
手机APP软件使用说明 一. POLYCOM客户端(视频会议终端)登录: 1. 打开手机,找到Polycom软件,点击打开. 2. 打开软件后,界面如下,每次开会时,由会议管理员 ...
- 《一起》Alpha版软件使用说明
1.引言 1.1编写目的 本手册是软件工程概论团队项目<一起>的Alpha版使用说明,面向的对象群体为全校师生. 1.2项目背景 本项目由<软件工程概论>课程需求创建,软件由S ...
- Beta版软件使用说明
1引言 1 .1编写目的 编写本使用说明的目的是充分叙述本软件所能实现的功能及其运行环境,以便使用者了解本软件的使用范围和使用方法,并为软件的维护和更新提供必要的信息. 1 .2参考资料 1 .3术语 ...
- Beta版本软件使用说明
北京航空航天大学计算机学院 远航1617 小组 产品版本: Beta版本 产品名称:Crawling is going on 文档作者:杨帆 文档日期:2013/12/24 1. 引言 1.1 ...
- 【Beta】软件使用说明——致社长
目录 社团公众号关联上"北航社团帮"小程序 为什么要关联上"北航社团帮"小程序: 如何进行关联: 小程序中的社长相关功能 如何认证成为社长 如何管理社员.增删管 ...
- 佳博GprinterApp编辑软件使用说明
佳博打印机代理商淘宝店https://shop107172033.taobao.com/index.htm?spm=2013.1.w5002-9520741823.2.Sqz8Pf 在此店购买的打印机 ...
- chrony软件使用说明
1.1.1 chrony简介 Chrony是一个开源的自由软件,它能保持系统时钟与时钟服务器(NTP)同步,让时间保持精确. 它由两个程序组成:chronyd和chronyc. chronyd是一个后 ...
- Eclipse软件使用说明
http://www.ziqiangxuetang.com/eclipse/eclipse-explore-menus.html
随机推荐
- C++ 泛型基础
C++ 泛型基础 泛型的基本思想:泛型编程(Generic Programming)是一种语言机制,通过它可以实现一个标准的容器库.像类一样,泛型也是一种抽象数据类型,但是泛型不属于面向对象,它是面向 ...
- Java TCP编程
Java编写TCP编程--回射信息实例 注:简单的tcp联系,还存在问题,readUTF()为阻塞型,如果之前的用户一直不输入,则一直阻塞,之后的用户再连接会出现问题. import java.io. ...
- jQ控制前端输入用户为空是的提醒
1.在jQ中$(function(){})函数的意思是 $(document).ready(function(){}) 的简写,用来在DOM加载完成之后执行一系列预先定义好的函数 placeholde ...
- nlssort函数的用法以及参数
NLSSORT,可以用来进行语言排序,且不影响当前会话. 用法示例: 拼音SELECT * FROM TEAM ORDER BY NLSSORT(排序字段,'NLS_SORT = SCHINESE_P ...
- 用java实现zip压缩
本来是写到spaces live上的,可是代码的显示效果确实不怎么好看.在javaeye上试了试代码显示的顺眼多了. 今天写了个用java压缩的功能,可以实现对文件和目录的压缩. 由于java.uti ...
- Linux命令之dos2unix
Linux命令之dos2unix (2011-09-22 11:24:06) 转载▼ 标签: 杂谈 Linux命令之dos2unix - 将DOS格式文本文件转换成UNIX格式 用途说明 dos2 ...
- 正则中的lastIndex属性
首先大家看下下面的代码 var reg = /\d/; console.log( reg.test("1") ); console.log( reg.test("1&qu ...
- HTTP报文详解
二.HTTP请求首部字段 1 Accept 2 Accept-Charset 3 Accept-Encoding 4 Accept-Language 5 Authorization 6
- 【Tomcat】tomcat报错 removeGeneratedClassFiles failed
程序放到测试环境一点问题没有,放到正式环境都是问题.总感觉是环境的问题,环境能带来问题,但是不是所有问题都能说是环境带来的. 这点,要改正.还要淡定对待问题.看错误. 程序是不会骗你的.这个问题折磨了 ...
- Oracle的分区操作和修改分区主键
1.增加一个分区ALTER TABLE sales ADD PARTITION jan96 VALUES LESS THAN ( '01-FEB-1999' ) TABLESPACE tsx;增加一个 ...