fastx tookit 操作fasta/fastq 文件 (1)
准备测试文件 test.fq, 包含4条fastq 文件,碱基编码格式为phred64;
@FC12044_91407_8_200_406_24
NTTAGCTCCCACCTTAAGATGTTTA
+FC12044_91407_8_200_406_24
SXXTXXXXXXXXXTTSUXSSXKTMQ
@FC12044_91407_8_200_720_610
CTCTGTGGCACCCCATCCCTCACTT
+FC12044_91407_8_200_720_610
OXXXXXXXXXXXXXXXXXTSXQTXU
@FC12044_91407_8_200_345_133
GATTTTTTAACAATAAACGTACATA
+FC12044_91407_8_200_345_133
OQTOOSFORTFFFIIOFFFFFFFFF
@FC12044_91407_8_200_106_131
GTTGCCCAGGCTCGTCTTGAACTCC
+FC12044_91407_8_200_106_131
XXXXXXXXXXXXXXSXXXXISTXQS
1) fastq_to_fasta , 将fastq 文件转换为fasta文件
命令:
fastq_to_fasta -i test.fq -o test.fa
输出内容为:
cat test.fa
>FC12044_91407_8_200_720_610
CTCTGTGGCACCCCATCCCTCACTT
>FC12044_91407_8_200_345_133
GATTTTTTAACAATAAACGTACATA
>FC12044_91407_8_200_106_131
GTTGCCCAGGCTCGTCTTGAACTCC
2) fastx_trimmer, 截取fastq 序列, 指定保留序列的起始位置和终止位置,
命令:将序列截成10bp长
fastx_trimmer -f -l -i test.fq -o test.trim.fq
输出内容为:
cat test.trim.fq
@FC12044_91407_8_200_406_24
NTTAGCTCCC
+FC12044_91407_8_200_406_24
SXXTXXXXXX
@FC12044_91407_8_200_720_610
CTCTGTGGCA
+FC12044_91407_8_200_720_610
OXXXXXXXXX
@FC12044_91407_8_200_345_133
GATTTTTTAA
+FC12044_91407_8_200_345_133
OQTOOSFORT
@FC12044_91407_8_200_106_131
GTTGCCCAGG
+FC12044_91407_8_200_106_131
XXXXXXXXXX
3) fastq_renamer
命令:重命名序列标识符, 可以将其用编号代替
fastx_renamer -n COUNT -i test.fq -o test.renamer.fq
输出内容为:
cat test.renamer.fq
@1
NTTAGCTCCCACCTTAAGATGTTTA
+1
SXXTXXXXXXXXXTTSUXSSXKTMQ
@2
CTCTGTGGCACCCCATCCCTCACTT
+2
OXXXXXXXXXXXXXXXXXTSXQTXU
@3
GATTTTTTAACAATAAACGTACATA
+3
OQTOOSFORTFFFIIOFFFFFFFFF
@4
GTTGCCCAGGCTCGTCTTGAACTCC
+4
XXXXXXXXXXXXXXSXXXXISTXQS
4) fasta_formatter, 设置每行最大字符数, 将fasta 文件格式化
命令:将每行允许的字符设置为10
fasta_formatter -w -i test.fa -o test.formatter.fa
输出内容为:
cat test.formatter.fa
>FC12044_91407_8_200_720_610
CTCTGTGGCA
CCCCATCCCT
CACTT
>FC12044_91407_8_200_345_133
GATTTTTTAA
CAATAAACGT
ACATA
>FC12044_91407_8_200_106_131
GTTGCCCAGG
CTCGTCTTGA
ACTCC
5) fastq_masker, 根据碱基质量的阈值标记序列
命令:
fastq_masker -q -i test.fq -o test.masker.fq
输出内容为:
cat test.masker.fq
@FC12044_91407_8_200_406_24
NNNNNNNNNNNNNNNNNNNNNNNNN
+FC12044_91407_8_200_406_24
SXXTXXXXXXXXXTTSUXSSXKTMQ
@FC12044_91407_8_200_720_610
NNNNNNNNNNNNNNNNNNNNNNNNN
+FC12044_91407_8_200_720_610
OXXXXXXXXXXXXXXXXXTSXQTXU
@FC12044_91407_8_200_345_133
NNNNNNNNNNNNNNNNNNNNNNNNN
+FC12044_91407_8_200_345_133
OQTOOSFORTFFFIIOFFFFFFFFF
@FC12044_91407_8_200_106_131
NNNNNNNNNNNNNNNNNNNNNNNNN
+FC12044_91407_8_200_106_131
XXXXXXXXXXXXXXSXXXXISTXQS
fastx tookit 操作fasta/fastq 文件 (1)的更多相关文章
- 利用kseq.h parse fasta/fastq 文件
在分析中经常需要统计fasta/fastq文件的序列数和碱基数, 但是没有找到一些专门做这件事的小工具,可能是这个功能太简单了: 之前用自己写的perl的脚本统计这些信息, 当fastq文件非常大时, ...
- 将fasta fastq文件线性化处理
将fasta文件线性化处理 awk '/^>/ {printf("%s%s\t",(N>0?"\n":""),$0);N++;n ...
- seqtk 一款快速处理fasta/fastq 文件的小程序
seqtk 的 GitHub 官网 https://github.com/lh3/seqtk 安装 git clone https://github.com/lh3/seqtk.git cd seqt ...
- 利用Bioperl的SeqIO模块解析fastq文件
测序数据中经常会接触到fastq格式的文件,比如说拿到fastq格式的原始数据后希望查看测序碱基的质量并去除低质量碱基.一般而言大家都是用现有的工具,比如说fastqc这个Java写的小程序,确实很好 ...
- fasta/fastq格式解读
1)知识简介--------------------------------------------------------1.1)测序质量值 首先在了解fastq,fasta之前,了解一下什么是质量 ...
- fastq文件基本信息统计工具
之前写的一个小工具,写的很简陋,名字取的也很随意就叫skr,哈哈.主要是fq转fa.合并多个染色体的vcf文件等,功能不多(主要是C写起来太操蛋了T_T),通常我也只用来统计fastq文件信息: 这里 ...
- JAVASE02-Unit06: 文件操作——File 、 文件操作—— RandomAccessFile
Unit06: 文件操作--File . 文件操作-- RandomAccessFile java.io.FileFile的每一个实例是用来表示文件系统中的一个文件或目录 package day06; ...
- Unix无缓冲文件操作函数、文件信息查询
问题描述: Unix无缓冲文件操作函数.文件信息查询 问题解决: struct stat 结构体信息: 具体代码: 具体源文件:
- Java文件File操作一:文件的创建和删除
一.简述 File 文件类,主要对文件进行相关操作.常用的File操作有:文件(夹)的创建.文件(夹)的删除,文件的读入和下载(复制)等: 二.文件(夹)的创建和删除 1.创建过程 实例: //cre ...
随机推荐
- ubuntu 12.04下如何编译hadoop2.4
问题导读: 1.如果获取hadoop src maven包?2.编译hadoop需要装哪些软件?3.如何编译hadoop2.4?扩展:编译hadoop为何安装这些软件? 一.首先下载hadoop源码 ...
- Qt多个信号连接到一个槽,在槽中识别信号的发送者方法(实验 可行)
Qt是通过信号和槽的机制进行事件传递的,当有多个不同类型.或相同类型的物件的发送信号都通过一个槽来处理的时候,需要在槽中识别出这些信号然后做相应的处理. 例如: 在一个界面中有16个按钮(QPushB ...
- Android Gradle 引用本地 AAR 的几种方式
折衷方案: 1.方式2 - 不完美解决办法2 2.再使用"自定义Gradle代码"来减轻重复设置的问题. 自定义Gradle代码如下: repositories { flatDir ...
- chkconfig命令具体介绍
命令介绍: chkconfig命令用来更新.查询.改动不同执行级上的系统服务.比方安装了httpd服务,而且把启动的脚本放在了/etc/rc.d/init.d文件夹下,有时候须要开机自己主动启动它,而 ...
- putty设置用key自动登录
1.在Linux下ssh-keygen -t rsa 生成密钥对 2.把私钥id_isa下载到用scp下载到windows并用puttygen加载并重新保存私钥. 3.在windows下新建快捷方式, ...
- HTML解析HtmlAgility学习
HtmlAgility是一个开源的Html解析库,据说是C#版的JQuery,功能非常强大. 该篇学习它的解析功能,还可以模拟用户请求,创建html,设置代理等等,暂先不研究. ----------- ...
- [转帖]Cocos2d-x 3.0rc0 的Win32工程添加CocoStudio库
转自 http://www.cocoachina.com/bbs/read.php?tid=194668 前天, 在CocoaChina 2014春季大会上, 激动人心的Cocos2d-x 3.0和C ...
- System.Data.SqlClient.SqlError:无法打开备份设备'D:\..\abc.bak'
在SQL Server中备份数据库时遇到备份对于服务器“服务器名”失败. (Microsoft.SqlServer.Smo)其他信息:System.Data.SqlClient.SqlError:无法 ...
- LeetCode: Combination Sum 解题报告
Combination Sum Combination Sum Total Accepted: 25850 Total Submissions: 96391 My Submissions Questi ...
- 十倍交叉验证 10-fold cross-validation
10-fold cross-validation,用来测试算法准确性.是常用的测试方法.将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验.每次试验都会得出相应的正确 ...