准备测试文件 test.fq, 包含4条fastq 文件,碱基编码格式为phred64;

@FC12044_91407_8_200_406_24
NTTAGCTCCCACCTTAAGATGTTTA
+FC12044_91407_8_200_406_24
SXXTXXXXXXXXXTTSUXSSXKTMQ
@FC12044_91407_8_200_720_610
CTCTGTGGCACCCCATCCCTCACTT
+FC12044_91407_8_200_720_610
OXXXXXXXXXXXXXXXXXTSXQTXU
@FC12044_91407_8_200_345_133
GATTTTTTAACAATAAACGTACATA
+FC12044_91407_8_200_345_133
OQTOOSFORTFFFIIOFFFFFFFFF
@FC12044_91407_8_200_106_131
GTTGCCCAGGCTCGTCTTGAACTCC
+FC12044_91407_8_200_106_131
XXXXXXXXXXXXXXSXXXXISTXQS 

1) fastq_to_fasta , 将fastq 文件转换为fasta文件

命令:

fastq_to_fasta -i test.fq -o test.fa

输出内容为:

cat test.fa
>FC12044_91407_8_200_720_610
CTCTGTGGCACCCCATCCCTCACTT
>FC12044_91407_8_200_345_133
GATTTTTTAACAATAAACGTACATA
>FC12044_91407_8_200_106_131
GTTGCCCAGGCTCGTCTTGAACTCC

2) fastx_trimmer, 截取fastq 序列, 指定保留序列的起始位置和终止位置,

命令:将序列截成10bp长

fastx_trimmer -f  -l  -i test.fq -o test.trim.fq

输出内容为:

cat test.trim.fq
@FC12044_91407_8_200_406_24
NTTAGCTCCC
+FC12044_91407_8_200_406_24
SXXTXXXXXX
@FC12044_91407_8_200_720_610
CTCTGTGGCA
+FC12044_91407_8_200_720_610
OXXXXXXXXX
@FC12044_91407_8_200_345_133
GATTTTTTAA
+FC12044_91407_8_200_345_133
OQTOOSFORT
@FC12044_91407_8_200_106_131
GTTGCCCAGG
+FC12044_91407_8_200_106_131
XXXXXXXXXX

3) fastq_renamer

命令:重命名序列标识符, 可以将其用编号代替

fastx_renamer -n COUNT -i test.fq -o test.renamer.fq

输出内容为:

cat test.renamer.fq
@1
NTTAGCTCCCACCTTAAGATGTTTA
+1
SXXTXXXXXXXXXTTSUXSSXKTMQ
@2
CTCTGTGGCACCCCATCCCTCACTT
+2
OXXXXXXXXXXXXXXXXXTSXQTXU
@3
GATTTTTTAACAATAAACGTACATA
+3
OQTOOSFORTFFFIIOFFFFFFFFF
@4
GTTGCCCAGGCTCGTCTTGAACTCC
+4
XXXXXXXXXXXXXXSXXXXISTXQS

4) fasta_formatter, 设置每行最大字符数, 将fasta 文件格式化 

命令:将每行允许的字符设置为10

fasta_formatter  -w  -i test.fa -o test.formatter.fa

输出内容为:

cat test.formatter.fa
>FC12044_91407_8_200_720_610
CTCTGTGGCA
CCCCATCCCT
CACTT
>FC12044_91407_8_200_345_133
GATTTTTTAA
CAATAAACGT
ACATA
>FC12044_91407_8_200_106_131
GTTGCCCAGG
CTCGTCTTGA
ACTCC

5) fastq_masker, 根据碱基质量的阈值标记序列

命令:

fastq_masker -q  -i test.fq -o test.masker.fq

输出内容为:

cat test.masker.fq
@FC12044_91407_8_200_406_24
NNNNNNNNNNNNNNNNNNNNNNNNN
+FC12044_91407_8_200_406_24
SXXTXXXXXXXXXTTSUXSSXKTMQ
@FC12044_91407_8_200_720_610
NNNNNNNNNNNNNNNNNNNNNNNNN
+FC12044_91407_8_200_720_610
OXXXXXXXXXXXXXXXXXTSXQTXU
@FC12044_91407_8_200_345_133
NNNNNNNNNNNNNNNNNNNNNNNNN
+FC12044_91407_8_200_345_133
OQTOOSFORTFFFIIOFFFFFFFFF
@FC12044_91407_8_200_106_131
NNNNNNNNNNNNNNNNNNNNNNNNN
+FC12044_91407_8_200_106_131
XXXXXXXXXXXXXXSXXXXISTXQS  

 

 

fastx tookit 操作fasta/fastq 文件 (1)的更多相关文章

  1. 利用kseq.h parse fasta/fastq 文件

    在分析中经常需要统计fasta/fastq文件的序列数和碱基数, 但是没有找到一些专门做这件事的小工具,可能是这个功能太简单了: 之前用自己写的perl的脚本统计这些信息, 当fastq文件非常大时, ...

  2. 将fasta fastq文件线性化处理

    将fasta文件线性化处理 awk '/^>/ {printf("%s%s\t",(N>0?"\n":""),$0);N++;n ...

  3. seqtk 一款快速处理fasta/fastq 文件的小程序

    seqtk 的 GitHub 官网 https://github.com/lh3/seqtk 安装 git clone https://github.com/lh3/seqtk.git cd seqt ...

  4. 利用Bioperl的SeqIO模块解析fastq文件

    测序数据中经常会接触到fastq格式的文件,比如说拿到fastq格式的原始数据后希望查看测序碱基的质量并去除低质量碱基.一般而言大家都是用现有的工具,比如说fastqc这个Java写的小程序,确实很好 ...

  5. fasta/fastq格式解读

    1)知识简介--------------------------------------------------------1.1)测序质量值 首先在了解fastq,fasta之前,了解一下什么是质量 ...

  6. fastq文件基本信息统计工具

    之前写的一个小工具,写的很简陋,名字取的也很随意就叫skr,哈哈.主要是fq转fa.合并多个染色体的vcf文件等,功能不多(主要是C写起来太操蛋了T_T),通常我也只用来统计fastq文件信息: 这里 ...

  7. JAVASE02-Unit06: 文件操作——File 、 文件操作—— RandomAccessFile

    Unit06: 文件操作--File . 文件操作-- RandomAccessFile java.io.FileFile的每一个实例是用来表示文件系统中的一个文件或目录 package day06; ...

  8. Unix无缓冲文件操作函数、文件信息查询

    问题描述:         Unix无缓冲文件操作函数.文件信息查询 问题解决:        struct stat 结构体信息: 具体代码: 具体源文件:

  9. Java文件File操作一:文件的创建和删除

    一.简述 File 文件类,主要对文件进行相关操作.常用的File操作有:文件(夹)的创建.文件(夹)的删除,文件的读入和下载(复制)等: 二.文件(夹)的创建和删除 1.创建过程 实例: //cre ...

随机推荐

  1. [hihoCoder] #1158 : 质数相关

    时间限制:2000ms 单点时限:1000ms 内存限制:256MB 描述 两个数a和 b (a<b)被称为质数相关,是指a × p = b,这里p是一个质数.一个集合S被称为质数相关,是指S中 ...

  2. 启动vim不加载.vimrc

    启动vim,不加载.vimrcvim -u NONE -N

  3. Books from Joe's blog

    Some books that I really enjoy(ed) It's been quite some time since I blogged about what I've been re ...

  4. bazel-编译静态库

    demo3 使用bazel编译静态库 demo3目录树 ├── README.md ├── static │ ├── BUILD │ ├── static.c │ └── static.h └── W ...

  5. python学习之pyc,pyo,pyd文件

    pyc:二进制文件,python文件经过编译器编译之后的文件.可以提高文件加载速度. pyo:二进制文件,优化编译后的文件.可以通过`python -O file.py`生成. pyd:python的 ...

  6. posix多线程--三种基本线程编程模型

    本文介绍了三种构建线程解决方案的方式. 一.流水线:每个线程执行同一种操作,并把操作结果传递给下一步骤的线程. 代码示例如下:终端输入一个int值,每个线程将该值加1,并将结果传给下一个线程. #in ...

  7. C++范围解析运算符::的使用

    1.范围解析运算符的作用范围解析运算符 :: 用于标识不同范围内使用的标识符. 2.范围解析运算符的使用1)用于命名空间和类 namespace NamespaceA{ int x; class Cl ...

  8. USB设备驱动程序学习笔记(一)

    现象:把USB设备接到PC1. 右下角弹出"发现android phone"2. 跳出一个对话框,提示你安装驱动程序 问1. 既然还没有"驱动程序",为何能知道 ...

  9. NIS & Kerberos配置

    NIS & Kerberos配置 所需RPM包列表: krb5-server-1.10.3-42.el6.x86_64.rpm krb5-workstation-1.10.3-42.el6.x ...

  10. axel命令 文件下载

    axel是Linux下一个不错的HTTP/ftp高速下载工具.支持多线程下载.断点续传,且可以从多个地址或者从一个地址的多个连接来下载同一个文件.适合网速不给力时多线程下载提高下载速度.比如在国内VP ...