perl 截取 fastq文件

#!/usr/bin/perl -w

use warnings;

use strict;

my $usage = qq{$ input_fastq trim_length};

die "$usage\n" if scalar @ARGV != ;

my ($fastq, $trim_length) = @ARGV;

open(FASTQ, $fastq) or die "Can't open $fastq\n";

while (my $readid = <FASTQ>) {

        chomp $readid;

        chomp (my $sequence  = <FASTQ>);

        chomp (my $comment   = <FASTQ>);

        chomp (my $quality   = <FASTQ>);

        my $sub_seq      = length $sequence < $trim_length ? $sequence : substr $sequence, , $trim_length;

        my $sub_quality  = length $sequence < $trim_length ? $quality  : substr $quality,  , $trim_length;

        print qq{$readid\n$sub_seq\n$comment\n$sub_quality\n};

}

close FASTQ;

fastq 文件每4行代表一条序列，利用一个循环，每次读取4行，然后处理；

当读到文件结尾时，$readid 为空，循环终止，

基本思路是看defuse (检测融合基因的工具)的源代码看到的，里面有一个trim_fastq.pl 脚本，自己稍微修改了下；

以前都是用python的，新的公司都是用perl的，还好都是脚本语言，理解起来也比较轻松。

perl 截取 fastq文件的更多相关文章

利用Bioperl的SeqIO模块解析fastq文件
测序数据中经常会接触到fastq格式的文件,比如说拿到fastq格式的原始数据后希望查看测序碱基的质量并去除低质量碱基.一般而言大家都是用现有的工具,比如说fastqc这个Java写的小程序,确实很好 ...
fastx tookit 操作fasta/fastq 文件 (1)
准备测试文件 test.fq, 包含4条fastq 文件,碱基编码格式为phred64; @FC12044_91407_8_200_406_24 NTTAGCTCCCACCTTAAGATGTTTA + ...
利用kseq.h parse fasta/fastq 文件
在分析中经常需要统计fasta/fastq文件的序列数和碱基数, 但是没有找到一些专门做这件事的小工具,可能是这个功能太简单了: 之前用自己写的perl的脚本统计这些信息, 当fastq文件非常大时, ...
Shell字符串截取处理文件路径
在生信处理流程中,从最初的fastq文件,经过分析处理后,会生成一堆的后续文件,如何在流程中合理的命名呢? 通常在批处理模式中,我们会得到多个样本*.fastq(或*.fq.*.fastq.gz.*. ...
截取linux文件存储路径方法
1.截取linux文件存储路径方法 package com.tydic.eshop.action.freemarker; public class dddd { public static void ...
统计 fastq 文件 q20 , GC 含量的软件
二代测序的分析过程中,经常需要统计原始下机数据的数据量,看数据量是否符合要求:另外还需要统计q20,q30,GC含量等反应测序质量的指标: 在kseq.h 的基础上稍加改造,就可以实现从fastq 文 ...
Perl遍历查找文件
Perl遍历查找文件使用Perl查找当前目录下的所有PDF文件 ******************************************************************* ...
使用Perl批量读取文件最后行
使用Perl批量读取文件最后行面对成百上千个文件,有时我们需要查看它的最后行,单个文件打开将耗费大量时间,而通过Perl提取出最后行,将快速的帮助我们处理繁琐的事务. 特性整个目录完全遍历,自动提 ...
将fasta fastq文件线性化处理
将fasta文件线性化处理 awk '/^>/ {printf("%s%s\t",(N>0?"\n":""),$0);N++;n ...

随机推荐

Mybatis根据配置文件获取session(多数据源)
1.config.xml <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE configura ...
pip升级Python程序包
列出当前安装的包: pip list 列出可升级的包: pip list --outdate 升级一个包: pip install --upgrade requests // mac,linux,un ...
在java代码中,用xslt处理xml文件
http://blog.csdn.net/zhou_lei/article/details/2661735 ********************************************** ...
LeetCode: Palindrome Partitioning II 解题报告
Palindrome Partitioning II Given a string s, partition s such that every substring of the partition ...
4. Stacked AutoEncoder（堆栈自动编码器）
1. AutoEncoder介绍 2. Applications of AutoEncoder in NLP 3. Recursive Autoencoder(递归自动编码器) 4. Stacked ...
VMWare: eth0: error fetching interface information : device not found
VMWare: eth0: error fetching interface information : device not found 今天在VMware上新搭建的Redhat Linux 64 ...
TCC分布式事务
https://github.com/changmingxie/tcc-transaction
redis AOF 和RDB
AOF定义:以日志的形式记录每个操作,将Redis执行过的所有指令全部记录下来(读操作不记录),只许追加文件但不可以修改文件,Redis启动时会读取AOF配置文件重构数据换句话说,就是Redis重启 ...
python 输出当前行号
import sys print sys._getframe().f_lineno ---------------------------------------------------------- ...
TiKV 源码解析系列——如何使用 Raft
本系列文章主要面向 TiKV 社区开发者,重点介绍 TiKV 的系统架构,源码结构,流程解析.目的是使得开发者阅读之后,能对 TiKV 项目有一个初步了解,更好的参与进入 TiKV 的开发中. 需要注 ...

perl 截取 fastq文件

perl 截取 fastq文件的更多相关文章

随机推荐

热门专题