利用Bioperl的SeqIO模块解析fastq文件

　　测序数据中经常会接触到fastq格式的文件，比如说拿到fastq格式的原始数据后希望查看测序碱基的质量并去除低质量碱基。一般而言大家都是用现有的工具，比如说fastqc这个Java写的小程序，确实很好用，运行速度快，检查的项目也多。有时候我们也需要对这些数据进行个性化的分析，那么这个时候这些小工具就不能胜任了，需要我们自己写程序（脚本）来处理。本人目前才疏学浅，因此只有一下三种方案：

1.完全自己写脚本，读取每一行，手动解析，然后实现个性化分析。（显然这个比较慢，相当于重造了一个转速很慢的轮子）

2.利用前人写好的工具，找出源码里面的核心解析程序，然后加以改进，实现个性化。（当然这个只能自己私下用用。这里推荐一个C语言的库 kseq.h，可以用来解析fasta/fastq格式的文件，底层语言运行速度非常快！）

3.利用Bioperl或者Biopython里面的工具解析文件，然后再写脚本个性化分析。（鉴于python的速度，这里推荐Bioperl）

　　下面具体介绍如何使用Bioperl的SeqIO模块解析fastq格式文件。

　　首先是安装Bioperl。

sudo apt-get install perlbrew

sudo perlbrew install-cpanm

sudo /path/cpanm   Bio::Perl

　　解析 head10000.fastq 文件的前四行（第一条序列）。

#!/bin/perl -w

use Bio::SeqIO;

use Bio::Seq::Quality;

my $in = Bio::SeqIO->new(-format => "fastq",

                         -variant => "sanger",

                         -file => 'head10000.fastq' );
while(my $seq = $in->next_seq){

    print  $seq->id,"\n";

    print  $seq->seq,"\n";

    print  $seq->length,"\n";

    print "@{$seq->qual}","\n";

    last；

}

　　运行结果如下：

E00552::HHCM5ALXX::::

NTCGAAACGGCGGATCATGCCAGGCTGCAACTGCAGCTGGCCTACAACTGGCACTTTGAGGTGAATGACCGGAAGGACCCCCAAGAGACGGCCAAGCTCGTTTCAGTGCCAGACTTTGTAGGTGATGCCTGCAAAGCCATCGCATCCCGG

　　与此同时，我们查看 head10000.fastq 文件的前四行：

@E00552::HHCM5ALXX:::: :N::TACAGCAT

NTCGAAACGGCGGATCATGCCAGGCTGCAACTGCAGCTGGCCTACAACTGGCACTTTGAGGTGAATGACCGGAAGGACCCCCAAGAGACGGCCAAGCTCGTTTCAGTGCCAGACTTTGTAGGTGATGCCTGCAAAGCCATCGCATCCCGG

+

#AA<FJJJFJJJJFJJJJJJJJJFJJJJ<-F<JF7JJJJJJJJJJF<JF7FJFAJFJJJJJJ<F-FJFAJJFJFJFAJJJJJJJAAFF<AJF7AFJJAF-AJJJFJJJJJJJJFJJF<AAFJJFJJJFAFFAAFFJ-AFJJA<-7F)-<

　　对照ascii码表可以发现，运行结果的最后一行，即为原始文件的第四行的ascii码对应的十进制数值减去33。例如 "#"(35) - 33 = 2；"A"(65) - 33 = 32；“<”(60) - 33 = 27。也就是说这里的碱基质量用的是phred33。

　　最后解释一下这几行命令的意思：

    print  $seq->id;              #打印$seq对象的序列ID；

    print  $seq->seq;　　　　　　　 #打印$seq对象的序列碱基；

    print  $seq->length;          #打印$seq对象的序列长度；

    print "@{$seq->qual}";　　　　 #打印$seq对象的序列质量；

利用Bioperl的SeqIO模块解析fastq文件的更多相关文章

python 利用三方的xlrd模块读取excel文件，处理合并单元格
目的: python能使用xlrd模块实现对Excel数据的读取,且按照想要的输出形式. 总体思路: (1)要想实现对Excel数据的读取,需要用到第三方应用,直接应用. (2)实际操作时候和我 ...
使用XML序列化器生成XML文件和利用pull解析XML文件
首先,指定XML格式,我指定的XML格式如下: <?xml version='1.0' encoding='utf-8' standalone='yes' ?> <message&g ...
PS常见错误-无法完成请求，因为文件格式模块不能解析该文件
无法完成请求,因为文件格式模块不能解析该文件将图片格式变成.jpg格式就可以了
在java项目中怎样利用Dom4j解析XML文件获取数据
在曾经的学习.net时常常会遇到利用配置文件来解决项目中一些须要常常变换的数据.比方数据库的连接字符串儿等.这个时候在读取配置文件的时候.我们一般会用到一个雷configuration,通过这个类来进 ...
利用kseq.h parse fasta/fastq 文件
在分析中经常需要统计fasta/fastq文件的序列数和碱基数, 但是没有找到一些专门做这件事的小工具,可能是这个功能太简单了: 之前用自己写的perl的脚本统计这些信息, 当fastq文件非常大时, ...
安卓开发之利用XmlPullParser解析XML文件
package com.lidaochen.phonecall; import android.support.v7.app.AppCompatActivity; import android.os. ...
python XML文件解析：用xml.dom.minidom来解析xml文件
python解析XML常见的有三种方法: 一是xml.dom.*模块,是W3C DOM API的实现,若需要处理DOM API则该模块很合适, 二是xml.sax.*模块,它是SAX API的实现,这 ...
optparse模块解析命令行参数的说明及优化
一.关于解析命令行参数的方法关于“解析命令行参数”的方法我们一般都会用到sys.argv跟optparse模块.关于sys.argv,网上有一篇非常优秀的博客已经介绍的很详细了,大家可以去这里参考: ...
如何用python解析mysqldump文件
一.前言最近在做离线数据导入HBase项目,涉及将存储在Mysql中的历史数据通过bulkload的方式导入HBase.由于源数据已经不在DB中,而是以文件形式存储在机器磁盘,此文件是mysqldu ...

随机推荐

python 类知识点总结
python 类知识点总结面向对象思想: 1.设计的时候,一定要明确应用场景 2.由对象分析定义类的时候,找不到共同特征和技能不用强求 1.简述类.对象.实例化.实例这些名词的含义: 类:从一组对象 ...
java字符串类型常量拼接与变量拼接的区别
前言首先看下下面代码结果是什么? package cn.demo_01; public class StringDemo02 { public static void main(String[] a ...
Entry的验证
Entry组件是支持验证输入的合法性的, 比如要求输入数字,你输入了字母就是非法. 实现该功能,需要通过设置validate,validatecommand,invalidcommand选项. 1.首 ...
SQL基础-----DML语句
之前已经介绍过SQL基础之DDL(数据库定义语言)语句,http://www.cnblogs.com/cxq0017/p/6433938.html(这是地址) 这篇文章主要介绍DML语句(数据库操纵语 ...
spring boot / cloud (二十) 相同服务,发布不同版本,支撑并行的业务需求
spring boot / cloud (二十) 相同服务,发布不同版本,支撑并行的业务需求有半年多没有更新了,按照常规剧本,应该会说项目很忙,工作很忙,没空更新,吧啦吧啦,相关的话吧, 但是细想想 ...
用ECMAScript4 ( ActionScript3) 实现Unity的热更新 -- Demo分析
如何创建工程下载最新的Unity发布插件包. 打开Unity,新建一个项目将插件包导入在菜单中点击ASRuntime/Create ActionScript3 FlashDevelop HotF ...
Mysql之库表操作(胖胖老师)
SQL概念:结构化查询语言(SQL = Structured Query Language),也是一种编程语言(数据库查询和程序设计语言),可以用于数据的存取及查询,更新,管理关系型数据库系统ps: ...
属性添加get和set方法
出错信息: Struts Problem Report Struts has detected an unhandled exception: Messages: File: com/myHibern ...
简陋的个人Vim使用命令
最近把Visual Studio 的编辑器改成了 Vim,感觉像发现了新世界,记录记录一些提高效率的Vim命令. 插入命令 i 在当前位置前插入 I 在当前行首插入 a 在当前位置后插入 A 在当前行 ...
Lazy Loading | Explicit Loading | Eager Loading in EntityFramework and EntityFramework.Core
EntityFramework Eagerly Loading Eager loading is the process whereby a query for one type of entity ...

利用Bioperl的SeqIO模块解析fastq文件

利用Bioperl的SeqIO模块解析fastq文件的更多相关文章

随机推荐

热门专题