vsearch 去除重复序列和singleton 序列

在16S数据分析中，为了减少聚类的时间，提高准确度，需要去除重复序列，而singleton序列因为没有其他的序列作为验证，可信度不是很高，也需要去除，通常情况下使用usearch 完成这2项任务，但是usearch 64位是收费的，而32为的usearch 在64位的red hat 上测试时，去除重复序列时报错了，libgomp: Thread creation failed: Resource temporarily unavailable

百度之后了解到是由于进程数达到上限，修改了上限后还是报错，就放弃使用usearch 来去除重复序列，使用vsearch 来去除重复序列

源代码：

　　https://github.com/torognes/vsearch/releases

安装：

　　wget https://github.com/torognes/vsearch/archive/v1.11.1.tar.gz

tar xzvf v1.11.1

cd vsearch-1.11.1/

./autogen.sh

./configure

make

make install

测试：

　　# 去除重复序列

vsearch --derep_fulllength raw.reads.fasta --output test.fasta --sizeout

# 去除singleton序列

vsearch --sortbysize test.fasta --output desingleton.fasta --minsize 2

vsearch 和 mothur 去除重复序列的结果完全一致，其实去除重复序列就是就将那些序列完全一致的序列只取一条就可以了，去除singleton 序列就是将那些只出现一次的序列去除，为了加深理解，我写了个perl脚本

来完成这2个任务，经过测试和vsearch的结果一致，代码如下：

#!/usr/bin/perl

use warnings;

use strict;

my ($fasta) = @ARGV;

my %unique = ();

local $/ = ">";

open FASTA, $fasta or die "Can't open $fasta\n";

while (<FASTA>) {

    chomp;

    next if /^\s*$/;

    my ($id, $seq) = split /\n/, $_, ;

    $seq =~ s/\s+//;

    push @{$unique{$seq}}, $id;

}

close FASTA;

foreach my $x (keys %unique) {

    my $size = scalar @{$unique{$x}};

    unshift  @{$unique{$x}}, $size;

}

foreach my $x (sort {$unique{$b}->[] <=>  $unique{$a}->[] } keys %unique) {

    my $id   = $unique{$x}->[];

    my $size = $unique{$x}->[];

    next if $size = ;

    print qq{>$id;size=$size;\n$x\n};

}

vsearch 去除重复序列和singleton 序列的更多相关文章

GATK--数据预处理，质控，检测变异
版权声明:本文源自解螺旋的矿工, 由 XP 整理发表,共 13781 字. 转载请注明:从零开始完整学习全基因组测序(WGS)数据分析:第4节构建WGS主流程 | Public Library o ...
cutadapt 的安装与使用
cutadapt 是一款质量过滤的软件, 它可以删除adapter, primer. polyA尾等序列:也可以用来去除低质量序列源代码: https://github.com/marcelm/cu ...
DNA甲基化及其测量方法（转）
转自声明的奥秘 www.lifeomics.com DNA甲基化与肿瘤发生: DNA甲基化水平和模式的改变是肿瘤发生的一个重要因素.这些变化包括CpG岛局部的高甲基化和基因组DNA低甲 ...
《BI那点儿事》数据流转换——排序
排序转换允许对数据流中的数据按照某一列进行排序.这是五个常用的转换之一.连接数据源打开编辑界面,编辑这种任务.不想设置为排序列的字段不要选中,默认情况下所有列都会选中.如图所示,按照TotalSuga ...
Linq专题之查询操作
前面我们主要讲解的是Linq的查询表达式,Linq不但提供了一些基本的查询表达式,还提供了数十个查询操作.比如筛选操作.聚合操作.投影操作等等.通过这些查询操作可以更方便的对数据源进行处理. Linq ...
转载SSIS中的容器和数据流—数据转换（Transformations）续
数据挖掘请求数据挖掘任务是SSIS中一个很重要的任务,它的思想来源于一些算法.数据挖掘请求运行数据挖掘请求,并将结果输出到数据流.它还可以添加一些预测新列,一些应用场合如下列举: 根据已知的一些列, ...
Git中的merge命令实现和工作方式
想象一下有例如以下情形:代码库中存在两个分支,而且每一个分支都进行了改动.最后你想要将当中的一个分支合并到其它的分支中.个人博客网址 http://swinghu.github.com/ 那么要问合并 ...
时序分解算法：STL
1. 详解 STL (Seasonal-Trend decomposition procedure based on Loess) [1] 为时序分解中一种常见的算法,将某时刻的数据\(Y_v\)分解 ...
时间序列分解算法：STL
1. 详解 STL (Seasonal-Trend decomposition procedure based on Loess) [1] 为时序分解中一种常见的算法,基于LOESS将某时刻的数据\( ...

随机推荐

给 Android 开发人员的 RxJava 具体解释
鉴于 RxJava 眼下这样的既火爆又神奇的现状,而我又在一年的使用过程中对 RxJava 有了一些理解,我决定写下这篇文章来对 RxJava 做一个相对具体的.针对 Android 开发人员的介绍. ...
atitit.ajax上传文件的实现原理与设计
atitit.ajax上传文件的实现原理与设计 1. 上传文件的三大难题 1 1.1. 本地预览 1 1.2. 无刷新 1 1.3. 进度显示 1 2. 传统的html4 + ajax 是无法直 ...
原来npm的依赖树管理不靠谱
今天删除了一个模块,结果发现项目编译无法成功,缺依赖,然后再安装也不行了.只好把node_modules清空,重新npm install,项目恢复正常. npm uninstall的时候,可能把现存某 ...
每日英语：China Underwhelmed After First Apple Event
Apple's roll-out of its latest iPhones landed with a thud in China, the company's biggest foreign ma ...
PHP5.4新特性之上传进度支持Upload progress
在PHP5.4版本当中给我们提供了好用的特性,上传进度的支持,我们可以配合Ajax动态获取SESSION当中的上传进度: 在使用这一特性之前,需要现在php.ini文件当中进行相应的设置: 1 2 ...
二、在 JDK 6 and JDK 7中 substring() 方法
在JDK6 和JDK 7 里面substring(int beginIndex, int endIndex)的方法是不同的.知道这种区别会帮助你更好用它们.为了简单期间,下面用substring() ...
zuul超时及重试配置1
eureka: client: register-with-eureka: true serviceUrl: defaultZone: http://localhost:8761/eureka/ se ...
解决linux分区提示doesn't contain a valid partition table
目前 partition table 大概有叁种: 最传统的 mbr.大容量的 gpt.小设备的无; 遇上最后那种就会出现 "doesn't contain a valid partiti ...
纯CSS3实现漂亮的价格表样式代码
分享一款纯CSS3实现漂亮的价格表样式代码是一款常见的主机商发布产品价格信息页.效果图如下: 在线预览源码下载实现的代码. html代码: <div id="main" ...
三级级联查询省份名称和编码（保证名称不反复）的SQL语句
三级级联查询省份名称和编码(保证名称不反复)的SQL语句 1.省份.地市和县级数据库表 2.SQL语句 SELECT DISTINCT t.`province_name`,t.`province_co ...

vsearch 去除重复序列和singleton 序列

vsearch 去除重复序列和singleton 序列的更多相关文章

随机推荐

热门专题