mothur summary.seqs 统计fasta文件中每条序列的长度

在介绍summary.seqs的用法之前，我们首先需要搞清楚两个概念：

1）ambiguous bases

中文叫做模糊碱基，对于DNA序列来说，只有ATCG 4种碱基，在IUPAC定义的碱基标准中，出了上述4种碱基之外，还包括其他的碱基，可以代表不同类型的碱基

代码		英文含义	中文含义
G		Guanine	鸟嘌啉
A		Adenine	腺嘌啉
T	(U)	Thymine (Uracil)	胸腺嘧啶 (尿嘧啶)
C		Cytosine	胞嘧啶
R	(A or G)	PuRine	嘌啉
Y	(C or T or U)	Pyrimidine	嘧啶
M	(A or C)	Amino	腺嘌啉或胞嘧啶(氨基)
K	(G or T)	Ketone	鸟嘌啉或胸腺嘧啶(酮基)
S	(C or G)	Strong interaction	强相互作用碱基
W	(A or T)	Weak interaction	弱相互作用碱基
H	(A or C or T)	Not-G (H after G)	非鸟嘌啉
B	(C or G or T)	Not-A (B after A)	非腺嘌啉
V	(A or C or G)	Not-T/U (V after U)	非胸腺嘧啶
D	(A or G or T)	Not-C (D after C)	非胞嘧啶
N	(A or C or G or T)	Any	不确定

模糊碱基实际上就是除了A T C G 这4种碱基之外的其他碱基

2）homopolymer base

由1个碱基重复多次的序列，比如GCAGAAAAAAA 序列中，末端的一串A就是 homopolymer base

summary.seqs的基本用法：

mothur "#summary.seqs(fasta = "input.fasta")"

运行成功之后，会生成input.summary 文件，内容如下：

seqname	start	end	nbases	ambigs	polymer	numSeqs

1	1	24	24	0	2	1

2	1	25	25	10	10	1

3	1	25	25	2	1	1

4	1	24	24	0	18	1

5	1	24	24	0	2	1

6	1	24	24	0	1	1

7	1	24	24	0	1	1

8	1	25	25	0	2	1

共7列，每列表头含义如下：

seqname : 序列标识符

start : 起始位置，从1开始

end : 终止位置，

nbases : 总碱基数，可以看做序列长度

ambigs : ambiguous bases 模糊碱基的数目

polymer : homopolymer 碱基的最大长度

numSeqs : 序列数，对于每条序列来说，其值总是为1

除了上述的基本用法外，summary.seqs 还有很多的参数；

processors : CPU个数，mothur 是支持并行的，通过设置processors 参数可以并行执行程序，用法如下：

mothur "#summary.seqs(fasta = "input.fasta"， processors = 10)"

mothur summary.seqs 统计fasta文件中每条序列的长度的更多相关文章

使用python脚本实现统计日志文件中的ip访问次数
使用python脚本实现统计日志文件中的ip访问次数,注意此脚本只适用ip在每行开头的日志文件,需要的朋友可以参考下适用的日志格式: 106.45.185.214 - - [06/Aug/2014: ...
统计一个文件中出现字符'a'的次数
# -*- coding: utf-8 -*- #python 27 #xiaodeng #统计一个文件中出现字符'a'的次数 #http://www.cnblogs.com/hongten/p/ho ...
[linux] shell脚本编程-统计日志文件中的设备号发通知邮件
1.日志文件列表比如:/data1/logs/2019/08/15/ 10.1.1.1.log.gz 10.1.1.2.log.gz 2.统计日志中的某关键字shell脚本 zcat *.gz|gr ...
c语言统计一个文件中的单词，字符和行数
body, table{font-family: 微软雅黑; font-size: 10pt} table{border-collapse: collapse; border: solid gray; ...
统计python文件中的代码,注释,空白对应的行数
其实代码和空白行很好统计,难点是注释行 python中的注释分为以#开头的单行注释或者以'''开头以'''结尾或以"""开头以"""结尾 ...
根据位置信息提取 fasta 文件中的序列 -- extract fasta sequence by their position
#!/usr/bin/env python # usages: python extract_seq_by_pos.py input.fasta id_start_end > result.fa ...
统计py文件中的代码行
希望是输入一个合法的文件夹的路径,然后代码自动读取该文件夹下的每个py结尾的文件内的代码行数,最后汇总一个数,但现在只是有思路,却没时间写,这是能读取同级文件下的某个文件, with open('te ...
用 perl 统计 fasta 文件序列的总长
#!/usr/bin/perl -w use strict; die "Usage: $0 <file>\n" unless (@ARGV == 1); my $lin ...
java简单统计.java文件中的有效代码行，空行，注释行
package regxdemo; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundExc ...

随机推荐

Swiper.js的腾讯新闻演示
演示效果地址:https://www.swiper.com.cn/demo/indexsample/: 代码: <!DOCTYPE html> <html> <head& ...
SpringBoot 跨域 Access-Control-Allow-Origin 问题
https://blog.csdn.net/taoism_jerry/article/details/79695336 **************************************** ...
如何在 Django 中保证并发的数据一致性
1. 关于锁 1.1 乐观锁乐观锁的出发点是,同一条数据很少会因为并发修改而产生冲突,适用于读多写少的场景,用以提高吞吐量. 实现方式,读取一个字段,执行处理逻辑,当需要更新数据时,再次检查该字段是 ...
【Java】LinkedBlockingQueue、PriorityQueue and ConcurrentLinkedQueue
1.LinkedBlockingQueue: 基于链接节点的可选限定的blocking queue . 这个队列排列元素FIFO(先进先出). 队列的头部是队列中最长的元素. 队列的尾部是队列中最短时 ...
python 下载虾米音乐
#!/usr/bin/env python2 # coding:utf-8 import urllib import re import sys import urllib2 # xml => ...
关于正则表达式的“\b”
今天刚刚开始看正则表达式就遇到一个十分头疼的问题,原文是这样的: “不幸的是,很多单词里包含hi这两个连续的字符,比如him,history,high等等.用hi来查找的话,这里边的hi也会被找出来. ...
Web程序中的懒加载异常说明及解决方案
所谓懒加载(lazy)就是延时加载,延迟加载. 什么时候用懒加载呢,我只能回答要用懒加载的时候就用懒加载. 至于为什么要用懒加载呢,就是当我们要访问的数据量过大时,明显用缓存不太合适, 因为内存容量有 ...
Nosql相关产品和分布式相关中间件
1.memcached 2.redis 3.mongodb 4.消息队列的运用
[转]ORA-01555错误总结（一）
原文地址:http://blog.csdn.net/sh231708/article/details/52935695 这篇文章算是undo相关问题总结的补充,因为ORA-01555错误与undo有着 ...
赶集网dba石展分享归纳
字段不要使用null值.查询,索引方面不利.如果是整型,int,仅仅是设置 not null还不够.最好是这种一个默认的值0.为什么? text类型处理性能低于varchar.尽量不要使用text/b ...

mothur summary.seqs 统计fasta文件中每条序列的长度

mothur summary.seqs 统计fasta文件中每条序列的长度的更多相关文章

随机推荐

热门专题