在介绍summary.seqs的用法之前,我们首先需要搞清楚两个概念:

1)ambiguous bases

中文叫做模糊碱基,对于DNA序列来说,只有ATCG 4种碱基,在IUPAC定义的碱基标准中,出了上述4种碱基之外,还包括其他的碱基,可以代表不同类型的碱基

代码 英文含义 中文含义
G   Guanine 鸟嘌啉
A   Adenine 腺嘌啉
T (U) Thymine (Uracil) 胸腺嘧啶 (尿嘧啶)
C   Cytosine 胞嘧啶
R (A or G) PuRine 嘌啉
Y (C or T or U) Pyrimidine 嘧啶
M (A or C) Amino 腺嘌啉或胞嘧啶(氨基)
K (G or T) Ketone 鸟嘌啉或胸腺嘧啶(酮基)
S (C or G) Strong interaction 强相互作用碱基
W (A or T) Weak interaction 弱相互作用碱基
H (A or C or T) Not-G (H after G) 非鸟嘌啉
B (C or G or T) Not-A (B after A) 非腺嘌啉
V (A or C or G) Not-T/U (V after U) 非胸腺嘧啶
D (A or G or T) Not-C (D after C) 非胞嘧啶
N (A or C or G or T) Any 不确定

模糊碱基实际上就是除了A T C G 这4种碱基之外的其他碱基

2)homopolymer base

由1个碱基重复多次的序列,比如GCAGAAAAAAA 序列中,末端的一串A就是 homopolymer base

summary.seqs的基本用法:

mothur "#summary.seqs(fasta = "input.fasta")"

运行成功之后,会生成input.summary 文件,内容如下:

seqname	start	end	nbases	ambigs	polymer	numSeqs
1 1 24 24 0 2 1
2 1 25 25 10 10 1
3 1 25 25 2 1 1
4 1 24 24 0 18 1
5 1 24 24 0 2 1
6 1 24 24 0 1 1
7 1 24 24 0 1 1
8 1 25 25 0 2 1

共7列,每列表头含义如下:

seqname : 序列标识符

start      :  起始位置,从1开始

end       :   终止位置,

nbases  :  总碱基数,可以看做序列长度

ambigs  : ambiguous bases 模糊碱基的数目

polymer :  homopolymer 碱基的最大长度

numSeqs : 序列数,对于每条序列来说,其值总是为1

除了上述的基本用法外,summary.seqs 还有很多的参数;

processors  : CPU个数,mothur 是支持并行的,通过设置processors 参数可以并行执行程序,用法如下:

mothur "#summary.seqs(fasta = "input.fasta", processors = 10)"

mothur summary.seqs 统计fasta文件中每条序列的长度的更多相关文章

  1. 使用python脚本实现统计日志文件中的ip访问次数

    使用python脚本实现统计日志文件中的ip访问次数,注意此脚本只适用ip在每行开头的日志文件,需要的朋友可以参考下 适用的日志格式: 106.45.185.214 - - [06/Aug/2014: ...

  2. 统计一个文件中出现字符'a'的次数

    # -*- coding: utf-8 -*- #python 27 #xiaodeng #统计一个文件中出现字符'a'的次数 #http://www.cnblogs.com/hongten/p/ho ...

  3. [linux] shell脚本编程-统计日志文件中的设备号发通知邮件

    1.日志文件列表 比如:/data1/logs/2019/08/15/ 10.1.1.1.log.gz 10.1.1.2.log.gz 2.统计日志中的某关键字shell脚本 zcat *.gz|gr ...

  4. c语言统计一个文件中的单词,字符和行数

    body, table{font-family: 微软雅黑; font-size: 10pt} table{border-collapse: collapse; border: solid gray; ...

  5. 统计python文件中的代码,注释,空白对应的行数

    其实代码和空白行很好统计,难点是注释行 python中的注释分为以#开头的单行注释 或者以'''开头以'''结尾 或以"""开头以"""结尾 ...

  6. 根据位置信息提取 fasta 文件中的序列 -- extract fasta sequence by their position

    #!/usr/bin/env python # usages: python extract_seq_by_pos.py input.fasta id_start_end > result.fa ...

  7. 统计py文件中的代码行

    希望是输入一个合法的文件夹的路径,然后代码自动读取该文件夹下的每个py结尾的文件内的代码行数,最后汇总一个数,但现在只是有思路,却没时间写,这是能读取同级文件下的某个文件, with open('te ...

  8. 用 perl 统计 fasta 文件序列的总长

    #!/usr/bin/perl -w use strict; die "Usage: $0 <file>\n" unless (@ARGV == 1); my $lin ...

  9. java简单统计.java文件中的有效代码行,空行,注释行

    package regxdemo; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundExc ...

随机推荐

  1. ftell函数使用注意事项

    ftell函数的原型如下: long ftell(FILE *stream); 主要功能是获取FILE指针在当前文件中的位置. 但在使用文本模式打开文件时,ftell函数返回值不一定跟FILE文件指针 ...

  2. hdu1839(二分+优先队列,bfs+优先队列与spfa的区别)

    题意:有n个点,标号为点1到点n,每条路有两个属性,一个是经过经过这条路要的时间,一个是这条可以承受的容量.现在给出n个点,m条边,时间t:需要求在时间t的范围内,从点1到点n可以承受的最大容量... ...

  3. Android开发(六)——组件颜色Selector(Selector与Shape的基本用法 )

    andorid控件改变状态时改变颜色,使用selector. <?xml version="1.0" encoding="utf-8" ?> < ...

  4. JAVA-JSP内置对象之session对象获得session的其他信息

    相关资料:<21天学通Java Web开发> session对象 获得session的其他信息 SessionDemo2.jsp <%@ page language="ja ...

  5. Android 异步任务——AsyncTask (附使用AsyncTask下载图片Demo)

    我们编程的时候经常需要处理同步任务和异步任务,在Android里面存在一个特性,就是UI线程是不安全的线程.所谓UI线程不安全也就是我们的主线程(进程启动的第一个线程)不能在线程外操作主线程的资源.因 ...

  6. spark streaming checkpoint

    Checkpoint机制 通过前期对Spark Streaming的理解,我们知道,Spark Streaming应用程序如果不手动停止,则将一直运行下去,在实际中应用程序一般是24小时*7天不间断运 ...

  7. nginx封ip,禁用IP段的设置说明

    nginx的ngx_http_access_module 模块可以封配置内的ip或者ip段,语法如下: deny IP; deny subnet; allow IP; allow subnet; # ...

  8. Android控件GridView之仿支付宝钱包首页带有分割线的GridView九宫格的完美实现

    Android控件GridView之仿支付宝钱包首页带有分割线的GridView九宫格的完美实现 2015-03-10 22:38 28419人阅读 评论(17) 收藏 举报  分类: Android ...

  9. c# 连等算式都在做什么

    在研究两个整数互换的方法时(详细看这里),发现了一个有趣的现象. a ^= b ^= a ^= b; ≠ a ^= b;b ^= a;a ^= b; 有兴趣的童鞋可以看看下面代码的结果是什么: int ...

  10. kafka生产消费原理笔记

    一.什么是kafka Kafka是最初由Linkedin公司开发,是一个分布式.支持分区的(partition).多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性 ...