多重比对序列的格式及其应用

 

这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结。在做系统演化分析、序列功能分析、基因预测等,都需要涉及到多重序列比对。特别是当需要用不同软件对多重比对序列进行批量操作时,会遇到各种的格式,而这些格式是如何产生的,有什么区别,格式之间如何转换,从哪里可以下载到相关的格式序列,不同的格式又有什么特殊的用途等,本篇文章将就这些问题进行总结与讨论。因为涉及内容较多,不足之处,欢迎大家补充或者批判。

生物信息学的基础是基于这样的一个假设:序列相似,结构相似,功能相似。所以相似的一组序列,就可能同属于一个基因家族,而这样的一组序列相似的部分,就可能使其功能之所在,称其为结构域。这是对于基因家族分类的一种方式,将结构与功能进行联系,从而实现从结构预测功能(序列称为一级结构)。

进行多重比对、多重序列的编辑、多重序列注释、存储与展示、系统演化分析等,不同的软件、不同的系统,除了要兼容现有的格式,还会根据自身的需要,都定义新的格式。所以这些本身可以进行部分的格式转换,同时许多脚本模块比如bioperl等也提供了一些格式之间转换的脚本。这些格式同发布其软件平台有着密切的联系,随着软件的流行而流行。

下表是目前主流的格式:

名称 后缀 描述 Unique file Feature 详细定义地址
FASTA .fasta, fa Pearson or FASTA sequence format >SequenceNameTHISISASEQENCE FASTA (Pearson)
GCG/MSF format .msf, .gcg GCG Multiple Sequence File (MSF) alignment format !! AA_MULTIPLE_ALIGNMENT 1.0..// GCG/MSF
Aligned FASTA (UCSC a2m) format .a2m UCSC    
Stockholm format .txt used by Pfam and Rfam to disseminate protein and RNA sequence alignments. 可以添加丰富的注释信息,适合多序列比对结果的注释。 # STOCKHOLM 1.0<seqname> <aligned sequence>

//
链接wiki链接
PHYLIP .phy, .phylip, .phylip2 PHYLIP software   链接
NBR/PIR .pir NBRF or PIR sequence format >P1; 链接
CLUSTAL .aln, .an, .aln2 ClustalW alignment format CLUSTAL 链接
GDE .gde GDE format is a tagged-field format similar to ASN.l that is used for storing all available information about a sequence, including residue color.   链接
NEXUS .nxs, .nexus Nexus file formatis widely used in Bioinformatics. Several popular phylogenetic programs such as Paup, MrBayes, Mesquite, and MacClade use this format.   链接
BLC .blc   >Seq1>Seq2  
PFAM .pfam   SequenceName THISISASEQENCE 链接
MEGA .meg MEGA software    
SELEX .      
IG .ig      
Internet (NCBI) XML format .xml      
NBRF format .nbrf      

主要软件平台对于格式的要求

  • Clustal
    输入:NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
    输出:CLUSTAL, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
  • MUSCLE(http://www.drive5.com/muscle/muscle.html)
    输入:FASTA, CLUSTAL, MSF
    输出:FASTA
  • hmmbuild
    ClustalW, GCG MSF, or SELEX
  • hmmalign
    输入:FASTA, GENBANK, EMBL, GCG, PIR, STOCKHOLM, SELEX, MSF, CLUSTAL, and PHYLIP.
    输出:Stockholm, SELEX, MSF, Clustal, Phylip, and A2M
  • Jalview java viewer (http://www.jalview.org/help.html)
    输入:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR (including MODELLER variant), Pfam/Stockholm
    输出:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR, Pfam/Stockholm
  • MEGA
    输入:CLUSTAL, NEXUS (PAUP, MacClade), PHYLIP, GCG, FASTA, PIR,  NBRF, MSF, IG, and XML formats.
    输出:MEGA, PAUP, FASTA
  • PFAM数据库
    Selex, Stockholm, MSF, FASTA

MSA:多重比对序列的格式及其应用的更多相关文章

  1. BAM/SAM格式

    本质上就是二进制压缩的SAM文件,大部分生物信息学流程都需要这个格式,为了节省存储空间以及方便索引. # BiocInstaller::biocLite('Rsamtools') library(Rs ...

  2. FASTQ格式

    FASQT格式是用于存储生物序列(通常是核苷酸序列)及其相应的碱基质量分数的一种文本格式.为简洁起见,序列字母和质量分数均使用单个ASCII字符进行编码.最初由Wellcome Trust Sange ...

  3. Oracle 学习笔记 12 -- 序列、索引、同义词

    版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/Topyuluo/article/details/24232449 数据库的对象包含:表.视图.序列. ...

  4. HGVS的变异格式

    符号: 1.HGVS的变异格式由两部分组成: 1.1 reference sequence file identifier (accession.version-number) :  actual d ...

  5. 第七章 yaml格式

    一.简单说明 yaml是一个可读性高,用来表达数据序列的格式.YAML 的意思其实是:仍是一种标记语言,但为了强调这种语言以数据做为中心,而不是以标记语言为重点 二.基本语法 缩进时不允许使用Tab键 ...

  6. Hmmer安装与使用

    Hmmer的安装与使用   从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中,找同源的序列,或者对一个对一个新的基因功能进行鉴定,使用hmmer比使用blast有着更高的灵敏度已经更高的搜索速 ...

  7. hmmer 使用(转载)

    hmmer 使用 » 转载文章请注明,转载自:博耘生物 » <hmmer的安装与使用> » 原文链接:http://boyun.sh.cn/bio/?p=1753   从功能基因研究的角度 ...

  8. XSLT学习

    XSL 语言 XSL(eXtensible Stylesheet Language)是可扩展样式表语言,是一种用于以可读格式呈现 XML(标准通用标记语言的子集)数据的语言. XSL与xml CSS ...

  9. hmm 软件的使用

    1)使用HMM模型搜索序列数据库(以青蟹蛋白库为例,简写为qingxie.pep),同源参考序列(query.fas) hmmbuild: 用多重比对序列构建HMM模型:hmmsearch: 使用HM ...

随机推荐

  1. iOS开发小技巧--即时通讯项目:消息发送框(UITextView)高度的变化; 以及UITextView光标复位的小技巧

    1.即时通讯项目中输入框(UITextView)跟随输入文字的增多,高度变化的实现 最主要的方法就是监听UITextView的文字变化的方法- (void)textViewDidChange:(UIT ...

  2. C#-WinForm-Timer控件

    比如在窗体中显示时间: 错误思路一:我在窗体结构函数中写入一个死循环,每隔一秒显示一次当前时间 public Form6() { InitializeComponent(); while (true) ...

  3. 让script的type属性等于text/html

    type属性为text/html的时候,<script>片断中定义一个被JS调用的代码,代码不会在页面上显示 <script id="commentTemplate&quo ...

  4. IOS-App installation failed原因及解决方法

    在用真机调试的时候,每次运行app都会弹出这个框,点击ok后,再次运行就没问题了.刚开始觉得没什么,无非就是多点几次,到后来,觉得这也很浪费时间,严重影响开发效率,在网上搜索了一遍后,决定将解决方案写 ...

  5. python初识生成器 迭代器

    生成器 带有 yield 的函数在 Python 中被称之为 generator(生成器) def xragns(): #定义函数生成器 print('小伙') yield ('好') #加上yiel ...

  6. Reveal使用步骤

    一.Reveal使用步骤 1.启动Reveal --> Help --> Show Reveal Library in Finder,拖动添加Reveal.framework到工程中. 选 ...

  7. 【poj1013】 Counterfeit Dollar

    http://poj.org/problem?id=1013 (题目链接) 题意 12个硬币中有1个是假的,给出3次称重结果,判断哪个硬币是假币,并且判断假币是比真币中还是比真币轻. Solution ...

  8. bootstrap 双层模态框的实现

    <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8&quo ...

  9. Python基础2:流程控制语句 while / for循环

    [ while 循环 ] 如果要计算1+2+3,我们可以直接写表达式: >>> 1 + 2 + 3 要计算1+2+3+...+10,勉强也能写出来. 但是,要计算1+2+3+...+ ...

  10. Bzoj2753 [SCOI2012]滑雪与时间胶囊

    2753: [SCOI2012]滑雪与时间胶囊 Time Limit: 50 Sec  Memory Limit: 128 MBSubmit: 2282  Solved: 796 Descriptio ...