fasta格式

在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。

格式

序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸氨基酸编码符号(参见下表)。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。

下面是FASTA格式的氨基酸序列实例:

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*

FASTA格式支持的核苷酸代码如下:

核苷酸代码

意义

A

Adenosine

C

Cytosine

G

Guanine

T

Thymidine

U

Uracil

R

G A (puRine)

Y

T C (pYrimidine)

K

G T (Ketone)

M

A C (aMino group)

S

G C (Strong interaction)

W

A T (Weak interaction)

B

G T C (not A) (B comes after A)

D

G A T (not C) (D comes after C)

H

A C T (not G) (H comes after G)

V

G C A (not T, not U) (V comes after U)

N

A G C T (aNy)

X

masked

-

gap of indeterminate length

FASTA格式支持的氨基酸代码如下:

氨基酸代码

意义

A

Alanine

B

Aspartic acid or Asparagine

C

Cysteine

D

Aspartic acid

E

Glutamic acid

F

Phenylalanine

G

Glycine

H

Histidine

I

Isoleucine

K

Lysine

L

Leucine

M

Methionine

N

Asparagine

O

Pyrrolysine

P

Proline

Q

Glutamine

R

Arginine

S

Serine

T

Threonine

U

Selenocysteine

V

Valine

W

Tryptophan

Y

Tyrosine

Z

Glutamic acid or Glutamine

X

any

*

translation stop

-

gap of indeterminate length

 

最常见的FASTA格式

 

Fasta格式首先以大于号“>”开头,接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束???。

所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。

gi号后面是序列的标识符,下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。

文件中和每一行都不要超过80个字符(通常60个字符)。

对于核酸序列,除了为大家所熟知的A、C、G、T、U外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G 或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。

Database Name数据库名称

Identifier Syntax 标识符

GenBank

gb|accession|locus

EMBL Data Library

emb|accession|locus

DDBJ, DNA Database of Japan

dbj|accession|locus

NBRF PIR

pir||entry

Protein Research Foundation

prf||name

SWISS-PROT

sp|accession|entry name

Brookhaven Protein Data Bank

pdb|entry|chain

Patents

pat|country|number

GenInfo Backbone Id

bbs|number

General database identifier

gnl|database|identifier

NCBI Reference Sequence

ref|accession|locus

Local Sequence identifier

表:序列来源的数据库与对应的标识符

数据库的冗余(redundancy)

DNA和蛋白质数据库中的很多记录是属于同一基因蛋白质家族,或在不同生物体上发现的同源基因。不同的研究机构可能向数据库发送了相同的序列数据,如果没有被检查出来,则这些记录或多或少地紧密相关。当然,这些记录如果的确非常相近,可以被认定为它们是相同序列,但一些显著的差异可能是由于基因组多样性的结果。

冗余数据至少可能导致以下3个潜在的错误

一是如果一组DNA或氨基酸序列包含了大量非常相关序列族,则相应的统计分析将偏向这些族,在分析结果中,这些族的特性被夸大。

二是序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的。

三是如果这些数据是被用于预测,则这些序列将使预测方法—如人工智能方法—发生偏离。

冗余(non-redundant, nr)

生物数据非常复杂,它远非“冗余”二字可以准备描述。例如,同一位点上的2个等位基因是不是冗余的?同一生物体内的2个同功酶是否冗余?因此,过于苛刻地去除“太过于相似的序列”可能导致一些有价值的信息被删除,应在数据规模和非冗余之间找到一个合理的平衡点。

序列数据的偏差或人为假象(artifacts) 主要来自实验过程,这与其它科学数据的情况相同。这些人为假象主要来自以下几个方面:

(1) 载体序列污染:在测定序列等实验过程中,载体序列可能造成污染,致使序列记录数据中包含了载体序列。

(2) 异源(heterologous)序列污染:有研究表明一些人类cDNA测序结果在实验过程中被酵母和细菌序列污染。

(3) 序列的重排和缺失。

(4) 重复因子污染:cDNA克隆方法有时会受到逆转录因子(如Alus)的影响 。

(5) 测序误差和自然多态性:测序过程存在一定的误差概率。

文件格式——fasta格式的更多相关文章

  1. 文件格式——gff格式

    Gff文件格式 gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输 ...

  2. 文件格式——fastq格式

    fastQ格式 FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式. 他们都是以ASCII编码的.现在几乎是高通量测序的标准格式.NCBI Short Read Archiv ...

  3. perl练习——FASTA格式文件中序列GC含量计算&perl数组排序如何获得下标或者键

    一.关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACG ...

  4. fasta/fastq格式解读

    1)知识简介--------------------------------------------------------1.1)测序质量值 首先在了解fastq,fasta之前,了解一下什么是质量 ...

  5. FASTQ格式

    FASQT格式是用于存储生物序列(通常是核苷酸序列)及其相应的碱基质量分数的一种文本格式.为简洁起见,序列字母和质量分数均使用单个ASCII字符进行编码.最初由Wellcome Trust Sange ...

  6. dex文件格式一

    一.生成dex文件 我们可以通过java文件来生成一个简单的dex文件 编译过程: 首先编写java代码如下: (1) 编译成 java class 文件 执行命令 : javac Hello.jav ...

  7. Android加入新的视频格式--媒体库扫描

    需求:在mediaprovider数据库中加入.mov后缀格式的视频文件 能够使用工具MediaInfo_GUI_0.7.67_Windows.3243836749.exe 查看mov文件编码格式类型 ...

  8. dos与unix文件格式之间的转换

    1. VI编辑器中转换 在VI中使用命令 set ff?(fileformat)可以查看文件的格式,使用set ff=dos(unix)可以设置文件的格式 2.使用sed处理(来至http://www ...

  9. dex文件格式学习

    一.dex文件的生成 我们可以通过java文件来生成一个简单的dex文件 编译过程: 首先编写java代码如下: (1) 编译成 java class 文件 执行命令 : javac Hello.ja ...

随机推荐

  1. 事件监听机制——列出指定目录内容、添加Dialog对话框

    事件监听机制理解与Dialog练习 利用Java语言,仿照我的电脑目录进行打开目录,输入文件路径,查看该路径下所有的文件,设置两个文本框,一个转到按钮,当点击转到按钮时,查看路径是否正确,若正确在第二 ...

  2. 【leetcode刷题笔记】Evaluate Reverse Polish Notation

    Evaluate the value of an arithmetic expression in Reverse Polish Notation. Valid operators are +, -, ...

  3. 大话设计模式--备忘录 Memento -- C++实现实例

    1. 备忘录: 在不破坏封装性的前提下, 捕获一个对象的内部状态,并在该对象之外保存这个状态,这样以后可将该对象恢复到原先保存的状态. Originator 发起人: 负责创建一个备忘录Memento ...

  4. The Quantum L3 router and floating IPs

    This post shows how the Quantum L3 Agent uses the Linux IP stack to implement the Quantum L3 Routing ...

  5. 简单封装的Log4net

    1. [代码]使用     log = new Logger(this.GetType());log.Info("Hello world.");2. [代码]第二个版本,修复了Co ...

  6. NULL 与空字符串

    空字符串 '' 不占内存空间; NULL占一个字节的空间; 空字符串 的判断用 == <> NULL值用 is null ifnull();

  7. asp.net中异步调用WebService(异步页)[转]

    由于asp2.0提供了异步页的支持使异步调用WebService的性能有了真正的提升.使用异步页,首先要设置Async="true",异步页是在Prerender和Prerende ...

  8. float,double与long long哪个更大?

    float的范围为-2^128 ~ +2^128,也即-3.40E+38 ~ +3.40E+38: double的范围为-2^1024 ~ +2^1024,也即-1.79E+308 ~ +1.79E+ ...

  9. 自定义EL函数、自定义JSTL标签

    自定义EL函数 1.做一个类(静态) package com.maya.el; public class ELBiaoDaoShi { public static String TiHuan(Stri ...

  10. Python编程-一个小爬虫工具的实现过程

    需求描述: 1,打开网站: 2,获取网站的文件内容: 3,返回保存到文件中: 这里的就用到了多线程的方法 import requests,threading,time def write_html(u ...