文件格式——fasta格式

fasta格式

在生物信息学中，FASTA格式（又称为Pearson格式），是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。

格式

序列文件的第一行是由大于号">"或分号";"打头的任意文字说明（习惯常用">"作为起始），用于序列标记。从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号（参见下表）。通常核苷酸符号大小写均可，而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。

下面是FASTA格式的氨基酸序列实例：

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*

FASTA格式支持的核苷酸代码如下：

核苷酸代码	意义
A	Adenosine
C	Cytosine
G	Guanine
T	Thymidine
U	Uracil
R	G A (puRine)
Y	T C (pYrimidine)
K	G T (Ketone)
M	A C (aMino group)
S	G C (Strong interaction)
W	A T (Weak interaction)
B	G T C (not A) (B comes after A)
D	G A T (not C) (D comes after C)
H	A C T (not G) (H comes after G)
V	G C A (not T, not U) (V comes after U)
N	A G C T (aNy)
X	masked
-	gap of indeterminate length

FASTA格式支持的氨基酸代码如下：

氨基酸代码	意义
A	Alanine
B	Aspartic acid or Asparagine
C	Cysteine
D	Aspartic acid
E	Glutamic acid
F	Phenylalanine
G	Glycine
H	Histidine
I	Isoleucine
K	Lysine
L	Leucine
M	Methionine
N	Asparagine
O	Pyrrolysine
P	Proline
Q	Glutamine
R	Arginine
S	Serine
T	Threonine
U	Selenocysteine
V	Valine
W	Tryptophan
Y	Tyrosine
Z	Glutamic acid or Glutamine
X	any
*	translation stop
-	gap of indeterminate length

最常见的FASTA格式

Fasta格式首先以大于号“>”开头，接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”，然后是序列的描述信息。换行后是序列信息，序列中允许空格，换行，空行，直到下一个大于号，表示该序列的结束？？？。

所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”，gi号类似与数据库中的流水号，由数字组成，具有绝对唯一性。一条核酸或者蛋白质改变了，将赋予一个新的gi号（这时序列的接收号可能不变）。

gi号后面是序列的标识符，下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识（如接收号、名称等）等几部分组成，他们之间用“|”隔开，如果某项缺失，可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”，表示序列来源于NCBI的参考序列库，接收号为“NM_001043364.2”。

文件中和每一行都不要超过80个字符（通常60个字符）。

对于核酸序列，除了为大家所熟知的A、C、G、T、U外，R代表G或A（嘌呤）；Y代表T或C（嘧啶）；K代表G或T（带酮基）；M代表A或C（带氨基）；S代表G 或C（强）；W代表A或T（弱）；B代表G、T或C；D代表G、A或T；H代表A、C或T；V代表G、C或A；N代表A、G、C、T中任意一种。

Database Name数据库名称	Identifier Syntax 标识符
GenBank	gb\|accession\|locus
EMBL Data Library	emb\|accession\|locus
DDBJ, DNA Database of Japan	dbj\|accession\|locus
NBRF PIR	pir\|\|entry
Protein Research Foundation	prf\|\|name
SWISS-PROT	sp\|accession\|entry name
Brookhaven Protein Data Bank	pdb\|entry\|chain
Patents	pat\|country\|number
GenInfo Backbone Id	bbs\|number
General database identifier	gnl\|database\|identifier
NCBI Reference Sequence	ref\|accession\|locus
Local Sequence identifier

表：序列来源的数据库与对应的标识符

数据库的冗余(redundancy)

DNA和蛋白质数据库中的很多记录是属于同一基因和蛋白质家族，或在不同生物体上发现的同源基因。不同的研究机构可能向数据库发送了相同的序列数据，如果没有被检查出来，则这些记录或多或少地紧密相关。当然，这些记录如果的确非常相近，可以被认定为它们是相同序列，但一些显著的差异可能是由于基因组多样性的结果。

冗余数据至少可能导致以下3个潜在的错误

一是如果一组DNA或氨基酸序列包含了大量非常相关序列族，则相应的统计分析将偏向这些族，在分析结果中，这些族的特性被夸大。

二是序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的。

三是如果这些数据是被用于预测，则这些序列将使预测方法—如人工智能方法—发生偏离。

非冗余(non-redundant, nr)

生物数据非常复杂，它远非“冗余”二字可以准备描述。例如，同一位点上的2个等位基因是不是冗余的？同一生物体内的2个同功酶是否冗余？因此，过于苛刻地去除“太过于相似的序列”可能导致一些有价值的信息被删除，应在数据规模和非冗余之间找到一个合理的平衡点。

序列数据的偏差或人为假象(artifacts) 主要来自实验过程，这与其它科学数据的情况相同。这些人为假象主要来自以下几个方面：

(1) 载体序列污染：在测定序列等实验过程中，载体序列可能造成污染，致使序列记录数据中包含了载体序列。

(2) 异源(heterologous)序列污染：有研究表明一些人类cDNA测序结果在实验过程中被酵母和细菌序列污染。

(3) 序列的重排和缺失。

(4) 重复因子污染：cDNA克隆方法有时会受到逆转录因子(如Alus)的影响。

(5) 测序误差和自然多态性：测序过程存在一定的误差概率。

文件格式——fasta格式的更多相关文章

文件格式——gff格式
Gff文件格式 gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输 ...
文件格式——fastq格式
fastQ格式 FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式. 他们都是以ASCII编码的.现在几乎是高通量测序的标准格式.NCBI Short Read Archiv ...
perl练习——FASTA格式文件中序列GC含量计算&perl数组排序如何获得下标或者键
一.关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACG ...
fasta/fastq格式解读
1)知识简介--------------------------------------------------------1.1)测序质量值首先在了解fastq,fasta之前,了解一下什么是质量 ...
FASTQ格式
FASQT格式是用于存储生物序列(通常是核苷酸序列)及其相应的碱基质量分数的一种文本格式.为简洁起见,序列字母和质量分数均使用单个ASCII字符进行编码.最初由Wellcome Trust Sange ...
dex文件格式一
一.生成dex文件我们可以通过java文件来生成一个简单的dex文件编译过程: 首先编写java代码如下: (1) 编译成 java class 文件执行命令 : javac Hello.jav ...
Android加入新的视频格式－－媒体库扫描
需求:在mediaprovider数据库中加入.mov后缀格式的视频文件能够使用工具MediaInfo_GUI_0.7.67_Windows.3243836749.exe 查看mov文件编码格式类型 ...
dos与unix文件格式之间的转换
1. VI编辑器中转换在VI中使用命令 set ff?(fileformat)可以查看文件的格式,使用set ff=dos(unix)可以设置文件的格式 2.使用sed处理(来至http://www ...
dex文件格式学习
一.dex文件的生成我们可以通过java文件来生成一个简单的dex文件编译过程: 首先编写java代码如下: (1) 编译成 java class 文件执行命令 : javac Hello.ja ...

随机推荐

web框架详解之 tornado 四模板引擎、session、验证码、xss
一.模板引擎基本使用继承,extends 页面整体布局用继承导入,include 如果是小组件等重复的那么就用导入下面是目录首先在controllers里面创建一个文件,文件里面是页面类 # ...
dedecms常用标签
下面总结了58种常见的标签调用,包括关键描述调用.指定调用栏目.列表文章调用.频道栏目调用.当前栏目名称.栏目导航调用.模板路径调用.网站标题调用.友情链接调用.网站版权调用.网站备案调用.当前位置调 ...
[算法]找到无序数组中最小的K个数
题目: 给定一个无序的整型数组arr,找到其中最小的k个数. 方法一: 将数组排序,排序后的数组的前k个数就是最小的k个数. 时间复杂度:O(nlogn) 方法二: 时间复杂度:O(nlogk) 维护 ...
EntityFramework 学习一 Entity Framework 查询设计
First/FirstOrDefault: using (var ctx = new SchoolDBEntities()) { var student = (from s in ctx.Studen ...
Java 面试题问与答：编译时与运行时
Java 面试题问与答:编译时与运行时 2012/12/17 | 分类: 基础技术, 职业生涯 | 5 条评论 | 标签: RUNTIME, 面试分享到:58 本文作者: ImportNew - 朱 ...
SQL truncate 、delete与drop区别及 MSSQL、MySQL 数据库删除大批量千万级百万级数据的优化
C#_Stopwatch 类 http://www.cnblogs.com/zhw511006/archive/2009/07/22/1528405.html http://blog.csdn.net ...
用 CSS3 创建一个漂亮的多种色彩的菜单
1. [图片] thumb.png 2. [代码][HTML]代码 <!DOCTYPE html><html lang="en" > <hea ...
BZOJ 2527 [Poi2011]Meteors：整体二分
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=2527 题意: 有n个国家和m个空间站,每个空间站都属于一个国家,一个国家可以有多个空间站, ...
js 跨域复习 window.name | window.domain | iframe | Jsonp
引起跨域的原因: 浏览器的同源策略,但是当你要发送请求的时候,出于安全性问题,浏览器有严格的要求,必须协议,域名,端口都相同,这个就是同源策略. 影响:a通过js脚本向b发送ajax请求,不同源就会报 ...
Java_数据交换_dom4j_01_解析xml
1.说明详细原理以后再研究,先将例子存着 2.代码 2.1 xml内容 <?xml version="1.0" encoding="UTF-8"?> ...

文件格式——fasta格式

文件格式——fasta格式的更多相关文章

随机推荐

热门专题