文件格式——fasta格式
fasta格式
在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。
格式
序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号(参见下表)。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。
下面是FASTA格式的氨基酸序列实例:
>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*
FASTA格式支持的核苷酸代码如下:
核苷酸代码 |
意义 |
A |
Adenosine |
C |
Cytosine |
G |
Guanine |
T |
Thymidine |
U |
Uracil |
R |
G A (puRine) |
Y |
T C (pYrimidine) |
K |
G T (Ketone) |
M |
A C (aMino group) |
S |
G C (Strong interaction) |
W |
A T (Weak interaction) |
B |
G T C (not A) (B comes after A) |
D |
G A T (not C) (D comes after C) |
H |
A C T (not G) (H comes after G) |
V |
G C A (not T, not U) (V comes after U) |
N |
A G C T (aNy) |
X |
masked |
- |
gap of indeterminate length |
FASTA格式支持的氨基酸代码如下:
氨基酸代码 |
意义 |
A |
Alanine |
B |
Aspartic acid or Asparagine |
C |
Cysteine |
D |
Aspartic acid |
E |
Glutamic acid |
F |
Phenylalanine |
G |
Glycine |
H |
Histidine |
I |
Isoleucine |
K |
Lysine |
L |
Leucine |
M |
Methionine |
N |
Asparagine |
O |
Pyrrolysine |
P |
Proline |
Q |
Glutamine |
R |
Arginine |
S |
Serine |
T |
Threonine |
U |
Selenocysteine |
V |
Valine |
W |
Tryptophan |
Y |
Tyrosine |
Z |
Glutamic acid or Glutamine |
X |
any |
* |
translation stop |
- |
gap of indeterminate length |
最常见的FASTA格式
Fasta格式首先以大于号“>”开头,接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束???。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。
gi号后面是序列的标识符,下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。
文件中和每一行都不要超过80个字符(通常60个字符)。
对于核酸序列,除了为大家所熟知的A、C、G、T、U外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G 或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。
Database Name数据库名称 |
Identifier Syntax 标识符 |
GenBank |
gb|accession|locus |
EMBL Data Library |
emb|accession|locus |
DDBJ, DNA Database of Japan |
dbj|accession|locus |
NBRF PIR |
pir||entry |
Protein Research Foundation |
prf||name |
SWISS-PROT |
sp|accession|entry name |
Brookhaven Protein Data Bank |
pdb|entry|chain |
Patents |
pat|country|number |
GenInfo Backbone Id |
bbs|number |
General database identifier |
gnl|database|identifier |
NCBI Reference Sequence |
ref|accession|locus |
Local Sequence identifier |
表:序列来源的数据库与对应的标识符
数据库的冗余(redundancy)
DNA和蛋白质数据库中的很多记录是属于同一基因和蛋白质家族,或在不同生物体上发现的同源基因。不同的研究机构可能向数据库发送了相同的序列数据,如果没有被检查出来,则这些记录或多或少地紧密相关。当然,这些记录如果的确非常相近,可以被认定为它们是相同序列,但一些显著的差异可能是由于基因组多样性的结果。
冗余数据至少可能导致以下3个潜在的错误
一是如果一组DNA或氨基酸序列包含了大量非常相关序列族,则相应的统计分析将偏向这些族,在分析结果中,这些族的特性被夸大。
二是序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的。
三是如果这些数据是被用于预测,则这些序列将使预测方法—如人工智能方法—发生偏离。
非冗余(non-redundant, nr)
生物数据非常复杂,它远非“冗余”二字可以准备描述。例如,同一位点上的2个等位基因是不是冗余的?同一生物体内的2个同功酶是否冗余?因此,过于苛刻地去除“太过于相似的序列”可能导致一些有价值的信息被删除,应在数据规模和非冗余之间找到一个合理的平衡点。
序列数据的偏差或人为假象(artifacts) 主要来自实验过程,这与其它科学数据的情况相同。这些人为假象主要来自以下几个方面:
(1) 载体序列污染:在测定序列等实验过程中,载体序列可能造成污染,致使序列记录数据中包含了载体序列。
(2) 异源(heterologous)序列污染:有研究表明一些人类cDNA测序结果在实验过程中被酵母和细菌序列污染。
(3) 序列的重排和缺失。
(4) 重复因子污染:cDNA克隆方法有时会受到逆转录因子(如Alus)的影响 。
(5) 测序误差和自然多态性:测序过程存在一定的误差概率。
文件格式——fasta格式的更多相关文章
- 文件格式——gff格式
Gff文件格式 gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输 ...
- 文件格式——fastq格式
fastQ格式 FASTQ是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式. 他们都是以ASCII编码的.现在几乎是高通量测序的标准格式.NCBI Short Read Archiv ...
- perl练习——FASTA格式文件中序列GC含量计算&perl数组排序如何获得下标或者键
一.关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACG ...
- fasta/fastq格式解读
1)知识简介--------------------------------------------------------1.1)测序质量值 首先在了解fastq,fasta之前,了解一下什么是质量 ...
- FASTQ格式
FASQT格式是用于存储生物序列(通常是核苷酸序列)及其相应的碱基质量分数的一种文本格式.为简洁起见,序列字母和质量分数均使用单个ASCII字符进行编码.最初由Wellcome Trust Sange ...
- dex文件格式一
一.生成dex文件 我们可以通过java文件来生成一个简单的dex文件 编译过程: 首先编写java代码如下: (1) 编译成 java class 文件 执行命令 : javac Hello.jav ...
- Android加入新的视频格式--媒体库扫描
需求:在mediaprovider数据库中加入.mov后缀格式的视频文件 能够使用工具MediaInfo_GUI_0.7.67_Windows.3243836749.exe 查看mov文件编码格式类型 ...
- dos与unix文件格式之间的转换
1. VI编辑器中转换 在VI中使用命令 set ff?(fileformat)可以查看文件的格式,使用set ff=dos(unix)可以设置文件的格式 2.使用sed处理(来至http://www ...
- dex文件格式学习
一.dex文件的生成 我们可以通过java文件来生成一个简单的dex文件 编译过程: 首先编写java代码如下: (1) 编译成 java class 文件 执行命令 : javac Hello.ja ...
随机推荐
- var妙用
var广泛使用其实也有用的.比如在一些不太确定类型的地方 (比如要区分int/uint/long/double的时候),用泛型太牛刀而不用又觉得不灵活的时候,其实是比较推荐var的比如设计某种类的时候 ...
- [MEF] 学习之一 入门级的简单Demo
MEF 的精髓在于插件式开发,方便扩展. 我学东西,习惯性的先搞的最简单的Demo出来,看看有没有好玩的东东,然后继续深入.这个博文,不谈大道理,看demo说事儿. 至于概念,请google ,大把大 ...
- 浮动float
一.浮动定义:会强制改变display为inline-block,使元素排队列,(排列方式由属性值决定,left / rihgt), 使该元素处于半脱离文档状态 二.浮动元素处于半飘离状态,能看到浮动 ...
- 20165101刘天野 2018-2019-2《网络对抗技术》Exp6 信息搜集与漏洞扫描
目录 20165101刘天野 2018-2019-2<网络对抗技术>Exp6 信息搜集与漏洞扫描 1.实验内容 1.1 各种搜索技巧的应用 1.2 DNS IP注册信息的查询 1.3 基本 ...
- [java]final关键字、finally关键字与finalize()方法
final关键字: final关键字通常指的是“无法改变的”,使用“无法改变”这样修饰可能出于两个原因:设计或者效率. final可以修饰变量.方法和类. 一.final变量 一个既是static又是 ...
- Javascript-- jQuery样式篇(二)
jQuery的属性与样式 .attr()与.removeAttr() 每个元素都有一个或者多个特性,这些特性的用途就是给出相应元素或者其内容的附加信息.如:在img元素中,src就是元素的特性,用来标 ...
- Postgresql windows下安装过程
1.下载前三个软件: 理论上安装Perl,TCL,Bison and Flex这三个插件 实际上安装ActiveState Perl,ActiveState tcl ,MinGW 因为MinGW包括了 ...
- Activity间数据传输
当对Android有一些了解后,不难发现,Android程序UI框架接近于Web页面的概念.每一个用于呈现页面的组件,Activity,都是彼此独立的,它们通过系统核心来调度整合,彼此之间的通过Int ...
- Java中常见的集合框架
1. 一.collection (有序)接口的实现的接口 set list 其中set接口的实现类是HashSet,List接口的实现类是ArrayList.LinkList.Vector 二.Ma ...
- 详细详解One Hot编码-附代码
机器学习算法无法直接用于数据分类.数据分类必须转换为数字才能进一步进行. 在本教程中,你将发现如何将输入或输出的序列数据转换为一种热编码,以便于你在Python中深度学习的序列分类问题中使用.本教程分 ...