转自:http://www.biotrainee.com/thread-411-1-1.html

常用数据库 ID

ID 示例 ID 来源
ENSG00000116717 Ensemble ID
GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN UniProtKB/TrEMBL, entry name
A2BC19, P12345, A0A022YWF9 UniProt, accession number
GLA, GLB, UGT1A1 HGNC Gene Symbol
U12345, AF123456 GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
10598, 717 Entrez ID, NCBI
uc001ett, uc031tla.1 UCSC ID


Ensembl stable IDs

Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号.
常用物种前缀

前缀 学名
ENSCEL Caenorhabditis elegans (Caenorhabditis elegans)
ENSCAF Canis lupus familiaris (Dog)
ENSDAR Danio rerio (Zebrafish)
FB Drosophila melanogaster (Fruitfly)
ENS Homo sapiens (Human)
ENSMUS Mus musculus (Mouse)
ENSRNO Rattus norvegicus (Rat)
ENSXET Xenopus tropicalis (Xenopus)

类型前缀

前缀 类型
E exon
FM Ensembl protein family
G gene
GT gene tree
P protein
R regulatory feature
T transcript

UniProt

UniProt 中录入的数据都被分配了一个唯一的 entry name.

UniProtKB/Swiss-Prot entry name
UniProtKB/Swiss-Prot entry name 是最多有 11 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是最多五个便于记忆的蛋白质编号, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.

蛋白质编号示例如下:

Code(X) Recommended protein name Gene name
B2MG Beta-2-microglobulin B2M
HBA Hemoglobin subunit alpha HBA1
INS Insulin INS
CAD17 Cadherin-17 CDH17

物种编号示例如下:

Code Species
BOVIN Bovine
CHICK Chicken
ECOLI Escherichia coli
HORSE Horse
HUMAN Homo sapiens
MAIZE Maize (Zea mays)
MOUSE Mouse
PEA Garden pea (Pisum sativum)
PIG Pig
RABIT Rabbit
RAT Rat
SHEEP Sheep
SOYBN Soybean (Glycine max)
TOBAC Common tobacco (Nicotina tabacum)
WHEAT Wheat (Triticum aestivum)
YEAST Baker’s yeast (Saccharomyces cerevisiae)

UniProtKB/TrEMBL entry name
UniProtKB/TrEMBL entry name 是最多 16 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是
6 到 10 个字符组成的 accession number, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.

Accession Number
UniProtKB 的 Accession Number 相当于数据库的主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律为:
[OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2}
实际上, accession number 是三种类型:

1 2 3 4 5 6 7 8 9 10
[O P Q] [0-9] [A-Z 0-9] [A-Z 0-9] [A-Z 0-9] [0-9]
[A-N R-Z] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9]
[A-N R-Z] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9] [A-Z] [A-Z 0-9] [A-Z 0-9] [0-9]

如果一个条目被分成两个, 或者多个条目合成一个, 则有相应的 accession number 继承规则.

HUGO Gene Nomenclature Committee
Gene Symbol
Gene Symbol 是用来表示基因的编码, 由大写字母构成, 或由大写字母和数字构成, 首字母均应该是字母.
如: GLA "galactosidase, alpha"; GLB "galactosidase, beta"; UGT1A1 "UDP
glycosyltransferase 1 family, polypeptide A1" 再到 UGT1A13 代表了 13 个不同的
gene symbol.

NCBI
GenBank Accession Number
GenBank 的通用 accession number 通常是由一个大写字母加上 5 个数字的组合, 或者两个大写字母加上 6 个数字的组合.
RefSeq Accession Number
RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}, 两个大写字母, 一个下划线, 6 个或更多的数字.

Accession 前缀 类型 说明
AC_ Genomic Complete genomic molecule, usually alternate assembly
NC_ Genomic Complete genomic molecule, usually reference assembly
NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGS
NW_ Genomic Contig or scaffold, primarily WGS
NS_ Genomic Environmental sequence
NZ_ Genomic Unfinished WGS
NM_ mRNA
NR_ RNA
XM_ mRNA Predicted model
XR_ RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly
NP_ Protein Associated with an NM_ or NC_ accession
YP_ Protein
XP_ Protein Predicted model, associated with an XM_ accession
ZP_ Protein Predicted model, annotated on NZ_ genomic records
  • WGS: Whole Genome Shotgun sequence data, 鸟枪法测序.



Entrez ID
Entrez 是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是
entrez gene id. 由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene
ID 就是一系列数字, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换.

UCSC ID
UCSC ID 由小写字母和数字构成, 起始均为 uc, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号.
如: uc010qfk.3, uc010qfk.3.

常用数据库ID格式的更多相关文章

  1. 常用生物信息 ID 及转换方法

    众多不同的数据库所采用的对 Gene 和 Protein 编号的 ID 也是不同的, 所以在使用不同数据库数据的时候需要进行 ID 转换. 常用数据库 ID ID 示例 ID 来源 ENSG00000 ...

  2. 常用数据库 JDBC URL 格式

    一 常用数据库 JDBC URL 格式 1 sqLite  驱动程序包名:sqlitejdbc-v056.jar 驱动程序类名: org.sqlite.JDBC JDBC URL: jdbc:sqli ...

  3. tomcat连接常用数据库的用法

    一.用于数据库连接的术语: JDBC:(Java database connectivity)是基于java数据访问技术的一个API通过客户端访问服务器的数据库,是一个面向关系型数据库并提供一种方法查 ...

  4. 常用数据库的驱动程序和Url地址

    常用数据库的驱动程序及JDBC URL: Oracle数据库: 驱动程序包名:ojdbc6.jar 驱动类的名字:oracle.jdbc.driver.OracleDriver JDBC URL:jd ...

  5. JDBC ----常用数据库的驱动程序及JDBC URL:

    常用数据库的驱动程序及JDBC URL: Oracle数据库: 驱动程序包名:ojdbc14.jar  驱动类的名字:oracle.jdbc.driver.OracleDriver  JDBC URL ...

  6. 常用数据库的驱动类/URL/默认端口

    常用数据库的驱动类/URL/默认端口 1.Oracle:     格式:     驱动:oracle.jdbc.driver.OracleDriver     URL:jdbc:oracle:thin ...

  7. c3p0、dbcp、tomcat jdbc pool 连接池配置简介及常用数据库的driverClass和驱动包

    [-] DBCP连接池配置 dbcp jar包 c3p0连接池配置 c3p0 jar包 jdbc-pool连接池配置 jdbc-pool jar包 常用数据库的driverClass和jdbcUrl ...

  8. 常用SQL时间格式SQLServer中文版的默认的日期字段datetime格式是yyyy-mm-d

    常用SQL时间格式 SQL Server中文版的默认的日期字段datetime格式是yyyy-mm-dd Thh:mm:ss.mmm 例如: select getdate() -- ::08.177 ...

  9. 问题:Oracle to_date;结果:oracle常用的时间格式转换

    oracle常用的时间格式转换 1:取得当前日期是本月的第几周 SQL> select to_char(sysdate,'YYYYMMDD W HH24:MI:SS') from dual; T ...

随机推荐

  1. 在启动Windows Process Activation Service时,出现错误13:数据无效

    在启动Windows Process Activation Service时,出现错误13:数据无效 1.错误原因: 当Windows Process Activation Service从C:\Wi ...

  2. pbuf类型和应用

    下面的讨论仅限于RAW API. 按存储方式分类 1. PBUF_RAM 从一般性的Heap中分配.可用空间大小受MEM_SIZE宏控制.可看作一般意义上的动态内存. 用途: a) 将应用层中的待发送 ...

  3. fiddler基础功能介绍

  4. 初次从eclipse转到intellij idea上的一些经验

    如果出现:mvn 请使用 -source 7 或更高版本以启用 diamond 运算符 这种问题 pom.xml里 <build>标签里面 需要加入这么一段 <plugins> ...

  5. 【Codeforces】CF 2 B The least round way(dp)

    题目 传送门:QWQ 分析 求结尾0的数量QwQ. 10只能是$ 2 \times 5 $,我们预处理出每个数因子中2和5的数量. 我们接着dp出从左上到右下的经过的最少的2的数量和最少的5的数量.两 ...

  6. vmware 共享文件夹(win10下的vmware安装了centos7)

    最近研究下了docker.我的笔记本是win10系统,就尝试使用了 win10的hyper-v虚拟化技术,总是感觉占用系统较多,于是换成了vmware,在虚拟机中安装 docker容器服务. 考虑到开 ...

  7. SSH 在ssh-copy-id 之后仍需输入密码的问题

    最近在使用Ansible,基于SSH. 远程服务器IP: 192.168.200.193 以下提及的远程服务器都为该服务器. 远程用户: ansible_user 在本地服务器中,ssh-keygen ...

  8. Openstack虚机实例状态错误手工恢复vm_state:error

    Openstack虚机实例状态错误手工恢复vm_state:error 1.找到状态为出错状态的VM.在数据库里面表现Status为ERROR而非ACTIVE. 2.找到出错状态VM的UUID. 3. ...

  9. python2.7实现websocket服务器,可以在web实时显示远程服务器日志

    一.开始的话 使用python实现websocket服务器,可以在浏览器上实时显示远程服务器的日志. 之前写了一个发布系统,每次发布版本后,为了了解发布情况(进度.是否有错误)都会登录到服务器上查看日 ...

  10. eclipse模板

    文件(Files)注释标签: /** * @Title: ${file_name} * @Package ${package_name} * @Description: ${todo}(用一句话描述该 ...