Database in BioInformation
很多数据库都可以通过下面的网站下载:http://annovar.openbioinformatics.org/en/latest/user-guide/download/
一、NHLBI-ESP(Exome Sequencing Project)
国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project),这个计划中的esp6500si_all数据库中包含SNP变异、InDel变异和Y染色体上的变异的所有个体中,突变碱基的等位基因频率,通过注释,我们可以了解到突变在ESP6500的变异频率,并过滤突变频率大于0.01的数据。
下载地址:http://evs.gs.washington.edu/EVS/
注意:Have any of the ESP variants been validated by Sanger sequencing?
Large scale validation of the variants was not performed. However, sequencing validation of a small number of singleton (~200) and high frequency SNP calls (~800) was performed and reported in Tennessen et. al. as published in Science online May 21, 2012 (PMID: 22604720). None of the INDEL calls was validated, In general, the INDEL calls are less robust than the SNP calls and have a higher false positive rate. When applying the ESP data to research studies, users are advised to keep this difference in mind.
所述上述数据库,并不是每个位点都经过了sanger验证。
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_esp6500siv2_all.txt.gz
二、ExAC
ExAC数据库的全称是(the Exome Aggregation Consortium,外显子组整合数据库),包含了六万多人的外显子变异情况,这些个体来源于大量疾病研究和群体遗传学研究,能够用做严重疾病研究的参考数据库。目前ExAC数据库中包括ALL,AFR(African),AMR(Admixed American),EAS(East Asian),FIN(Finnish),NFE(Non-finnish European),OTH(other),SAS(South Asian)
下载方式:perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 exac03 ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_exac03.txt.gz
三、KAVIAR
Kaviar (~Known VARiants) is a compilation of SNVs, indels, and complex variants observed in humans, designed to facilitate testing for the novelty and frequency of observed variants.
下载方式:perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 kaviar_20150923 ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_kaviar_20150923.txt.gz
四、1000 Genomes project
下载方式:perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2015aug ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_1000g2015aug.zip
五、ensembl
Ensemble( ensembl.org网站是常用真核生物参考基因组来源之一 )能够对人类基因自动进行注释,包括人类,小鼠,斑马鱼,猪和大鼠等
Ensembl是一项生物信息学研究计划,旨在开发种能够对真核生物基因组进行自动注释(automatic annotation)并加以维护的软件系统。该计划由英国Sanger研究所Wellcome基金会及欧洲分子生物学实验室所属分部欧洲生物信息学研究所共同协作运营。
Ensembl与NCBI的NCBI Map Viewer和UCSC是最为常用基因组检索数据库,与NCBI Map Viewer和UCSC最大区别表现在以下5点:
a.Ensembl的基因数据集是依据mRNA和蛋内序列的数据信息白动注释的。数据来源为新的基因组数据,UniProt/SwissProt和UniProt/TrEMBL的蛋白序列,NCBI的RefSeq里的DNA和蛋白序列和EMBL的cDNA序列。
b.Ensembl是一个开源(Perl API )的全自动的基因注释软件系统,很多网站都采用Ensembl这套软件系统。
c.Ensembl拥存其特有的BioMart功能。BioMart可以依据设定的要求对基 因组进行条件性检索,检索的结果吋以以图表的形式给出。
d.与其它数据库相整合,比如DAS。
e.基因组间的比较分析。
目前从事基因注释的机构组织有很多,这里列出的只是较为常用的几个。
Ensembl:目的是做出最好的基因注释集。
Havana (VEGA):是桑格中心的一个基因注释组织,它的目标和Eiisembl—致,因此,结合得也最紧密。
HGNC -给出人类基因唯一的名字和符号。
UniProt 主要集中于蛋白质的信息注释。
Ensembl的通用基因注释有两种,一是Ensembl GeneBuild,它是自动化注释,速度快,实时更新,在不同物种上均适用;另一种是Wellcome基金会的 Havana (VEGA)小组的注释,它是手工注释,速度慢,但是准确,它依据的都是已经验证过的mRNA和蛋白序列来注释,比较费时。因此Ensembl基因组数据库 中,会有两种注释。
Havana (VEGA)小组的注释常有以下几种类型:详细信息:http://vega.sanger.ac.uk/info/about/gene_and_transcript_types.html
Protein coding: 包括开放阅读框 (ORF).
Processed transcript:没有开放阅读框(ORF)
Pseudogene:假基因,是指脱氧核糖核酸(DNA)的碱基序列中,一段与其他生物体内已知的基因序列非常相似的片段。但是这个片段由于移码突变或者无义突变破坏了ORF,无法发挥原有的基因功能,也就是无法制造出蛋白质
IG gene:免疫球蛋白家族基因
TR Gene:T细胞受体基因
TEC (To be Experimentally Confirmed)
六、miRBase
网址:http://www.mirbase.org/,众所周知的microRNA基因注释数据库。目前miRBase只提供了microRNA的靶标的预测软件的链接(如:PicTar)
七、INSDC
八、MIM
wget https://omim.org/static/omim/data/mim2gene.txt
九、GWAS
wget http://www.genome.gov/admin/gwascatalog.txt
十、snp147.txt.gz(该网站包含了Annotation database)
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/snp147.txt.gz
- hg38: http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
- hg19: http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/
十一、dbNSFP2.9.txt.gz(SnpSift需要改文件存在索引文件)
构建索引:运行结束才会出现dbNSFP2.9.txt.gz.tbi文件
tabix -s 1 -b 2 -e 2 dbNSFP2.9.txt.gz
http://snpeff.sourceforge.net/SnpSift.version_4_0.html#dbNSFP(an integrated database of functional predictions from multiple algorithms (SIFT, Polyphen2, LRT and MutationTaster, PhyloP and GERP++, etc.).)
https://drive.google.com/uc?export=download&id=0B7Ms5xMSFMYlSTY5dDJjcHVRZ3M
Database in BioInformation的更多相关文章
- Database Replay和Consolidated Database replay
简介 在数据库的迁移和升级场景中,我们经常会遇到一个问题:在做压力测试时,如何模拟真实的业务压力,解决这个问题的方法有很多,比如:应用方开发模拟程序或者使用压力测试工具模拟,如load runner, ...
- Oracle Database 12c Data Redaction介绍
什么是Data Redaction Data Redaction是Oracle Database 12c的高级安全选项之中的一个新功能,Oracle中国在介绍这个功能的时候,翻译为“数据编纂”,在EM ...
- 使用技术手段限制DBA的危险操作—Oracle Database Vault
概述 众所周知,在业务高峰期,某些针对Oracle数据库的操作具有很高的风险,比如修改表结构.修改实例参数等等,如果没有充分评估和了解这些操作所带来的影响,这些操作很可能会导致故障,轻则导致应用错误, ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之集群概念介绍(一)
集群概念介绍(一)) 白宁超 2015年7月16日 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习 ...
- ERROR 1010 (HY000): Error dropping database (can't rmdir './test/', errno: 17)
在删除数据库的时候报标题所示错误 mysql> drop database test; ERROR (HY000): Error dropping database (can't rmdir ' ...
- Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之ORACLE集群概念和原理(二)
ORACLE集群概念和原理(二) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件(三)
RAC 工作原理和相关组件(三) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之缓存融合技术和主要后台进程(四)
缓存融合技术和主要后台进程(四) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 特殊问题和实战经验(五)
RAC 特殊问题和实战经验(五) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
随机推荐
- Cocos2d-x项目创建方式
刚接触cocos2d-x的时候,还只有2.x版本,尝试着将cocos2d-x项目创建功能加入到vs里面去,后来,引擎用Python封装好了好多个脚本文件,其中就包括create_project.py文 ...
- js和JQuery区别
this.class="btn-default btn-info"; $(this).toggleClass("btn-default btn-info"); ...
- SDN网络虚拟化、资源映射等相关论文粗读
1. Control Plane Latency with SDN Network Hypervisors: The Cost of Virtualization 年份:2016 来源:IEEE NE ...
- Activiti的部署问题
http://www.kafeitu.me/activiti/2012/03/22/workflow-activiti-action.html 既可以通过每次Spring应用程序启动时,执行部署命令. ...
- 一个ip对应多个域名多个ssl证书配置-Nginx实现多域名证书HTTPS
一台服务器,两个域名 首先购买https,获取到CA证书,两个域名就得到两套证书 第二步:现在就是Nginx和OpenSSL的安装与配置(这里注意,一般情况下一个IP只支持一个SSL证书,那么我们现在 ...
- python对redis的常用操作 下 (无序集合,有序集合)
无序集合: 首先介绍增加,删除和获得所有元素的方法.我将会用第二部分来讨论集合的特殊操作: In [136]: x.sadd("challenge", 1,2,3,4,5,6,7, ...
- SVN上线步骤笔记
项目代码位置: /data/svn/play_out 项目代码目录名称: test SVN创建位置:/data/svn/repos_Websvn线上地址:svn://192.168.1.1/repos ...
- loadrunner基础学习笔记七-面向目标场景
部署应用程序之前,要执行验收测试以确保系统能够承担预期的实际工作量. 可以为想要生成的每秒点击次数,每秒事务数或事务响应时间设置目标 loadrunner将使用面向目标的场景自动生成所需的目标,当应用 ...
- Delphi+DBGrid导出Excel
uses ComObj; //DBGrid:指定的DBGrid;SaveFileName:要保存的文件名 function ExportDBGrid(DBGrid: TDBGrid; SaveFile ...
- js 实现List
js 实现List 列表是一组有序的数据.每个列表中的数据项称为元素.在 JavaScript 中,列表中的元素可以是任意数据类型. 我们可以根据数组的特性来实现List. List 抽象数据类型定义 ...