以下是对Ensembl突变数据库中储存的数据的描述,对于Ensembl数据库中不同的物种,我们从各种来源(例如,dbSNP数据库)导入突变数据(SNP、CNV、等位基因频率、基因型等),导入的突变数据和等位基因经过质量控制过程来标记可疑数据。

  我们将突变分成几个不同的类,并计算突变的预测结果,并且我们还创建了突变集以帮助人们从特定数据集中检索特定突变体组。

  我们计算了人类每个突变在种群中的连锁不平衡。

突变数据类型

Ensembl突变数据库储存了从外部导入的数据以及就算得来的数据。

外部导入的数据(dbSNP、Sanger、DGVa、…):

碱基突变(SNP、插入、缺失、…)

结构突变(拷贝数变异、串联重复、反转、…)

检测拷贝数的变化

碱基突变和结构突变的位置

等位基因

人群

基因型

表型(例如,人类中的青光眼。)

引文(摘自dbSNP数据库提交的信息,由EPMC和UCSC执行的文本挖掘)

计算数据(预测数据页面

储存突变数据的物种

Ensembl仅储存了以下23个物种的突变数据,但是用户依然可以在没有突变数据库的物种上使用Variant Effect Predictor VEP

  Short variant Long variant Genotype Association Prediction
Species Sequence variant (e!91 → e!92) Source(s) Structural variant Sample Population Phenotype Citation SIFT PolyPhen
Cat
Felis catus
 
3.6 million+ - 1 source - - - - - -
Chicken
Gallus gallus
 
24 million+ - 1 source - -
Chimpanzee
Pan troglodytes
 
1.6 million+ - 1 source - - - - -
Cow
Bos taurus
 
104 million+ - 1 source -
Dog
Canis familiaris
 
5.9 million+ (+148) 1 source -
Fruitfly
Drosophila melanogaster
 
6.7 million+ - 1 source - - - - -
Gibbon
Nomascus leucogenys
 
1.1 million+ - 1 source - - - - - -
Goat
Capra hircus
 
37 million+   1 source - - - -
Horse
Equus caballus
 
21 million+ (+16 million) 1 source -
Human
Homo sapiens
 
329 million+ (+350,000) 6 sources
Macaque
Macaca mulatta
 
53 million+ - 1 source - - -
Mouse
Mus musculus
 
84 million+ - 1 source -
Opossum
Monodelphis domestica
 
1.1 million+ - 1 source - - - - - - -
Orangutan
Pongo abelii
 
10 million+ - 1 source - - - - - -
Pig
Sus scrofa
 
67 million+ - 3 sources -
Platypus
Ornithorhynchus anatinus
 
1.3 million+ - 1 source - - - - -
Rat
Rattus norvegicus
 
5 million+ - 1 source - -
S. cerevisiae
Saccharomyces cerevisiae
 
263,000+ - 1 source - - - - -
Sheep
Ovis aries
 
61 million+ - 1 source -
Tetraodon
Tetraodon nigroviridis
 
902,000+ - 1 source - - - - - - -
Turkey
Meleagris gallopavo
 
9,000+ - 1 source - - - - -
Zebra Finch
Taeniopygia guttata
 
1.7 million+ - 1 source - - - - -
Zebrafish
Danio rerio
 
17 million+ - 1 source -

列表中对应的Ensembl版本组装序列可以在这里找到。

大多数的突变信息是从NCBI dbSNP数据库中导入的,来自HapMap Project1000 Genomes Project等项目的数据是在提交给dbSNP数据库后即被导入。

Ensembl还包含其它来源的数据,可在浏览器配置查看这些来源的数据(例如,)。

# 突变信息展示

基因:突变表和突变图像。例如,KCNE2基因的所有突变

转录本:群体比较,比较突变图像(用于比较不同个体或菌株序列中转录本的突变)。例如,比较不同小鼠品系中的Tmco4

转录本:序列,蛋白质:蛋白质坐标中编码变体的列表。

物理位置:详细信息区域(可以使用左侧的“配置此页面”来绘制变体)菜单允许在Ensembl数据库中显示信息以及DAS格式的外部源,例如,DGV位点。)

表型:显示与某种表型相关的变体的核型视图,例如,青光眼

# 参考资料

Ensembl

Ensembl突变数据描述之(一)——突变物种数据库及预测工具的更多相关文章

  1. Python数据描述与分析

    在进行数据分析之前,我们需要做的事情是对数据有初步的了解,比如对数据本身的敏感程度,通俗来说就是对数据的分布有大概的理解,此时我们需要工具进行数据的描述,观测数据的形状等:而后才是对数据进行建模分析, ...

  2. python - 数据描述符(class 内置 get/set/delete方法 )

    数据描述符(class 内置 get/set/del方法 ): # 什么是描述符 # 官方的定义:描述符是一种具有“捆绑行为”的对象属性.访问(获取.设置和删除)它的属性时,实际是调用特殊的方法(_g ...

  3. python小知识-属性查询优先级(如果有同名类属性、数据描述符、实例属性存在的话,实例>类>数据描述符)

    https://www.cnblogs.com/Jimmy1988/p/6808237.html https://segmentfault.com/a/1190000006660339 https:/ ...

  4. [py]数据描述符优先级

    实例查找属性的顺序: 类属性 > 数据描述符 > 实例属性 > 非数据描述符 > __getattr__ 类属性>数据描述符>实例属性 class Str: def ...

  5. python数据描述符

    Python的描述符是接触到Python核心编程中一个比较难以理解的内容,自己在学习的过程中也遇到过很多的疑惑,通过google和阅读源码,现将自己的理解和心得记录下来,也为正在为了该问题苦恼的朋友提 ...

  6. Object中defineProperty数据描述

    Object.defineProperty是对对象中的属性进行数据描述的 使用语法: Object.defineProperty(obj,prop,descriptor) 使用示例: var data ...

  7. (原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 决策树分析算法)

    随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结. 应用场景介绍 其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据 ...

  8. 如果数据为null,则转成数据库可识别的DBNULL.Value

    // <summary> /// 如果数据为null,则转成数据库可识别的DBNULL.Value /// </summary> /// <param name=&quo ...

  9. paip.将数据导入到在英语语音数据库mysql道路解决空原则问题

    paip.将数据导入到在英语语音数据库mysql道路解决空原则问题 #---原因:mysql 导入工具bug #---解决:不要使用双引号括注音. 笔者 老哇爪 Attilax 艾龙.  EMAIL: ...

随机推荐

  1. 斯坦福机器学习视频笔记 Week1 线性回归和梯度下降 Linear Regression and Gradient Descent

    最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更 ...

  2. hadoop 学习笔记:mapreduce框架详解(转)

    原文:http://www.cnblogs.com/sharpxiajun/p/3151395.html(有删减) Mapreduce运行机制 下面我贴出几张图,这些图都是我在百度图片里找到的比较好的 ...

  3. 什么是tmpfs

    什么是tmpfs tmpfs是Linux/Unix系统上的一种基于内存的文件系统.tmpfs可以使用您的内存或swap分区来存储文件. 实现原理:基于VM子系统 tmpfs是基于Linux的虚拟内存管 ...

  4. POJ 1679 The Unique MST:次小生成树【倍增】

    题目链接:http://poj.org/problem?id=1679 题意: 给你一个图,问你这个图的最小生成树是否唯一. 题解: 求这个图的最小生成树和次小生成树.如果相等,则说明不唯一. 次小生 ...

  5. poj 1080 Human Gene Functions(lcs,较难)

    Human Gene Functions Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 19573   Accepted:  ...

  6. Hibernate学习---第十节:Hibernate之QBC、样例查询&离线查询

    一.QBC (Query By Criteria) 主要有Criteria,Criterion,Oder,Restrictions类组成 1.java 代码如下: /** * 查询所有 */ @Tes ...

  7. Oracle 11g的7个服务详解

    成功安装Oracle 11g后,共有7个服务,这七个服务的含义分别为:1. Oracle ORCL VSS Writer Service:Oracle卷映射拷贝写入服务,VSS(Volume Shad ...

  8. MicroMessage的动态操作(第二步)

    现在开始将静态页面转化成动态页面.将页面上的信息转化成 数据库提供的信息. 建立jdbc获取数据库连接,并设置一个查询sql语句,查出所有结果.但是因为查询结果rs包含全表信息,是多行. 为了保存查询 ...

  9. 在Windows下编译WebRTC

    前言 这篇文章的目的在于为你节省生命中宝贵的10小时(甚至更多),或者浪费你10分钟.作为Google更新频繁的大型跨平台基础库,WebRTC的编译一直被人称为噩梦.如果恰巧你偏要在Windows下编 ...

  10. 通过rtmpdump推送海康视频流到red5服务器

    现在主流的网络摄像机都支持标准H264视频格式,例如 海康网络摄像机, 通过海康提供的网络SDK可以获取到视频码流.我测试的这款相机,视频编码采用的是H264,音频编码采用的是G711a. 这里,我仅 ...