GEO  Gene Expression Omnibus 基因表达数据库

网址:https://www.ncbi.nlm.nih.gov/geo/

GEO的数据存储方式

GEO数据库具体存放四类数据:GSE、GDS、GSM、GPL

GEO Series Study  GSE号(GSExxx)对应的是整个研究项目的系列的数据,可能会涉及不同平台。

GEO DataSet  GDS号(GDSxxx)对应的是一个同一平台的数据集,这些包括包括从微整列和高通量序列技术生成的数据。

GEO Sample  GSM号(GSMxxx)对应单一样本的数据信息,它只能是单一平台的数据

GEO Platform GPL号(GPLxxx)对应一个平台的信息,一般不接触

通常 GSE和GDS中会包含多个GSM数据

另外,GEO Profiles数据库是GEO的工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表达情况。

GEO数据检索与下载

GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索

R包的安装与下载数据

GEOquery 的官网 http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html

if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager") BiocManager::install("GEOquery")

利用 GSE 号下载

通过阅读文献查找感兴趣的GSE号,下载对应的表达数据和平台信息等,可以利用GEOquery中的getGEO()函数下载series_matrix.txt。例如GSE57820:

> library(GEOquery)
> # destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件
> GSE57820 <- getGEO("GSE57820", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

利用GDS号下载

> GDS6100 <- getGEO("GDS6100", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

利用GSM号下载

利用GSM号下载的是单样本的表达数据,例如GSM1394594

> GSM1394594 <- getGEO("GSM1394594", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

利用GPL号下载

针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系,例如GPL10558:

> GPL10558 <- getGEO("GPL10558", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

参考

https://www.jianshu.com/p/0d32fd410bcf

GEO Gene Expression Omnibus的更多相关文章

  1. GEO(Gene Expression Omnibus):高通量基因表达数据库

    Gene Expression Omnibus(GEO)是一个公共存储库,可以存档和自由分发由科学界提交的全套微阵列,新一代测序和其他形式的高通量功能基因组数据. 除数据存储外,还提供一系列基于Web ...

  2. MicroRNA in Control of Gene Expression: An Overview of Nuclear Functions 微RNA控制基因表达:核功能概述

    MicroRNA in Control of Gene Expression:An Overview of Nuclear Functions微RNA控制基因表达:核功能概述 抽象:小的非编码RNA( ...

  3. 无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biological replicates

    无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biologic ...

  4. 32、Differential Gene Expression using RNA-Seq (Workflow)

    转载: https://github.com/twbattaglia/RNAseq-workflow Introduction RNAseq is becoming the one of the mo ...

  5. 合并基因表达水平(merge gene expression levels, FPKM)

    使用tophat和cufflinks计算RNA-seq数据的表达水平时,当一个基因在一个样本中有多个表达水平时需要合并它们的表达水平. This code is a solution to colla ...

  6. Datasets for Data Mining and Data Science

    https://github.com/mattbane/RecommenderSystem http://grouplens.org/datasets/movielens/ KDDCUP-2012官网 ...

  7. 用GEOquery从GEO数据库下载数据--转载

    https://www.plob.org/article/9969.html Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库,设计初衷是为 ...

  8. RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差异表达分析: 扩展评论和软件工具

    RNA-Seq differential expression analysis: An extended review and a software tool   RNA-Seq差异表达分析: 扩展 ...

  9. 使用limma、Glimma和edgeR,RNA-seq数据分析易如反掌

    使用limma.Glimma和edgeR,RNA-seq数据分析易如反掌 Charity Law1, Monther Alhamdoosh2, Shian Su3, Xueyi Dong3, Luyi ...

随机推荐

  1. Ubuntu中的两套网络连接管理方式

     版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/haifeng_gu/article/details/78286895 Linux里面有两套管理网络 ...

  2. 多态性   类(class)的四则运算

       我们知道c语言中可以整型数据或浮点型等做四则运算,而自己写的类也可做四则运算,是不是感觉奇怪,可以看以下代码是如何完成类之间的四则运算: #include "stdafx.h" ...

  3. 2019 学而思java面试笔试题 (含面试题解析)

      本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.学而思等公司offer,岗位是Java后端开发,因为发展原因最终选择去了学而思,入职一年时间了,也成为了面试官 ...

  4. 使用node写爬虫入门

    最近看了node能做爬虫,所以就试了一下,一下是整个过程的记录 1.新建文件夹baidunews 2.在上边新建的文件夹下输入npm init进行初始化 3.初始化完成后下载需要的依赖包 npm in ...

  5. js学习之堆栈内存

    **栈内存** >基本数据类型值是直接存放在栈内存中的 栈内存中的变量一般都是已知大小或者有范围上限的,算作一种简单存储.而堆内存存储的对象类型数据对于大小这方面,一般都是未知的.个人认为,这也 ...

  6. 最强在线文件格式转换(支持200+文件格式如常用的PDF,DOCX,JPG,GIF,MP3,MP4,FLV,MOBI)(通用)

    网站展示:http://www.alltoall.net/ 分类简洁 支持的所有文件格式展示: 单独展示文档转换: 单独展示PDF转换:

  7. 转 根据CPU核心数确定线程池并发线程数

    转自: https://www.cnblogs.com/dennyzhangdd/p/6909771.html?utm_source=itdadao&utm_medium=referral 目 ...

  8. 【Spring Cloud】Spring Cloud之Zipkin server搭建以及RabbitMQ收集,分布式服务跟踪(3)

    一.搭建步骤 1)新建Spring Boot项目,引入pom坐标 <parent> <groupId>org.springframework.boot</groupId& ...

  9. VS Code + MinGW + Clang + OpenGL (vscode 配置 opengl环境)

    vscode配置opengl环境会遇到一些问题,这里是在看了一些博文之后给出的一篇完整的可行的配置 首先,要配置C++环境,网上有很多完整的配置C++环境的教程,这里就引用一条 https://www ...

  10. P5021 赛道修建[贪心+二分]

    题目描述 C 城将要举办一系列的赛车比赛.在比赛前,需要在城内修建 mm 条赛道. C 城一共有 nn 个路口,这些路口编号为 1,2,-,n1,2,-,n,有 n-1n−1 条适合于修建赛道的双向通 ...