1)介绍

来自NCBI的Gene Expression Omnibus(GEO)作为各种高通量实验数据的公共存储库。 这些数据包括基于单通道和双通道微阵列的实验,测量mRNA,基因组DNA和蛋白质丰度;以及非阵列技术,如基因表达系列分析(SAGE)和质谱蛋白质组学数据。

在GEO最基本的组织级别中,用户可以提供四种实体类型:平台,样本,系列和GEO数据集。

1.1 平台(platforms):

平台记录描述阵列上的元件列表(例如,cDNA,寡核苷酸探针组,ORF,抗体)或可在该实验中检测和定量的元件列表(例如,SAGE标签,肽)。 每个平台记录都分配有唯一且稳定的GEO登录号(GPLxxx)。 平台可以引用多个提交者提交的许多样本。

1.2  样品(samples):

样品记录描述了处理单个样品的条件,它经历的操作以及从中得到的每个元素的丰度测量。 每个样品记录都分配有唯一且稳定的GEO登录(GSMxxx)。 Sample实体必须仅引用一个Platform,并且可以包含在多个Series中。

1.3 系列(Series record):

系列记录定义了一组被认为属于组的相关样本,样本如何相关,以及它们是否以及如何排序。 系列提供了整个实验的焦点和描述。 系列记录还可能包含描述提取数据,摘要结论或分析的表格。 每个系列记录都分配有唯一且稳定的GEO登记号(GSExxx)。

1.4  DataSet(数据集)

GEO DataSet(GDSxxx)是GEO样本数据的精选集合。 GDS记录代表了一系列具有生物学和统计学意义的GEO样本,构成了GEO数据显示和分析工具套件的基础。 GDS中的样本指的是同一平台,即它们共享一组共同的探测元素。 假设GDS中每个样本的值测量值以等效方式计算,即背景处理和标准化等考虑因素在整个数据集中是一致的。 通过GDS子集提供反映实验设计的信息。

2)简单使用

GEO主要有2个函数,其他函数用处应该不大

2.1 getGEO:Get a GEO object from NCBI or file

library(GEOquery)
gse <- getGEO('GSE10', destdir=".")
gse[[1]]
raw_exprSet=exprs(gse[[1]]) #原始表达矩阵
pdata=(pData(gse[[1]])) #临床信息

2.2  getGEOSuppFiles:Get Supplemental Files from GEO

a <- getGEOSuppFiles('GSM1137', fetch_files = FALSE)
a #是CEL的url信息

GEOquery的更多相关文章

  1. 使用GEOquery下载GEO数据--转载

    最近需要下载一大批GEO上的数据,问题是我要下载的Methylation数据根本就没有sra文件,换言之不能使用Aspera之类的数据进行下载.但是后来我发现了GEOquery这个不错的R包,不知道是 ...

  2. 用GEOquery从GEO数据库下载数据--转载

    https://www.plob.org/article/9969.html Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库,设计初衷是为 ...

  3. 使用Lucene索引和检索POI数据

    1.简介 关于空间数据搜索,以前写过<使用Solr进行空间搜索>这篇文章,是基于Solr的GIS数据的索引和检索. Solr和ElasticSearch这两者都是基于Lucene实现的,两 ...

  4. NLP+语义分析(四)︱中文语义分析研究现状(CIPS2016、角色标注、篇章分析)

    摘录自:CIPS2016 中文信息处理报告<第二章 语义分析研究进展. 现状及趋势>P14 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj. ...

  5. redis 查找附近的人

    儿童定位手表,有个交友功能,查找附近的人,用redis的geo来实现比较简单,其实是一个ZSET(有序集合) redis 版本要大于3.2 查看redis 版本    /usr/bin/redis-s ...

  6. R语言 启动报错 *** glibc detected *** /usr/lib64/R/bin/exec/R: free(): invalid next size (fast): 0x000000000263a420 *** 错误 解决方案

    *** glibc detected *** /usr/lib64/R/bin/exec/R: free(): invalid next size (fast): 0x000000000263a420 ...

  7. R语言中知识点总结(一)

    source("http://bioconductor.org/biocLite.R") biocLite("GEOquery") library(Biobas ...

  8. 对CCLE数据库可以做的分析--转载

    转载:http://www.bio-info-trainee.com/1327.html 收集了那么多的癌症细胞系的表达数据,拷贝数变异数据,突变数据,总不能放着让它发霉吧! 这些数据可以利用的地方非 ...

  9. GEO(Gene Expression Omnibus):高通量基因表达数据库

    Gene Expression Omnibus(GEO)是一个公共存储库,可以存档和自由分发由科学界提交的全套微阵列,新一代测序和其他形式的高通量功能基因组数据. 除数据存储外,还提供一系列基于Web ...

随机推荐

  1. c#中如何获取本机MAC地址、IP地址、硬盘ID、CPU序列号等系统信息

    我们在利用C#开发桌面程序(Winform)程序的时候,经常需要获取一些跟系统相关的信息,例如用户名.MAC地址.IP地址.硬盘ID.CPU序列号.系统名称.物理内存等. 首先需要引入命名空间: us ...

  2. signal简述

    一个几乎是最简单的应用如下: #include <unistd.h> // for alarm() #include <signal.h> // for signal() #i ...

  3. 敏感词文本文件 filtered_words.txt,里面的内容为以下内容,当用户输入敏感词语时,则打印出 Freedom,否则打印出 Human Rights

    敏感词文件内容: 代码: def filtered_words(path='filtered_words.txt'): words = [] with open(path, 'r', encoding ...

  4. 廖雪峰Java1-1Java入门-java简介

    Java特点: 一种面向对象的跨平台变成语言 以字节码方式运行在虚拟机上 自带功能齐全的类库 非常活跃的开源社区支持 Java优点: 简单.健壮.安全 跨平台,一次编写,到处运行 高度优化的虚拟机 J ...

  5. MySQL-Jira双机热备

    主服务器:192.168.1.23 从服务器:192.168.1.243 一.主服务器Master配置 1. 创建同步账号.赋权 在主服务器上为从服务器建立一个连接帐户,此处用root,该帐户必须授予 ...

  6. 1034 Head of a Gang (30 分)

    1034 Head of a Gang (30 分) One way that the police finds the head of a gang is to check people's pho ...

  7. linux shell 命令常用快捷键

    下面是一些shell的常用快捷键,快捷键玩熟悉了在一定程度上是可以提高工作效率滴… Ctrl + a 切换到命令行开始 Ctrl + e 切换到命令行末尾 Ctrl + l 清除屏幕内容 Ctrl + ...

  8. centos-linux热拔插scsi硬盘

    自己配置虚拟机,需要添加一块虚拟硬盘存放数据.虚拟机在更新软件,不想停机.学习了下热拔插硬盘的知识点 1. 在虚拟机中创建虚拟磁盘并添加. 2. 查看目前的磁盘信息cat /proc/scsi/scs ...

  9. 第3课 进化后的 const分析

    1.  C语言中的const (1)const修饰的变量是只读的,使得变量具有只读属性,但本质还是变量.所以不是真正的常量,它只是告诉编译器该变量不能出现在赋值符号的左边. (2)const修饰的局部 ...

  10. 在CentOS7.4中安装jdk的几种方法及配置环境变量

    在CentOS7.4中安装jdk的几种方法及配置环境变量 一.下载jdk jdk下载地址:http://www.oracle.com/technetwork/java/javase/downloads ...