R获取指定GO term和KEGG pathway的gene list基因集

clusterProfiler没有显性的接口，但是可以直接扣取clusterProfiler里的函数。

核心函数就是get_GO_data

GO_DATA <- get_GO_data("org.Hs.eg.db", "BP", "SYMBOL")

可以看到输入的是GO数据库，选定类别，基因名字类型，输出的就是整个数据库。

但是想调用这个函数没那么简单，得导入一系列的基础函数。

一个常见的任务就是获取GO数据库里所有的cell cycle相关的基因，这需要从我们的基因集里移除。

有了这个函数，我们就可以这么做了，两句R代码搞定。

cellCycleGO <- names(GO_DATA$PATHID2NAME[grep("cell cycle|DNA replication|cell division|segregation", GO_DATA$PATHID2NAME)])

cellCycleGene <- unique(unlist(GO_DATA$PATHID2EXTID[cellCycleGO]))

print(length(cellCycleGene))

library(DOSE)

library(GOSemSim)

library(clusterProfiler)

library(org.Hs.eg.db)

#

get_GO_data <- function(OrgDb, ont, keytype) {

    GO_Env <- get_GO_Env()

    use_cached <- FALSE

    if (exists("organism", envir=GO_Env, inherits=FALSE) &&

        exists("keytype", envir=GO_Env, inherits=FALSE)) {

        org <- get("organism", envir=GO_Env)

        kt <- get("keytype", envir=GO_Env)

        if (org == DOSE:::get_organism(OrgDb) &&

            keytype == kt &&

            exists("goAnno", envir=GO_Env, inherits=FALSE)) {

            ## https://github.com/GuangchuangYu/clusterProfiler/issues/182

            ## && exists("GO2TERM", envir=GO_Env, inherits=FALSE)){

            use_cached <- TRUE

        }

    }

    if (use_cached) {

        goAnno <- get("goAnno", envir=GO_Env)

    } else {

        OrgDb <- GOSemSim:::load_OrgDb(OrgDb)

        kt <- keytypes(OrgDb)

        if (! keytype %in% kt) {

            stop("keytype is not supported...")

        }

        kk <- keys(OrgDb, keytype=keytype)

        goAnno <- suppressMessages(

            select(OrgDb, keys=kk, keytype=keytype,

                   columns=c("GOALL", "ONTOLOGYALL")))

        goAnno <- unique(goAnno[!is.na(goAnno$GOALL), ])

        assign("goAnno", goAnno, envir=GO_Env)

        assign("keytype", keytype, envir=GO_Env)

        assign("organism", DOSE:::get_organism(OrgDb), envir=GO_Env)

    }

    if (ont == "ALL") {

        GO2GENE <- unique(goAnno[, c(2,1)])

    } else {

        GO2GENE <- unique(goAnno[goAnno$ONTOLOGYALL == ont, c(2,1)])

    }

    GO_DATA <- DOSE:::build_Anno(GO2GENE, get_GO2TERM_table())

    goOnt.df <- goAnno[, c("GOALL", "ONTOLOGYALL")] %>% unique

    goOnt <- goOnt.df[,2]

    names(goOnt) <- goOnt.df[,1]

    assign("GO2ONT", goOnt, envir=GO_DATA)

    return(GO_DATA)

}

get_GO_Env <- function () {

    if (!exists(".GO_clusterProfiler_Env", envir = .GlobalEnv)) {

        pos <- 1

        envir <- as.environment(pos)

        assign(".GO_clusterProfiler_Env", new.env(), envir=envir)

    }

    get(".GO_clusterProfiler_Env", envir = .GlobalEnv)

}

get_GO2TERM_table <- function() {

    GOTERM.df <- get_GOTERM()

    GOTERM.df[, c("go_id", "Term")] %>% unique

}

get_GOTERM <- function() {

    pos <- 1

    envir <- as.environment(pos)

    if (!exists(".GOTERM_Env", envir=envir)) {

        assign(".GOTERM_Env", new.env(), envir)

    }

    GOTERM_Env <- get(".GOTERM_Env", envir = envir)

    if (exists("GOTERM.df", envir = GOTERM_Env)) {

        GOTERM.df <- get("GOTERM.df", envir=GOTERM_Env)

    } else {

        GOTERM.df <- toTable(GOTERM)

        assign("GOTERM.df", GOTERM.df, envir = GOTERM_Env)

    }

    return(GOTERM.df)

}

获取KEGG的通路和基因是一样的，也是用clusterProfiler

代码：

hsa_kegg <- clusterProfiler::download_KEGG("hsa")

names(hsa_kegg)

head(hsa_kegg$KEGGPATHID2NAME)

head(hsa_kegg$KEGGPATHID2EXTID)

PATH2ID <- hsa_kegg$KEGGPATHID2EXTID

PATH2NAME <- hsa_kegg$KEGGPATHID2NAME

PATH_ID_NAME <- merge(PATH2ID, PATH2NAME, by="from")

colnames(PATH_ID_NAME) <- c("KEGGID", "ENTREZID", "DESCRPTION")

# write.table(PATH_ID_NAME, "HSA_KEGG.txt", sep="\t")

library(biomaRt)

mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))

entrezgene <- PATH_ID_NAME$ENTREZID

# This step need some time

ensembl_gene_id<- getBM(attributes=c("ensembl_gene_id", "entrezgene"),

                  filters = "entrezgene",

                       values=entrezgene , mart= mart)

PATH_ID_NAME <- merge(PATH_ID_NAME, ensembl_gene_id, by.x= "ENTREZID",by.y= "entrezgene")

R获取指定GO term和KEGG pathway的gene list基因集的更多相关文章

GO 和 KEGG 的区别 | GO KEGG数据库用法 | 基因集功能注释 | 代谢通路富集
一直都搞不清楚这两者的具体区别. 其实初学者搞不清楚很正常,因为它们的本质是相通的,都是对基因进行归类注释的数据库. 建议初学者自己使用一下这两个数据库,应该很快就能明白其中的区别. (抱歉之前没讲清 ...
倒排索引获取指定单词的文档集合使用hash去重单词term 提高数据压缩率的方法
倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inve ...
一个获取指定目录下一定格式的文件名称和文件修改时间并保存为文件的python脚本
摘自:http://blog.csdn.net/forandever/article/details/5711319 一个获取指定目录下一定格式的文件名称和文件修改时间并保存为文件的python脚本 ...
PHP 获取指定目录下所有文件（包含子目录）
PHP 获取指定目录下所有文件(包含子目录) //glob — 寻找与模式匹配的文件路径 $filter_dir = array('CVS', 'templates_c', 'log', 'img', ...
获取指定版本号svn
代码需求获取 svn update svnworkpath --username xxx --password xxx -r r464 r464 为指定版本号可以获取指定版本号的代码也也可以在 ...
BeautifulSoup获取指定class样式的div
如何获取指定的标签的内容是解析网页爬取数据的必要手段,比如想获取<div class='xxx'> ...<div>这样的div标签,通常有三种办法, 1)用字符串查找方法,然 ...
【百度地图API】如何调整结果面板的样式？如何获取指定页码的结果？
原文:[百度地图API]如何调整结果面板的样式?如何获取指定页码的结果? 摘要: 1.你是否想自定义查询后,结果面板的显示样式? 2.数据接口每次只返回10条结果,如何取到单独每一页的结果? ---- ...
java正则表达式获取指定HTML标签的指定属性值
package com.mmq.regex; import java.util.ArrayList; import java.util.List; import java.util.regex.Mat ...
【js操作url参数】获取指定url参数值、取指定url参数并转为json对象
获取指定url参数值 /* 获取某url中的某参数值调用:GetUrlQueryString("[url地址]","[参数名]"); */ function ...

随机推荐

私有容器镜像仓库harbor
私有镜像仓库Harbor 1.Harbor概述 Habor是由VMWare公司开源的容器镜像仓库.事实上,Habor是在Docker Registry上进行了相应的企业级扩展,从而获得了更加广泛的应用 ...
Windows 上搭建Apache FtpServer
阅读目录第一步:下载Apache FTPServer 第二步:解压Apache FTPServer 第三步:修改配置文件第四步:启动FTPServer 第五步:访问FTP 第六步:FTPServe ...
用js刷剑指offer(把数组排成最小的数)
题目描述输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个.例如输入数组{3,32,321},则打印出这三个数字能排成的最小数字为321323. 思路对ve ...
[转]Linux网络 - 数据包的发送过程
转, 原文:https://segmentfault.com/a/1190000008926093 -------------------------------------------------- ...
JDK源码那些事儿之LinkedTransferQueue
在JDK8的阻塞队列实现中还有两个未进行说明,今天继续对其中的一个阻塞队列LinkedTransferQueue进行源码分析,如果之前的队列分析已经让你对阻塞队列有了一定的了解,相信本文要讲解的Lin ...
0023SpringMVC自定义类型转换器
页面录入的字符串:2019/12/05可以映射到实体的日期属性上,但是如果是录入2019-12-05就会报错400 bad request,想要以2019-12-05日期格式的方式映射到实体的日期属性 ...
Python 冒泡排序只适用位数相同,位数不同用a.sort()方法
数组内容双位数排序: #coding:utf-8 print u"中文" a = ['] b = 0 c = 0 print a i =0 for j in range (len( ...
H5性能测试，首屏时间统计（Argus）
Argus 腾讯质量开发平台,官网链接:https://wetest.qq.com/product/argus 主要针对性:H5的游戏性能测试主要介绍: 独家首屏时间统计: 告别人工掐秒自动统计首 ...
go http编程
http的请求包包含请求行,请求头,空行,请求体go的http编程 http server.go package main import "net/http" func main ...
Django --- 多对多关系创建，forms组件
目录多对多三种创建方式 1.系统直接创建 2.自己手动创建 3.自己定义加与系统创建 forms组件 1. 如何使用forms组件 2. 使用forms组件校验数据 3. 使用forms组件渲染标签 ...

R获取指定GO term和KEGG pathway的gene list基因集

R获取指定GO term和KEGG pathway的gene list基因集的更多相关文章

随机推荐

热门专题