DEPICT实现基因优化(gene prioritization)、gene set富集分析(geneset enrichment)、组织富集分析(tissue enrichment)
全基因组关联分析除了找到显著的关联位点,我们还可以做基因优化、geneset富集分析、组织富集分析,下面具体讲一讲怎么利用GWAS的summary数据做这个分析。
summary数据就是关联分析的结果文件
1 软件安装前请确保需要满足的系统环境
1.1 支持Mac OS X 或者 UNIX, 不支持windows系统
1.2 Java SE 6(或者更高),没有安装Java请自行安装
1.3 需要PIP
怎么确定系统有没有安装PIP呢,输入命令which pip
,如果没有路径弹出,说明没有PIP,需要安装
1.4 需要Python依赖包
pip install intervaltree
或者
conda install -c conda-forge intervaltree
1.5 需要Pandas包 (0.15.2或者以上版本)
pip install pandas
1.6 PLINK(1.9 版本)
1.7 python(2.7 版本)
2 下载、安装
wget http://www.broadinstitute.org/mpg/depict/depict_download/bundles/DEPICT_v1_rel194.tar.gz
tar -zxvf DEPICT_v1_rel194.tar.gz
3 测试depict能否运行
cd DEPICT
./src/python/depict.py ./example/ldl_teslovich_nature2010.cfg
如果这一步没有报错,说明环境配置没有问题,可以开始分析自己的数据啦
4 准备一份新的cfg文件
拷贝yourtrait.cfg文件
cp ldl_teslovich_nature2010.cfg yourtrait.cfg
编辑yourtrait.cfg文件
vi yourtrait.cfg
vi进去后,yourtrait.cfg文件有几处需要修改
4.1 修改summary文件,这个summary文件即为你想分析的表型关联分析文件,在这里,假定叫做yourtrait.glm.linear,注意前面要加上绝对路径
gwas_summary_statistics_file: /your/path/to/summary/file/yourtrait.glm.linear
4.2 修改输出文件名,文件名按你喜欢修改,这里依旧假定命名为yourtrait
label_for_output_files: yourtrait
4.3 修改P值名称,如果yourtrait.glm.linear的P值用P表示的话
pvalue_col_name: P
4.4 修改染色体名称,如果yourtrait.glm.linear的染色体用Chr表示的话
chr_col_name: Chr
4.4 修改位置名称,如果yourtrait.glm.linear的位置用Pos表示的话
pos_col_name: Pos
4.5 添加PLINK软件的绝对路径,PLINK在你系统的哪个位置就写上哪里
plink_executable: /your/path/to/plink/plink
4.6 添加plink格式的genotype数据
genotype_data_plink_prefix: /your/path/to/genotype/yourtrait_genotype
修改好以上数据后,保存退出文件:wq
5 跑数据
./src/python/depict.py yourtrait.cfg
6 生成文件
生成的文件分别为loci.txt,geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt,其中,geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt即为我们感兴趣的基因优化,geneset富集分析,组织富集分析
7 画图
Rscript ./DEPICT/src/python/tissue_plot.R ./DEPICT/example/ldl_teslovich_nature2010_tissueenrichment.txt ldl_teslovich
DEPICT实现基因优化(gene prioritization)、gene set富集分析(geneset enrichment)、组织富集分析(tissue enrichment)的更多相关文章
- 简述项目中优化sql的方法,从哪些方面,sql语句性能如何分析?
查询速度慢的原因很多,常见如下几种 : .没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷) .I/O吞吐量小,形成了瓶颈效应. .没有创建计算列导致查询不优化. .内存不足 .网络 ...
- Android布局优化之ViewStub、include、merge使用与源码分析
在开发中UI布局是我们都会遇到的问题,随着UI越来越多,布局的重复性.复杂度也会随之增长.Android官方给了几个优化的方法,但是网络上的资料基本上都是对官方资料的翻译,这些资料都特别的简单,经常会 ...
- 全基因组关联分析学习资料(GWAS tutorial)
前言 很多人问我有没有关于全基因组关联分析(GWAS)原理的书籍或者文章推荐. 其实我个人觉得,做这个分析,先从跑流程开始,再去看原理. 为什么这么说呢,因为对于初学者来说,跑流程就像一个大黑洞,学习 ...
- variant变异 | Epigenome表观基因组 | Disease-susceptible gene 疾病易感基因
paper:cepip: context-dependent epigenomic weighting for prioritization of regulatory variants and di ...
- GSEA - Gene set enrichment analysis 基因集富集 | ORA - Over-Representation Analysis 分析原理与应用
RNA-seq是利器,大部分做实验的老板手下都有大量转录组数据,所以RNA-seq的分析需求应该是很大的(大部分的生信从业人员应该都差不多要沾边吧). 普通的转录组套路并不多,差异表达基因.富集分析. ...
- gene Ontology (基因本体论)
gene ontology为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找 ...
- Isotig & cDNA & gene structure & alternative splicing & gene loci & 表达谱
参考:高通量测序相关名词 Isotig 指在转录组de novo测序时,用454平台测序完成后组装出的结果,一个isotig可视为一个转录本. Isogroup 指转录组de novo测序中,用454 ...
- 无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biological replicates
无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biologic ...
- 动态规划(DP),Human Gene Functions
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1027 http://poj.org/problem?id=108 ...
随机推荐
- C++(四十九) — set、multiset 容器的基本操作
1.set的基础知识 set的特性是:所有元素都会根据元素的键值自动排序,set的元素不像map那样可以同时拥有实值(value)和键值(key),set元素的键值就是实值,实值就是键值.set不允 ...
- C++(四十八) — string容器的基本操作
参考博客:https://blog.csdn.net/qq_37941471/article/details/82107077 https://www.cnblogs.com/danielStudy/ ...
- CentOS7:sorry,that didn't work.please try again!
参考以下解决方案,重点是vi etc/selinux/config 把 enforcing 改为 disable 应用场景 linux管理员忘记root密码,需要进行找回操作.注意事项:本文基于cen ...
- 在命令行中执行kms命令激活Microsoft Office 2010
激活office2010的命令是什么?激活office2010除了使用office2010激活工具之外,还可以使用kms命令来激活office2010,但是office2010激活命令还需考虑32位或 ...
- css实现硬件加速
原文请点击一下链接: http://blog.teamtreehouse.com/increase-your-sites-performance-with-hardware-accelerated-c ...
- Hive中的SQL执行计划--几乎所有的SQL都有
explain SQL 会解释SQL的执行过程
- Java 15周作业
题目1:编写一个应用程序,输入用户名和密码,访问test数据库中t_login表(字段包括id.username.password),验证登录是否成功. 题目2:在上一题基础上,当登录成功后,将t_u ...
- js的一个有意思的小题,闭包解决getElementByTagName的for循环绑定事件错误问题
问: i 会输出什么?改写成闭包的写法? <a href="javaScript:void(0)">a</a> <a href="javaS ...
- HBASE-LSM树(转载)
HBASE-LSM树 1.B+树 关于B树.B+树.B树的了解参考:* http://blog.csdn.net/v_july_v/article/details/6530142 优点: 走进搜索引擎 ...
- CF1172E Nauuo and ODT LCT
自己独立想出来的,超级开心 一开始想的是对于每一个点分别算这个点对答案的贡献. 但是呢,我们发现由于每一条路径的贡献是该路径颜色种类数,而每个颜色可能出现多次,所以这样就特别不好算贡献. 那么,还是上 ...