全基因组关联分析除了找到显著的关联位点,我们还可以做基因优化、geneset富集分析、组织富集分析,下面具体讲一讲怎么利用GWAS的summary数据做这个分析。

summary数据就是关联分析的结果文件

1 软件安装前请确保需要满足的系统环境

1.1 支持Mac OS X 或者 UNIX, 不支持windows系统
1.2 Java SE 6(或者更高),没有安装Java请自行安装
1.3 需要PIP

怎么确定系统有没有安装PIP呢,输入命令which pip,如果没有路径弹出,说明没有PIP,需要安装

1.4 需要Python依赖包

pip install intervaltree

或者

conda install -c conda-forge intervaltree

1.5 需要Pandas包 (0.15.2或者以上版本)

pip install pandas

1.6 PLINK(1.9 版本)
1.7 python(2.7 版本)

2 下载、安装

wget http://www.broadinstitute.org/mpg/depict/depict_download/bundles/DEPICT_v1_rel194.tar.gz

tar -zxvf DEPICT_v1_rel194.tar.gz

3 测试depict能否运行

cd DEPICT

./src/python/depict.py ./example/ldl_teslovich_nature2010.cfg

如果这一步没有报错,说明环境配置没有问题,可以开始分析自己的数据啦

4 准备一份新的cfg文件

拷贝yourtrait.cfg文件

cp ldl_teslovich_nature2010.cfg yourtrait.cfg

编辑yourtrait.cfg文件

vi yourtrait.cfg

vi进去后,yourtrait.cfg文件有几处需要修改

4.1 修改summary文件,这个summary文件即为你想分析的表型关联分析文件,在这里,假定叫做yourtrait.glm.linear,注意前面要加上绝对路径

gwas_summary_statistics_file: /your/path/to/summary/file/yourtrait.glm.linear

4.2 修改输出文件名,文件名按你喜欢修改,这里依旧假定命名为yourtrait

label_for_output_files: yourtrait

4.3 修改P值名称,如果yourtrait.glm.linear的P值用P表示的话

pvalue_col_name: P

4.4 修改染色体名称,如果yourtrait.glm.linear的染色体用Chr表示的话

chr_col_name: Chr

4.4 修改位置名称,如果yourtrait.glm.linear的位置用Pos表示的话

pos_col_name: Pos

4.5 添加PLINK软件的绝对路径,PLINK在你系统的哪个位置就写上哪里

plink_executable: /your/path/to/plink/plink

4.6 添加plink格式的genotype数据

genotype_data_plink_prefix: /your/path/to/genotype/yourtrait_genotype

修改好以上数据后,保存退出文件:wq

5 跑数据

./src/python/depict.py yourtrait.cfg

6 生成文件

生成的文件分别为loci.txt,geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt,其中,geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt即为我们感兴趣的基因优化,geneset富集分析,组织富集分析

7 画图

Rscript ./DEPICT/src/python/tissue_plot.R ./DEPICT/example/ldl_teslovich_nature2010_tissueenrichment.txt ldl_teslovich

DEPICT实现基因优化(gene prioritization)、gene set富集分析(geneset enrichment)、组织富集分析(tissue enrichment)的更多相关文章

  1. 简述项目中优化sql的方法,从哪些方面,sql语句性能如何分析?

    查询速度慢的原因很多,常见如下几种 : .没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷) .I/O吞吐量小,形成了瓶颈效应. .没有创建计算列导致查询不优化. .内存不足 .网络 ...

  2. Android布局优化之ViewStub、include、merge使用与源码分析

    在开发中UI布局是我们都会遇到的问题,随着UI越来越多,布局的重复性.复杂度也会随之增长.Android官方给了几个优化的方法,但是网络上的资料基本上都是对官方资料的翻译,这些资料都特别的简单,经常会 ...

  3. 全基因组关联分析学习资料(GWAS tutorial)

    前言 很多人问我有没有关于全基因组关联分析(GWAS)原理的书籍或者文章推荐. 其实我个人觉得,做这个分析,先从跑流程开始,再去看原理. 为什么这么说呢,因为对于初学者来说,跑流程就像一个大黑洞,学习 ...

  4. variant变异 | Epigenome表观基因组 | Disease-susceptible gene 疾病易感基因

    paper:cepip: context-dependent epigenomic weighting for prioritization of regulatory variants and di ...

  5. GSEA - Gene set enrichment analysis 基因集富集 | ORA - Over-Representation Analysis 分析原理与应用

    RNA-seq是利器,大部分做实验的老板手下都有大量转录组数据,所以RNA-seq的分析需求应该是很大的(大部分的生信从业人员应该都差不多要沾边吧). 普通的转录组套路并不多,差异表达基因.富集分析. ...

  6. gene Ontology (基因本体论)

    gene ontology为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找 ...

  7. Isotig & cDNA & gene structure & alternative splicing & gene loci & 表达谱

    参考:高通量测序相关名词 Isotig 指在转录组de novo测序时,用454平台测序完成后组装出的结果,一个isotig可视为一个转录本. Isogroup 指转录组de novo测序中,用454 ...

  8. 无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biological replicates

    无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biologic ...

  9. 动态规划(DP),Human Gene Functions

    题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1027 http://poj.org/problem?id=108 ...

随机推荐

  1. Chrome浏览器内部协议Chrome://收集

    Chromium 采用 Chrome:// 协议开头的形式, 规定了一系列的内部协议, 有的用来显示数据, 有的用来实现一些功能, 但对普通用户进行了屏蔽.在Chrome浏览器地址栏直接访问就好了! ...

  2. 记一次对上传对jsp限制的绕过

    当访问网站任何.jsp后缀的文件时都会显示如下图所示或者session timeout等提示, 并且网站防护会,对上传大马和一句话会被查杀. 解决方法: 利用jspx包含,利用jspx包含图片或者cs ...

  3. java怎么比较两个实体类的属性值

    分享一下比较两个实体类的工具包 package cn.mollie.utils; import java.beans.Introspector; import java.beans.PropertyD ...

  4. 《CoderXiaoban》第八次团队作业:Alpha冲刺

    项目 内容 这个作业属于哪个课程 任课教师博客主页链接 这个作业的要求在哪里 实验十二 团队作业8:软件测试与ALPHA冲刺 团队名称 Coderxiaoban团队 作业学习目标 (1)掌握软件测试基 ...

  5. django-自定义文件上传存储类

    文件储存API:https://yiyibooks.cn/xx/django_182/ref/files/storage.html 编写自定义存储系统:https://yiyibooks.cn/xx/ ...

  6. hdu3625

    hdu3625 题意: 酒店发生一起谋杀案.作为镇上最好的侦探,您应该立即检查酒店的所有N个房间.但是,房间的所有门都是锁着的,钥匙刚锁在房间里,真是个陷阱!您知道每个房间里只有一把钥匙,并且所有可能 ...

  7. A - Happy Birthday, Polycarp!

    Codeforces Round #606 (Div. 2, based on Technocup 2020 Elimination Round 4) A. Happy Birthday, Polyc ...

  8. hibernate的持久化类、主键生成策略

    一.hibernate的持久化类 1.什么是持久化类: 持久化:将数据存储到关系型数据库. 持久化类:与数据库中的数据表建立了某种关系的java类.(持久化类=javabean+映射配置文件) 2.持 ...

  9. cube.js 新版本试用preosto

    cube.js 新的版本添加了更多的数据库的支持,但是目前cubejs-cli 以及官方文档问题还挺多,使用不清晰,文档有明显的错误 以下演示presto 数据库的使用 环境准备 安装新版本的cube ...

  10. 交互设计算法基础(4) - Hash Table

    import java.util.Map; // Note the HashMap's "key" is a String and "value" is an ...