GWAS】的更多相关文章

Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean 中文名:基于GWAS与群体进化分析挖掘大豆驯化及改良相关基因 发表期刊杂志:nature biotechnology影响因子:41.514发表时间:2015年2月发表单位:中科院遗传与发育生物学研究所 一.      研究取材62株野生大豆.130株地方种和110个…
comvert hmp to ped1, ped2, map fileSB1.ped, SB2.ped, SB.map 1, choose 20 markers for 30 times(WD: /share/bioinfo/miaochenyong/GWAS/SB/20Markers-1To5Effect)python ../choose_multi-markers.py SB.imputed.916.filtered.hmp 20 30 marker pheno 2, combine phe…
GWAS的数据形式:SNP数据,即各个SNP位点的aa,Aa,AA基因型与疾病状态(0正常,1患病)的样例-对照数据. 在遗传流行病学上,全基因组关联研究(Genome Wide Association Studies,GWAS)是一种检测特定物种中不同个体间的全部或大部分基因,从而了解不同个体间的基因变化有多大的一种方法.不同的变化带来不同的性状,如各种疾病的不同. 这些研究通常比较两组参与者的DNA:有疾病的人(病例)和相同条件的无该疾病的人(对照).每个人都提供些作为样本的细胞,如从口腔内…
前言 关于选用多少个PCA做群体分层校正,各大期刊并没有一个统一的说法. 故做了如下综述. 1 随心所欲型,想选多少就选多少 PCA想选多少就选多少,这个真的不是开玩笑.有文献出处有真相! 比如下面文献直接选用10个PCA校正群体分层. Largest GWAS of PTSD (N=20070) yields genetic overlap with schizophrenia and sex differences in heritability 比如选用前5个主成分校正群体分层. Acco…
一.什么是多基因风险评分 传统的GWAS研究只计算单个SNP位点与表型之间的关联性,再用Bonferroni校正,通过给定的阈值,筛选出显著的SNP位点. 这样会存在两个问题,第一.Bonferroni校正非常严格,很多对表型也有贡献的位点会因为达不到阈值而被过滤掉.第二.单个位点对表型的解释度是很低的,尤其是对于高血压这种多基因控制的表型,用一个个单独的位点解释高血压患病风险,就显得很单薄. 因此,开发一个能让我们直观的感受,患某种疾病的风险多高的工具,显然是非常有必要的. ​为了更好理解多基…
一.为什么要校正case和control数量比例不平衡情况 试问作为生信届人员,最怕的是什么,当然是统计结果不靠谱.统计结果不靠谱包括两方面:一个是假阴性,一个是假阳性.假阴性可以理解为白天鹅被误当成丑小鸭了,假阳性可以理解为一大堆青蛙,你不知道哪个才是你的真命天子.假阴性就罢了,最多让你错过发现真理的机会,但万一假阳性呢,你拿着一个看似完美的结果吭哧吭哧做实验验证,一年半载的周期下来,什么结果都验证不出来,岂不是坑了做实验的人.因此,我们就要在源头上,把这个不靠谱的统计结果杜绝出去. 上一篇文…
GWAS研究中,表型分两种.第一种是线性的表型,如果身高.体重.智力等:第二种是二元的表型,比如患病和未患病,即通常所说的case和control.对于表型是线性的样本来说,是不存在case和control比例不平衡的情况的,但是对于表型是二元的样本,比如疾病和对照组(健康人群),case和control比例失衡,可能会出现N多的假阳性结果.具体看看下面的例子. 例子1:case和control比例在稍微正常的情况下,比如冠心病(coronaryartery disease,case:contr…
LocusZoom图几乎是GWAS文章的必备图形之一,其主要作用是可以快速可视化GWAS找出来的信号在基因组的具体信息:比如周围有没有高度连锁的位点,高度连锁的位点是否也显著. 下面是locuszoom的示例图: 下面具体讲讲如何实现Locuszoom的绘制 1.进入Locuszoom的主页 http://locuszoom.org/ 2.进入Locuszoom的主页后,点击single plot 3.按如下图操作 第一步:上传关联分析结果的文件,plink格式的话是assoc.logistic…
一.数据为什么要做质量控制 比起表观学研究,GWAS研究很少有引起偏差的来源,一般来说,一个人的基因型终其一生几乎不会改变的,因此很少存在同时影响表型又影响基因型的变异.但即便这样,我们在做GWAS时也要去除一些可能引起偏差的因素. 这种因素主要有:群体结构.个体间存在血缘关系.技术性操作. 二.怎么看数据是否需要进行质量控制 下面分别为样本和SNP位点在数据中的直方图,当数据不在绝大多数的分布当中时,我们会倾向于认为那是测序.人工操作等其他方面造成的误差,而非该个体的真实情况,因此是需要将这些…
今天要讲的一篇是发表于 Hum Genet 的 "Shared genetic architecture between metabolic traits and Alzheimer's disease: a large-scale genome-wide cross-trait analysis" .很中规中矩的一篇文章,没有什么大的亮点的.写它的主要原因整篇文献思路很流畅,次要原因是我懒,不愿意看费脑子的文章. 以下,进入主题: 背景 阿尔茨海默病(AD)是一种进行性和破坏性的神经…
一.为什么要做祖先成分的PCA? GWAS研究时经常碰到群体分层的现象,即该群体的祖先来源多样性,我们知道的,不同群体SNP频率不一样,导致后面做关联分析的时候可能出现假阳性位点(不一定是显著信号位点与该表型有关,可能是与群体SNP频率差异有关),因此我们需要在关联分析前对该群体做PCA分析,随后将PCA结果作为协变量加入关联分析中. 二.怎么做PCA? 简单一个“--pca”参数即可 plink --bfile myfile --pca 10 --out myfile_pca #这里只取前10…
画曼哈顿图和QQ plot 首推R包“qqman”,简约方便.下面具体介绍以下. 一.画曼哈顿图 install.packages("qqman") library(qqman) 1.准备包含SNP, CHR, BP, P的文件gwasResults(如果没有zscore可以不用管),如下所示: 2.上代码,如下所示: manhattan(gwasResults) 如果觉得不够美观,考虑添加一下参数: manhattan(gwasResults, main = "Manhat…
一.为什么要做GWAS的条件分析(conditional analysis) 我们做GWAS的时候,经常扫出一堆显著的信号,假设rs121是我们扫出来与某表型最显著相关的位点(P=1.351e-36),rs124尾随其后(6.673e-22),也是与该表型显著相关,那么这个时候,我们就有问题了:这个rs124位点是真的与该表型显著相关,还是因为rs124与rs121高度连锁不平衡(linkage disequilibrium).换句话说,rs124之所以出类拔萃,是因为它本身厉害,还是有rs12…
假如你的GWAS结果出现如下图的时候,怎么办呢?GWAS没有如预期般的扫出完美的显著信号,也就没法继续发挥后续研究的套路了. 最近,nature发表了一篇文献“Common genetic variants contribute to risk of rare severe neurodevelopmental disorders”,活生生的演绎了怎么将糟糕的结果自圆其说. 研究发现队列:英国人群 6,987cases and 9,270 controls of European ancestr…
数据预处理(DNA genotyping.Quality control.Imputation) QC的工作可以做PLINK上完成Imputation的工作用IMPUTE2完成 2. 表型数据统计分析 逻辑回归(表型数据为二元) 线性回归(表型数据为连续性变量) 表型数据正态分析(如果不是正态分布,需转换处理为正态分布) 表型数据均值.中值.最大值.最小值 影响因子对表型的影响分析 3.画曼哈顿图(GWAS)和QQ plot图 (一).准备plink文件 (1).准备PED文件 PED文件有六列…
1.列表包括数据库名称.表型.是否能下载到基因型(genotype).是否能下载到GWAS结果文件(P值.效应值.SNP位点).目前收集到的有如下: 参考到这些数据库的文献:Genome-wide association study identifies 74 loci associated with educational attainment 2.The Japanese Genotype-phenotype Archive (JGA)  :该数据拥有个体水平的基因型和表型数据,需要申请,已…
参考: Hail Hail - Tutorial  windows也可以安装:Spark在Windows下的环境搭建 spark-2.2.0-bin-hadoop2.7 - Hail依赖的平台,并行处理 google cloud platform - 云平台 Broad's data cluster set-up tool 对Google cloud SDK的一个简单的wrap,方便操作. cloudtools is a small collection of command line tool…
现在GWAS已经属于比较古老的技术了,主要是碰到严重的瓶颈了,单纯的snp与表现的关联已经不够,需要具体的生物学解释,这些snp是如何具体导致疾病的发生的. 而且,大多数病找到的都不是个别显著的snp,大多数都找到了很多的snp,而且snp都落在非编码区了,这就导致对这些snp的解读非常的困难. 目前,已经有非常傻瓜式的GWAS pipeline了,比如:A tutorial on conducting genome‐wide association studies: Quality contr…
前言 很多人问我有没有关于全基因组关联分析(GWAS)原理的书籍或者文章推荐. 其实我个人觉得,做这个分析,先从跑流程开始,再去看原理. 为什么这么说呢,因为对于初学者来说,跑流程就像一个大黑洞,学习原理就像一个小黑洞. 很多人花了好几个月的时间在看原理,一旦丢给他数据去分析,依旧束手无策. 不会跑流程,内心依旧会很恐慌.就像从来没有入门一样. 所以,我的建议是咱们先不去管原理,直接从分析入手. 等把数据跑出来了,整个流程的技能点满了,再去看看它的原理. 入门:学习GWAS的在线网站: 对于没有…
欢迎来到"bio生物信息"的世界 6天前,BMC Genomics 推了一篇文献"Population history and genetic adaptation of the Fulani nomads: inferences from genome-wide data and the lactase persistence trait". 要不是这个标题起的太大,又是Population history,又是 genetic adaptation ,我可能都不…
GWAS Catalog The NHGRI-EBI Catalog of published genome-wide association studies EBI负责维护的一个收集已发表的GWAS研究的数据库 Catalog stats Last data release on 2019-09-24 4220 publications 107486 SNPs 157336 associations Genome assembly GRCh38.p12 dbSNP Build 151 Ense…
前言 关于全基因组关联分析(GWAS)原理的资料,网上有很多. 这也是我写了这么多GWAS的软件教程,却从来没有写过GWAS计算原理的原因. 恰巧之前微博上某位小可爱提问能否写一下GWAS的计算原理.我一顺口就答应了. 后面一直很懒,不愿意动笔,但想着既然答应了,不写说不过去. 我写这段话的意思是,如果你有任何关于GWAS分析问题或者疑问,希望我能写一下的,可以跟我说. 如果我认为有价值,写出来对大家有帮助的话,会写的. GWAS所涉及的公式:最小二乘法 首先,我们来一个知识点的回顾:最小二乘法…
目前GWAS方向发了很多文献,但是并没有一个很完善的R包对这些文献的数据进行汇总. 接下来推荐的这个是最新发表的GWAS数据汇总R包​.看了一下功能齐全,但是数据不是收录的很齐全​. 下面具体讲一下.​ 在R上安装 install.packages("remotes") remotes::install_github("ramiromagno/gwasrapidd") 查询是否有发表关于自身免疫性疾病的文章 library(gwasrapidd) my_studie…
相关文章: A Unified Framework for Association Analysis with Multiple Related Phenotypes 太重要了,不得不单独拿出来分析一下.本review高度总结了GWAS这10年的成绩.以及现在的局限性.每个搞统计遗传的都必须要好好看看. 第一篇GWAS是什么时候?谁提出的?The first successful GWAS published in 2002 studied myocardial infarction. Ozak…
有很多概念需要明确区分: 人有23对染色体,其中22对常染色体autosome,另外一对为性染色体sex chromosome,XX为女,XY为男. 染色体区带命名:在标示一特定的带时需要包括4项:①染色体号:②臂的符号:③区号:④在该区内的带号. 1p22表示为1号染色体短臂2区2带. 等位基因其实是一个集合,在同一个locus出现得基因型互为等位基因.Aa不能叫等位基因,正确的逻辑是:A和a是一组等位基因.由等位基因可以定义纯合和杂合. 二倍体与多倍体细胞的某些染色体上,在同一基因座上有相同…
前段时间有位小可爱问我,为什么她的QQ图特别飘,如果你不理解怎样算飘,请看下图: 理想的QQ图应该是这样的: 我当时的第一反应是:1)群体分层造成的:2)表型分布有问题.因此让她检查一下数据的群体分层情况,如果没有问题就看一下表型分布. 这段时间有空了,我觉得有必要梳理一下这个飘逸的QQ图,到底是怎么回事儿以及如何确定这么飘逸的QQ图有没有问题. 1.产生飘逸的QQ图的原因 产生飘逸的qq图的原因有很多,比如我们喜闻乐见的:基因多效性(polygenicity).也有可能是混淆偏倚,比如群体分层…
为什么需要做meta分析 群体分层是GWAS研究中一个比较常见的假阳性来源. 也就是说,如果数据存在群体分层,却不加以控制,那么很容易得到一堆假阳性位点. 当群体出现分层时,常规手段就是将分层的群体独立分析,最后再做meta分析. 1.如何判断群体是否分层 先用plink计算PCA,具体方法详见链接:GWAS群体分层 (Population stratification):利用plink对基因型进行PCA 随后画出PC1和PC2在不同群体的散点图,观察群体之间是否明显分开,如果明显分开,说明群体…
      事情是这样的,刚开始接触GWAS就一定会接触到数据质量控制这个东西.我们可以看到网络上各种各样的指导,都是分为individual quality control and snp quanlity control.具体哪个优先,各有各的说法.结合陈文燕博主给的建议,主流行还是先进行individual QC再进行SNPs QC.接着,我们知道两部分QC各有多个小步骤,那么分析这些步骤的顺序应该怎么走才比较合适呢?我根据不同tutorial尝试了3种不同的办法,结果还是有区别.以下疑问…
目录 材料与方法 结果分析 本文利用99085个高质量SNP 通过STRUCTURE,PCA和neighbour-joining tree的群体结构分析将地方品种分为三个亚群,这些亚群表现出地理上的遗传分化.利用纬度相差10°的两个位置(北京.武汉)收集的表型数据,鉴定了17个与开花时间性状相关的SNP(TAS),包括一个稳定的基因位点Chr12:5914898和以前未检测到的在开花基因E1和E2附近的候选基因.利用与地方种收集地点相关的已公布数据,鉴定出与三个生物气候学变量(温度,日长和降水)…
生信其实很简单,就是用别人的工具调参就行了.生信也很折腾,哪一步都可能遇到问题,随时让你疯掉(老辩证法了~).但是,你遇到的问题大部分人也都经历过.这时,检索技能就显得很重要了.平时Biostar和StackOverflow之类的网站肯定要经常光顾的. 另外,Researchgate论坛上有一些整理的比较好的topic,比如GWAS.如果你是新手,那么里面很多问答能解决你的大部分疑惑. GWAS - Science topic…