GWAS Simulation
comvert hmp to ped1, ped2, map file
SB1.ped, SB2.ped, SB.map
1, choose 20 markers for 30 times
(WD: /share/bioinfo/miaochenyong/GWAS/SB/20Markers-1To5Effect)
python ../choose_multi-markers.py SB.imputed.916.filtered.hmp 20 30 marker pheno
2, combine pheno, ped1, ped2 to intact ped file
python ../genCombine.py phenoPrefix 30 > combine.sh
parallel -j 30 < combine.sh
3, copy SB.map to 30 different SB-*.map
python ../CPmapTOmore.py 30 SB-
4, *map, *ped to *bed, *bim, *fam
python ../generatePLINKcmd.py 30 SB- > PLINK.cmd
chmod 777 PLINK.cmd
parallel -j 6 < PLINK.cmd
5, run gemma
python ../generateGemmaCmd.py 30 SB- > gemma.cmd
chmod 777 gemma.cmd
parallel -j 6 < gemma.cmd
Calculate FDR value:
(WD: /share/bioinfo/miaochenyong/GWAS/SB/20Markers-1To5Effect-FDR)
1, shuffle pheno1.txt to 100 pheno*.txt
python ../shufflePheno.py pheno3.txt 100 pheno-shuffled
2, combine pheno, ped1, ped2 to intact ped file
python ../genCombine.py phenoPrefix 100 > combine.sh
parallel -j 100 < combine.sh
3, copy SB.map to 100 different SB-shuffle*.map
python ../CPmapTOmore.py 100 SB-shuffle-
4, *map, *ped to *bed, *bim, *fam
python ../generatePLINKcmd.py 100 SB-shuffle- > PLINK.cmd
chmod 777 PLINK.cmd
parallel -j 10 < PLINK.cmd
5, run gemma
python ../generateGemmaCmd.py 100 SB-shuffle- > gemma.cmd
chmod 777 gemma.cmd
parallel -j 10 < gemma.cmd
6, calsulate FDR
cd output
python ../../calculateFDR.py SB-shuffle- 100 results.txt
Calculate average Power:
(WD: /share/bioinfo/miaochenyong/GWAS/SB/20Markers-1To5Effect/output)
python ../../calPower.py SB- marker 30 /share/bioinfo/miaochenyong/GWAS/SB/20Markers-1To5Effect-FDR/output/results.txt SB-
python ../../calAveragePower.py SB-
generage new effect 0.9+8
(WD: /share/bioinfo/miaochenyong/GWAS/SB/20Markers-0.9Effect)
ln -s /share/bioinfo/miaochenyong/GWAS/SB/20Markers-1To5Effect/markers-new* .
ln -s ../Imputed/SB.imputed.916.filtered.hmp .
python ../newEffect.py SB.imputed.916.filtered.hmp markers-new 30
事实证明:
平均数取8, 20, 100 模拟结果一样
effect value 取0.9 和0.9*20 结果也一样,
表面结果不同是由于FDR不同导致的。
观察average power in different MAF region:
WD: /share/bioinfo/miaochenyong/GWAS/SB/20Markers-0.9Effect20/output
python ../../DrawHist20Markers.py

WD: /share/bioinfo/miaochenyong/GWAS/SB/5Markers-0.9Effect100/output
$ python ../../DrawHist5Markers.py

可以看到随着MAF增大, power上升。从以上两图也可以推测出整体的MAF分布,多数markers都在0.01-0.1之间。
整体分布:
WD: /share/bioinfo/miaochenyong/GWAS/SB/Imputed
python ../DrawMAFHist.py SB.imputed.916.filtered.hmp

增加遗传率:
WD: /share/bioinfo/miaochenyong/GWAS/SB/5Markers-0.9Effect100
python ../genHeritability.py pheno9.txt 0.7 pheno9-0.7H.txt

上图是5个markers, 发现很多个体有相同的表型,对20个makers的进行作图:
一样的表型很少。


calculate average power of various heritability:
1,generate new phenotype data containing heritability
cd /share/bioinfo/miaochenyong/GWAS/SB/5Markers-1To5Effect100
python ../genHeriPheno.py pheno 30 0.7 phenoH0.7-
cd /share/bioinfo/miaochenyong/GWAS/SB/5Markers-1To5Effect100-0.7H
mv /share/bioinfo/miaochenyong/GWAS/SB/5Markers-1To5Effect100/phenoH0.7-* .
cp /share/bioinfo/miaochenyong/GWAS/SB/5Markers-1To5Effect100/marker* .
python ../genCombine.py phenoPrefix 30 > combine.sh
parallel -j 30 < combine.sh
python ../CPmapTOmore.py 30 SB-
python ../generatePLINKcmd.py 30 SB- > PLINK.cmd
parallel -j 6 < PLINK.cmd
python ../generateGemmaCmd.py 30 SB- > gemma.cmd
parallel -j 6 < gemma.cmd
Statistical results in Sorghum:

统计结果图:


MAF distribution in Seteria Italic:
python DrawMAFHist.py Seteria.imputed.GT.txt

发现小于0.05的基本没有,应该是被过滤掉了。
去除SB和SI中MAF 小于0.05的markers!
Transfer SI GT format to HMP format(SI directory):
python GT2HMP.py Seteria.imputed.GT.txt Seteria.imputed.hmp
SI 有726080 个markers
WD: SB_VS_SI/
python FilterMAF.py SB.imputed.916.filtered.hmp SB.filteredMAF.hmp SB剩余198629 markers
python FilterMAF.py Seteria.imputed.hmp Seteria.filteredMAF.hmp SI剩余725588 markers
重新画MAF分布图 看两者是否相近,相近的话随机选择marker!
SB MAF filtered:

SI MAF filtered:

select 198629 markers randomly from 725588 markers in SI:
python selectMarkers.py SI.filteredMAF.hmp 198629 SI.filteredMAF198629.hmp
重新做分布图:

cmiao
UNL
beadle center
GWAS Simulation的更多相关文章
- causal snps | causal variants | tensorflow | 神经网络实战 | Data Simulation
先读几篇文章: Interpretation of Association Signals and Identification of Causal Variants from Genome-wide ...
- GWAS | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan_plot | QQ_plot | haplotype phasing
现在GWAS已经属于比较古老的技术了,主要是碰到严重的瓶颈了,单纯的snp与表现的关联已经不够,需要具体的生物学解释,这些snp是如何具体导致疾病的发生的. 而且,大多数病找到的都不是个别显著的snp ...
- GWAS Catalog数据库简介
GWAS Catalog The NHGRI-EBI Catalog of published genome-wide association studies EBI负责维护的一个收集已发表的GWAS ...
- 【GWAS文献】基于GWAS与群体进化分析挖掘大豆相关基因
Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improv ...
- Gate level Simulation(门级仿真)
1 什么是后仿真? 后仿真也成为时序仿真,门级仿真,在芯片布局布线后将时序文件SDF反标到网标文件上,针对带有时序信息的网标仿真称为后仿真. 2 后仿真是用来干嘛的? 检查电路中的timing vio ...
- fdtd simulation, plotting with gnuplot, writting in perl
# 9月13日 于成都黄龙溪 1 #!/usr/bin/perl # Author : Leon Email: yangli0534@gmail.com # fdtd simulation , plo ...
- 【转载】PMC/PEC Boundary Conditions and Plane Wave Simulation
原文链接 PMC/PEC Boundary Conditions and Plane Wave Simulation (FDTD) OptiFDTD now has options to use Pe ...
- dipole antenna simulation by CST
CST偶极子天线仿真,半波振子天线 一.本文使用CST仿真频率为1GHz的偶极子天线,使用2013版本.仿真的步骤为 1.选择一个CST的天线工程模板 2.设置好默认的单位 3.设置背景的材料(空气腔 ...
- Logic and Fault simulation
fault simulation是指对fault circuit的simulation,来locate manufacturing defects并且进行fault diagnosis. logic ...
随机推荐
- SEO学习笔记-误区和经验总结
原文链接:http://www.cnblogs.com/monxue/p/seo_note.html 常见误区和错误: 1.忽视404错误页面的优化,没有及时处理死链导致权重降低 2.做外链优化只链到 ...
- Eclipse插件开发中对于Jar包和类文件引用的处理(彻底解决插件开发中的NoClassDefFoundError问题)(转)
目的:Eclipse插件开发中,经常要引用第三方包或者是引用其他插件中的类,由于插件开发环境引用类路径的设置和运行平台引用类路径的设置不同,经常导致开发过程OK,一旦运行则出现NoClassDefFo ...
- 与焊接厂交流——从生产角度出发的PCB设计心得
上周的时候,去了趟加工厂盯电路板的焊接进度.然后在闲余的时候,跟焊接厂的工程师交流了一下,工程师从生产的角度,说了几个值得注意的事项: 1.元件的焊盘应该要窄长,不能过宽.因为,在过机表贴时,焊盘上的 ...
- HTML5资料
1 Canvas教程 <canvas>是一个新的用于通过脚本(通常是JavaScript)绘图的HTML元素.例如,他可以用于绘图.制作图片的组合或者简单的动画(当然并不那么简单).It ...
- 不懂指针就不要说自己学过C语言!
不懂指针就不要说自己学过C语言! 1.掌握了指针,就掌握了C语言的精髓!计算机中绝大部分数据都放到内存中的,不同的数据放到不同的内存区域中. 内存角度没有数据类型,只有二进制:数据以字节(8位二进制) ...
- flexbox实现不等宽不等高的瀑布流布局
第一次做不等宽不等高的瀑布流布局,刚开始企图用ccs3的column属性+flexbox来实现,瞎捣鼓半天都没有能弄好, 弱鸡哭晕在厕所(┬_┬),气的午饭都没有吃. 后来逼着自己冷静下来,又捣鼓了1 ...
- Spearman秩相关系数和Pearson皮尔森相关系数
1.Pearson皮尔森相关系数 皮尔森相关系数也叫皮尔森积差相关系数,用来反映两个变量之间相似程度的统计量.或者说用来表示两个向量的相似度. 皮尔森相关系数计算公式如下:
- 第五篇——C++实现四则运算
写一个能自动生成小学四则运算题目的命令行 “软件”, 分别满足下面的各种需求.下面这些需求都可以用命令行参数的形式来指定: a) 除了整数以外,还要支持真分数的四则运算. (例如: 1/6 + 1/8 ...
- Intel RealSense SDK 简翻
:first-child{margin-top:0!important}img.plugin{box-shadow:0 1px 3px rgba(0,0,0,.1);border-radius:3px ...
- php web系统多域名登录失败解决方法
下面只是简单的逻辑结构,对于正式的系统需要做具体的处理. 这里需要注意的是:加解密一定需要做安全验证.但是这个方法也不够完美,两个站点必须有相同一级域名:另外这种完全基于cookie的方式,安全性不够 ...