GATK4.1 call SNP】的更多相关文章

GATK4.0 和之前的版本相比还是有较大的不同,更加趋于流程化. 软件安装 1 wget https://github.com/broadinstitute/gatk/releases/download/4.1.5.0/gatk-4.1.5.0.zip 2 unzip gatk-4.1.5.0.zip GATK 简单说明 1 ## 帮助信息 2 gat --help 3 4 ## 列出所有的工具 5 gatk --list 6 7 ## 工具的说明,比如以VariantAnnotator 为例…
GATK4 检测的SNP标记,有些位点会在检测过程中完成 phasing,在后续做基因型填充的时候有坑. GATK4 phasing 结果的缺失位点不是 ./. 也不是 .|.  而是直接变成一个单独的点:下图黄线标记出来的部分,上面是原始结果,下面是修改后结果. 基于此后续做 phasing 才能顺利进行. 最后附上处理脚本: 1 use strict; 2 open A,"gzip -dc $ARGV[0]|"; 3 open U,"| gzip > $ARGV[1…
进入http://browser.1000genomes.org/index.html网站 假定要寻找“6:133098746-133108745”这段距离的SNP数据,“6”表示6号染色体,后面的数据表示距离. 点击“Go”,进入如下界面后,再点击左栏的“Get VCF data” 弹出如下界面,再继续点击“VCF to PED converter” 再点击“Next” 接下来,弹出来的窗口让你选择种族(population),比如有中国CHB,日本JPT,挑选完感兴趣的种族,然后点击“Nex…
1,软件介绍 FreeBayes is a Bayesian genetic variant detector designed to find small polymorphisms, specifically SNPs (single-nucleotide polymorphisms), indels (insertions and deletions), MNPs (multi-nucleotide polymorphisms), and complex events (composite…
互信息已广泛应用于特征选择问题,但应用在 SNP 选择上还存在着一些局限.第一,互信息只能衡量一个 SNP 组合与表型的相关性, 无法衡量多个 SNP 与表型的相关性.第二, 利用互信息排序 SNP 时,隐含着一个假设,即: SNP 间是相互独立的,不存在着依赖关系.然而事实上,SNP 间存在着广泛的交互作用.因此,互信息排序 SNP 会严重低估交互作用 SNP 的重要性.第三,利用互信息选择 SNP 组合时,任意加入一个新 SNP 都会使互信息值不小于加入前该 SNP 组合的互信息值,限制了不…
是单核苷酸多态性,人的基因是相似的,有些位点上存在差异,这种某个位点的核苷酸差异就做单核苷酸多态性,它影响着生物的性状,影响着对某些疾病的易感性.SNPedia是一个SNP调査百科,它引用各种已经发布的文章,或者数据库信息对SNP位点进行描述,共享着人类基因组变异的信息.我们可以搜索某个SNP位点来寻找与之相关的信息,也可以根据相关疾病,症状来寻找相关的SNP. 初次使用SNPedia   SNPedia主页网址为http://snpedia.com/index.php/SNPedia,比如我想…
PLINK提供了“--ld”的参数计算两个SNP位点的连锁不平衡值. 命令如下: plink --file file --ld rs123 rs134 --out rs123_rs134 生成如下数据: --ld rs123 rs134: R-sq = 0.0313386       D' = 1 Haplotype Frequency Expectation under LE --------- --------- -------------------- TG 0 0.022549 CG 0…
shapeit最大的功能是对双链DNA进行phase和基因型进行impute.除此之外,还能提取SNP和样本,同样的,也能去除SNP和样本.下面简单介绍这两个功能. 一.提取SNP 提取SNP用到“--include-snp”参数,具体命令为: time shapeit \ -convert \ --input-haps data.phased \ --output-haps data.phased.subset \ --include-snp include_marker.site 其中,in…
一.合并文件 plink合并文件需要用到“merge”参数 如果是ped和map格式文件,则用以下命令: plink --file data1 --merge data2.ped data2.map --recode --out merge 如果是二进制文件和ped,map格式文件,则用以下命令: plink --bfile data1 --merge data2.ped data2.map --make-bed --out merge 如果都是二进制文件,则用以下命令: plink --bfi…
假设中性突变的频率分别为P和1-P,则其突变年龄为:-4Ne[p*( logep)+(1-p)* loge (1-p)] The average age of a neutral two-allele polymorphism with frequencies p and is 1-p:-4Ne[p*( logep)+(1-p)* loge (1-p)]; 这里,Ne为有效群体大小,假定一个群体的有效群体大小是5000,某个SNP突变频率分别为0.1和0.9,则其突变年龄为: -4*5000*(…