SNP 过滤(一)】的更多相关文章

本文转载于https://www.jianshu.com/p/e6d5dd774c6e SNP位点过滤 SNP过滤有两种情况,一种是仅根据位点质量信息(测序深度,回帖质量等)对SNP进行粗过滤.如果使用GATK对重测序结果进行SNP calling,那么可以考虑下面的标准 QD< 2.0 || FS> 60.0 || MQ< 40.0 || MQRankSum <−12.5 || ReadPosRankSum <−8.0 QUAL<30.0||QD<2.0||FS…
通用过滤 Vcftools(http://vcftools.sourceforge.net) 对vcf文件进行过滤 第一步:过滤最低质量低于30,次等位基因深度(minor allele count)不少于3 1 vcftools --gzvcf raw.vcf.gz --max-missing 0.5 --mac 3 --minQ 30 --recode --recode-INFO-all --out raw.g5mac3 2 3 ## 4 --gzvcf 压缩的vcf文件: 5 --max-…
英文名:Genetic architecture of artemisinin-resistant Plasmodium falciparum 中文名:疟原虫青蒿素抗药性的全基因组关联分析 期刊:Nature Genetics影响因子:29.352一.研究背景以青蒿素为主的联合疗法一直以来都是治疗疟疾的有效方法,值得关注的是横跨亚洲到非洲都出现了对一线药物的抗药性.阻止出现更高水平的抗药性以及阻止抗药性扩散到非洲刻不容缓.为了更好同抗药性进行斗争,了解遗传因素在抗药性的混合和传播中的作用非常重要…
一.数据为什么要做质量控制 比起表观学研究,GWAS研究很少有引起偏差的来源,一般来说,一个人的基因型终其一生几乎不会改变的,因此很少存在同时影响表型又影响基因型的变异.但即便这样,我们在做GWAS时也要去除一些可能引起偏差的因素. 这种因素主要有:群体结构.个体间存在血缘关系.技术性操作. 二.怎么看数据是否需要进行质量控制 下面分别为样本和SNP位点在数据中的直方图,当数据不在绝大多数的分布当中时,我们会倾向于认为那是测序.人工操作等其他方面造成的误差,而非该个体的真实情况,因此是需要将这些…
现在GWAS已经属于比较古老的技术了,主要是碰到严重的瓶颈了,单纯的snp与表现的关联已经不够,需要具体的生物学解释,这些snp是如何具体导致疾病的发生的. 而且,大多数病找到的都不是个别显著的snp,大多数都找到了很多的snp,而且snp都落在非编码区了,这就导致对这些snp的解读非常的困难. 目前,已经有非常傻瓜式的GWAS pipeline了,比如:A tutorial on conducting genome‐wide association studies: Quality contr…
最近有需求,对WGS测序获得SNP信息进行筛减,可问题是测序个体少,call rate,maf,hwe,等条件过滤后,snp数量还是千万级别,所以后面利用plink工具根据LD信息来滤除大量SNP标记. 工具版本:PLINK v1.90b4.6 64-bit (15 Aug 2017) 一.格式转换 首先将准备好的vcf文件转换下格式,map和ped格式: 1 plink --allow-extra-chr --recode --chr-set 18 --vcf test.gz --out s_…
有时候我们想画出所有SNP的LD关系图,则需要在命令行添加“-skipcheck”命令行,如下所示: java -jar Haploview.jar -skipcheck -n -pedfile 800kb1.ped -info 800kb1.info -png -out 800kb 这样就不需要经过haploview的过滤标准了. 如果只想过滤某个标准,则可参看下来参数 -skipcheck Skip all the genotype data quality checks and uses…
摘要:如果不设置任何过滤标准的话,SOAPsnp会call出更多的SNVs:AtlasSNP2算法比较严格,因此call出来的SNVs数量是最少的,GATK 和 SAMtools call出来的数量位于SOAPsnp 和 Atlas-SNP2之间:四种calling算法的整体一致性是很低的,尤其在non-dbSNPs数据库中:GATK 和 Atlas-SNP2有较高的阳性call率和灵敏性,GATK call出来的SNVs数量比较多. 1.dbSNP数据库和non-dbSNPs在用四种不同软件c…
tcpdump tcp -i eth1 -t -s 0 -c 100 and dst port ! 22 and src net 192.168.1.0/24 -w ./target.cap (1)tcp: ip icmp arp rarp 和 tcp.udp.icmp这些选项等都要放到第一个参数的位置,用来过滤数据报的类型 (2)-i eth1 : 只抓经过接口eth1的包 (3)-t : 不显示时间戳 (4)-s 0 : 抓取数据包时默认抓取长度为68字节.加上-S 0 后可以抓到完整的数据…
1,Fastq数据质控 2,Fastq转化成bam,包含头文件 bwa aln ref.fa test_1.fq > test_1.sai bwa aln ref.fa test_2.fq > test_2.sai bwa sampe ref.fa -r "@RG\tID:<ID>\tLB:<LIBRARY_NAME>\tSM:<SAMPLE_NAME>\tPL:ILLUMINA" test_1.sai test_2.sai test_1…