SNP 过滤（一）

通用过滤

Vcftools（http://vcftools.sourceforge.net）对vcf文件进行过滤

第一步：过滤最低质量低于30，次等位基因深度（minor allele count）不少于3

 1 vcftools --gzvcf raw.vcf.gz --max-missing 0.5 --mac 3 --minQ 30 --recode --recode-INFO-all --out raw.g5mac3

 2

 3 ##

 4 --gzvcf 压缩的vcf文件；

 5 --max-missing 过滤掉缺失率大于50%的位点；

 6 --minQ 过滤掉低于30的质量粉猪；

 7 --Mac 次要等位基因深度为3，过滤小于3的位点；

 8 --recode 输出过滤后的VCF文件

 9 --recode-INFO-all 包含原来文件中所有的INFO信息

10 --out 输出文件

第二步：上述结果文件raw.g5mac3.recode.vcf，基于最低深度进行过滤

vcftools --vcf raw.g5mac3.recode.vcf --minDP 3 --recode --recode-INFO-all --out raw.g5mac3dp3 

##

--minDP 最低的深度

第三步：删除缺失率过高的样本

 1 ## 查看各个样本的缺失率

 2 vcftools --vcf raw.g5mac3dp3.recode.vcf --missing-indv

 3 --missing-indv 查看每个样本的variant缺失情况。输出文件"out.imiss"，最后一列即表示样本中的variants缺失率；

 4

 5

 6 ## 利用awk 输出缺失率》0.5的样本

 7 awk '($5 >0.5){print $0}' out.imiss |cut -f1 >lowDP.indv

 8

 9 ## 去除高缺失率的样本

10 vcftools --vcf raw.g5mac3dp3.recode.vcf --remove lowDP.indv --recode --recode-INFO-all --out raw.g5mac3dplm

11

12 --remove 根据lowDP.indv列表去除vcf文件中的高缺失率样本

第四步：基于最大缺失比例，平均深度和次等位基因频率（MAF）过滤

1 vcftools --vcf raw.g5mac3dplm.recode.vcf --max-missing 0.95 --maf 0.05 --recode --recode-INFO-all --out DP3g95maf05 --min-meanDP 20

2

3 ##

4 --max-missing 最大缺失率

5 --maf  次等位基因频率，排在第二位的基因频率

若你的群体来此多个区域，你想对不同的群体的样本进行分布过滤，可进行如下操作

 1 ## 提供一个样本信息popmap

 2 BR_002  BR

 3 BR_004  BR

 4 BR_006  BR

 5 BR_009  BR

 6 BR_013  BR

 7 BR_015  BR

 8 BR_016  BR

 9 BR_021  WL

10 BR_023  WL

11 BR_024  WL

12

13 ## 根据第二列信息进行拆分

14 awk '($2=='BR'){print $0}' popman >1.keep

15 awk '($2=='WL'){print $0}' popman >2.keep

16

17 ## 用VCFtools分别估计不同群体的缺失比例

18 vcftools --vcf DP3g95maf05.recode.vcf --keep 1.keep --missing-site --out 1

19 vcftools --vcf DP3g95maf05.recode.vcf --keep 2.keep --missing-site --out 2

20

21 ## 合并两个文本，根据最后一列提出缺失率大于0.1的样本

22 cat 1.lmiss 2.lmiss | mawk '!/CHR/' | mawk '$6 > 0.1' | cut -f1,2 >> badloci

23

24 ## 利用VCFtools进行过滤

25 vcftools --vcf DP3g95maf05.recode.vcf --exclude-positions badloci --recode --recode-INFO-all --out DP3g95p5maf05

SNP过滤教程（一）

SNP 过滤（一）的更多相关文章

SNP 过滤（二）
本文转载于https://www.jianshu.com/p/e6d5dd774c6e SNP位点过滤 SNP过滤有两种情况,一种是仅根据位点质量信息(测序深度,回帖质量等)对SNP进行粗过滤.如果使 ...
【GWAS文献解读】疟原虫青蒿素抗药性的全基因组关联分析
英文名:Genetic architecture of artemisinin-resistant Plasmodium falciparum 中文名:疟原虫青蒿素抗药性的全基因组关联分析期刊:Na ...
GWAS基因芯片数据预处理：质量控制（quality control）
一.数据为什么要做质量控制比起表观学研究,GWAS研究很少有引起偏差的来源,一般来说,一个人的基因型终其一生几乎不会改变的,因此很少存在同时影响表型又影响基因型的变异.但即便这样,我们在做GWAS时 ...
GWAS | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan_plot | QQ_plot | haplotype phasing
现在GWAS已经属于比较古老的技术了,主要是碰到严重的瓶颈了,单纯的snp与表现的关联已经不够,需要具体的生物学解释,这些snp是如何具体导致疾病的发生的. 而且,大多数病找到的都不是个别显著的snp ...
利用plink软件基于LD信息过滤SNP
最近有需求,对WGS测序获得SNP信息进行筛减,可问题是测序个体少,call rate,maf,hwe,等条件过滤后,snp数量还是千万级别,所以后面利用plink工具根据LD信息来滤除大量SNP标记 ...
haploview画出所有SNP的LD关系图
有时候我们想画出所有SNP的LD关系图,则需要在命令行添加“-skipcheck”命令行,如下所示: java -jar Haploview.jar -skipcheck -n -pedfile 80 ...
四种不同的SNP calling算法call低碱基覆盖度测序数据时，SNVs数量的比较（Comparing a few SNP calling algorithms using low-coverage sequencing data）
摘要:如果不设置任何过滤标准的话,SOAPsnp会call出更多的SNVs:AtlasSNP2算法比较严格,因此call出来的SNVs数量是最少的,GATK 和 SAMtools call出来的数量位 ...
tcpdump 选项及过滤规则
tcpdump tcp -i eth1 -t -s 0 -c 100 and dst port ! 22 and src net 192.168.1.0/24 -w ./target.cap (1)t ...
NGS检测SNP
1,Fastq数据质控 2,Fastq转化成bam,包含头文件 bwa aln ref.fa test_1.fq > test_1.sai bwa aln ref.fa test_2.fq &g ...

随机推荐

[Java]Sevlet
0 前言对于Java程序员而言,Web服务器(如Tomcat)是后端开发绕不过去的坎.简单来看,浏览器发送HTTP请求给服务器,服务器处理后发送HTTP响应给浏览器. Web服务器负责对请求进行处理 ...
Redis：学习笔记-02
Redis:学习笔记-02 该部分内容,参考了 bilibili 上讲解 Redis 中,观看数最多的课程 Redis最新超详细版教程通俗易懂,来自 UP主遇见狂神说 4. 事物 Redis 事务本 ...
万里阳光号Srcum Metting博客汇总
Srcum Meeting 一.Alpha阶段第一次Scrum Meeting 第二次Scrum Meeting 第三次Scrum Meeting 第四次Scrum Meeting 第五次Scrum ...
[no code][scrum meeting] Beta 11
$( "#cnblogs_post_body" ).catalog() 例会时间:5月26日11:30,主持者:肖思炀下次例会时间:5月27日11:30,主持者:乔玺华一.工作 ...
Vue el 使用el-checkbox-group复选框进行单选框操作
el-checkbox-group这个组件与其他复选框不一样,我当初也是半天不知道怎么操作页面使用v-model绑定 size就是等比例缩小放大,v-ror循环应该看的懂.重要的是@chage到我们 ...
elasticsearch的bulk(批量)操作
在es中我们可能会有这么一种需求,即有时需要批量向es中插入或更新或删除数据,如果一条一条数据的操作,那么速度必然很慢,那么es的bulk api就可以派上用场. delete 删除操作,只需要写一个 ...
Noip模拟75 2021.10.12
T1 如何优雅的送分他说是送分题,我就刚,没刚出来,想到莫比乌斯容斥后就都没推出来好吧还是不能被恶心的题目,挑衅的语言打乱做题节奏于是这一场也就没了.... $F(i)$表示$i$的不同质因子集 ...
STL模板
目录栈stack 队列queue 列表List 集合set 映射map 多重映射multimap 对pair 元组tuple 容器containers 算法algorithms 仿函数/函数对象fu ...
NavigationView使用简介
Android支持直接创建带有NavigationView的Activity,这里主要介绍NavigationView的逻辑. NavigationView通常是跟DrawerLayout一起使用.D ...
猫狗收容所牛客网程序员面试金典 C++
猫狗收容所牛客网程序员面试金典 C++ 题目描述有家动物收容所只收留猫和狗,但有特殊的收养规则,收养人有两种收养方式,第一种为直接收养所有动物中最早进入收容所的,第二种为选择收养的动物类型(猫或 ...

SNP 过滤（一）

通用过滤

第一步：过滤最低质量低于30，次等位基因深度（minor allele count）不少于3

第二步：上述结果文件raw.g5mac3.recode.vcf， 基于最低深度进行过滤

第三步：删除缺失率过高的样本

第四步：基于最大缺失比例，平均深度和次等位基因频率（MAF）过滤

若你的群体来此多个区域，你想对不同的群体的样本进行分布过滤，可进行如下操作

SNP过滤教程（一）

SNP 过滤（一）的更多相关文章

随机推荐

热门专题

第二步：上述结果文件raw.g5mac3.recode.vcf，基于最低深度进行过滤