GATK4.1 call SNP

GATK4.0 和之前的版本相比还是有较大的不同，更加趋于流程化。

软件安装

1 wget https://github.com/broadinstitute/gatk/releases/download/4.1.5.0/gatk-4.1.5.0.zip

2 unzip gatk-4.1.5.0.zip

GATK 简单说明

1 ## 帮助信息

2 gat --help

3

4 ## 列出所有的工具

5 gatk --list

6

7 ## 工具的说明，比如以VariantAnnotator 为例

8 gatk VariantAnnotator --help

GATK分析简要流程

所需数据： ref.fa
- - reads1.fq
  - reads2.fq
建立索引

1 bwa index ref.fa

2 samtools  faidx ref.fa

3 gatk CreateSequenceDictionary -R ref.fa -O ref.dict

4

5 ##

6 -R Input reference fasta or fasta.gz  Required

7 -O  输出文件

比对

1 ## bwa 比对

2 bwa mem -t 4 -R '@RG\tID:id1\tPL:illumina\tSM:test' ref.fa test_1.fq test_2.fq | samtools view -bS - >test.bam

3

4 ##参数

5 -R 设置reads group，gatk必须要的信息，其中ID，PL和SM信息是必须要的

6

7 ## 排序

8 samtools sort -@ 3 -o test.sorted.bam test.bam

9 rm test.bam

GATK 要求read group的格式

ID = Read group identifier

　　每一个read group 独有的ID，每一对reads 均有一个独特的ID，可以自定义命名；

PL = Platform

　　测序平台；ILLUMINA, SOLID, LS454, HELICOS and PACBIO，不区分大小写；

SM = sample

　　reads属于的样品名；SM要设定正确，因为GATK产生的VCF文件也使用这个名字;

LB = DNA preparation library identifier

　　对一个read group的reads进行重复序列标记时，需要使用LB来区分reads来自那条lane;有时候，同一个库可能在不同的lane上完成测序;为了加以区分，

　　同一个或不同库只要是在不同的lane产生的reads都要单独给一个ID. 一般无特殊说明，成对儿read属于同一库，可自定义，比如：library1

若是忘记添加read group信息还以通过 AddOrReplaceReadGroups 添加

1 gatk AddOrReplaceReadGroups -I .bam -O .add.bam -LB library1 -PL illumina -PU pl1 -SM name

2

3 ##参数

4 -I Input file (BAM or SAM or a GA4GH url)；

5 -O  Output file (BAM or SAM)；

6 -LB Read-Group library；

7 -PL  Read-Group platform (e.g. ILLUMINA, SOLID)；

8 -PU Read-Group platform unit (eg. run barcode)；

9 -SM Read-Group sample name

标记重复序列

2 gatk  MarkDuplicates -I test.sorted.bam -O test.sorted.markdup.bam -M test.sorted.markdup_metrics.txt

3 ##参数

4 -I 排序后的一个或者多个bam或者sam文件

5 -M 输出重复矩阵

6 -O 输出文件

7

8 ## 建立索引

9 samtools index test.sorted.markup.bam

检测变异

 1 ##两种方法

 2

 3 ##（1）多样本一起call，此次只有一个样本，若有多个样本，则继续用 -I 参数添加即可

 4 gatk --java-options -Xmx4G HaplotypeCaller -I test.sorted.markup.bam -O test.gvcf1 -R ref.fa

 5

 6 ## （2）单个样本call，然后在合并

 7 ## 生成中间文件gvcf

 8 gatk --java-options -Xmx4G HaplotypeCaller -I test.sorted.markup.bam -O test.gvcf -R ref.fa --emit-ref-confidence GVCF

 9

10 ##通过gvcf检测变异, -V 添加上步得到的gvcf

11 gatk GenotypeGVCFs -R ref.fa -V test.gvcf -O test.vcf

13

14 ##参数

15 -I BAM/SAM/CRAM file

16 -O  输出文件

17 -R 参考基因组

18 --java-options: 若设置java则需要添加

19 -Xmx4G：内存为4G，防止内存太大

20 -V  A VCF file containing variants

提取SNP，INDEL

 1 ## 提取SNP

 2 gatk SelectVariants -V test.vcf -O test.snp.vcf --select-type-to-include SNP

 3

 4 ## 提取INDEL

 5 gatk SelectVariants -V test.vcf -O test.indel.vcf --select-type-to-include INDEL

 6

 7 ##参数

 8 -O 输出vcf文件

 9 -V 输入vcf文件

10 --select-type-to-include 选择提取的变异类型{NO_VARIATION, SNP, MNP, INDEL,

11                               SYMBOLIC, MIXED}

对vcf文件进行过滤

 1 gatk VariantFiltration -O test.snp.fil.vcf.temp -V test.snp.vcf --filter-expression 'QUAL < 30.0 || QD < 2.0 || FS > 60.0 ||  SOR > 4.0' \

 2 　　　　--filter-name lowQualFilter --cluster-window-size 10  --cluster-size 3 --missing-values-evaluate-as-failing

 3

 4 ## 参数

 5 -O 输出filt.vcf文件

 6 -V 输入vcf文件

 7 --filter-expression 过滤条件, VCF INFO 信息

 8 --cluster-window-size 以10个碱基为一个窗口

 9 --cluster-size 10个碱基为窗口，若存在3以上个则过滤

10 --filter-name 被过滤掉的SNP不会删除，而是给一个标签， 比如 Filter

11 --missing-values-evaluate-as-failing 当筛选标准比较多的时候，可能有一些位点没有筛选条件当中的一条或几条，例如下面的这个表达式；QUAL < 30.0 || QD < 2.0 || FS > 60.0 || MQ < 40.0 || HaplotypeScore > 13.0 并不一定所有位点都有这些信息，这种情况下GATK运行的时候会报很多WARNING信息，用这个参数可以把这些缺少某些FLAG的位点也给标记成没有通过筛选的。

筛选PASS的SNP，INDEL

1 ## 根据FILTER那列信息进行筛选

2 grep PASS test.snp.fil.vcf.temp >  test.snp.fil.vcf

欢迎交流

GATK4.0全基因组数据分析实战

GATK - Read groups

GATK4.1 call SNP的更多相关文章

问题记录：SNP 标记 phasing
GATK4 检测的SNP标记,有些位点会在检测过程中完成 phasing,在后续做基因型填充的时候有坑. GATK4 phasing 结果的缺失位点不是 ./. 也不是 .|. 而是直接变成一个单独 ...
千人基因组计划数据库下载某段区域SNP
进入http://browser.1000genomes.org/index.html网站假定要寻找“6:133098746-133108745”这段距离的SNP数据,“6”表示6号染色体,后面的数 ...
如何用 freebayes call SNP
1,软件介绍 FreeBayes is a Bayesian genetic variant detector designed to find small polymorphisms, specif ...
互信息应用于SNP特征选择的局限
互信息已广泛应用于特征选择问题,但应用在 SNP 选择上还存在着一些局限.第一,互信息只能衡量一个 SNP 组合与表型的相关性, 无法衡量多个 SNP 与表型的相关性.第二, 利用互信息排序 SNP ...
寻找与疾病相关的SNP位点——R语言从SNPedia批量提取搜索数据
是单核苷酸多态性,人的基因是相似的,有些位点上存在差异,这种某个位点的核苷酸差异就做单核苷酸多态性,它影响着生物的性状,影响着对某些疾病的易感性.SNPedia是一个SNP调査百科,它引用各种已经发布 ...
plink计算两个SNP位点的连锁不平衡值（LD）
PLINK提供了“--ld”的参数计算两个SNP位点的连锁不平衡值. 命令如下: plink --file file --ld rs123 rs134 --out rs123_rs134 生成如下数据 ...
shapeit提取或去除指定SNP和样本（shapeit extract or exclude SNP, sample）
shapeit最大的功能是对双链DNA进行phase和基因型进行impute.除此之外,还能提取SNP和样本,同样的,也能去除SNP和样本.下面简单介绍这两个功能. 一.提取SNP 提取SNP用到“- ...
plink合并文件并更新SNP位置（merge file, update SNP position）
一.合并文件 plink合并文件需要用到“merge”参数如果是ped和map格式文件,则用以下命令: plink --file data1 --merge data2.ped data2.map ...
中性SNP的突变年龄评估（estimate the average age of a neutral two-allele polymorphism）
假设中性突变的频率分别为P和1-P,则其突变年龄为:-4Ne[p*( logep)+(1-p)* loge (1-p)] The average age of a neutral two-allele ...

随机推荐

Codeforces Round #750 (Div. 2)
Codeforces Round #750 (Div. 2) A. Luntik and Concerts 思路分析: 首先我们可以肯定的是a,b,c都大于等于1,所以我们先让它们自己抵消自己,最后a ...
UltraSoft - Beta - Scrum Meeting 11
Date: May 27th, 2020. Scrum 情况汇报进度情况组员负责今日进度 q2l PM.后端记录会议 Liuzh 前端增加了对重复日程的支持 Kkkk 前端测试验证前后端 ...
SpringBoot小知识点
记录SpringBoot的小知识点一.在 Spring 上下文刷新之前设置一些自己的环境变量 1.实现 EnvironmentPostProcessor 接口 2.spring.factories ...
Qt字符编码小知识
1.VS2010默认编码是GBK,Qt5的内置编码是utf-8,想要在VS2010及其以上版本,优雅的使用utf-8的字符编码需要 // Coding: UTF-8(BOM) #if defined( ...
【做题记录】CF1444A Division
CF1444A Division 题意: 给定 \(t\) 组询问,每组给两个数 \(p_i\) 和 \(q_i\) ,找出最大的整数 \(x_i\) ,要求 \(p_i\) 可被 \(x_i\) 整 ...
JAVA笔记10__Math类、Random类、Arrays类/日期操作类/对象比较器/对象的克隆/二叉树
/** * Math类.Random类.Arrays类:具体查JAVA手册...... */ public class Main { public static void main(String[] ...
DeWeb 与 Unigui的区别
DeWeb 与 Unigui 相同: 都是采用Delphi开发网页的平台不同: 1 DeWeb不需要安装控件, 而Unigui需要安装自己的控件 2 DeWeb无需要学习HTML/CSS/JavaS ...
OpenAPITools 实践
OpenAPITools 可以依据 REST API 描述文件,自动生成服务端桩(Stub)代码.客户端 SDK 代码,及文档等.其是社区版的 Swagger ,差异可见:OpenAPI Genera ...
在线编辑Word——插入图表
在Word中可插入图表,配合使用表格能够更加全方位的展示数据的可信度并增加数据的可读性.本文将通过使用在线编辑器 Spire.Cloud Word 演示如何来插入图表,并设置相关格式化操作.具体步骤如 ...
Mysql教程：（六）修改语句、、删除语句、字符查询like
1.修改语句 update 表名 set where 条件 mysql> update student set birth=1988,department='中文系' where id=901 ...

GATK4.1 call SNP

软件安装

GATK 简单说明

GATK分析简要流程

所需数据 ： ref.fa

建立索引

比对

若是忘记添加read group信息还以通过 AddOrReplaceReadGroups 添加

标记重复序列

检测变异

提取SNP，INDEL

对vcf文件进行过滤

筛选PASS的SNP，INDEL

GATK4.0全基因组数据分析实战

GATK - Read groups

GATK4.1 call SNP的更多相关文章

随机推荐

热门专题

所需数据： ref.fa