NGS检测SNP

1，Fastq数据质控

2,Fastq转化成bam，包含头文件

bwa aln ref.fa test_1.fq > test_1.sai

bwa aln ref.fa test_2.fq > test_2.sai

bwa sampe ref.fa -r "@RG\tID:<ID>\tLB:<LIBRARY_NAME>\tSM:<SAMPLE_NAME>\tPL:ILLUMINA" test_1.sai test_2.sai test_1.fq test_2.fq > test.sam

3,sam 转化成bam，如果SAM文件中有header @SQ lines。

samtools view -b -S test.sam > test.bam
##如果没有header时： samtools faidx ref.fa   
##                 samtools view -bt ref.fa.fai test.sam > test.bam

4,sort bam

samtools sort test.bam > test.sorted.bam

或者：

java -jar picard.jar SortSam I=test.bam O=test.sorted.bam SORT_ORDER=coordinate

5, 标记重复

java -jar picard.jar MarkDuplicate ....

6, index 一下

samtools index test.sorted.repeatmark.bam

7,Base Quality Score Recalibration

....

8, 使用GATK检测SNP

java -jar GenomeAnalysisTK.jar glm SNP -R ref.fa -T UnifiedGenotyper -I test.sorted.repeatmark.bam -o test.raw.vcf

使用samtools和bcftools检测SNP

samtools faidx ref.fa
samtools mpileup -d 1000 -DSugf test.sorted.repeatmark.bam > test.raw.vcf    ##（samtools mpileup -vf 。。。）

bcftools view -Nvcg -d 1000 test.raw.vcf > test.snp.vcf                     ##(我的软件运行这步会出错,用下面两行代码代替)
bcftools call -mv test.raw.vcf > test.raw_varient.vcf
bcftools filter -s LowQual -e '%QUAL<20 || DP>100' test.raw_varient.vcf > test.filt_varient.vcf

##也有直接用perl 脚本实现。在使用bcftools 得到variant calling变异后的结果后。需要对结果再次进行过滤，主要依据对比结果中的第8列消息，其中的DP4最为重要，对应的提供了四列：1, 比对结果和正链一致的reads数；2, 比对结果和负链一致的reads数；3, 比对结果在正链的variant 上的reads数；4, 比对结果在负链的variant上的reads数。当设定（value3+value4）大于某一阈值，才算是variant。

bcftools检测生成的vcf格式有10列。1，参考序列名。2，variant所在的left-most位置。3，variant的ID，（默认未设置，用“.”表示）。4，参考序列的allele。5，variant的allele（有多个alleles，则用“，”分隔）。6,variant/reference Quality。7，FILTers applied。8，varient的信息，使用分号隔开。9，Format of the genotype fields， seperated by colon （optional）。10，Sample genotypes and per-sample information（optional）。

bcftools 的第8列中显示了对variants的信息描述，其中Tag的描述如下：

Tad　　Format　　Description

AF1　　double　　Max-likelihood estimate of the site allele Frequency （AF）of the first ALT allele

DP　　　int　　　　Raw read depth (without quality filtering)

DP4　　int[4]　　　　high-quality reference forward base, ref reverse, alternate for and alt rev bases

FQ　　int　　　　　consensus quality. Positive: sample genotypes different; negative: otherwise

MQ	int	Root-Mean-Square mapping quality of covering reads

PC2	int[2]	Phred probability of AF in group1 samples being larger (,smaller) than in group2

PCHI2	double	Posterior weighted chi^2 P-value between group1 and group2 samples

PV4	double[4]	P-value for strand bias, baseQ bias, mapQ bias and tail distance bias

QCHI2	int	Phred-scaled PCHI2

RP	int	# permutations yielding a smaller PCHI2

CLR	int	Phred log ratio of genotype likelihoods with and without the trio/pair constraint

UGT	string	Most probable genotype configuration without the trio constraint

CGT	string	Most probable configuration with the trio constraint

使用bcftools过滤掉不可靠的位点：

bcftools filter的参数：

-e -exclude 主要用于表达式方式去除匹配上的位点，这个参数很关键，过滤需要此表达式

-g -SnpGap 过滤INDEL附近的snp位点，比如-SnpGap 5 则过滤INDEL附近5个碱基距离内的SNP

-G -IndelGap 过滤INDEL附近的INDEL位点

-o -output 输出文件的名称

-O -output-type 输出的格式，一般z和v都行

-s -soft-filter 将过滤掉的位点用字符串注释

-S -set-GTs setgenotypes of failed samples to missing value (.) or reference allele (0) （将不符合要求的个体基因改为"."）

eg:过滤QUAL小于10，DP值小于5，INDEL附近的位点

bcftools filter -O v  -o test.filter_variant.vcf -s LOWQUAL -e 'QUAL<10 || FMT/DP < 5' --SnpGap 5 --set-GTs .  test.vcf.gz

提取过滤后的SNP位点

bcftools view -v snps test.filter_variance.vcf > test.snp_filter.vcf

或者在vcf文件中的INFO列里，如果是INDEL的话，会标注出INDEL，因此提取SNP也可以：

grep -v 'INDEL'  test.filter_variance.vcf > test.snp_filter.vcf

注意：

|| 与 | 区别：都表示“或”运算，但是 || 运算符第一个表达式成立的话，后面的表达式不运算，直接返回。而 | 对所有表达式都判断。 && 与 & 的区别同理

参考：https://www.cnblogs.com/xiaofeiIDO/p/6857745.html

　　　http://www.bioinfo-scrounger.com/archives/248

NGS检测SNP的更多相关文章

NGS检测ALK融合大起底--转载
导读: ALK融合是非小细胞肺癌的关键驱动机制之一,在NSCLC患者中发生的频率约为3-7%.针对ALK融合的抑制剂克唑替尼.色瑞替尼以及Alectinib在治疗ALK融合阳性的NSCLC患者中都取得 ...
【7】基于NGS检测体系变异解读和数据库介绍
目录解读相关专业术语体系变异解读规则体系变异和用药解读流程主要数据库介绍解读相关专业术语 2个概念:胚系.体系突变 4种变异类型:SNV.Indel.融合/SV(大的易位/倒位/缺失).CN ...
SNP命名
SNP命名 [2016-11-24] 奶茶妹妹是谁,京东老板娘,咦?章泽天!没错! 国民老公是谁?万达少东家,王健林儿子,王思聪!恭喜你又答对了! 函数是谁?这不是数学上的名词吗?不对,是 ...
SNP/单核苷酸多态性分析
SNP/单核苷酸多态性分析 SNP(Single Nucleotide Polymorphism),即单核苷酸多态性,是由于单个核苷酸改变而导致的核酸序列多态.一般来说,一个SNP位点只有两种等位基因 ...
通过FISH和下一代测序检测肺腺癌ALK基因融合比较
ALK FISH探针是FDA批准的用于检测肺癌患者中ALK重排的方法,这些患者可能受益于ALK激酶抑制剂.FISH测定在技术上可能具有挑战性并且难以解释.已经有研究者提出以ALK免疫组织化学和下一代测 ...
【转】GATK使用方法详解（包含bwa使用）
一.使用GATK前须知事项: (1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验 ...
Google云平台使用方法 | Hail | GWAS | 分布式回归 | LASSO
参考: Hail Hail - Tutorial windows也可以安装:Spark在Windows下的环境搭建 spark-2.2.0-bin-hadoop2.7 - Hail依赖的平台,并行处 ...
【5】肿瘤DNA甲基化数据分析原理及流程
目录导论 DNA甲基化基本概论检测DNA甲基化的方法 DNA甲基化数据分析流程及方法 DNA甲基化在肿瘤研究中的应用导论表观遗传:非DNA决定的基因表达,或表型改变中可遗传因素的研究 DNA水 ...
NGS概念大科普（转）
NGS又称为下一代测序技术,高通量测序技术以高输出量和高解析度为主要特色,能一次并行对几十万到几百万条DNA分子进行序列读取,在提供丰富的遗传学信息的同时,还可大大降低测序费用.缩短测序时间的测序技 ...

随机推荐

windows 静态IP设置举例
IP 172.20.108.239 子网掩码 255.255.255.0 网关 172.20.108.1
for循环内嵌套finally使用的意外获得
在for循环中有continue和break,无论执行continue还是break finally的逻辑都会执行,原本以为是不执行的格式 for (int i = 0; i < 3; i ...
记录一次mybatis查询返回为空数据库却能查询到数据的经历
昨晚上测试人员给发了一条测试数据,说是根据这条数据接口返回信息为空.之后根据给的信息去数据库查询了下,明明是有数据的.但是用mybatis就是查询不出来.奇了怪了,自己测试的数据都能查询出来,为何这条 ...
JS获取长度方法总结
目录: 1length 2size() 3length与size()的区别 4获取元素的索引 - index() 5获取对应的索引 - eq() 概述: 在工作中大家经常需要获取对象的长度,或者要获取 ...
Oracle诊断工具 - ORA-2730x Troubleshooting Tool
通常情况下,ORA-27300 ORA-27301 ORA-27302错误的原因是操作系统的系统调用错误或者操作系统配置问题,错误格式:ORA-27300: OS system dependent o ...
Mysqlbinlog工具及导出数据并转换编码导入
2014 - binlog是通过记录二进制文件方式来备份数据,然后在从二进制文件将数据恢复到某一时段或某一操作点. 1.使用mysqlbinlog工具来恢复 Mysqlbinlog日志如何开启? 在m ...
UIView的无损截图
UIView的无损截图说明 1. 烂大街的代码 2. 写成category后,方便直接从drawRect中获取绘制出来的图片 3. 可以直接绘制图片供按钮设置背景图片用 4. 无损截图(包括alph ...
PowerShell管理SCOM_批量设置维护模式（下）
#定义存储需要置为维护模式的计算机名称列表$serverlist = "C:\scomm\servers.txt"#定义RMS服务器名称$rmsServerName=”scomw. ...
grafana的安装与设置（一）
zabbix3.4.9和grafana5.1.3的整合官方文档:http://docs.grafana.org/installation/rpm/ 本次介绍两种安装方法,其他的方法请查看官方文档: ...
(1)StringBuilder类和StringBuffer类 (2)日期相关的类 (3)集合框架 (4)List集合
1.StringBuilder类和StringBuffer类(查手册会用即可)1.1 基本概念由于String类描述的字符串内容无法更改,若程序中出现大量类似的字符串时需要申请独立的内存空间单独保存 ...

NGS检测SNP

NGS检测SNP的更多相关文章

随机推荐

热门专题