如何使用SnpEff 对SNP结果进行分析
SnpEff is a variant annotation and effect prediction tool. It annotates and predicts the effects of variants on genes
详细的说明请阅读:
http://snpeff.sourceforge.net/SnpEff_manual.html
一, 安装:
首先在家目录下, 下载安装包
wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
然后进行解压
unzip snpEff_latest_core.zip
会产生一个snpEff目录 所有的程序都在这里面
二, 配置自己的基因组和注释文件, 官方的数据库中有大量的参考基因组,一般都不需要配置。如果在官方的database中没有找到就需要自己配置
1,注释文件为gff3格式
假如我现在有一个参考基因组: Osativa_204.fa
有个这个基因组的注释文件: Osativa_204_gene.gff3
首先编辑配置文件,加入新基因组的entry
配置文件在snpEff目录下, 配置文件名为snpEff.config
用vi进行编辑 加入如下两行
# Rice genome, version Osativa_204
Osativa_204.genome : Rice
然后保存退出
还是在snpEff文件下, 创建目录data
mkdir data
cd data
创建Osativa_204 和 genomes目录
mkdir Osativa_204
mkdir genoems
将你的gff3注释文件放在Osativa_204目录下
将你的参考序列文件放在genomes目录下
注意,要将注释文件重新命名为genes.gff
完成后回到 snpEff 目录, 执行命令:
java -jar snpEff.jar build -gff3 -v Osativa_204
2,注释文件时gtf格式
假如有注释文件为:Osativa_204.gtf
前面步骤都一样, 不同的是:
要将注释文件重新命名为genes.gtf
执行命令改为:
java -jar snpEff.jar build -gtf22 -v Osativa_204
三, 开始统计执行:
先将vcf文件copy到data目录下
然后在snpEff目录下执行命令:
java -Xmx8g -jar snpEff.jar Osativa_204 data/testgroup.filtered.ordered.vcf > test.eff.vcf
命令执行完后在snpEff目录下会产生三个文件
snpEff_genes.txt
snpEff_summary.html
test.eff.vcf
然后将snpEff_summary.html用浏览器打开就可以看到结果的汇总情况, 可能网页中有些图片加载不出来,那是因为那些图片需要下载,可能是在国外的服务器,
如果你本身就无法访问国外网站,那就下载不出来,所以FQ吧~
四,对结果的一些说明:
无论你用的是gtf文件还是gff文件, 产生的这个表是一样的:
因为我的gtf是由gff转化过来的,看似少了一些feature,但实际都可以推算出来,所以我的gtf保留了gff的所有信息。
exon和intergenic分别出现两次,不知道为什么。。。
五, 如何更换注释文件
如果想要更换注释文件。先进入~/snpEff/data/Osativa_204目录将注释文件和bin文件删除,将新的注释文件copy到此目录
重新执行上面所述build步
by freemao
FAFU.
free_mao@qq.com
如何使用SnpEff 对SNP结果进行分析的更多相关文章
- SNP/单核苷酸多态性分析
SNP/单核苷酸多态性分析 SNP(Single Nucleotide Polymorphism),即单核苷酸多态性,是由于单个核苷酸改变而导致的核酸序列多态.一般来说,一个SNP位点只有两种等位基因 ...
- 突变注释工具SnpEff,Annovar,VEP,oncotator比较分析--转载
https://www.jianshu.com/p/6284f57664b9 目前对于variant进行注释的软件主要有4个: Annovar, SnpEff, VEP(variant Effect ...
- GATK 一些资料
1. http://blog.sciencenet.cn/home.php?mod=space&uid=1469385&do=blog&classid=166694&v ...
- SNPsnap | 筛选最佳匹配的SNP | 富集分析 | CP loci
一个矛盾: GWAS得到的SNP做富集分析的话,通常都会有强的偏向性. co-localization of GWAS signals to gene-dense and high linkage d ...
- 千人基因组计划数据库下载某段区域SNP
进入http://browser.1000genomes.org/index.html网站 假定要寻找“6:133098746-133108745”这段距离的SNP数据,“6”表示6号染色体,后面的数 ...
- SNP问题大集锦
SNP问题大集锦 [2017-01-19] 最近小编对基因检测很感兴趣,也跟风去测了一下,这一测不要紧,吓得小编几天没睡着觉,这不,检测报告上称小编的减肥能力弱,虽然小编一家都是胖子,唯有 ...
- LD SCore计算基因多效性、遗传度、遗传相关性(the LD Score regression intercept, heritability and genetic correlation)
这篇文章是对之前啊啊救救我,为何我的QQ图那么飘(全基因组关联分析)这篇文章的一个补坑. LD SCore除了查看显著SNP位点对表型是否为基因多效性外,还额外补充了怎么计算表型的遗传度和遗传相关性. ...
- 【豆科基因组】大豆(Soybean, Glycine max)经典文章梳理2010-2020
目录 2010年1月:大豆基因组首次发表(Nature) 2010年12月:31个大豆基因组重测序(Nature Genetics) 2014年10月:野生大豆泛基因组(Nature Biotechn ...
- SNPEFF snp注释 (添加自己基因组)
之间介绍过annovar进行对snp注释,今天介绍snpEFF SnpEff is a variant annotation and effect prediction tool. It annota ...
随机推荐
- 提升WordPress站点速度的八个建议
WordPress是一个很棒的开源程序,几乎我认识的站长朋友当中,粗略估算有80%使用Wordpress.但很棒不等于完美,就在我所认识的这些朋友中,几乎所有人都会抱怨Wordpress太臃肿,运行效 ...
- 反质数(Antiprimes)
转载http://www.cnblogs.com/tiankonguse/archive/2012/07/29/2613877.html 问题描述: 对于任何正整数x,起约数的个数记做g(x).例如g ...
- JSON:org.json的基本用法
java中用于解释json的主流工具有org.json.json-lib与gson,本文介绍org.json的应用. 官方文档: http://www.json.org/java/ http://de ...
- IT公司100题-3-求数组的最大子序列的和
问题描述: 输入一个整形数组,数组里有正数也有负数. 数组中连续的一个或多个整数组成一个子数组,每个子数组都有一个和. 求所有子数组的和的最大值.要求时间复杂度为O(n). 例如输入的数组为1, -2 ...
- javascript作用域(Scope),简述上下文(context)和作用域的定义
网页制作Webjx文章简介:这篇文章将正面解决这个问题:简述上下文(context)和作用域的定义,分析可以让我们掌控上下文的两种方法,最后深入一种高效的方案,它能有效解决我所碰到的90%的问题. 作 ...
- HDU 3377 插头dp
题目大意: 从左上角走到右下角,每个点之多经过一次,取到所有路径上经过点的权值,求最大的权值之和,这里走到右下角就算停止了 这里有个思路是转化成熟悉的回路问题 在上方和右方最外围定义一圈权值为0 , ...
- matlab 画框(三) 画框并保存图像
initstate = [x y w h];%-----------------------------------------Show the tracking resultimshow(uint8 ...
- 红帽中出现”This system is not registered with RHN”的解决方案
原因是你的linux没有在红帽网络上注册,所以无法下载上面的软件包,替代方案可以使用centos. 下面介绍下使用centos 的流程 1.卸载rhel的默认安装的yum包查看yum包rpm -qa| ...
- 解决C#的64位打包程序,在64位机器上运行出现BadImageFormatException异常。
转载自:http://msdn.microsoft.com/zh-cn/library/system.badimageformatexception%28v=vs.100%29.aspx BadIma ...
- PAT 05-树7 File Transfer
这次的题让我对选择不同数据结构所产生的结果惊呆了,一开始用的是结构来存储集合,课件上有现成的,而且我也是实在不太会,150ms的时间限制过不去,不得已,看到这题刚好可以用数组,结果7ms最多,有意思! ...