InterProScan 5.25-64.0 安装和使用
InterProScan 5.25-64.0 安装和使用,目前最新版的interproscan
引用自 每日一生信--interproscan安装及使用(终结版)原文官网:http://code.google.com/p/interproscan/wiki/Introduction
配置要求:至少2 cores and 4 GB of RAM, 这样才能同时分析5 - 10 sequences .
软件要求:
Linux, 32 bit or 64 bit (64 bit recommended).
Perl (default on most Linux distributions)
Oracle's Java JDK/JRE version 6u4 and higher (which also includes Java 7)
Environment variables set
JAVA_HOME should point to the location of the JVM
$JAVA_HOME/bin should be added to the CLASSPATH
查看我的配置:
[wq@localhost ~]$ uname -a
Linux localhost.localdomain 2.6.18-238.el5 #1 SMP Sun Dec 19 14:22:44 EST 2010 x86_64 x86_64 x86_64 GNU/Linux
其中x86_64代表64 Bit
[wq@localhost ~]$ java -version
java version "1.6.0_35"
OpenJDK Runtime Environment (IcedTea6 1.13.7) (rhel-1.13.7.1.el5_11-x86_64)
OpenJDK 64-Bit Server VM (build 23.25-b01, mixed mode)
如果你的系统式redhat,自带java版本1.4,需要对java进行升级,使用yum就可以升级,yum安装可以查看我的另一篇博客
[wq@localhost ~]$perl -version
This is perl, v5.8.8 built for x86_64-linux-thread-multi
Copyright 1987-2006, Larry Wall
Perl may be copied only under the terms of either the Artistic License or the
GNU General Public License, which may be found in the Perl 5 source kit.
Complete documentation for Perl, including FAQ lists, should be found on
this system using "man perl" or "perldoc perl". If you have access to the
Internet, point your browser at http://www.perl.org/, the Perl Home Page.
安装interproscan5
1获得InterProScan software(x64)
mkdir interproscan
cd interproscan
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.18-57.0/interproscan-5.25-64.0-64-bit.tar.gz
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.18-57.0/interproscan-5.25-64.0-64-bit.tar.gz.md5
# 使用md5保证下载文件的完整性,返回OK才证明完整
md5sum -c interproscan-5.25-64.0-64-bit.tar.gz.md5
2解压缩
tar -pxvzf interproscan-5.25-64.0-64-bit.tar.gz
2.安装panther Models
下载Panther Models到刚解压缩的文件的子目录/data下面
cd [InterProScan5 home]/data/
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-11.1.tar.gz
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-11.1.tar.gz.md5
这个文件大小大概为12 GB,下载结束后需要检查一下MD5
md5sum -c panther-data-11.1.tar.gz.md5
出现# This must return *panther-data-11.1.tar.gz: OK*证明下载的没问题,否则重新下载
解压缩
tar -pxvzf panther-data-11.1.tar.gz
如果想把这个放在其他的文夹件的话,可以修改[InterProScan5 home]/interproscan.properties 文件,改下面的东西
panther.models.dir.10.0=PATH_TO/panther/11.1/model
3. 使用Pre-calculated Match Lookup 网络服务器
The pre-calculated match lookup网页服务器能够提供超过3千万蛋白序列的比对,包括所有的UniProtKB蛋白序列. InterProScan 5使用这个服务器能够加速本地服务器的速度。这是这个版本的特点要想使用这个服务器的话,需要电脑能上网:http://www.ebi.ac.uk
如果你的电脑防火墙阻止访问这个网站,你可以下载本地化的InterProScan 5 lookup service(https://code.google.com/p/interproscan/wiki/LocalLookupService)或者关掉这个功能关掉这个功能的时候,你可以在命令行加入-dp 或者修改interproscan.properties 在前面加一个#注释掉即可
precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup
如何使用interproscan
./interproscan.sh -i /path/to/sequences.fasta –o /san/ –goterms –iprlookup –pa -f xml
可以运行其提供的例子: ./interproscan.sh -i test_proteins.fasta -f tsv
会得到tsv格式的结果,里面包含了很多数据库Gene3d, PIRSF,PRINTS,PANTHER,SUPERFAMILY,PFAM,TIGERFAM等比对的结果。
如果运行不了,请参考该网页提供的问题解决方案:
https://code.google.com/p/interproscan/wiki/FAQ#3.What_should_I_do_if_one_of_the_binaries_included_with_InterProScan_5_does_not_work_on_my_system?
Cd /interproscan
可以直接在终端输入./interproscan.sh,你会看到用法信息
-appl 单独分析,没有这个的话,所有的结果都将呈现
指定数据库,可以不加数据库的版本
./interproscan.sh -appl PfamA -i /path/to/sequences.fasta
If you wish to specifically run two or more analyses you can include multiple -appl arguments:
也可以指定多个数据库
./interproscan.sh -appl PfamA-27.0 -appl PRINTS-42.0 -i /path/to/sequences.fasta
or you can use a single -appl option with a comma-separated list of analyses:
或者可以通过,把多个数据放在一起。
./interproscan.sh -appl PfamA,PRINTS -i /path/to/sequences.fasta
A list of all available analyses is in the section "Included Analyses"
-b base output filename指定生成文件路径,跟-o效果一样,如果不加,默认的名字和路径。自动往生成文件名加指定文件后缀。
-d output directory, 跟-b ,-o互斥,
-dp 关闭precalculated match lookup service,默认的是开启。根据md5值来快速检验这上传的数据是否已经被注释了,如果是已经注释了就直接出结果。节省时间。
-f 输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG。蛋白默认的格式为
TSV, XML 和 GFF3, 核酸的格式之前为GFF3 和XML,现在都可以了哦。
./interproscan.sh -f XML -f HTML -i /path/to/sequences.fasta -b /path/to/output_file
or
./interproscan.sh -f XML, HTML -i /path/to/sequences.fasta -b /path/to/output_file
集中输出格式的区别:https://code.google.com/p/interproscan/wiki/OutputFormats
-i 输入的为fasta格式文件。
-goterms开启GO注释,但前面要加上-iprlookup参数
-iprlookup开启interpro注释
-ms 最小核酸ORF的大小,如果设置的小的话,花的时间会长。
-o 跟前面的-b.-d不能同时出现,如果设置了这个,就必须设置-f
-pa 开启可能的代谢注释
-T 默认的临时文件在/tmp,这个是可以设置临时文件的位置
-t 输入序列的类型。默认的是蛋白, 可以为dna或者为rna
涉及到的数据库:
可以直接用的。
TIGRFAM-XX.X : TIGRFAMs 基于隐马尔可夫模型的蛋白家族库
ProDom-XXXX.X: ProDom 是由UniProt Knowledge Database自动生成的蛋白域家族。
Panther-X.X : The PANTHER (Protein ANalysis THrough Evolutionary Relationships)是一个独立的根据功能来分类平台,使用已公布的实验证据和进化关系来预测没有直接实验证据的基因的功能,
SMART-X.X : SMART 可以用来鉴别和分析基于隐马尔可夫模型的域构架 PrositeProfiles-XX.XX :PROSITE 包含描述蛋白域,家族,功能位点和关系的入口文件,用来
区别这些蛋白的编号。
PrositePatterns-XX.X.XX :同上
SuperFamily-X.XX : SUPERFAMILY可以给核酸和蛋白做功能和结果注释的数据库。 PRINTS-XX.X : A fingerprint是一个保守的模型用来描述蛋白家族。 Gene3d-X.X.X :通过使用 CATH域结构数据库来对全基因和基因组进行结构分析
PIRSF-X.XX : The PIRSF是用来但做一个指导把UniProtKB序列进行无重叠和深度分类,来反映他们进化关系
PfamA-XX.X : 一大类蛋白家族,每一个代表对序列比对和隐马尔可夫的结果。
HAMAP-XXXXXX.XX : High-quality Automated and Manual Annotation of Microbial Proteomes高质量自动注释和手工注释微生物的蛋白组
Coils-X.X :对蛋白组卷曲螺旋区域的预测
无效的分析:
SignalP-GRAM_NEGATIVE-X.X : Analysis SignalP-GRAM_NEGATIVE-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path
SignalP-GRAM_POSITIVE-X.X : Analysis SignalP-GRAM_POSITIVE-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path
SignalP-EUK-X.X : Analysis SignalP-EUK-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path
Phobius-X.XX : Analysis Phobius-X.XX is deactivated, because the following parameters are not set in the interproscan.properties file: binary.phobius.pl.path.X.XX
TMHMM-X.Xc : Analysis TMHMM-X.Xc is deactivated, because the following parameters are not set in the interproscan.properties file: binary.tmhmm.path
核酸序列的扫描
Emboss getorf.是内嵌在interproscan中的基因预测的软件,如果你想本地安装这个软件的话,必须修改interproscan.sh script
# set environment variables for getorf
export EMBOSS_ACDROOT=bin/nucleotide
export EMBOSS_DATA=bin/nucleotide
如果输入的是核酸序列,在运行命令的时候需要加入-t这个参数
./interproscan.sh -t n -i /path/to/nucleic_acid_sequences.fasta
格式转换
可以将xml转化为其他的格式
./interproscan.sh -mode convert -f tsv,gff3,svg -i /path/to/impact.xml -o /path/to/output_file_basename
InterProScan 5.25-64.0 安装和使用的更多相关文章
- InterProScan 5.17-56.0 安装和使用
InterProScan 5.18-57.0 安装和使用,目前最新版的interproscan 引用自 每日一生信--interproscan安装及使用(终结版)原文官网:http://code.go ...
- CentOS6.0(64位)安装Apache+PHP+Mysql教程,安装Magento(解决DOM,Mcrypt,GD问题)完整教程
CentOS6.0(64位)安装Apache+PHP+Mysql教程,安装Magento(解决DOM,Mcrypt,GD问题)完整教程 0 Posted by :小黑 On : 2012 年 9 ...
- hadoop2.6.0汇总:新增功能最新编译 32位、64位安装、源码包、API下载及部署文档
相关内容: hadoop2.5.2汇总:新增功能最新编译 32位.64位安装.源码包.API.eclipse插件下载Hadoop2.5 Eclipse插件制作.连接集群视频.及hadoop-eclip ...
- hadoop2.2.0伪分布模式64位安装
hadoop2.2.0伪分布模式64位安装用到的软件:jdk-6u45-linux-x64.bin,hadoop-2.2.0.x86_64.tar.gz 修改主机名vim /etc/sysconfig ...
- Win10 64位+VS2015+Opencv3.3.0安装配置
Win10 64位+VS2015+Opencv3.3.0安装配置 1.我们首先下载VS2015.OpenCV3.3.0. 1.1 VS2015下载 在官网https://visualstudio.mi ...
- Windows7 64位安装配置Apache2.4+PHP5.4+MySQL5.5+Xdebug
PHP更新已经到了5.4.7了,之前是用PHPstudy安装的PHP5.2.13版本,今天有空,就把之前的集成安装卸载了.换上了新一代PHP,记录一下.. 环境:Windows7 64位(内部版本76 ...
- Greenplum5.16.0 安装教程
Greenplum5.16.0 安装教程 一.环境说明 1.1官方网站 Greenplum官方安装说明:https://gpdb.docs.pivotal.io/5160/install_guide/ ...
- 【linux】【jdk】jdk8.0安装
系统环境:Centos7 一.下载jdk8.0 jdk官方网站:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downlo ...
- Red Hat Enterprise Linux 8.0 安装
Red Hat Enterprise Linux 8.0 安装 本次安装通过使用VMware Workstation 15 pro 进行. 1.新建虚拟机 2.点击首页的创建新的虚拟机,或者点击标签栏 ...
随机推荐
- 部署不能产生class文件的问题
项目clean和重新部署项目之后,还是不能产生class文件:查看“Problem”视图,是lib路径有问题,右击项目→“Build Path”→“Configure Build Path”,Libr ...
- 介绍一款jquery ui组件gijgo(含tree树状结构、grid表格),特点:简易、文档全清晰易懂、示例代码
http://gijgo.com gijgo组件 特点:简易.文档全-虽然是英文的但是清晰易懂可读性强.含示例代码(后端直接用原生.Net C# MVC的哦!非常合.Net开发胃口),网站网速快, ...
- 图->连通性->最小生成树(普里姆算法)
文字描述 用连通网来表示n个城市及n个城市间可能设置的通信线路,其中网的顶点表示城市,边表示两城市之间的线路,赋于边的权值表示相应的代价.对于n个定点的连通网可以建立许多不同的生成树,每一棵生成树都可 ...
- java 网络编程(三)简单的即时通讯(UDP传输)
发送端: package cn.sasa.netDemo2; import java.io.IOException; import java.net.DatagramPacket; import ja ...
- 洛谷P2329 栅栏 [SCOI2005] 搜索
正解:搜索 解题报告: 先放下传送门! 首先说下爆搜趴,就直接枚每个需求是否被满足以及如果满足切哪个板子,随便加个最优性剪枝,似乎是有80pts 然后思考优化 首先显然尽量满足需求比较小的,显然如果能 ...
- Hibernate的一个小应用
hibernate 第一步,导入hiberante需要用到的jar包,因为使用hibernate时候,有日志信息输出,hibernate本身没有日志输出的jar包,导入其他日志的jar包 不要忘记还有 ...
- Docker 引擎(三)
Docker 引擎是一个包含以下主要组件的客户端服务器应用程序. 一种服务器,它是一种称为守护进程并且长时间运行的程序. REST API用于指定程序可以用来与守护进程通信的接口,并指示它做什么. 一 ...
- python-面向对象-06_私有属性和私有方法
私有属性和私有方法 01. 应用场景及定义方式 应用场景 在实际开发中,对象 的 某些属性或方法 可能只希望 在对象的内部被使用,而 不希望在外部被访问到 私有属性 就是 对象 不希望公开的 属性 私 ...
- JS页面跳转代码怎么写?总结了5种方法
我们在建站时有些链接是固定的,比如客服咨询链接,一般是第三方url,如果直接加上去不太专业,那么就想着用站内的页面做跳转,跳转用js比较多,那么JS页面跳转代码怎么写呢?ytkah在网上搜索了一下,大 ...
- python安装talib库
简便安装方法 最简单的安装方式: $ pip install TA-Lib 用setup.py的方式自己安装一个源文件 $ python setup.py install 有可能遇到的问题 func. ...