ncbi-blast 本地安装
详见:http://blog.shenwei.me/local-blast-installation/
Linux系统中NCBI BLAST+本地化教程
本文面向初学者(最好还是懂得基本的linux使用),高手可直接忽视。不介绍Windows系统中的安装方法,一是因为思路一样,二是因为Linux中BLAST效率更高,系统更稳定,不会卡死。所以,请用Linux服务器,我想你也不忍心让自己心爱的本本跑几十个小时的程序吧。
请不要因为篇幅长,而觉得很困难,只是为了初学者能懂,叙述比较详(luo)细(suo)而已
——————-[ 做好心理准备,开始了]——————-
1. 安装配置BLAST+程序
在ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/中下载最新的BLAST可执行程序(不要下载源代码`,源码编译非常慢),选择预编译版本,如ncbi-blast-2.2.30+-x64-linux.tar.gz。如果服务器能联网,可直接用wget下载。或者,下载后用SFTP客户端传输到服务器上。
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.2.30+-x64-linux.tar.gz
解压缩: tar -zxvf ncbi-blast-2.2.+-x64-linux.tar.gz
(按理说解压缩后就可以通过绝对路径直接使用了,但为了今后的方便,还是继续配置吧)为了方便,将其移动到我安装本地程序的目录(参考《[Linux上设置良好的目录结构][1]》),并重命名(固定命名,不带版本号,避免因升级而修改配置文件),统一管理。
mv ncbi-blast-2.2.+ ~/local/app/ # 移动
cd ~/local/app/ # 进入本地程序安装路径
mv ncbi-blast-2.2.+ blast # 修改目录名
现在,已经将BLAST+安装到~/local/app/blast
中了(~知道吧,就是用户的家目录,可用环境变量$HOME代替)。
[shenwei@mu01 blast]$ pwd # 查看当前目录的绝对路径
/db/home/shenwei/local/app/blast
[shenwei@mu01 blast]$ ls # 查看当前目录的内容
bin ChangeLog doc LICENSE ncbi_package_info README
将BLAST+可执行程序所在目录(bin)的绝对路径加入到环境变量$PATH中,方便通过程序名直接调用。编辑~/.bashrc文件,在最后加入以下行:
export PATH=/db/home/shenwei/local/app/blast/bin:$PATH
如果不会使用vi/vim等编辑器,可直接运行下列一行命令,将上述内容添加到~/.bashrc文件(看清楚,和上面不同的是:$被转义了的):
echo "export PATH=/db/home/shenwei/local/app/blast/bin:\$PATH" >> ~/.bashrc
让配置生效:
source ~/.bashrc
到此,你就可以直接输入BLAST的子程序,如blastn进行比对了。试试输入blast -version
,看看是否如下显示:
[shenwei@mu01 blast]$ blastn -version
blastn: 2.2.+
Package: blast 2.2., build Dec ::
——————-[ 休息一下,鼓励一下自己 ] ——————-
2. 配置本地BLAST库
当需要进行大量比对的时候,将BLAST数据库本地化能极大提高效率。
我存放库文件的目录为~/data/blast
。建立并编辑(如果还不会编辑,就复制到本地的一个文本文件ncbirc.txt,然后传到服务器,再改名mv ncbirc.txt .ncbirc
)NCBI BLAST全局配置文件(在家目录),内容如下:
[shenwei@mu01 ~]$ cat .ncbirc # 这是查看文件内容的命令,下面才是内容
; Start the section for BLAST configuration [BLAST] ; Specifies the path where BLAST databases are installed
BLASTDB=/db/home/shenwei/data/blast ; Specifies the data sources to use for automatic resolution ; for sequence identifiers
DATA_LOADERS=blastdb ; Specifies the BLAST database to use resolve protein sequences
BLASTDB_PROT_DATA_LOADER=/db/home/shenwei/data/blast/nr ; Specifies the BLAST database to use resolve protein sequences
BLASTDB_NUCL_DATA_LOADER=/db/home/shenwei/data/blast/nt BATCH_SIZE=10G ; Windowmasker settings [WINDOW_MASKER]
WINDOW_MASKER_PATH=/db/home/shenwei/data/blast/windowmasker ; end of file
配置好后,后面选择库的时候就可以只输入名称(比如nr),不用输入绝对路径了。
3. 下载库文件
配置好之后,使用BLAST+自带的update_blastdb.pl脚本下载nr和nt等库文件(不建议下载序列文件,一是因为后者文件更大,二是因为可以从库文件中提取序列blastdbcmd -db nr -dbtype prot -entry all -outfmt "%f" -out nr.fa
,最主要是建库需要花费很长时间),直接运行下列命令即可自动下载。
update_blastdb.pl nt nr
提醒:下载文件较大,耗费时间较长,最好将任务转入后台。详见《Shell Note》中“用screen运行大量后台任务”部分。简单的做法,也可用nohup命令(下面nohup后面用了time命令,是为了看看整个消耗的时间):
nohup time update_blastdb.pl nt nr > log &
监控库文件是否下载完成,如何判断? 1. 查看log文件是否有提示;2. 查看update_blastdb.pl是否还在运行:执行ps -aef | grep update_blastdb.pl | grep -v update_blastdb.pl
命令,如过没有结果,则说明没有运行了。
下载完成后解压所有tar.gz文件(用通配符)即可:
nohup time tar -zxvf *.tar.gz > log2 &
提示:今后要更新库文件的时候,按照上述方法重新下载解压即可。
常用的BLAST库文件(比如基因组参考序列)也可以加入其中,今后调用的时候就不用输入库 文件的绝对路径了。
——————-[ 赞扬一下自己 ] ——————-
4. 基本用法
可直接Google中文教程。更权威,更详细的请参考BLAST手册《BLAST Command Line Applications User Manual》。具体参数信息可直接输入blastn -help` 查阅。
提示:blast输出格式有多种,其中11包含信息最全,其它格式都可用blast_formatter程序由11转化为其它格式。所以,比对结果请使用11格式。
1)如果本地化了nt库,直接在nt库中比对,部分参数的中文意义可见《BLAST+使用方法》。
blastn -query test.fa -db nt -outfmt -out "test.blastn@nr.asn" -num_threads
其中输出文件名test.blastn@nr.asn是个人习惯,即“序列文件名.blast子程序名@库名.结果格式”,这样是不是很直观?
转换格式(如自定义表格格式):
blast_formatter -archive "test.blastn@nr.asn" -outfmt "7 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore staxids salltitles" > "test.blastn@nr.tab"
转为默认格式 :
blast_formatter -archive "test.blastn@nr.asn" -outfmt > "test.blastn@nr.blast"
2)如果没有本地化nt库,可添加-remote选项(就不能使用-num_threads参数了),进行在线比对(当然要慢一些,适合数据不多的情况):
blastn -query test.fa -db nt -outfmt -out "test.blastn@nr.asn" -remote
3)用自己的序列建库
makeblastdb -in db.fasta -dbtype nucl -parse_seqids -out dbname
如果该库需要经常使用,可将库文件移到前面配置的库文件的目录,今后在其它目录运行blast的时候,便可直接输入库名(不用输入绝对路径),直接使用。
mv dbname.* ~/data/blast
————- [ 在实践中学习,不会的请google、看手册] ————-
ncbi-blast 本地安装的更多相关文章
- 【原】nodejs全局安装和本地安装的区别
来微信支付有2年多了,从2年前的互联网模式转变为O2O模式,主要的场景是跟线下的商户去打交道,不像以往的互联网模式,有产品经理提需求,我们帮忙去解决问题. 转型后是这样的,团队成员更多需要去寻找业务的 ...
- npm全局安装和本地安装和本地开发安装(npm install --g/--save/--save-dev)
详细说明参考:http://www.cnblogs.com/PeunZhang/p/5629329.html 我个人理解: 1.全局安装(npm install -g)是为了用命令行,比如在windo ...
- maven本地安装jar包同时生成pom文件
maven 本地安装jar包:mvn install:install-file -Dfile=本地路径/ojdbc12.jar -DgroupId=com.oracle -DartifactId=oj ...
- 本地yum库制作及本地安装Docker
生产环境中,我们总是会遇到服务器无法连接外网的情况,这样,如果想安装某个应用,而这个应用依赖的其他类库又特别多,就很痛苦了.这个时候,就需要自己制作个本地的yum库,进行本地安装.本文将以Docker ...
- 本地安装xssing
本地安装xssing 环境为apache+mysql+php,linux下和Windows均进行了尝试. 步骤: (1)Mysql中创建xing数据库,将xssing.sql中的语句复制并在xing数 ...
- 使用XAMPP本地安装Wordpress博客
最近一直在研究博客,也知道了大名鼎鼎的wordpress,因此也希望动手尝试一下,看看跟网站提供的博客有何区别. 第一个问题:能什么安装wordPress,能否用tocmat? 虽然问题很可笑,但是之 ...
- 本地安装discuz
出处:http://jingyan.baidu.com/article/b87fe19eb57ff252183568d9.html 网站建目前都很简单,建站容易,管理难,网站做大优化更难.本人有建站经 ...
- nodejs npm install全局安装和本地安装的区别
npm的包安装分为本地安装(local).全局安装(global)两种,从敲的命令行来看,差别只是有没有-g而已,比如:代码如下:复制代码npm install # 本地安装npm install - ...
- Discuz建站教程:本地安装discuz网站
网站建目前都很简单,建站容易,管理难,网站做大优化更难.本人有建站经验,目前给大家分享一下如何建站,当然,目前使用的是本地建站,因为非本地建站需要购买域名和网站空间,当然,朋友们想真正建站的,对于一些 ...
随机推荐
- 微信公众号 唤醒手机导航APP 一看就懂 复制即用
公司自研发框架,基本上没啥看不懂的 基本都是直接复制用就好了!希望能帮助到需要的朋友! 新建俩个同级文件用来保存 jsapi_ticket 和 access_token的文件 命名:jsapi_tic ...
- Date、Time类型拼接成字符串
Date.Time类型拼接成字符串 语言用的是kotlin,和Java类似 var time = "" val sdf1 = SimpleDateFormat("yyyy ...
- 使用Merkle树检测数据不一致(翻译)
背景 Cassandra的逆熵功能使用Merkle树来检测副本之间的数据不一致. 定义 Merkle树是一种哈希树,其中的叶子包含各个数据块的哈希值,父节点包含其各自的子节点的哈希值.它提供了一种有效 ...
- Robot Framework中对出错用例处理的策略
出错后退出 在默认情况下,当一个测试用例中的某个关键字返回错误时,这个测试用例就停止执行剩余的关键字.RF会继续执行下一个用例.这么做的好处是节省时间--反正这里出问题要返回来看了,再继续执行剩下的关 ...
- SVN打patch,某Java文件提示svn:mime-type = application/octet-stream的问题
在使用SVN合版本时发现某文件有冲突,正常冲突文件是可以编辑修改的,但是该文件无法编辑,我只好选择后续修改选项,问题好诡异啊!!!在解决完其他冲突后,我选择了在eclipse开发工具内将修改的代码调整 ...
- Trailhead Lightning 学习 一
计划学习一下莱特宁,从最基本的开始学习,脚踏实地.不忘初心,牢记使命,以下是查阅的资料. 简介 在此Salesforce教程中,将阐述Salesforce Lightning的基础知识,并了解Sale ...
- java 类初识
一.定义 成员变量 成员方法 注意: 1.成员变量有默认值,是全局变量 2.成员方法,不需要使用static 3.成员变量的默认值 整型 0 浮点型 0.0 引用数据类型 null 二.使用 1.导包 ...
- MySql 常用时间函数
1.date() 提取日期或日期时间表达式的日期部分 select date(create_time) from blog_article; 2.date_format() select date_f ...
- ASP.NET Cookie是怎么生成的
ASP.NET Cookie是怎么生成的 可能有人知道Cookie的生成由machineKey有关,machineKey用于决定Cookie生成的算法和密钥,并如果使用多台服务器做负载均衡时,必须指定 ...
- 使用FileZilla Pro S3协议访问七牛云对象存储
偶然发现FileZilla还有Pro版本,主要是比免费版多了一些协议支持,也偶然发现七牛云支持了S3协议接口,这样刚好弥补了其没有FTP的不足,于是找官方文档,折腾一下,使用FileZilla Pro ...