下载数据

#此处下载对应物种的数据库ftp://ftp.ncbi.nih.gov/genomes/,下载fna格式的即可
 
  wget ftp://ftp.ncbi.nih.gov/genomes/Arabidopsis_thaliana/CHR_I/NC_003070.fna

#将数据改名为Arabidopsis_thaliana.fna
  mv NC_003070.fna Arabidopsis_thaliana.fna

#我下载的是拟兰介的1号染色体,取其前100000行作为我的测试数据
  head -n 100000  Arabidopsis_thaliana.fna > sample.01.fna

下载blast

cd ~
#下载本地blast
  nohup wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.6.0+-x64-linux.tar.gz &

#解压,重命名,环境变量的配置
  sudo tar zxvf tar zxvf ncbi-blast-2.6.0+-x64-linux.tar.gz -C /opt/biosoft/     #解压
  sudo mv /opt/biosoft/ncbi-blast-2.6.0+ /opt/biosoft/ncbi-blast        #重命名

  echo 'PATH=/opt/biosoft/ncbi-blast/bin:$PATH' >> ~/.bashrc        #加入环境变量

  source  ~/.bashrc

  blastn -version

#创建一个db文件夹和一个.ncbirc文件  
  mkdir -p ~/blast/db && cd ~/blast/db
  mv ~/Arabidopsis_thaliana.fna  ./
  mv ~/sample.01.fna ~/blast/db ./
  cd ~ && vim  .ncbirc

#.ncbirc的文件中输入

  [BLAST]

  BLASTDB=/home/train/blast/db


现在才是重点:

Blastn要求格式化好的数据库,从NCBI ftp站点下载下来的fasta格式的数据库不能直接使用,需要使用makeblastdb程序来格式化,命令如下:
../ncbi/bin/makeblastdb -in Arabidopsis_thaliana.fna -parse_seqids -hash_index -dbtype nucl
-in参数后面接将要格式化的数据库,-parse_seqids, -hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype nucl告诉程序这是核酸数据库。

检查数据库是否正确
../ncbi/bin/blastdbcheck -dir ./

运行blastn程序,
../ncbi/bin/blastn -task blastn -query sample.01.fna -db Arabidopsis_thaliana.fna out test.out
-task blastn:任务类型,前面已有描述;
-query NGB.rna:查询序列,必须是fasta格式;
-db human.rna.fna:格式化好的查询数据库;
-out NGB_blast.txt:结果输出文件。

查看结果
less test.out|more

real    18m58.015s
user    18m53.860s
sys     0m2.861s

以下是比对结果的前几行:
BLASTN 2.2.27+

Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs", Nucleic Acids Res. 25:3389-3402.

Database: Arabidopsis_thaliana.fna
           1 sequences; 30,427,671 total letters

Query= gi|240254421|ref|NC_003070.9| Arabidopsis thaliana chromosome 1,
complete sequence

Length=6999930
                                                                      Score        E
Sequences producing significant alignments:                          (Bits)     Value

ref|NC_003070.9|  Arabidopsis thaliana chromosome 1, complete seq...  1.262e+07  0.0

>ref|NC_003070.9| Arabidopsis thaliana chromosome 1, complete sequence
Length=30427671

Score = 1.262e+07 bits (13999860),  Expect = 0.0
 Identities = 6999930/6999930 (100%), Gaps = 0/6999930 (0%)
 Strand=Plus/Plus

Query  1        ccctaaaccctaaaccctaaaccctaaacctctgaatccttaatccctaaatccctaaat  60
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct  1        CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAAT  60

sample.01.fna中一共7099929个碱基,
数据库中一共30,427,671个碱基,
比对花费时间:

real    18m58.015s
user    18m53.860s
sys     0m2.861s

计算机为:Intel(R) Xeon(R) CPU           E5645  @ 2.40GHz

BLAST中的E值(E-value)是什么意思?

BLAST中的E值(E-value)是什么意思?

BLAST是指Basic Local Alignment Search Tool,是生物信息学中的一种序列比对算法,用于寻找蛋白质或核酸的相似序列。

下面是一个BLAST结果,

Sequences producing significant alignments: Score (S) E
gi|83574104|Moth_2374|sporulation – prote… 202 2e-53
gi|83573446|Moth_1696|Sporulation – prote… 112 1e-26
gi|83571874|Moth_0087|sporulation – prote… 95 3e-21
gi|83573435|Moth_1685|Substrate-binding -… 27 1.0

后面有两个值,一个是S值,一个E值。可以发现,结果是依据S值的高低来显示的。

S值表示两序列的同源性,分值越高表明它们之间相似的程度越大。

E值就是S值可靠性的评价。它表明在随机的情况下,其它序列与目标序列相似度要大于S值的可能性。所以它的分值越低越好。

E值的计算:

E=K*m*n*(e-lambda*S)

其中,K和lambda与数据库和算法有关,是个常量;m代表目标序列的长度,n代表数据库的大小,S就是前面提到的S值。
通常来讲,我们认为E值小于10-5就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会比现在这个S值要高的话,那么把E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。

但是E值也不是万能的。它在以下几个情况下有局限性:

1. 当目标序列过小时,E值会偏大,因为无法得到较高的S值。
2. 当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gap scores就非常有用。
3. 有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。

E值总结:

E值适合于有一定长度,而且复杂度不能太低的序列。
当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。
当E值小于10-6时,表两序列的同源性非常高,几乎没有必要再做确认。

 

Blast 如何使用Blast+(Linux)转载的更多相关文章

  1. Serial Port Programming on Linux(转载)

    This is a tutorial on how to program the Serial Ports on your Linux box.Serial Ports are nice little ...

  2. [Linux][转载]Curl命令详解

    命令:curl 在Linux中curl是一个利用URL规则在命令行下工作的文件传输工具,是一款很强大的http命令行工具,当处在无界面的服务器上的时候,利用curl下载上传文件是较为方便的事情. 语法 ...

  3. Linux下BLAST+的本地化(BLAST 2.2.29+)

    链接:http://blog.sciencenet.cn/home.php?mod=space&uid=830496&do=blog&quickforward=1&id ...

  4. 构建NCBI本地BLAST数据库 (NR NT等) | blastx/diamond使用方法 | blast构建索引 | makeblastdb

    参考链接: FTP README 如何下载 NCBI NR NT数据库? 下载blast:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+ 先了解 ...

  5. 祝贺 Linux 25 岁:25 个关于 Linux 的惊人真相!【转载】

    作者:Javen Fang链接:https://zhuanlan.zhihu.com/p/22222383来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 25 年前的这 ...

  6. linux系统中查看系统位数(转载)

    查看系统多少位网上很多种说话   ### getconf WORD_BIT 错误的 这3个是对的        getconf LONG_BIT    echo $HOSTTYPE uname -a  ...

  7. 关于生物项目上的blast和viroblast

    最近要做一个跟生物有关的项目,隔行如隔山呀,好多工具以前都没听过,blast分到我头上啦,查查,查查 BLAST (Basic Local Alignment Search Tool)是一套在蛋白质数 ...

  8. blast | diamond 输出结果选择和解析 | 比对

    之前的文章:构建NCBI本地BLAST数据库 (NR NT等) | blastx/diamond使用方法 | blast构建索引 | makeblastdb 本地运行blast时,需要指定out fo ...

  9. 本地blast的安装

    1 下载程序 在ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/下载 ncbi-blast-2.2.25+-x64-linux.t ...

随机推荐

  1. 【转】.net中快捷键的使用

    当前行行首:Home 当前行行尾:End 当前文档首行:ctrl+Home 当前文档尾行:ctrl+End 选中当前行: ① 按Home(定位到行首)然后按Shift+Dnd(行尾)   {从行首连选 ...

  2. form memory cache、form disk cache与304

    200 from memory cache 不访问服务器,直接读缓存,从内存中读取缓存.此时的数据时缓存到内存中的,当kill进程后,数据将不存在200 from disk cache 不访问服务器, ...

  3. hid_info函数分析

    昨天博文<linux下无线鼠标驱动执行流程>中有一行输出信息很让我迷惑,如下所示: [ :1D57: Mouse [HID Wireless Mouse HID Wireless Mous ...

  4. NGINX中遇到SELinux 13:permission denied

    被selinux坑了.抓包发现端口始终没有流量, 操作过程中还特地dmesg看了c并没发现selinux的异常. https://www.nginx.com/blog/using-nginx-plus ...

  5. In a Web Application and Mobile (hybrid), how to know which this platform running?

    needed depending on the platform to change the CSS to suit the size of the font. for example the DbG ...

  6. linux 新建分区 、格式化 并挂载的命令

    一.新建分区命令为 fdisk /dev/diskname fdisk命令为交互式命令 p:显示当前硬盘上的分区,包括没保存的改动 n:创建新分区 e:表示扩扩展分区 p:表示主分区 d:删除一个分区 ...

  7. JS高阶函数的理解(函数作为参数传递)

    JS高阶函数的理解 高阶函数是指至少满足下列条件之一的函数. · 函数可以作为参数被传递 · 函数可以作为返回值输出 一个例子,我们想在页面中创建100个div节点,这是一种写法.我们发现并不是所有用 ...

  8. 英语发音规则---发/i:/的字母及字母组合

    英语发音规则---发/i:/的字母及字母组合 一.总结 一句话总结: 1.字母组合ee发/iː/? bee beef see agree week meeting feel sweet free be ...

  9. 常见SQL函数需要注意的细节

    版权声明:本文为博主原创文章,未经博主允许不得转载. 这是一位牛人让我们思考的问题,说实话当时真蒙了,函数虽然明白,但细化到这种程度,真的是叫不准啊,下面是几道比较典型的问题,和本人做的实验,不一定准 ...

  10. 用React写一个工大导航

    Online: https://brenner8023.github.io/gdut-nav/ GitHub地址: https://github.com/brenner8023/gdut-nav 笔者 ...