Blast本地化
转载]Blast本地化:使用Blastall进行数据库比对
(2012-02-13 21:25:31)
用blastall进行序列比对
blastall是最常用的blast程序之一,其功能非常强大,其下面有非常多的参数,但是一般使用的参数如:-p、-i、-d、-o、-e等几个。
- -p: 执行的程序名称
- -d: 搜索的数据库名称
- -i : 要查询的序列文件名(Query File)
- -e:(数学)期望值(Expectation value),E值是个统计阈值,缺省值10, 意指比对结果中由于随机偶然性产生的匹配结果不大于10,E值越小结果越可靠。
- -o :查询结果输出文件名
- -m: 比对结果显示格式选项,缺省值为0 ,即pairwise格式。另外还可以根据不同的需要选择1~6等不同的格式。
- -I :在描述行中显示gi号[T/F],缺省值F
- -v :单行描述(one-line description)的最大数目,缺省值500
- -b :显示的比对结果的最大数目,缺省值250
- -F :对于要查询的序列做低复杂度区域(low complexity regions, LCR)的过滤[T/F],缺省值T。对blastn用的是DUST程序,其他比对用的是SEG程序。
- 所谓“低复杂度区域”是指某些或一些残基过多表现,短周期重复等。对于高等哺乳动物的基因组序列,可以先用RepeatMask程序遮蔽重复元件。在输出结果中,对LCR区的序列核酸用“N”代替,蛋白质序列用“X”代替。
- -a:运行BLAST程序所使用的处理器的数目,缺省值1
- -S:在数据库中搜索时所使用的核酸链(strand),只对blastn、blastx和tblastx有效;1表示top,2表示bottom,3表示both;缺省值3
- -T: 产生HTML格式的输出[T/F],缺省值F
- -n: 使用MegaBlast搜索[T/F],缺省值F
- -G: 打开一个gap的罚分(0表示使用缺省设置值),默认0
- -E: 扩展一个gap的罚分(0表示使用缺省设置值),默认0
- -q: 一个核酸碱基的错配(mismatch)的罚分(只对blastn有效),缺省值-3
- -r : 一个核酸碱基的正确匹配(match)的奖分(只对blastn有效),缺省值1
- -M: 所使用的打分矩阵,缺省值BLOSUM62
1.1.1. 参数说明
基本参数、比对优化参数、结果输出参数、控制输入参数
表:blastall命令的参数说明
| 参数 | 说明 | 值 | 默认值 | 备注 |
| -p | 使用的程序 | 字符[String] | blastnblastpblastx
tblastn tblastx |
|
| -d | 使用的数据库 | 文件名[File In] | nr | |
| -i | 搜索用的序列 | 文件名[File In] | stdin | |
| -e | 期望值 | 数字[Real] | 10.0 | |
| -m | 控制比对结果的样式 | 0到11的整数[Integer] | 0 | 0 = pairwise,1 = query-anchored showing identities,2 = query-anchored no identities,
3 = flat query-anchored, show identities, 4 = flat query-anchored, no identities, 5 = query-anchored no identities and blunt ends, 6 = flat query-anchored, no identities and blunt ends, 7 = XML Blast output, 8 = tabular, 9 tabular with comment lines 10 ASN, text 11 ASN, binary |
| -o | 比对结果存放的文件名 | 文件名[File Out] | stdout | |
| -F | 过滤询问序列 | [String] | T | DUST with blastn, SEG with others |
| -G | 打开gap得分 | [Integer] | -1 | |
| -E | 延伸gap得分 | [Integer] | -1 | |
| -X | X dropoff value for gapped alignment (in bits) | [Integer] | 0 | blastn 30, megablast 20, tblastx 0, all others 15 |
| -I | 显示gi号Show GI’s in deflines | [T/F] | F | |
| -q | 核酸错配罚分 | [Integer] | -3 | blastn only |
| -r | 核酸匹配得分 | [Integer] | 1 | blastn only |
| -v | Number of database sequences to show one-line descriptions for (V) | [Integer] | 500 | |
| -b | Number of database sequence to show alignments for (B) | [Integer] | 250 | |
| -f | Threshold for extending hits | [Integer] | 0 | blastp 11, blastn 0, blastx 12, tblastn 13, tblastx 13, megablast 0 |
| -g | Perform gapped alignment | [T/F] | T | not available with tblastx |
| -Q | 指定询问序列使用的遗传密码 | [Integer] | 1 | |
| -D | 指定数据使用的遗传密码 | [Integer] | 1 | for tblast[nx] only |
| -a | 使用CPU的数目 | [Integer] | 1 | |
| -O | SeqAlign file | [File Out] | 可选 | |
| -J | Believe the query defline | [T/F] | F | |
| -M | 比对使用的矩阵 | [String] | BLOSUM62 | |
| -W | Word size | [Integer] | 0 | blastn 11, megablast 28, all others 3 |
| -z | 数据库的有效长度Effective length of the databas | [Real] | 0 | use zero for the real size |
| -K | Number of best hits from a region to keep | [Integer] | 0 | off by default, if used a value of 100 is recommended |
| -P | 0 for multiple hit, 1 for single hit | [Integer] | 0 | does not apply to blastn |
| -Y | Effective length of the search space | [Real] | 0 | use zero for the real size |
| -S | Query strands to search against database | [Integer] | 3 | for blast[nx], and tblastx, 3 is both, 1 is top, 2 is bottom |
| -T | 将结果保存为HTML格式 | [T/F] | F | |
| -l | 通过gi号列表,限制搜索范围 | [String] | Optional | |
| -U | Use lower case filtering of FASTA sequence | [T/F] | Optional | |
| -y | X dropoff value for ungapped extensions in bits | [Real] | 0.0 | 0.0 invokes default behavior blastn 20, megablast 10, all others 7 |
| -Z | X dropoff value for final gapped alignment in bits | [Integer] | 0 | blastn/megablast 50, tblastx 0, all others 25 |
| -R | PSI-TBLASTN checkpoint file | [File In] | Optional | |
| -n | MegaBlast search | [T/F] | F | |
| -L | Location on query sequenc | [String] | Optional | |
| -A | Multiple Hits window size | [Integer] | 0 | default if zero (blastn/megablast 0, all others 40) |
| -w | Frame shift penalty | [Integer] | 0 | OOF algorithm for blastx |
| -t | Length of the largest intron allowed in a translated nucleotide sequence when linking multiple distinct alignments | [Integer] | 0 | 0 invokes default behavior; a negative value disables linking. |
| -B | Number of concatenated queries | [Integer] | 0 | for blastn and tblastn |
| -V | Force use of the legacy BLAST en gine | [T/F] | F | Optional |
| -C | Use composition-based statistics for tblastn | [String] | D | D or d: default (equivalent to F) 0 or F or f: no composition-based statistics 1 or T or t: Composition-based statistics as in NAR 29:2994-3005, 2001
2: Composition-based score adjustment as in Bioinformatics 21:902-911, 2005, conditioned on sequence properties 3: Composition-based score adjustment as in Bioinformatics 21:902-911, 2005, unconditionally For programs other than tblastn, must either be absent or be D, F or 0. |
| -s | Compute locally optimal Smith-Waterman alignments | [T/F] | F | This option is only available for gapped tblastn. |
1.1.2. 使用说明与示例
程序使用说明
| 程序名 | 搜索序列 | 数据库 | 说明 | 备注 |
| blastn | 核酸 | 核酸 | 用核酸序列搜索核酸数据库 | |
| blastp | 蛋白质 | 蛋白质 | 用蛋白质(氨基酸)序列搜索蛋白质数据库 | 寻找较高分值的匹配,对较远关系的不太适用 |
| blastx | 核酸 | 蛋白质 | 用核酸双链序列理论上的六种框架的所有翻译结果搜索蛋白质数据库,用于新的序列和ESTs的分析 | 转译搜索序列 |
| tblastn | 蛋白质 | 核酸 | 用搜索的蛋白质和数据库中核酸的 | 用于寻找数据库中没有标注的编码区 |
| tblastx | 核酸 | 核酸 |
比对命令示例
blastall-p blastn-i U00096.ffn -d ecoli-o U00096_Vs_ecoli_blastn.out -F F blastall-p blastp-i U00096.faa -d nr -o U00096_Vs_NR_blastp.htm -e 0.01 -b 1 -v 1 -T T blastall-p blastx-i U00096.ffn -d nr -o U00096_Vs_NR_blastx.htm -e 1e-5 -b 1 -v 1
Blast本地化的更多相关文章
- ncbi-blast 本地安装
详见:http://blog.shenwei.me/local-blast-installation/ Linux系统中NCBI BLAST+本地化教程 本文面向初学者(最好还是懂得基本的linux使 ...
- Linux下BLAST+的本地化(BLAST 2.2.29+)
链接:http://blog.sciencenet.cn/home.php?mod=space&uid=830496&do=blog&quickforward=1&id ...
- BLAST在Windows系统中本地化
简介 NCBI除了提供在线的Web BLAST序列比对服务外,还提供FTP方式下载序列比对工具.这允许在本地平台上针对从NCBI下载或本地创建的数据库执行BLAST搜索.这些实用程序没有图形用户界面, ...
- blast及其格式输出简介
1)blast产生背景 双序列比对可以采用是基于动态规划算法的Needleman-Wunsch(NW)和Smith-Waterman algorithm(SW)算法,虽然精度高,但计算消耗大.当与数据 ...
- ABP文档 - 本地化
文档目录 本节内容: 简介 应用语言 本地化源 XML文件 注册XML本地化源 JSOn文件 注册JSON本地化源 资源文件 自定义源 获取一个本地文本 在服务端 在MVc控制器里 在MVC视图里 在 ...
- JS魔法堂:不完全国际化&本地化手册 之 理論篇
前言 最近加入到新项目组负责前端技术预研和选型,其中涉及到一个熟悉又陌生的需求--国际化&本地化.熟悉的是之前的项目也玩过,陌生的是之前的实现仅仅停留在"有"的阶段而已. ...
- 一步一步使用ABP框架搭建正式项目系列教程之本地化详解
返回总目录<一步一步使用ABP框架搭建正式项目系列教程> 本篇目录 扯扯本地化 ABP中的本地化 小结 扯扯本地化 本节来说说本地化,也有叫国际化.全球化的,不管怎么个叫法,反正道理都是一 ...
- ABP源码分析十二:本地化
本文逐个分析ABP中涉及到locaization的接口和类,以及相互之间的关系.本地化主要涉及两个方面:一个是语言(Language)的管理,这部分相对简单.另一个是语言对应得本地化资源(Locali ...
- ABP源码分析四十三:ZERO的本地化
ABP Zero模块扩展了ABP基础框架中的本地化功能,实现了通过数据库管理本地化的功能.其通过数据库保存本地化语言及其资源. ApplicationLanguage:代表本地化语言的实体类.一种语言 ...
随机推荐
- 关于.Net的面试遐想
概述 这几天更新相关的面试题目,主是要针对有4年或以上经验的面试者,总体来说,发现面试人员的答题效果和预期相差比较大,我也在想是不是我出的题目偏离现实,但我更愿意相信,是我们一些.Net开发者在工作中 ...
- js的原型链和constructor
转载:http://www.108js.com/article/article1/10201.html?id=1092 请先瞻仰上边的这篇文章. 对象的原型链: box.__proto__.__pro ...
- 网站flash黑屏问题
操作系统 专业回答 2012-04-12 20:44 看网站视频时,可以小屏看,不能最大化.最大化的时候,只有声音,图象卡住了不动. 解决办法: 1 打开视频 然后最大化 按键 击右健 设置 把加速硬 ...
- MATLAB axis和axes的区别
axis中文为“轴”之意,在matlab中用于控制坐标轴的范围和样式(颜色等). axis([XMIN XMAX YMIN YMAX]) 设置当前所绘图像的x轴和y轴的范围.axis([XMIN XM ...
- AVL树插入操作实现
为了提高二插排序树的性能,规定树中的每个节点的左子树和右子树高度差的绝对值不能大于1.为了满足上面的要求需要在插入完成后对树进行调整.下面介绍各个调整方式. 右单旋转 如下图所示,节点A的平衡因子(左 ...
- 为什么我们要给父级元素写overflow:hidden
有这样的一种情况,有的时候,我们的父级元素设置了高度,一般来说,父级元素的高度是根据子元素的高度来自适应撑开的,如果我们的父级元素也设置了高度,那么其高度就不会随着子元素的的大小而自适应,也许有的时候 ...
- IOS -- 获取本地图片和网络图片的大小size
// 获取图片的size CGSize size = [UIImage imageNamed:@"regStep2_sex"].size; 获取网络图片的尺寸: // 根据图片ur ...
- Retrofit 2.1 入门
Retrofit 2.1入门 , map); try { Response<String>body=call.execute(); System.out. ...
- 用ElasticSearch和Protovis实现数据可视化
搜索引擎最重要的目的,嗯,不出意料就是搜索.你传给它一个请求,然后它依照相关性返回你一串匹配的结果.我们可以根据自己的内容创造各种请求结构,试验各种不同的分析器,搜索引擎都会努力尝试提供最好的结果. ...
- Activiti 学习笔记记录(2016-8-31)
上一篇:Activiti 学习笔记记录(二) 导读:上一篇学习了bpmn 画图的常用图形标记.那如何用它们组成一个可用文件呢? 我们知道 bpmn 其实是一个xml 文件