blast及其格式输出简介

1）blast产生背景

双序列比对可以采用是基于动态规划算法的Needleman-Wunsch（NW）和Smith-Waterman algorithm（SW）算法，虽然精度高，但计算消耗大。当与数据库比对的时候，该算法就显得不切实际。因此TASTA，blast采用启发式算法使得通过大幅度丢失灵敏度来减少运行时间。与FASTA软件相比，blast通过把搜索限制在狭隘的矩阵对角线条带上，来改进FASTA进行数据库搜索的速度。

2）blast的大致原理

blast 程序首先查询query序列的所有子序列，储存在哈希表中。收索数据库中所有与子序列精确匹配的序列，作为种子，向两个方向继续延伸每个精确匹配。期间不允许有空位和错配的情况。然后在限制性区域内；连接延伸的匹配序列，期间允许空位和错配，比对分值要大于设定的阈值。阈值越大，需要匹配的计算越小，软件计算速度越快。仅仅对对延伸匹配进行连接的区域(限制性区域)，而不是整个矩阵，是blast 相对于其他算法速度提高的关键，是以牺牲对角线带以外的任何匹配信息为代价，因此并不能确保query序列与数据库比对结果是最优的比对结果。

3）blast的格式解读

因为blast可以进行本地化，网上教程很多，这里不再详细介绍。根据不同的参数可以输出多种比对格式，例如HTML, plain text, XML等。因为输出的格式多样，我们以常用的M8格式进行简单的介绍。

这12列对应的信息分别是：

Query id：查询序列ID标识
Subject id：比对上的目标序列ID标识
% identity：序列比对的一致性百分比
alignment length：符合比对的比对区域的长度
mismatches：比对区域的错配数
gap openings：比对区域的gap数目
q. start：比对区域在查询序列(Query id)上的起始位点
q. end：比对区域在查询序列(Query id)上的终止位点
s. start：比对区域在目标序列(Subject id)上的起始位点
s. end：比对区域在目标序列(Subject id)上的终止位点
e-value：比对结果的期望值，将比对序列随机打乱重新组合，和数据库进行比对，如果功能越保守，则该值越低；该E值越高说明比对的高得分值是由GC区域，重复序列导致的。对于判断同源性是非常有意义的几个参数。
bit score：比对结果的bit score值

4）习题

4.1）blast的产生背景是什么？
4.2）blast采用的是什么算法
4.3）和动态规划算法相比，blast 的算法有什么优点？
4.4) blast和FASTA软件算法之间的区别是什么？
4.5) blast核酸比对中默认的word是多少？
4.6）word的大小是如何决定blast的运行速度？
4.7）blast比FSAT软件搜索速度快的原因是什么？
4.8) blast是对什么建立索引的？
4.9）blast建立索引的目的是什么？
4.10）blast比对输出的结果有哪些格式
4.11）在M8格式中共有多少列，每一列代表的是什么意思？
4.12）E值的含义是什么？
4.13）统计test.blast有多少条query序列
4.14）统计比对得分最低的query序列
4.15）将比对长度大于200(QueryLen)且比对相似率(Identities%)大于90的信息输出来
4.16）找出比对最长的基因的ID (即QueryLen值最大)
4.17）按照BitScore分值(第12列)的大小对整个文件进行排序(从大到小)
4.18）找出比对长度大于100且E值小于3e-17的比对
4.19）找出序列一致性大于60%，得分高于70的比对信息
4.20）输出gap最多的比对信息

5）参考资源
https://en.wikipedia.org/wiki/BLAST#Output
第二代测序信息处理

blast及其格式输出简介的更多相关文章

C 格式输出
1 一般格式 printf(格式控制,输出表列) 例如:printf("i=%d,ch=%c\n",i,ch); 说明: (1) “格式控制”是用双撇号括起 ...
在现有的图像处理软件中融合dxf格式输出
在现有的图像处理软件中融合dxf格式输出 dxf格式是autocade的支持格式.如果将现有图像识别的结果导出到dxf格式,就能够使用autocad的强大功能进行后续处理. dxf的格式比较复杂,开源 ...
《The Linux Command Line》读书笔记03 ls命令与长格式输出解释文件权限
ls命令与长格式输出解释文件权限 ls命令 ls 命令用于列出目录内容,不带参数时列出当前工作目录的内容,也可以指定目标目录(可以指定多个),列出目标目录下的内容. ls命令的参数 ls -l 长格 ...
PAT 1006. 换个格式输出整数 (15)
让我们用字母B来表示"百".字母S表示"十",用"12...n"来表示个位数字n(<10),换个格式来输出任一个不超过3位的正整数.例 ...
PAT乙级 1006. 换个格式输出整数 (15)
1006. 换个格式输出整数 (15) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 CHEN, Yue 让我们用字母B来表示“百” ...
PAT (Basic Level) Practise：1006. 换个格式输出整数
[题目链接] 让我们用字母B来表示“百”.字母S表示“十”,用“12...n”来表示个位数字n(<10),换个格式来输出任一个不超过3位的正整数.例如234应该被输出为BBSSS1234,因为它 ...
C#常用格式输出
ylbtech- .NET-Basic:C#常用格式输出 C#常用格式输出 1.A,相关概念返回顶部 using System; namespace Test { class Formating { ...
PAT乙级真题1006. 换个格式输出整数 (15)（解题）
原题: 让我们用字母B来表示“百”.字母S表示“十”,用“12...n”来表示个位数字n(<10),换个格式来输出任一个不超过3位的正整数.例如234应该被输出为BBSSS1234,因为它有2个 ...
PAT-乙级-1006. 换个格式输出整数 (15)
1006. 换个格式输出整数 (15) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 CHEN, Yue 让我们用字母B来表示“百” ...

随机推荐

CentOS Linux解决Device eth0 does not seem to be present 但是没有发现eth1
http://www.linuxidc.com/Linux/2012-12/76248.htm 此标题已经是有人写过的了.但是为什么拿来重写? 我复制完,没有发现有eth1这个网卡为什么呢?需要选中 ...
BASIC-20_蓝桥杯_数的读法
示例代码: #include <stdio.h>#include <string.h>#define N 10 char num[N] = {0} ; void yuyin(i ...
MySQL优化技巧之四：mysql数据库开发常见问题及优化[转]
mysql 数据库是被广泛应用的关系型数据库,其体积小.支持多处理器.开源并免费的特性使其在 Internet 中小型网站中的使用率尤其高.在使用 mysql 的过程中不规范的 SQL 编写.非最优的 ...
idea如何禁用SVN
打开Intellij的setting(ctrl+alt+s),选择plugins,在右边搜索框输入“SVN”,搜索.选择“SVN disconnect”,安装此插件. 插件使用点击菜单栏中的VCS ...
javascript callee和caller
arguments的主要用途是保存参数,但是他还有callee属性. 一:callee指向arguments对象的函数. 示例一: function calture(num) {//阶乘计算 if ( ...
常用Java程序片段
1.改变数组的大小 package com.js.ai.modules.jsa.test; public class Testxf { private static Object resizeArra ...
无法打开物理文件 XXX.mdf"。操作系统错误 5:"5(拒绝访问。)"的解决办法
附加数据库时报错: 无法打开物理文件 XXX.mdf".操作系统错误 5:"5(拒绝访问.)" 原因是数据库权限无法读取路径下的文件. 解决方案一: 数据库使用wind ...
django中的 form 表单操作
form组件 1. 能做什么事? 1. 能生成HTML代码 input框 2. 可以校验数据 3. 保留输入的数据 4. 有错误的提示 1. 定义 from django ...
【转载】全栈工程师-Hadoop, HBase, Hive, Spark
学习参考这篇文章: http://www.shareditor.com/blogshow/?blogId=96 机器学习.数据挖掘等各种大数据处理都离不开各种开源分布式系统, hadoop用于分布式存 ...
Fork-Join分治编程介绍（一）
一.Fork-Join 框架介绍 1. 什么是 Fork-Join 分治编程框架 Fork/Join框架是Java7提供了的一个用于并行执行任务的框架,是一个把大任务分割成若干个小任务,最终汇总每 ...

blast及其格式输出简介

blast及其格式输出简介的更多相关文章

随机推荐

热门专题