名称   

bwa –   Burrows-Wheeler  Alignment Tool

内容
摘要
描述
命令行与选项
SAM 比对格式
短序列比对注意事项
  比对精确性
  估计插入大小分布
  内存需求
  速度
Bwa-0.6中的改变
其他
作者
引用与授权
历史

摘要

b w a   i n d e x   r e f . f a
b w a   m e m   r e f . f a   r e a d s . f q   >   a l n - s e . s a m
b w a   m e m   r e f . f a   r e a d 1 . f q   r e a d 2 . f q   >   a l n - p e . s a m
b w a   a l n   r e f . f a   s h o r t _ r e a d . f q   >   a l n _ s a . s a i
b w a   s a m s e   r e f . f a   a l n _ s a . s a i   s h o r t _ r e a d . f q   >   a l n - s e . s a m
b w a   s a m p e   r e f . f a   a l n _ s a 1 . s a i   a l n _ s a 2 . s a i   r e a d 1 . f q   r e a d 2 . f q   >   a l n - p e . s a m

b w a   b w a s w   r e f . f a   l o n g _ r e a d . f q   >   a l n . s a m

描述

BWA是用于将低分叉序列比对到大的参考基因组比如人基因组的软件包。BWA主要是由三种算法组成:BWA-backtrack,BWA-SW和BWA-MEM。第一个算法是针对于illumina测序reads最多100bp的算法。后面两个主要是针对于从70bp到1Mbp的更长序列。BWA-MEM和BWA-SW拥有一些相同的特征例如 长reads支持和 序列分开模式。但是相对而言,更加推荐更新的BWA-MEM,因为可以更快和更准确在更高质量上比对。BWA-MEM相比较BWA-backtrack在70-100bp illumina reads上有更好的性能。
 对于所有的三种算法,BWA首先序列针对于参考基因组构建FM-index。(index命令)。针对于不同的算法接下来使用命令行:aln/samse/sampe 对于BWA-backtrack。bwasw对于BWA-SW和mem对于BWA-MEM算法。

命令行与选项

 Index  

b w a   i n d e x   [ - p   p r e f i x ]   [ - a   a l g o T y p e ]   < i n . d b . f a s t a >

index数据库序列以FASTA格式。

选项

-p STR   输出数据库的前缀[与db 文件名相同]

-a STR   算法用于构建BWT  index。可以使用的选项:

is   IS线性时间算法用于构建suffix array。需要5.37N内存,N是数据库的大小。IS算法相对较快,但是无法处理数据库大于2GB的数据。因为IS算法比较简单,作为默认值。目前IS算法的脚本由Yuta Mori从新植入。

Bwtsw  BWT-SW中使用的算法。这个算法主要是针对于人类基因组。

mem   b w a   m e m   [ - a C H M p P ]   [ - t   n T h r e a d s ]   [ - k   m i n S e e d L e n ]   [ - w   b a n d W i d t h ]   [ - d   z D r o p o f f ]   [ - rs e e d S p l i t R a t i o ]   [ - c   m a x O c c ]   [ - A   m a t c h S c o r e ]   [ - B   m m P e n a l t y ]   [ - O   g a p O p e n P e n ]   [ - Eg a p E x t P e n ]   [ - L   c l i p P e n ]   [ - U   u n p a i r P e n ]   [ - R   R G l i n e ]   [ - v   v e r b o s e L e v e l ]   d b . p r e f i xr e a d s . f q   [ m a t e s . f q ]

BWA-MEM 算法比对70bp-1Mbp的输入序列。简要的说,算法主要是通过最大精确匹配作为种子比对,然后基于Smith-Waterman算法进行仿射空位罚分。

如果mate.fq文件是缺失的和选项-p并未设置。这个命令说明数据为单端测序。如果mates.fa存在,命令行假设reads.fq的第i行与mates.fq的第i行形成read对。如果-p被使用,命令行假设reads.fq的2i行和2i+1行形成read对。这类文件被称为interleaved。在这种例子中,mates.fq文件被忽略。在paired-end 模式中,mem命令行会推断从一批reads中推断reads的方向和插入大小的分布。

选项

-t  INT  线程数目

-k  INT  最小种子长度。少于INT的匹配将会被忽略。匹配的速度通常对于这个值不敏感,除非明显偏离20.  [19]

-w  INT  空值宽度。必要的说,gaps长于INT将不会被发现。需要注意最大gap长度同时受到评分矩阵和hit长度所影响。并不只由这个选项确定。[100]

-d  INT  off-diagonal-X-dropoff (z-dropoff)。如果最好和目前的延伸分数差距大于 |i-j|*A+INT,将停止延伸,其中i和j是被比对和参考基因组中的位置。A是匹配得分。Z-dropoff 类似于BLAST 中的X-dropoff,除了该算法中并没有空格罚分。Z-dropoff不仅避免了不必要的延伸,同时减少了在较差的延伸比对中的比对。 [100]

-r  FLOAT 引发长度大于minSeedLen *FLOAT的重新搜索。这是启发式算法调节算法性能的关键参数。更大的值产生更少的seeds,导致更快的比对速度但是更低的准确性。[1.5]

-c  INT 丢弃大于INT出现次数的MEM。这是一个不敏感参数。

-p  在paired-end 模式中,运行SW搜索得到缺失的命中。

-A   INT  匹配得分。 [1]

-B   INT 错配得分。序列的错误率估计方法:

{0.75*exp[-log(4)*B/A]}.    [4]

-o   INT  空值罚分。 [-6]

-E   INT  空值延伸罚分。一个长度为K 的罚分为 O+K*E

-L   INT          裁剪罚分。

-U INT  对于未配对read对罚分。对于未配对的read对BWA—MEM以scoreRead1+scoreRead2-INT进行评分。评分scoreRead1+scoreRead2-insertPenalty。比较这两种评分从而确定是否应该强制配对。 [9]

-p   假设第一个输入文件为interleaved 配对FASTA\Q文件。

-R STR 完成read group header行 ’\t‘可以在字符串中使用,将会在SAM文件中转换成SAM文件。read group ID也会附在输出文件每一个reads中。   【null】

-T INT 不要输出比对分数低于INT的比对。这个结果只影响最终结果。 【30】

-a 输出所有的比对以单端或未配对双端测序方式。

-c 将FASTA/Q的comment 追加到SAM输出中。选项可以将reads meta信息转移到SAM输出。注意FASTA/Q comment必须符合SAM特定要求。不正确的格式将导致不争取的SAM输出。

-H  使用大写H在SAM输出文件中,这个选项可以显著的减少输出文件的复杂度。当比对长或Bac序列时。

-M 标记短split hit为第二个。

-v INT 控制输出的冗长程度。这个选项并未在BWA完全被支持。理想的,值0 表示不输出到stderr。1表示只输出error。2表示warning和errror。3表示所有信息。4表示对于debug的更高信息。当选项是4时候,输出并不是SAM。 [3]

 
 

BWA/BWT 比对软件的更多相关文章

  1. GATK--使用转载

    http://blog.sciencenet.cn/blog-1469385-819498.html 文章目录 一.准备工作 二.流程概览 三.流程 首先说说GATK可以做什么.它主要用于从seque ...

  2. 3D-DNA 挂载染色体

    3D-DNA是一款简单,方便的处理Hi-C软件,可将contig提升到染色体水平.其githup网址:https://github.com/theaidenlab/3d-dna 3D-DNA流程简介 ...

  3. bwa比对软件的使用以及其结果文件(sam)格式说明

    一.bwa比对软件的使用 1.对参考基因组构建索引 bwa index -a bwtsw hg19.fa   #  -a 参数:is[默认] or bwtsw,即bwa构建索引的两种算法,两种算法都是 ...

  4. bwa index|amb|ann|bwt|pac|sa

    -.gapcloser.fa | > t1.fa bwa index -a bwtsw -p t1 t1.fa >t1.bwa_index.log >& #$ ll #tot ...

  5. 【转】GATK使用方法详解(包含bwa使用)

    一.使用GATK前须知事项: (1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验 ...

  6. NGS中的一些软件功能介绍

    1.bowtie 短序列比对工具,blast也是短序列比对工具,速度快,结果易理解. 输入可以是fastq或者fasta文件. 生成比对结果文件sam格式的吧. 2.bwa 转自:https://ww ...

  7. bwa用法

    一 建立索引 比对之前,需要对fasta文件构建FM-index索引:bwa index -a bwtsw hg19.fasta 生成 hg19.fasta.amb.hg19.fasta.ann.hg ...

  8. 转:bwa的使用方法

    bwa的使用需要两中输入文件:    Reference genome data(fasta格式 .fa, .fasta, .fna)    Short reads data (fastaq格式 .f ...

  9. 安装生物信息学软件-bowtie2

    好吧,这是本周(2016.10.21-28)的学习任务之一:安装bowtie2并学习其使用方法&参数设置 所以,啃文档咯,官方文档Version 2.2.9 http://bowtie-bio ...

随机推荐

  1. CentOS下j2ee环境搭建

    转自:http://www.cnblogs.com/xiaoluo501395377/archive/2013/04/01/2994485.html 因为是做j2ee后台开发的,所以在Linux上搭建 ...

  2. 手游[追忆之青]动画导演:2D动画制作技巧

    转自:http://www.gamelook.com.cn/2016/09/264591 GameLook报道/由一般法人计算机娱乐协会(CESA)主办的CEDEC2016日前在日本横滨举行,诸多开发 ...

  3. 模拟admin组件自己开发stark组件之搜索和批量操作

    搜索相关,搜索的本质就是从数据库查询出来的数据过滤 用户自定义给出过滤条件joker.py list_display = ('id','title','price',) show_add_btn = ...

  4. 【UVA】1595 Symmetry(模拟)

    题目 题目     分析 理清思路,上模拟.     代码 #include <bits/stdc++.h> using namespace std; const int maxn=100 ...

  5. 浅谈PHP面向对象编程(三、构造方法和析构方法)

    3.0 构造方法和析构方法 从我之前的博客可以发现,实例化一个类的对象后,如果要为这个对象的属性赋值,需要直接访问该对象的属性.如果想要在实例化对象的同时就为这个对象的属性进行赋值,则可以通过构造方法 ...

  6. Java对象和它的内存管理

    java中的内存管理分为两个方面: 内存分配:指创建java对象时JVM为该对象在堆空间中所分配的内存空间. 内存回收:指java 对象失去引用,变成垃圾时,JVM的垃圾回收机制自动清理该对象,并回收 ...

  7. Python压缩及解压文件

    Zip压缩 #-*- coding:utf-8 -*- __author__ = "MuT6 Sch01aR" import zipfile #加载模块 # 压缩 z = zipf ...

  8. Dev GridControl 选择行及绑定/获取List对象

    GridControl绑定List对象一般是为了获取焦点行时直接获得该行代表的List对象,或者为了实现嵌套表格,对第一中情况,起始不用绑定List,绑定DataTable也可以实现获取对应List对 ...

  9. linux find中的-print0和xargs中-0的奥妙

    默认情况下, find 每输出一个文件名, 后面都会接着输出一个换行符 ('n'), 因此我们看到的 find 的输出都是一行一行的: 比如我想把所有的 .log 文件删掉, 可以这样配合 xargs ...

  10. C# WinForm ProgressBar垂直显示进度和从右向左显示进度

    1. 尝试将ProgressBar的RightToLeft属性设置为System.Windows.Forms.RightToLeft.Yes,同时将RightToLeftLayout属性设置为true ...