BWT压缩算法（Burrows-Wheeler Transform）

2024-10-13 07:37:19 原文

参考：

BWT (Burrows–Wheeler_transform)数据转换算法

压缩技术主要的工作方式就是找到重复的模式，进行紧密的编码。

BWT(Burrows–Wheeler_transform)将原来的文本转换为一个相似的文本，转换后使得相同的字符位置连续或者相邻，之后可以使用其他技术如：Move-to-front transform 和游程编码进行文本压缩。

1 BWT编码

(1)首先，BWT先对需要转换的文本块，进行循环右移，每次循环一位。可以知道长度为n的文本块，循环n次后重复，这样就得到看n个长度为n的字符串。如下图中的“Rotate Right”列。（其中‘#’作为标识符，不在文本块的字符集中，这样保证n个循环移位后的字符串均布相同。并且定义'#'小于字符集中的任意字符）。

(2)对循环移位后的n个字符串按照字典序排序。如下图中的“Sorted (M)”列。

(3)记录下“Sorted (M)”列中每个字符串的最后一个字符，组成了“L”列。(其中"F"列是“Sorted (M)”列中每个字符串的前缀)

这样，原来的字符串“banana#”就转换为了“annb#aa”。在某些情况下，使用L列进行压缩会有更好的效果。“L”列就是编码的结果。

2 BWT解码

因为进行的是循环移位，且是循环左移注意下面的性质：

1、L的第一个元素是Text中的最后一个元素

2、对于M中的每一行（第一行除外）第一个元素都是最后一个元素的下一个元素。

也就是说，对于文本块而言，同一行中F是L的下一个元素，L是F的前一个元素。

这样，就需要

(1)通过"F"列中的元素，找到他前面的字符，就是对应的同一行“L”列；

(2)通过“L”列中的元素，找到他在“F”列中的对应字符位置。但是“L”中有3个字符a，如何对应F中的3个a呢？因为L是F的前一个元素，多个具有相同前缀的字符串排序，去掉共同前缀后相对次序没有变化。所有遇到多个相同的字符，相对位置不变；

(3)转到(1)，直到结束。

因为F列是已经排序的，可以从L列获得，所有只需要保存L列就可以。从L列中的字符获取在F列中的位置时，需要：

(1)前缀和数组，记录小于当前字符的字符数个数。

(2)count计数，计算L中从开始位置到当前字符位置等于该字符的字符数。(保证多个相同字符下"L"到“F”的相对位置不变)。

BWT压缩算法（Burrows-Wheeler Transform）的更多相关文章

HDU 4644 BWT（Burrows–Wheeler transform+KMP）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4644 题意:给出一个串,按照下面的步骤得到一个新串: (1)首先将其后面增加一个美元符号: (2)将每 ...
Programming Assignment 5: Burrows–Wheeler Data Compression
编程作业五作业链接:Burrows-Wheeler Data Compression & Checklist 我的代码:MoveToFront.java & CircularSuff ...
samtools 工具
软件地址: http://www.htslib.org/ 功能三大版块 : Samtools Reading/writing/editing/indexing/viewing SAM/BAM/CRAM ...
[IR] BWT+MTF+AC
BWT (Burrows–Wheeler_transform)数据转换算法 MTF(Move-to-front transform)数据转换基于统计的压缩算法:游程编码良心PPT: bwt_bas ...
MTF(Move-to-front transform)数据转换
1.什么是MTF MTF(move-to-front)是一种数据编码方式,用于提高数据压缩技术效果. 在数据压缩算法中,MTF可以作为一个额外的步骤.也就是说 ,可以先进行MTF编码,在进行数据压缩. ...
DART: a fast and accurate RNA-seq mapper with a partitioning strategy DART：使用分区策略的快速准确的RNA-seq映射器
DART: a fast and accurate RNA-seq mapper with a partitioning strategyDART:使用分区策略的快速准确的RNA-seq映射器 Abs ...
GATK--数据预处理，质控，检测变异
版权声明:本文源自解螺旋的矿工, 由 XP 整理发表,共 13781 字. 转载请注明:从零开始完整学习全基因组测序(WGS)数据分析:第4节构建WGS主流程 | Public Library o ...
后缀数组的倍增算法（Prefix Doubling）
后缀数组的倍增算法(Prefix Doubling) 文本内容除特殊注明外,均在知识共享署名-非商业性使用-相同方式共享 3.0协议下提供,附加条款亦可能应用. 最近在自学习BWT算法(Burrows ...
ngs中reads mapping-pku的生信课程
4.NGS中的reads mapping 顾名思义,就是将测序的得到的DNA定位在基因组上. 因为二代测序的得到的序列是较短的,reads mapping很好地解决了这个问题. 本质上reads ma ...

随机推荐

MySQL错误：The user specified as a definer (XXX@XXX) does not exist
今天由于更换服务器,重新再本地备份了数据库,试运行程序报错,如下: MySQL错误:The user specified as a definer (XXX@XXX) does not exist 意 ...
【原创】如何在Android Studio下调试原生安卓Framework层面的源代码
1. Open Existing Android Studio Project. 2. 打开后, Projects -> Android 里面是空的. 这时候,需要选到 Projects-> ...
ABP dynamic API
打开ABP的事例项目SimpleTaskSystem.WebSpaAngular 中LayoutView <!-- Dynamic scripts of ABP system (They are ...
[转] 经典SQL练习题
原题目来自qaz13177_58_CSDN博客 http://blog.csdn.net/qaz13177_58_/article/details/5575711/#sql 只是更新个人答案供参考表 ...
requirejs基础教程
一.初识requirejs 随着网站功能逐渐丰富,网页中的js也变得越来越复杂和臃肿,原有通过script标签来导入一个个的js文件这种方式已经不能满足现在互联网开发模式,我们需要团队协作.模块复用. ...
maven的使用--初级篇
一.前言早就知道maven 在java 项目的管理方面名声显赫,于是就想着学习掌握之,于是查阅了大量文档.发现这些文档的作者都是java 的大腕,大多都是站在掌握了一定maven 基 ...
redis和memcached
Redis 1.主从配置(主从复制不会阻塞master.) 1)bind 192.168.1.2(请修改成本机的IP地址,要不然,客户端无法进行访问) 2)slaveof 192.168.1.1 6 ...
AngularJS 后台交互
我们可以使用内置的$http服务直接同外部进行通信.$http服务只是简单的封装了浏览器原生的XMLHttpRequest对象. 1.链式调用 $http服务是只能接受一个参数的函数,这个参数是一个对 ...
还是this的问题
var name = "The Window"; var object = { name : "My Object", getNameFunc ...
Python 对目录中的文件进行批量转码（GBK>UTF8）
通过python实现对文件转码,其实处理很简单: 1.打开读取文件内容到一个字符串变量中,把gbk编码文件,对字符串进行decode转换成unicode 2.然后使用encode转换成utf-8格式. ...