RLE压缩算法详解
from:http://data.biancheng.net/view/152.html
RLE压缩算法(下简称RLE算法)的基本思路是把数据按照线性序列分成两种情况:一种是连续的重复数据块,另一种是连续的不重复数据块。
RLE算法的原理就是用一个表示块数的属性加上一个数据块代表原来连续的若干块数据,从而达到节省存储空间的目的。一般RLE算法都选择数据块的长度为 1 字节,表示块数的诚性也用1字节表示,对于颜色数小于 256 色的图像文件或文本文件,块长度选择 1 字节是比较合适的。
连续重复数据的处理
RLE 算法有很多优化和改进的变种算法,这些算法对连续重复数据的处理方式基本上都是一样的。对于连续重复出现的数据,RLE算法一般用两字节表示原来连续的多字节重复数据。我们用一个例子更直观地说明 RLE 算法对这种情况的处理,假如原始数据有 5 字节的连续数据:
[data] [data] [data] [data] [data]
则压缩后的数据就包含块数和 [data] 两字节,其中 [data] 只存储了一次,节省了存储空间:
[5] [data]
需要注意的是,一般 RLE 算法都采用插入一个长度属性字节存储连续数据的重复次数,因此能够表达的扱大值就是 255 字节,如果连续的相同数据超过 255 字节时,就从第 255 字节处断开,将第 256 字节以及 256 字节后面的数裾当成新的数椐处理。
随着 RLE 算法采用的优化方式不同,这个长度属性字节所表达的意义也不同,对于本节给出的这种优化算法,长度属性字节的最高位被用来做一个标志位,只有 7 位用来表示长度。
连续非重复数据的处理
对于连续的非重复数据,RLE 算法有两种处理方法:
- 一种处理方法是将每个不重复的数据当作只重复一次的连续重复数据处理,在算法实现上就和处理连续重复数据一样;
- 另一种处理方法是不对数据进行任何处理,直接将原始数据作为压缩后的数据存储。
假如有以下 5 字节的连续非重复数据:
[datal] [data2] [data3] [data4] [data5]
按照第一种处理方法,最后的压缩数据就如下所示:
[1][datal] [1][data2] [1][data3] [1][data4] [1][data5]
如果按照第二种处理方法,最后的数据和原始数据一样:
[data1] [data2] [data3] [data4] [data5]
如果采用第一种方式处理连续非重复数据,则存在一个致命的问题,对连续出现的不重复数据,会因为插入太多块数属性字节而膨胀一倍,如果原始数据主要是随机的非重复数据,则采用这种方式不仅不能起到压缩数据的目的,反而起到恶化的作用。多数经过优化的 RLE 算法都会选择使用第二种方式处理连续非重复数据,但是这就引入了新问题,在 RLE 算法解码的时候,如何区分连续重复和非重复数据?
前面己经提到,如果把非重复数据当作独立的单次重复数据处理,反而会造成数据膨胀,但是如果把连续非重复数据也当成一组数据整理考虑呢?这是一个优化的思路,首先,给连续重复数据和连续非重复数据都附加一个表示长度的属性字节,并利用这个长度属性字 节的最高位来区分两种情况。
长度属性字节的最高位如果是 1,则表示后面紧跟的是个重复数据,需要重复的次数由长度属性字节的低 7 位(最大值是 127)表示。长度属性字节的最高位如果是 0,则表示后面紧跟的是非重复数据,长度也由长度属性字节的低 7 位表示。
采用这种优化方式,压缩后的数据非常有规律,两种类型的数据都从长度属性字节开始,除了标志位的不同,后跟的数据也不同。第一种情况后跟一个字节的重复数据,第二种情况后跟的是若干个字节的连续非重复数据。
算法实现
首先介绍一下数据压缩的编码过程如何实现。釆用前面给出的优化方式,编码算法不仅要能够识别连续重复数据和连续非重复数据两种情况,还要能够统计出两种情况下数据块的长度。
编码算法从数据的起始位置开始向后搜索,如果发现后面是重复数据且重复次数超过 2,则设置连续重复数据的标志并继续向后查找,直到找到第一个与之不相同的数据为止,将这个位置记为下次搜索的起始位置,根据位置差计算重复次数,最后长度属性字节以及一个字节的原始重复数据一起写入压缩数据;如果后面数据不是连续重复数据,则继续向后搜索查找连续重复数据,直到发现连续重复的数据且重复次数大于 2 为止,然后设置不重复数据标志,将新位置记为下次搜索的起始位置,最后将长度属性字节写入压缩数据并将原始数据逐字节复制到压缩数据。然后从上一步标记的新的搜索起始位开始,一直重复上面的过程,直到原始数据结束。
- int Rle_Encode(unsigned char *inbuf, int inSize, unsigned char *outbuf, int onuBufSize)
- {
- unsigned char *src = inbuf;
- int i;
- int encSize = 0;
- int srcLeft = inSize;
- while(srcLeft > 0)
- {
- int count = 0;
- if(IsRepetitionStart(src, srcLeft)) /*是否连续三个字节数据相同? */
- {
- if ((encSize + 2) > onuBufSize) /* 输出缓冲区空间不够了 */
- {
- return -1;
- }
- count = GetRepetitionCount(src, srcLeft);
- outbuf[encSize++] = count | 0x80;
- outbuf[encSize++] = *src;
- src += count;
- srcLeft -= count;
- }
- else
- {
- count = GetNonRepetitionCount(src, srcLeft);
- if ((encSize + count + 1) > onuBufSize) /* 输出缓冲区空间不够了 */
- {
- return -1;
- }
- outbuf[encSize++] = count;
- for(i = 0; i < count; i++) /*逐个复制这些数据*/
- {
- outbuf[encSize++] = *src++;;
- }
- srcLeft -= count;
- }
- }
- return encSize;
- }
Rle_Encode() 函数是 RLE 算法的实现,它通过调用 IsRepetitionStart() 函数判断从 src 开始的数据是否是连续重复数据:
- 如果是连续重复数据,则调用 GetRepetitionCount() 函数计算出连续重复数据的长度,将长度属性字节的最高位罝 1 并向输出缓冲区写入一个字节的重复数据。
- 如果不是连续重复数据,则调用 GetNonRepetitionCount() 函数计算连续非重复数据的长度,将长度属性字节的极高位罝 0 并向输出缓冲区复制连续的多个非重兌数据。
GetRepetitionCount() 函数和 GetNonRepetitionCount() 函数都比较简单,此处就不列出代码了。
根据算法要求,只有数裾重复出现两次以上才算作连续重复数据,因此 IsRepetitionStart() 函数检査连续的3字节是否是相同的数据,如果是则判定为出现连续重复数据。之所以要求至少要 3 字节的重复数据才判定为连续重复数据,是为了尽量优化对短重复数据间隔出现时的压缩效率。
举个例子,对于这样的数据“AABCCD”,如果不采用这个策略,最终的压缩数据应该是 [0x82][A][0x01][B][0x82][C][0x01][D],压缩后数据长度是 8 字节。如果采用这个策略,则上述数据就被认定为连续非重复数据局,最终被压缩为 [0x06][A][A][B][C][C][D],压缩后数据长度是 7 字节,这样的数据越长,效果越明显。
解压缩算法相对比较简单,因为两种情况下的压缩数据首部都是 1 字节的长度属性标识,只要根据这个标识判断如何处理就可以了。首先从压缩数据中取出 1 字节的长度属性标识,然后判断是连续重复数据的标识还是连续非重复数据的标识:
- 如果是连续重复数据,则将标识字节后面的数据重复复制 n 份写入输出缓冲区;
- 如果是连续非重复数据,则将标识字节后面的 n 个数据复制到输出缓冲区。n 的值是标识字节与 0x3F 做与操作后得到,因为标识字节低 7 位就是数据长度属性。
- int Rle_Decode(unsigned char *inbuf, int inSize, unsigned char *outbuf, int onuBufSize) {
- unsigned char *src = inbuf;
- int i;
- int decSize = 0;
- int count = 0;
- while(src < (inbuf + inSize))
- {
- unsigned char sign = *src++;
- int count = sign & 0x3F;
- if ((decSize + count) > onuBufSize) /* 输出缓冲区空间不够了 */
- {
- return -1;
- }
- if ((sign & 0x80) == 0x80) /* 连续重复数据标志 */
- {
- for(i = 0; i < count; i++)
- {
- outbuf[decSize++] = *src;
- }
- src++;
- }
- else
- {
- for(i = 0; i < count; i++)
- {
- outbuf[decSize++] = *src++;
- }
- }
- }
- return decSize;
- }
Rle_Decode() 函数是解压缩算法的实现代码,每组数据的第一字节是长度标识字节,其最高位是标识位,低 7 位是数据长度属性,根据标识位分别进行处理即可。
RLE压缩算法详解的更多相关文章
- Hive存储格式之RCFile详解,RCFile的过去现在和未来
我在整理Hive的存储格式和压缩格式,本来打算一篇发出来,结果其中一小节就有很多内容,于是打算写成Hive存储格式和压缩格式系列. 本节主要讲一下Hive存储格式最早的典型的列式存储格式RCFile. ...
- JPEG图像压缩算法流程详解
JPEG图像压缩算法流程详解 JPEG代表Joint Photographic Experts Group(联合图像专家小组).此团队创立于1986年,1992年发布了JPEG的标准而在1994年获得 ...
- PNG,JPEG,BMP,JIF图片格式详解及其对比
原文地址:http://blog.csdn.net/u012611878/article/details/52215985 图片格式详解 不知道大家有没有注意过网页里,手机里,平板里的图片,事实上,图 ...
- 【转】jpeg文件格式详解
JPEG(Joint Photographic Experts Group)是联合图像专家小组的英文缩写.它由国际电话与电报咨询委员会CCITT(The International Telegraph ...
- 【转】jpg文件格式详解
JPEG(Joint Photographic Experts Group)是联合图像专家小组的英文缩写.它由国际电话与电报咨询委员会CCITT(The International Telegraph ...
- BMP格式详解
BMP格式详解 BMP文件格式详解(BMP file format) BMP文件格式,又称为Bitmap(位图)或是DIB(Device-Independent Device,设备无关位图),是Win ...
- JPEG文件编/解码详解
JPEG文件编/解码详解(1) JPEG(Joint Photographic Experts Group)是联合图像专家小组的英文缩写.它由国际电话与电报咨询委员会CCITT(The Interna ...
- H264编码原理以及I帧、B和P帧详解, H264码流结构分析
H264码流结构分析 http://blog.csdn.net/chenchong_219/article/details/37990541 1.码流总体结构: h264的功能分为两层,视频编码层(V ...
- 关于IPB帧与恒定比特率、动态比特率的详解
之所以写这篇文章是因为有朋友对IPB帧的设置比较感兴趣,回复中说得比较简单,因此在这里详细的写一下,虽然说一般情况下我们很少去设置这个IPB帧,不过,如果真的学好了,并且清楚的了解了这个IPB帧的概念 ...
随机推荐
- Hadoop 集群ssh免密登录设置
0.安装命令: yum list installed | grep openssh-server 命令检查ssh安装有没有安装,如果查询出来有就表示安装了,否则反之 通过 yum install op ...
- linux - mysql:安装mysql
安装环境 系统是 centos6.5 1.下载 下载地址:http://dev.mysql.com/downloads/mysql/5.6.html#downloads 下载版本:我这里选择的5.6. ...
- 谈谈近期学习Nativejs和reactNative的一些感受
因为前段时间,对dcloud推出的Nativejs和facebook推出的reactNative都做了一点点浅薄的研究.因为研究的很浅薄,所以仅代表我个人观点,谈谈对运用这两个产品的些许感受. 说起d ...
- python 处理protobuf协议
背景:需要用django基于python3模拟一个http接口,请求是post方式,body是protobuf string,返回也是protobuf string 设计:django获取pb str ...
- 手机内存卡RAW无法格式化的解决办法
突然出现这个问题,这是麻烦: 网上找了各种办法:什么软件修复,disk等修复,创建新磁盘,新扇到,win自动修复啊:开始----运行框中输入 :convert X: /fs:FAT(X为电脑 ...
- 解决ASP.Net第一次访问慢的处理 IIS 7.5
1.先安装ApplicationInitialization Module for IIS 7.5(微软发布的针对针对前期的IIS单独模块),再安装ApplicationInitialization ...
- 什么是kafka,怎么使用? (2) - 内含zookeeper等
zookeeper依赖于java https://baike.baidu.com/item/yum/2835771?fr=aladdin http://yum.baseurl.org/ 去yum官网下 ...
- Python之路Day07
基础数据类型补充 str s.capitalize() -- 首字母大写 s.title() -- 每个单词首字母大写 s.swapcase() -- 大小写转换 s.center() -- 居中/填 ...
- js获取当前页面的url网址信息
设置或获取整个 URL 为字符串: window.location.href 获取内容:http://10.100.0.8:7000/SVP/ "window.location.href&q ...
- 2019杭电多校 permutation2
Problem:http://acm.hdu.edu.cn/contests/contest_showproblem.php?pid=1007&cid=852 #include<bits ...