1. 引言

【数据压缩】LZ77算法原理及实现

 【数据压缩】LZ78算法原理及实现

LZ77算法是采用字典做数据压缩的算法，由以色列的两位大神Jacob Ziv与Abraham Lempel在1977年发表的论文《A Universal Algorithm for Sequential Data Compression》中提出。

基于统计的数据压缩编码，比如Huffman编码，需要得到先验知识——信源的字符频率，然后进行压缩。但是在大多数情况下，这种先验知识是很难预先获得。因此，设计一种更为通用的数据压缩编码显得尤为重要。LZ77数据压缩算法应运而生，其核心思想：利用数据的重复结构信息来进行数据压缩。举个简单的例子，比如

取之以仁义，守之以仁义者，周也。取之以诈力，守之以诈力者，秦也。

取之以、仁义、，、者、守之以、也、诈力、。均重复出现过，只需指出其之前出现的位置，便可表示这些词。为了指明出现位置，我们定义一个相对位置，如图

相对位置之后的消息串为取之以诈力，守之以诈力者，秦也。，若能匹配相对位置之前的消息串，则编码为以其匹配的消息串的起始与末端index；若未能匹配上，则以原字符编码。相对位置之后的消息串可编码为：[(1-3),(诈力),(6),(7-9),(诈力),(12),(6),(秦),(15-16)]，如图所示：

上面的例子展示如何利用索引值来表示词，以达到数据压缩的目的。LZ77算法的核心思想亦是如此，其具体的压缩过程不过比上述例子稍显复杂而已。

2. 原理

本文讲主要讨论LZ77算法如何做压缩及解压缩，关于LZ77算法的唯一可译、无损压缩（即解压可以不丢失地还原信息）的性质，其数学证明参看原论文[1]。

滑动窗口

至于如何描述重复结构信息，LZ77算法给出了更为确切的数学解释。首先，定义字符串\(S\)的长度为\(N\)，字符串\(S\)的子串\(S_{i,j},\ 1\le i,j \le N\)。对于前缀子串\(S_{1,j}\)，记\(L_i^j\)为首字符\(S_{i}\)的子串与首字符\(S_{j+1}\)的子串最大匹配的长度，即：

\[L_i^j = \max \{ l | S_{i,i+l-1} = S_{j+1,j+l} \} \quad \text{subject to} \quad l \le N-j
\]

我们称字符串\(S_{j+1,j+l}\)匹配了字符串\(S_{i,i+l-1}\)，且匹配长度为\(l\)。如图所示，存在两类情况：

定义\(p^j\)为所有情况下的最长匹配的\(i\)值，即

\[p^j = \mathop {\arg \max }\limits_{i} \{ L_i^j \} \quad \text{subject to} \quad 1 \le i \le j
\]

比如，字符串\(S=00101011\)且\(j=3\)，则有

\(L_1^j=1\)，因为\(S_{j+1,j+1}=S_{1,1}\), \(S_{j+1,j+2} \ne S_{1,2}\);
\(L_2^j=4\)，因为\(S_{j+1,j+1}=S_{2,2}\), \(S_{j+1,j+2} = S_{2,3}\)，\(S_{j+1,j+3} = S_{2,4}\)，\(S_{j+1,j+4} = S_{2,5}\)，\(S_{j+1,j+5} \ne S_{2,6}\)；
\(L_3^j = 0\)，因为\(S_{j+1,j+1} \ne S_{3,3}\)。

因此，\(p^j = 2\)且最长匹配的长度\(l^j=4\). 从上面的例子中可以看出：子串\(S_{j+1,j+p}\)是可以由\(S_{1,j}\)生成，因而称之为\(S_{1,j}\)的再生扩展（reproducible extension）。LZ77算法的核心思想便源于此——用历史出现过的字符串做词典，编码未来出现的字符，以达到数据压缩的目的。在具体实现中，用滑动窗口（Sliding Window）字典存储历史字符，Lookahead Buffer存储待压缩的字符，Cursor作为两者之间的分隔，如图所示：

并且字典与Lookahead Buffer的长度是固定的。

压缩

用\((p,l,c)\)表示Lookahead Buffer中字符串的最长匹配结果，其中

\(p\)表示最长匹配时，字典中字符开始时的位置（相对于Cursor位置），
\(l\)为最长匹配字符串的长度，
\(c\)指Lookahead Buffer最长匹配结束时的下一字符

压缩的过程，就是重复输出\((p,l,c)\)，并将Cursor移动至\(l+1\)，伪代码如下：

Repeat:

    Output (p,l,c),

    Cursor --> l+1

Until to the end of string

压缩示例如图所示：

解压缩

为了能保证正确解码，解压缩时的滑动窗口长度与压缩时一样。在解压缩，遇到\((p,l,c)\)大致分为三类情况：

\(p==0\)且\(l==0\)，即初始情况，直接解码\(c\)；
\(p>=l\)，解码为字典dict[p:p+l+1]；
\(p<l\)，即出现循环编码，需要从左至右循环拼接，伪代码如下：

for(i = p, k = 0; k < length; i++, k++)

    out[cursor+k] = dict[i%cursor]

比如，dict=abcd，编码为(2,9,e)，则解压缩为output=abcdcdcdcdcdce。

3. 实现

bitarray的实现请参看A Python LZ77-Compressor，下面给出简单的python实现。

# coding=utf-8

class LZ77:

    """

    A simplified implementation of LZ77 algorithm

    """

    def __init__(self, window_size):

        self.window_size = window_size

        self.buffer_size = 4

    def longest_match(self, data, cursor):

        """

        find the longest match between in dictionary and lookahead-buffer

        """

        end_buffer = min(cursor + self.buffer_size, len(data))

        p = -1

        l = -1

        c = ''

        for j in range(cursor+1, end_buffer+1):

            start_index = max(0, cursor - self.window_size + 1)

            substring = data[cursor + 1:j + 1]

            for i in range(start_index, cursor+1):

                repetition = len(substring) / (cursor - i + 1)

                last = len(substring) % (cursor - i + 1)

                matchedstring = data[i:cursor + 1] * repetition + data[i:i + last]

                if matchedstring == substring and len(substring) > l:

                    p = cursor - i + 1

                    l = len(substring)

                    c = data[j+1]

        # unmatched string between the two

        if p == -1 and l == -1:

            return 0, 0, data[cursor + 1]

        return p, l, c

    def compress(self, message):

        """

        compress message

        :return: tuples (p, l, c)

        """

        i = -1

        out = []

        # the cursor move until it reaches the end of message

        while i < len(message)-1:

            (p, l, c) = self.longest_match(message, i)

            out.append((p, l, c))

            i += (l+1)

        return out

    def decompress(self, compressed):

        """

        decompress the compressed message

        :param compressed: tuples (p, l, c)

        :return: decompressed message

        """

        cursor = -1

        out = ''

        for (p, l, c) in compressed:

            # the initialization

            if p == 0 and l == 0:

                out += c

            elif p >= l:

                out += (out[cursor-p+1:cursor+1] + c)

            # the repetition of dictionary

            elif p < l:

                repetition = l / p

                last = l % p

                out += (out[cursor-p+1:cursor+1] * repetition + out[cursor-p+1:last] + c)

            cursor += (l + 1)

        return out

if __name__ == '__main__':

    compressor = LZ77(6)

    origin = list('aacaacabcabaaac')

    pack = compressor.compress(origin)

    unpack = compressor.decompress(pack)

    print pack

    print unpack

    print unpack == 'aacaacabcabaaac'

4. 参考资料

[1] Ziv, Jacob, and Abraham Lempel. "A universal algorithm for sequential data compression." IEEE Transactions on information theory 23.3 (1977): 337-343.

[2] guyb, 15-853:Algorithms in the Real World.

【数据压缩】LZ77算法原理及实现的更多相关文章

【数据压缩】LZ78算法原理及实现
在提出基于滑动窗口的LZ77算法后,两位大神Jacob Ziv与Abraham Lempel [1]于1978年又提出了LZ78算法:与LZ77算法不同的是LZ78算法使用树状词典维护历史字符串. [ ...
数据压缩算法---LZ77算法的分析与实现
LZ77简介 Ziv和Lempel于1977年发表题为“顺序数据压缩的一个通用算法(A Universal Algorithm for Sequential Data Compression )”的论 ...
Bagging与随机森林算法原理小结
在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合. ...
RSA算法原理
一直以来对linux中的ssh认证.SSL.TLS这些安全认证似懂非懂的.看到阮一峰博客中对RSA算法的原理做了非常详细的解释,看完之后茅塞顿开,关于RSA的相关文章如下 RSA算法原理(一) RSA ...
LruCache算法原理及实现
LruCache算法原理及实现 LruCache算法原理 LRU为Least Recently Used的缩写,意思也就是近期最少使用算法.LruCache将LinkedHashMap的顺序设置为LR ...
MySQL索引背后的数据结构及算法原理【转】
本文来自:张洋的MySQL索引背后的数据结构及算法原理摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题.特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持 ...
OpenGL学习进程（13）第十课：基本图形的底层实现及算法原理
本节介绍OpenGL中绘制直线.圆.椭圆,多边形的算法原理. (1)绘制任意方向(任意斜率)的直线: 1)中点画线法: 中点画线法的算法原理不做介绍,但这里用到最基本的画0<=k ...
支持向量机原理(四)SMO算法原理
支持向量机原理(一) 线性支持向量机支持向量机原理(二) 线性支持向量机的软间隔最大化模型支持向量机原理(三)线性不可分支持向量机与核函数支持向量机原理(四)SMO算法原理支持向量机原理(五) ...
分布式缓存技术memcached学习（四）—— 一致性hash算法原理
分布式一致性hash算法简介当你看到“分布式一致性hash算法”这个词时,第一时间可能会问,什么是分布式,什么是一致性,hash又是什么.在分析分布式一致性hash算法原理之前,我们先来了解一下这几 ...

随机推荐

解剖SQLSERVER 第十一篇对SQLSERVER的多个版本进行自动化测试（译）
解剖SQLSERVER 第十一篇对SQLSERVER的多个版本进行自动化测试(译) http://improve.dk/automated-testing-of-orcamdf-against ...
Groonga 3.0.8 发布，全文搜索引擎
Groonga 3.0.8 改进了管理界面的可用性,支持 groonga_query_log_path 指令(groonga-httpd) 提供基于 nginx 的 HTTP 服务功能,改进了 del ...
《静静的dojo》总体教程介绍
web2.0时代,ajax技术成为整个前端开发领域的基石.大部分的书籍.博客由此切入来介绍前端类库与框架,所以dojo往往只被当做一个ajax类库来介绍,然而仅仅以此来定位dojo,无异于管中窥豹.对 ...
【原创】GC/垃圾回收简介
GC简介 1 GC机制 1.1 对象从计算机的角度,装有数据的内存空间 1.2 作用将内存垃圾的释放自动化 1.3 本质将已经引用不到的对象视为死亡,将死亡的对象找出来并且作为垃圾进行回收 2 ...
ASP.NET MVC请求处理管道生命周期的19个关键环节(1-6)
ASP.NET和ASP.NET MVC的HttpApplication请求处理管道有共同的部分和不同之处,本系列将体验ASP.NET MVC请求处理管道生命周期的19个关键环节. ①以IIS6.0为例 ...
作业三（代码规范、代码复审、PSP）
1.代码规范: 我支持代码要有规范,理由如下. (1).艺术是一个很带有个人风格的学科,天马行空才能凸显出自己的价值.但不要忘了,会艺术的不是生下来就会艺术, 他也需要按照前辈的步骤一步一步的学习基础 ...
silverlight中Combox绑定数据以及动态绑定默认选定项的用法
在Sliverlight中,经常要用到下拉框Combox,然而Combox的数据绑定却是一件令初学者很头疼的事情.今天就来总结一下下拉框的使用方法: 下面写一个简单的例子吧.先写一个日期的Model, ...
Android怎么找到最优适配资源
当我们将一些提供了不同的资源文件可供Android系统选择的时候,Android会在运行时会根据一套适配的规则选择最符合当前配置的资源.为了说明Android怎么选择资源,假设我们有以下可选的资源文件 ...
Caliburn实现MVVM模式的编程
引言:什么是Caliburn ? 一个夜晚,一处教堂,人们忏悔结束后抬头看到一把宝剑插在一块石头上.石上字述“英格兰人,凡能从石头上拔出剑者,为王者!”,Caliburn就是英格兰人心中的石中剑,这把 ...
1、CC2541蓝牙4.0芯片中级教程——基于OSAL操作系统的运行流程了解+定时器和串口例程了解
本文根据一周CC2541笔记汇总得来—— 适合概览和知识快速索引—— 全部链接: 中级教程-OSAL操作系统\OSAL操作系统-实验01 OSAL初探 [插入]SourceInsight-工程建立方法 ...

【数据压缩】LZ77算法原理及实现