为了保证:Block中,所有的叶子在所有的中间结点的前面。Static: Huffman coding

Dynamic: Adaptive Huffman


一些概念

压缩指标

• Compress a 10MB file to 2MB
• Compression ratio = 5 or 5:1
• Space savings = 0.8 or 80%

对称与非对称

• Symmetric compression 对称压缩
  – requires same time for encoding and decoding
  – used for live mode applications (teleconference)
• Asymmetric compression 非对称压缩,压缩慢,解压快
  – performed once when enough time is available
  – decompression performed frequently, must be fast
  – used for retrieval mode applications (e.g., an interactive CD-ROM)

压缩解压的唯一性 - Uniquely decodable

compression的基本条件。

Static or Dynamic codes

Static:

Huffman coding,需知道字符的编码。-->

Dynamic:

Adaptive Huffman。-->

Shannon’s Result


Huffman coding

前提是需知晓 Freq。

L

= ( 30*2 + 30*2 + 20*2 + 10*3 + 10*3 ) / 100
= 220 / 100
= 2.2

问题一

香农理论极限是:

H
= -0.3 * log 0.3 + -0.3 * log 0.3 + -0.2 * log 0.2 + -0.1 * log 0.1 + -0.1 * log 0.1
= -0.3*(-1.737) + -0.3*(-1.737) + -0.2 * (-2.322) + -0.1 * (-3.322) + -0.1 * (-3.322)
= 0.3 log 10/3 + 0.3 log 10/3 + 0.2 log 5 + 0.1 log 10 + 0.1 log 10
= 0.3*1.737 + 0.3*1.737 + 0.2* 2.322 + 0.1*3.322 + 0.1*3.322
= 2.17 < 2.2   // 说明未达到极限,还有压缩的余地

问题二

Freq不平均的话,压缩率越差。

L = (100000*1 + ...)/100010
≈ 1

H = 0.9999 log 1.0001 + 0.00006 log 16668.333
+ ... + 1/100010 log 100010
≈ 0.00


Adaptive Huffman

Problems of Static coding
• Need statistics & static: e.g., single pass over the data just to collect stat & stat unchanged during encoding
• To decode, the stat table need to be transmitted. Table size can be significant for small msg.
 => Adaptive compression e.g., adaptive huffman

两个阶段:

• FGK Algorithm
• Vitter's Invariant

FGK Algorithm.

Video: https://www.youtube.com/watch?v=N5pw_Z-oP-4

Rule: 

In the same block,中间结点的index总是大于叶子结点的index。<-- Vitter's Invariant

权重值大的结点,其index也较大。

Operation:

操作1:Leaf node: move first, then update

操作2:Internal node: update first, then move.

NYT node = null node.

Stream: abcbaaa

a = 0110 0001

b = 0110 0010

c = 0110 0011

Step 1

[0110 0001]

表示插入的位置是左枝

Step 2

插入b之后的样子如下。

Next,需要执行“操作2”。

原来的NYT变为1(孩子value之和),补充完编号。(update)

考虑move操作,画出block,所有标号为1的nodes。

为了保证:Block中,所有的叶子在所有的中间结点的前面。

但,目前满足这个要求么?显然不是,如下的1,a 比较碍眼。

252 253 254 255 256
NYT b a 1

那么,如何move?将上图中的254结点连带子树 与 跟它冲突的255交换。

可见,这样就重新满足了the Rule.

0110 0001]

Step 3

然后继续 insert c,当然还是在NYT这个位置。

插入效果如下:

Next,还是先 update internal node。

为了保证:Block中,所有的叶子在所有的中间结点的前面。

但,目前满足这个要求么?显然不是,如下的1,b,a 比较碍眼。

251 252 253 254 255
c b a 1

开始move:253,254左移,给252的1腾出地儿。

可见,这样就重新满足了the Rule.

0110 0001] 0110 0011]

Step 4

4th是b,已有b,所以挂在已有的node b下面。

0110 0001]

这次,先 update leaf node,也包括node b的个数++。

这里满足了the Rule的第一条,即叶子结点index较小。

但,the Rule的第二条未满足,即权重大的index较大。

c(1) b(2) a(1) (1)

所以,将b移动到最后位置254,如下。

可见,这样就重新满足了the Rule.

0110 0001] ]

Step 5

5th是a,已有a,所以挂在已有的node a下面。

0110 0001] ] 10

这里满足了the Rule的第一条,即叶子结点index较小。

但,the Rule的第二条未满足,即权重大的index较大。

252 252 253
c(1) a(2) (1)

交换252与 253及其子树后,如下:

可见,这样就重新满足了the Rule.

0110 0001] 0110 0011]] ]

Step 6

6th是a,已有a,所以挂在已有的node a下面。

0110 0001] 0110 0011] ] ]

此时,253的a的权重变为3,根据the Rule,权重大的index较大。

所以,253:a 应该在254:b的后面。交换后,如下:

0110 0001] 0110 0011] ] ] ]

Step 7 

7th是a,已有a,所以挂在已有的node a下面。

0110 0001] 0110 0011] ] ]

此时,254的a的权重变为4,根据the Rule,权重大的index较大。

所以,254:a 应该在255的后面。交换后如下:

0110 0001] 0110 0011] ] ] ]

[IR] Huffman Coding的更多相关文章

  1. hdu 1053 (huffman coding, greedy algorithm, std::partition, std::priority_queue ) 分类: hdoj 2015-06-18 19:11 22人阅读 评论(0) 收藏

    huffman coding, greedy algorithm. std::priority_queue, std::partition, when i use the three commente ...

  2. [IR] Arithmetic Coding

    Statistical methods的除了huffman外的另一种常见压缩方式. Huffman coding的非连续数值特性成为了无法达到香农极限的先天无法弥补的缺陷,但Arithmetic co ...

  3. 霍夫曼编码(Huffman Coding)

    霍夫曼编码(Huffman Coding)是一种编码方法,霍夫曼编码是可变字长编码(VLC)的一种. 霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符 ...

  4. 哈夫曼编码(Huffman coding)的那些事,(编码技术介绍和程序实现)

    前言 哈夫曼编码(Huffman coding)是一种可变长的前缀码.哈夫曼编码使用的算法是David A. Huffman还是在MIT的学生时提出的,并且在1952年发表了名为<A Metho ...

  5. 【CodeForces】700 D. Huffman Coding on Segment 哈夫曼树+莫队+分块

    [题目]D. Huffman Coding on Segment [题意]给定n个数字,m次询问区间[l,r]的数字的哈夫曼编码总长.1<=n,m,ai<=10^5. [算法]哈夫曼树+莫 ...

  6. <Sicily>Huffman coding

    一.题目描述 In computer science and information theory, a Huffman code is an optimal prefix code algorith ...

  7. 哈夫曼编码的理解(Huffman Coding)

    哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,可变字长编码(VLC)的一种.Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最 ...

  8. Huffman coding & Huffman tree

    Huffman coding & Huffman tree Huffman coding 哈夫曼编码 / 最优二元前缀码 Huffman tree 哈夫曼树 / 最优二叉树 https://w ...

  9. jpeg huffman coding table

    亮度DC系数的取值范围及序号:                                                               序号(size) 取值范围 0 0  1 - ...

随机推荐

  1. unity3d 脚本周期函数

    1,编辑器阶段 Reset方法:当脚本第一次添加到游戏对象或执行Reset命令时会调用Reset方法,常用来初始化脚本的各个属性: 2,场景第一次加载阶段 Awake方法:在Start方法之前调用: ...

  2. 服务器被ddos攻击?分析如何防止DDOS攻击?

    上周知名博主阮一峰的博客被DDOS攻击,导致网站无法访问而被迫迁移服务器的事情,引起了广大网友的关注及愤慨,包括小编的个人博客也曾接受过DDOS的“洗礼”,对此感同身受.所以,本文我们一起来了解下DD ...

  3. apache hbase 发布1.0.0版本

    今天apache发布了最新的hbase 1.0.0,下图是版本变迁历史: 详情参考: https://blogs.apache.org/hbase/entry/start_of_a_new_era

  4. 解决 Mac 的 Terminal 中,Java 乱码的问题

    在 .bash_profile 文件中,增加如下行: export JAVA_TOOL_OPTIONS=-Dfile.encoding=UTF-8 然后,重新加载该配置 source .bash_pr ...

  5. 如何在生产环境使用Btrace进行调试

    占小狼 转载请注明原创出处,谢谢! 背景 记得前几天有人问我:在生产环境中可能经常遇到各种问题,你们一般是如何进行调试的? 很惭愧,没有经验.因为平时碰不到生产环境的服务器,定位问题需要各种数据,所以 ...

  6. Gitlab用户在组中有五种权限:Guest、Reporter、Developer、Master、Owner

    Gitlab权限管理Gitlab用户在组中有五种权限:Guest.Reporter.Developer.Master.Owner Guest:可以创建issue.发表评论,不能读写版本库Reporte ...

  7. MySQL垂直拆分和水平拆分的优缺点和共同点总结

    数据的拆分(Sharding)根据其拆分分规则的类型,可以分为两种拆分模式.一种是按照不同的表(或者Schema)来切分到不同的数据库(主机)之上,这种切可以称之为数据的垂直(纵向)拆分:另外一种则是 ...

  8. 转载-vim配置收藏

    转载自:http://www.cnblogs.com/ma6174/archive/2011/12/10/2283393.html 1.按F5可以直接编译并执行C.C++.java代码以及执行shel ...

  9. Spark2.2+ES6.4.2(三十一):Spark下生成测试数据,并在Spark环境下使用BulkProcessor将测试数据入库到ES

    Spark下生成2000w测试数据(每条记录150列) 使用spark生成大量数据过程中遇到问题,如果sc.parallelize(fukeData, 64);的记录数特别大比如500w,1000w时 ...

  10. Lua:Nginx Lua环境配置,第一个Nginx Lua代码

    一.编译安装LuaJIT Lua:编译安装LuaJIT,第一个Lua程序 http://blog.csdn.net/guowenyan001/article/details/48250427 二.下载 ...