Python 算法（2）哈夫曼编码 Huffman Encoding

　　这个问题原始是用来实现一个可变长度的编码问题，但可以总结成这样一个问题，假设我们有很多的叶子节点，每个节点都有一个权值w(可以是任何有意义的数值，比如它出现的概率)，我们要用这些叶子节点构造一棵树，那么每个叶子节点就有一个深度d，我们的目标是使得所有叶子节点的权值与深度的乘积之和$$\Sigma w{i}d{i}$$最小。

　　很自然的一个想法就是，对于权值大的叶子节点我们让它的深度小些(更加靠近根节点)，权值小的让它的深度相对大些，这样的话我们自然就会想着每次取当前权值最小的两个节点将它们组合出一个父节点，一直这样组合下去直到只有一个节点即根节点为止。如下图所示的示例

代码实现比较简单，使用了heapq模块，树结构是用list来保存的，有意思的是其中zip函数的使用，其中统计函数count作为zip函数的参数，　　

from heapq import heapify, heappush, heappop

from itertools import count

def huffman(seq, frq):

    num = count()

    trees = list(zip(frq, num, seq))            # num ensures valid ordering

    heapify(trees)                              # A min-heap based on freq

    while len(trees) > 1:                       # Until all are combined

        fa, _, a = heappop(trees)               # Get the two smallest trees

        fb, _, b = heappop(trees)

        n = next(num)

        heappush(trees, (fa+fb, n, [a, b]))     # Combine and re-add them

    # print trees

    return trees[0][-1]

seq = "abcdefghi"

frq = [4, 5, 6, 9, 11, 12, 15, 16, 20]

print huffman(seq, frq)

# [['i', [['a', 'b'], 'e']], [['f', 'g'], [['c', 'd'], 'h']]]

现在我们考虑另外一个问题，合并文件问题，假设我们将大小为 m 和大小为 n 的两个文件合并在一起需要 m+n 的时间，现在给定一些文件，求一个最优的合并策略使得所需要的时间最小。

如果我们将上面哈夫曼树中的叶子节点看成是文件，两个文件合并得到的大文件就是树中的内部节点，假设每个节点上都有一个值表示该文件的大小，合并得到的大文件上的值是合并的两个文件的值之和，那我们的目标是就是使得内部节点的和最小的合并方案，因为叶子节点的大小是固定的，所以实际上也就是使得所有节点的和最小的合并方案！

细想也就有了一个叶子节点的所有祖先节点们都有一份该叶子节点的值包含在里面，也就是说所有叶子节点的深度与它的值的乘积之和就是所有节点的值之和！可以看下下面的示例图，最终我们知道哈夫曼树就是这个问题的解决方案。

哈夫曼树问题的一个扩展就是最优二叉搜索树问题，后者可以用动态规划算法来求解

其他实现方式：

#Huffman Encoding

#Tree-Node Type

class Node:

    def __init__(self,freq):

        self.left = None

        self.right = None

        self.father = None

        self.freq = freq

    def isLeft(self):

        return self.father.left == self

#create nodes创建叶子节点

def createNodes(freqs):

    return [Node(freq) for freq in freqs]

#create Huffman-Tree创建Huffman树

def createHuffmanTree(nodes):

    queue = nodes[:]

    while len(queue) > 1:

        queue.sort(key=lambda item:item.freq)

        node_left = queue.pop(0)

        node_right = queue.pop(0)

        node_father = Node(node_left.freq + node_right.freq)

        node_father.left = node_left

        node_father.right = node_right

        node_left.father = node_father

        node_right.father = node_father

        queue.append(node_father)

    queue[0].father = None

    return queue[0]

#Huffman编码

def huffmanEncoding(nodes,root):

    codes = [''] * len(nodes)

    for i in range(len(nodes)):

        node_tmp = nodes[i]

        while node_tmp != root:

            if node_tmp.isLeft():

                codes[i] = '' + codes[i]

            else:

                codes[i] = '' + codes[i]

            node_tmp = node_tmp.father

    return codes

if __name__ == '__main__':

    #chars = ['A','B','C','D','E','F','G','H','I','J','K','L','M','N']

    #freqs = [10,4,2,5,3,4,2,6,4,4,3,7,9,6]

    chars_freqs = [('C', 2), ('G', 2), ('E', 3), ('K', 3), ('B', 4),

                   ('F', 4), ('I', 4), ('J', 4), ('D', 5), ('H', 6),

                   ('N', 6), ('L', 7), ('M', 9), ('A', 10)]

    nodes = createNodes([item[1] for item in chars_freqs])

    root = createHuffmanTree(nodes)

    codes = huffmanEncoding(nodes,root)

    for item in zip(chars_freqs,codes):

        print 'Character:%s freq:%-2d   encoding: %s' % (item[0][0],item[0][1],item[1])

输出结果：

>>>

Character:C freq:2  encoding: 10100

Character:G freq:2  encoding: 10101

Character:E freq:3  encoding: 0000

Character:K freq:3  encoding: 0001

Character:B freq:4  encoding: 0100

Character:F freq:4  encoding: 0101

Character:I freq:4  encoding: 0110

Character:J freq:4  encoding: 0111

Character:D freq:5  encoding: 1011

Character:H freq:6  encoding: 1110

Character:N freq:6  encoding: 1111

Character:L freq:7  encoding: 001

Character:M freq:9  encoding: 100

Character:A freq:10 encoding: 110

Python 算法（2）哈夫曼编码 Huffman Encoding的更多相关文章

哈夫曼编码(Huffman coding)的那些事,(编码技术介绍和程序实现)
前言哈夫曼编码(Huffman coding)是一种可变长的前缀码.哈夫曼编码使用的算法是David A. Huffman还是在MIT的学生时提出的,并且在1952年发表了名为<A Metho ...
赫夫曼\哈夫曼\霍夫曼编码 (Huffman Tree)
哈夫曼树给定n个权值作为n的叶子结点,构造一棵二叉树,若带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree).哈夫曼树是带权路径长度最短的树,权值较大的结点离 ...
数据压缩之经典——哈夫曼编码(Huffman)
(笔记图片截图自课程Image and video processing: From Mars to Hollywood with a stop at the hospital的教学视频,使用时请注意 ...
基于python的二元霍夫曼编码译码详细设计
一.设计题目对一幅BMP格式的灰度图像(个人证件照片)进行二元霍夫曼编码和译码二.算法设计 (1)二元霍夫曼编码: ①:图像灰度处理: 利用python的PIL自带的灰度图像转换函数,首先将彩色图 ...
采用霍夫曼编码(Huffman)画出字符串各字符编码的过程并求出各字符编码 --多媒体技术与应用
题目:有一个字符串:cabcedeacacdeddaaaba,问题: (1)采用霍夫曼编码画出编码的过程,并写出各字符的编码 (2)根据求得的编码,求得各编码需要的总位数 (3)求出整个字符串总编码长 ...
霍夫曼编码(Huffman)
题目:有一个字符串:cabcedeacacdeddaaaba,问题: (1)采用霍夫曼编码画出编码的过程,并写出各字符的编码 (2)根据求得的编码,求得各编码需要的总位数 (3)求出整个字符串总编码长 ...
（转载）哈夫曼编码（Huffman）
转载自:click here 1.哈夫曼编码的起源: 哈夫曼编码是 1952 年由 David A. Huffman 提出的一种无损数据压缩的编码算法.哈夫曼编码先统计出每种字母在字符串里出现的频率, ...
霍夫曼编码（Huffman Coding）
霍夫曼编码(Huffman Coding)是一种编码方法,霍夫曼编码是可变字长编码(VLC)的一种. 霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符 ...
奇妙的算法【4】-汉诺塔&哈夫曼编码
1,汉诺塔问题[还是看了源码才记起来的,记忆逐渐清晰] 汉诺塔:汉诺塔(又称河内塔)问题是源于印度一个古老传说的益智玩具.大梵天创造世界的时候做了三根金刚石柱子,在一根柱子上从下往上按照大小顺序摞着6 ...

随机推荐

Python 列表(Lists)
Python 列表(Lists) 序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推. Python有6个序列的内置类 ...
EF6 MVC5译文
Contoso大学的Web应用程序你在本教程中将建立一个简单的大学网站. 用户可以查看和更新学生信息,当然也包括教师的.下列图表是你将创建的应用程序截屏. 本网站的UI样式来源于内置的模板,所以教程 ...
gradle 2.1构建android出现错误的解决方案
转自:http://www.tuicool.com/articles/YJNJbuA 使用不同版本Gradle构建Andorid 出现Gradle version xxxx is required 坑 ...
[Android Studio] Android Studio使用教程（一）
转载:http://blog.csdn.net/hyr83960944/article/details/37509113 今年的Google全球开发者大会虽然没有新的Android系统和设备,但是还 ...
gpu和cpu区别
GPU的功耗远远超过CPUCache, local memory: CPU > GPU Threads(线程数): GPU > CPURegisters: GPU > CPU 多寄存 ...
Spark Streaming中空batches处理的两种方法（转）
原文链接:Spark Streaming中空batches处理的两种方法 Spark Streaming是近实时(near real time)的小批处理系统.对给定的时间间隔(interval),S ...
数学图形(2.7)sphere sine wave
在球上以SIN曲线的轨迹游走. #http://www.mathcurve.com/courbes3d/couronnetangentoidale/couronnetangentoidale.shtm ...
触摸事件【MotionEvent】简介
MotionEvent简介当用户触摸屏幕时,将创建一个MontionEvent对象,MotionEvent包含了关于发生触摸的位置.时间信息,以及触摸事件的其他很多细节. Android 将所有的输 ...
国内站点经常使用的一些 CDN 静态资源公共库加速服务
web开发人员们的福利来了..旨在为大家提供更快很多其它更好的静态资源库的CDN载入库方案! CDN公共库是指将经常使用的JS库存放在CDN节点,以方便广大开发人员直接调用. 与将JS库存放在serv ...
性能测试工具 nGrinder 项目剖析及二次开发
转:https://testerhome.com/topics/4225 0.背景组内需要一款轻量级的性能测试工具,之前考虑过LR(太笨重,单实例,当然它的地位是不容置疑的),阿里云的PTS(htt ...

Python 算法（2） 哈夫曼编码 Huffman Encoding

Python 算法（2） 哈夫曼编码 Huffman Encoding的更多相关文章

随机推荐

热门专题

Python 算法（2）哈夫曼编码 Huffman Encoding

Python 算法（2）哈夫曼编码 Huffman Encoding的更多相关文章