WPL 和哈夫曼树

哈夫曼树,又称最优二叉树,是一棵带权值路径长度(WPL,Weighted Path Length of Tree)最短的树,权值较大的节点离根更近。

首先介绍一下什么是 WPL,其定义是树的所有叶结点的带权路径长度之和,称为树的带权路径长度,公式为 WPL = W1 * L1 + W2 * L2 + W3 * L3 + ... + Wn * Ln。

下面是个最简单且最直观的案例,通过实际案例能够更清晰的表示 WPL 和哈夫曼树。

百分制的成绩转换成五分制的成绩,伪代码如下:

if (score < 60) grade = 1;
else if (score < 70) grade = 2;
else if (score < 80) grade = 3;
else if (score < 90) grade = 4;
else grade = 5;

通过这个规则,可以生成一棵判定树,如下:

             score < 60
/ \
grade = 1 score < 70
/ \
grade = 2 score < 80
/ \
grade = 3 score < 90
/ \
grade = 4 grade = 5

根据判定树可以看出:对于 60 分以下的分数,只需要一次就能够给出结果;对于 60~70 分的成绩,需要判断 2 次给出结果;对于 70~80 的成绩则需要判断 3 次,依次类推。

那么问题来了,绝大多数成绩处于 80~90 分,只有少数成绩处于 60 分以下及 90 分以上,那判断的次数是不是有点多呢?其中这个"绝大多数"和"少数"就是一个权值的概念了。

比如成绩分布如下:

| 成绩 |  0~59  |  60~70  |  70~80  |  80~90  |  90~100  |
| 比例 | 0.05 | 0.15 | 0.30 | 0.40 | 0.10 |

那么判断次数等于: WPL = 0.05 * 1 + 0.15 * 2 + 0.30 * 3 + 0.40 * 4 + 0.10 * 5 = 3.35

这里产生一个想法:假如把 80~90 的判断拿到最前面,不就能够减少大部分成绩的计算路径了吗?

修改后的判定树应该是这样的

                                       score < 80
/ \
score < 70 score < 90
/ \ / \
score < 60 grade = 3 grade = 4 grade = 5
/ \
grade = 1 grade = 2

其判断次数等于:WPL = 0.40 * 2 + 0.30 * 2 + 0.10 * 2 + 0.15 * 3 + 0.05 * 3 = 2.2

通过上面的案例,就能够得出结论,哈夫曼树能够根据节点的查找频率来构造更有效的搜索树,是 WPL 最小的树。

哈夫曼树的构造可以理解为将权值最小的两棵二叉树合并,这个树的权值等于 2 个子树的和。

关于如何选取两个权值最小的二叉树,可以使用最小堆实现,复杂度是 O(N log N)。

比如权值:{1,2,3,4,5},可以得出:

            15   // 输出 15
/ \
6 9 // 取出 4,5 ;输出 9,得出 {6,9}
/ \ / \
3 3 4 5 // 取出 3,3 ;输出 6,得出 {6,4,5}
/ \
1 2 // 取出 1,2 ;输出 3,得出 {3,3,4,5}

计算以下 WPL = 2 * 3 + 2 * 4 + 2 * 5 + 3 * 1 + 3 * 2 = 33

哈夫曼树的特点:

    • 没有度为 1 的节点(即不存在只有一个子节点的节点)
    • n 个叶子节点的哈夫曼树,总节点数为 2n-1
      • n0:叶节点总数
      • n1:只有一个子节点的节点总数
      • n2:有两个子节点的节点总数
      • 那么 n2 = n0 - 1
      • 由于没有度为 1 的节点,所以其总节点数为 n + n - 1 = 2n-1
    • 哈夫曼树任意非叶节点的左右子树交换后仍是哈夫曼树
    • 对同一权值{W1,W2,W3,...,Wn},允许存在不同构造的两颗哈夫曼树

哈夫曼编码

哈夫曼编码用于数据存储中做压缩,如下案例:

给定一段包含 50 个字符的字符串,由 {a,b,c,d,e,f}构成,且每个字符出现次数不同,会有如下几种存储方式。

  • 等长 ASCII 编码,存储长度为 50 * 8 = 400 位
  • 等长 3 位编码,存储长度为 50 * 3 = 150 位
  • 不等长编码,出现频率高的字符编码短些,出现频率低的字符编码长些。

第三种便可以使用哈夫曼树来实现,假如给定:

| 字符 |  a  |  b  |  c  |  d  |  e  |  f  |
| 次数 | 18 | 4 | 16 | 1 | 1 | 10 |

构成哈夫曼树:

       50
0/ \1
a(18) 32
0/ \1
c(16) 16
0/ \1
6 f(10)
0/ \1
2 b(4)
0/ \1
d(1) e(1)

所以: a:0; b:1101; c:10; d:11000; e:11001; f:111 。

长度为: 1 * 18 + 4 * 4 + 16 * 2 + 1 * 5 + 1 * 5 + 10 * 3 = 106 字符。

emmm... 大概就是这么个东西。好了,笔记写完了,继续学习...

Huffman Tree (哈夫曼树学习)的更多相关文章

  1. 哈夫曼树(三)之 Java详解

    前面分别通过C和C++实现了哈夫曼树,本章给出哈夫曼树的java版本. 目录 1. 哈夫曼树的介绍 2. 哈夫曼树的图文解析 3. 哈夫曼树的基本操作 4. 哈夫曼树的完整源码 转载请注明出处:htt ...

  2. 哈夫曼树(二)之 C++详解

    上一章介绍了哈夫曼树的基本概念,并通过C语言实现了哈夫曼树.本章是哈夫曼树的C++实现. 目录 1. 哈夫曼树的介绍 2. 哈夫曼树的图文解析 3. 哈夫曼树的基本操作 4. 哈夫曼树的完整源码 转载 ...

  3. 哈夫曼树——c++

    哈夫曼树的介绍 Huffman Tree,中文名是哈夫曼树或霍夫曼树,它是最优二叉树. 定义:给定n个权值作为n个叶子结点,构造一棵二叉树,若树的带权路径长度达到最小,则这棵树被称为哈夫曼树. 这个定 ...

  4. 哈夫曼树C++实现详解

    哈夫曼树的介绍 Huffman Tree,中文名是哈夫曼树或霍夫曼树,它是最优二叉树. 定义:给定n个权值作为n个叶子结点,构造一棵二叉树,若树的带权路径长度达到最小,则这棵树被称为哈夫曼树. 这个定 ...

  5. Python---哈夫曼树---Huffman Tree

    今天要讲的是天才哈夫曼的哈夫曼编码,这是树形数据结构的一个典型应用. !!!敲黑板!!!哈夫曼树的构建以及编码方式将是我们的学习重点. 老方式,代码+解释,手把手教你Python完成哈夫曼编码的全过程 ...

  6. 哈夫曼树(Huffman Tree)与哈夫曼编码

    哈夫曼树(Huffman Tree)与哈夫曼编码(Huffman coding)

  7. 树-哈夫曼树(Huffman Tree)

    概述 哈夫曼树:树的带权路径长度达到最小. 构造规则 1. 将w1.w2.-,wn看成是有n 棵树的森林(每棵树仅有一个结点): 2. 在森林中选出根结点的权值最小的两棵树进行合并,作为一棵新树的左. ...

  8. 哈夫曼树(Huffman Tree)

    Date:2019-06-21 14:42:04 做题时更多的是用到哈夫曼树的构造思想,即按照问题规模从小到大,依次解决问题,可以得到最优解 Description: 在一个果园里,多多已经将所有的果 ...

  9. 哈夫曼树(Huffman)的JS实现

    我本身并不懂哈夫曼树也不知道有什么用,GOOGLE了下,也只是一知半解,只是刚好看到有JAVA实现版,又看了下生成原理,感觉挺有意思,就写了一下 有些地方可以优化,效率不怎么样的,纯好玩,也不保证一定 ...

随机推荐

  1. Django ORM性能优化 和 图片验证码

    一,ORM性能相关 1. 关联外键, 只拿一次数据 all_users = models.User.objects.all().values('name', 'age', 'role__name') ...

  2. 动态的src路径怎么写

    错误写法 <div class="icon--wrapper" @click="before"> <img class="icon- ...

  3. Spring Boot进阶系列三

    Thymeleaf是官方推荐的显示引擎,这篇文章主要介绍怎么让spring boot整合Thymeleaf.  它是一个适用于Web和独立环境的现代服务器端Java模板引擎. Thymeleaf的主要 ...

  4. Guava 源码分析之Cache的实现原理

    Guava 源码分析之Cache的实现原理 前言 Google 出的 Guava 是 Java 核心增强的库,应用非常广泛. 我平时用的也挺频繁,这次就借助日常使用的 Cache 组件来看看 Goog ...

  5. 2018-2019-2 网络对抗技术 20165318 Exp 8 Web基础

    2018-2019-2 网络对抗技术 20165318 Exp 8 Web基础 原理与实践说明 实践内容概述 基础问题回答 实践过程记录 1.Web前端:HTML 2.Web前端:javascipt ...

  6. Appium Grid并发测试

    背景 Selenium玩的比较6的同学比较清楚:在Selenium中三大组件中有包含了Selenium Grid,而其作用就是分布式执行测试用例.主要的应用场景在于: 缩短测试执行时间,提高自动化测试 ...

  7. 镜像仓库 Nexus 3.18.1

    说明:Nexus是Sonatype提供的仓库管理平台,Nuexus Repository OSS3能够支持Maven.npm.Docker.YUM.Helm等格式数据的存储和发布. 一.安装jdk 1 ...

  8. Javascript的闭包(上)

    了解了预编译和作用域的相关知识以后我们来看一下开发中常见的工具——闭包.还是来看一个实例. function a(){ function b() { ; console.log(aa); } ; re ...

  9. 一个刚入行的BIOS工程师的自我简介

    现在是北京时间2019年11月28日,大学毕业已经工作四个多月.说来也是奇怪,大学里面明明主修机械电子工程,几乎是纯机械方向,毕业之后的工作却与主修的课程毫无关系.因为对机械这一行业毫无兴趣,大学里面 ...

  10. NETCore执行Shell修改Centos系统IP信息

    原文:NETCore执行Shell修改Centos系统IP信息 目录 shell代码 NETCore执行Shell文件 注意事项 shell代码 首先通过find命令找到/etc/sysconfig/ ...