之前面试时曾被问到“如果实现操作系统的线程调度应该采用什么数据结构?”,因为我看过ucore的源码,知道ucore是采用斜堆的方式实现的,可以做到O(n)的插入、O(1)的查找。我回答了斜堆,但面试官坚持让我在B树和红黑树之间选择一个,由于实际上很少用到B树和红黑树,所以我也不太清楚,只是隐约记得红黑树用于磁盘读取比较好,好像和数据大小和数据连续性相关,显然我记错了。当时觉得红黑树还有一些应用,应该命中的可能性比较大,就随意答了红黑树。当然回答错啦,面试官还给我简单讲解了一下,一直想着有机会好好总结一下这几个树的设计动机、缺陷和应用场景。最近有些时间,决定好好复习一下,毕竟数据结构才是基础。

为什么要引入树呢?一般在学习数据结构时,往往先学习向量和列表,然后是栈与队列。事实上,栈与队列只是在组织数据时额外加入了一些限制,分别是先进后出和先进先出,向量和列表都可以实现这种策略。那么向量和列表又存在什么缺陷呢?一般来讲,我们需要对数据结构做静态操作和动态操作,静态操作就是查找,动态操作就是插入和删除。在C/C++中一般采用数组实现向量,采用链表实现列表。接下来我们看一下它们的静态和动态操作的时间开销。

| 向量 | 列表

  • | :-: | -:

    静态操作(查找) | O(1)| O(n)

    动态操作(插入、删除) | O(n) | O(1)

可以看到,已有的数据结构不能很好的平衡静态操作和动态操作的时间开销。

二叉排序树、平衡二叉树

一种简单的方法是采用二叉排序树(也叫二叉搜索树,BST,Binary Search Tree),构造一颗二叉排序树十分简单。一般来讲,大于根节点的放在根节点的右子树上,小于根节点的放在根节点的左子树上(如果等于根节点,则可视情况而定),如果写程序的话,可以采用递归的方式,而且由于不存在重叠子问题的情况,因此递归的性能已经足够好(不考虑栈溢出的情况)。

二叉排序树在通常情况下可以达到O(lgN)的静态、动态操作的时间复杂度,但是存在一种特殊情况,即输入的数据本身就是有序的,这时二叉排序树退化成向量。

为了消除二叉排序树对于输入敏感的特性,引入平衡二叉树,事实上平衡二叉树应该叫平衡二叉排序树也许更合理。它采用递归的方式定义,这里我就不去查书上的标准定义了,只要保证每个节点左子树和右子树的高度差小于等于1就可以了。

平衡二叉树(也叫AVL树)就比较好用了,可以弥补二叉排序树对输入敏感的缺陷,可以确保静态和动态操作的时间复杂度为O(loN)。

B树&B+树

1981年,Bill Gates曾说过这样一段话“640KB is ought to be enough for anybody.”,可能当时intel生产的内存只有640KB,今天看来这句话也许很荒唐,目前好一点的机器都已经达到16GB的内存了,但是事实上这句话仍然有一定的道理。

只要学习过操作系统的人都知道,存储器的访问速度和容量往往成反比(这句话不是很妥当,只要领会意思就好),最快的当然是CPU上的寄存器,然后是cache(多级cache,不同硬件平台不同),然后是内存、外部硬盘等等。当两个处在不同层级上的存储器彼此之间交互数据时(例如内存与硬盘之间),我们称之为I/O,事实上这种I/O操作相当耗时,应该尽可能避免。

B树的出现就是为了解决这个问题,B树由于是多路二叉树,事实上它的高度要远低于二叉平衡树。一般来讲,我们可以认为二叉平衡树每下降一层需要执行一次磁盘I/O操作,以1G数据为例,平均需要30次磁盘I/O才能读取到数据,而B树每下降一层,每个超级结点都会读入多个关键码,需要的磁盘I/O次数小于AVL树,因此B树适用于实现磁盘的读写逻辑。

红黑树

对于向量、列表、树和图来说,它们每次的动态操作都会完全遗忘之前的状态,转而到达全新的状态,这种数据结构称为ephemeral structure。另一种数据结构可以记录某一历史时刻的状态,在访问时可以根据版本好+目标数据进行访问,这种数据结构称为persistent structure。事实上,红黑树可以实现这种对历史版本的记录,我也不懂它为什么有这么奇妙的功能,这里就不再深入研究了,因为我觉得研究明白以后我还是会忘,有机会再看。

结论

回到最初的问题,即面试官提到的问题。我觉得面试官强迫我在B树和红黑树之间选择没有多少道理,因此线程调度的数据量很小,不涉及磁盘I/O的问题,同时线程调度好像也没有记录历史版本的需求,而这两个数据结构的静态和动态操作的时间复杂度一样,空间复杂度也接近,因此它们两个应该差不多才对。话说,它们两个的实现效率都不如斜堆。

二叉排序树、平衡二叉树、B树&B+树、红黑树的设计动机、缺陷与应用场景的更多相关文章

  1. 1.红黑树和自平衡二叉(查找)树区别 2.红黑树与B树的区别

    1.红黑树和自平衡二叉(查找)树区别 1.红黑树放弃了追求完全平衡,追求大致平衡,在与平衡二叉树的时间复杂度相差不大的情况下,保证每次插入最多只需要三次旋转就能达到平衡,实现起来也更为简单. 2.平衡 ...

  2. 数据结构和算法(Golang实现)(29)查找算法-2-3树和左倾红黑树

    某些教程不区分普通红黑树和左倾红黑树的区别,直接将左倾红黑树拿来教学,并且称其为红黑树,因为左倾红黑树与普通的红黑树相比,实现起来较为简单,容易教学.在这里,我们区分开左倾红黑树和普通红黑树. 红黑树 ...

  3. 从二叉搜索树到AVL树再到红黑树 B树

    这几种树都属于数据结构中较为复杂的,在平时面试中,经常会问理解用法,但一般不会问具体的实现,所以今天来梳理一下这几种树之间的区别与联系,感谢知乎用户@Cailiang,这篇文章参考了他的专栏. 二叉查 ...

  4. 从二叉查找树到平衡树:avl, 2-3树,左倾红黑树(含实现代码),传统红黑树

    参考:自平衡二叉查找树 ,红黑树, 算法:理解红黑树 (英文pdf:红黑树) 目录 自平衡二叉树介绍 avl树 2-3树 LLRBT(Left-leaning red-black tree左倾红黑树 ...

  5. 简述树,Trie,Avl,红黑树

    树的表示方法 在平时工作中通常有2种方式来表示树状结构,分别是孩子链表示法和父节点表示法.光说名词可能无法让人联系到实际场景中,但是写出代码之后大家一定就明白了. 孩子链表示法,即将树中的每个结点的孩 ...

  6. 红黑树、B(+)树、跳表、AVL等数据结构,应用场景及分析,以及一些英文缩写

    在网上学习了一些材料. 这一篇:https://www.zhihu.com/question/30527705 AVL树:最早的平衡二叉树之一.应用相对其他数据结构比较少.windows对进程地址空间 ...

  7. 大名鼎鼎的红黑树,你get了么?2-3树 绝对平衡 右旋转 左旋转 颜色反转

    前言 11.1新的一月加油!这个购物狂欢的季节,一看,已囊中羞涩!赶紧来恶补一下红黑树和2-3树吧!红黑树真的算是大名鼎鼎了吧?即使你不了解它,但一定听过吧?下面跟随我来揭开神秘的面纱吧! 一.2-3 ...

  8. 红黑树与AVL树

    概述:本文从排序二叉树作为引子,讲解了红黑树,最后把红黑树和AVL树做了一个比较全面的对比. 1 排序二叉树 排序二叉树是一种特殊结构的二叉树,可以非常方便地对树中所有节点进行排序和检索. 排序二叉树 ...

  9. AVL树、splay树(伸展树)和红黑树比较

    AVL树.splay树(伸展树)和红黑树比较 一.AVL树: 优点:查找.插入和删除,最坏复杂度均为O(logN).实现操作简单 如过是随机插入或者删除,其理论上可以得到O(logN)的复杂度,但是实 ...

随机推荐

  1. ceph rbd 封装api

    1.安装python,uwsgi,nginx环境 pip安装省略 yumgroupinstall"Developmenttools" yuminstallzlib-develbzi ...

  2. 本地计算机上的OracleOraDb10g_home1TNSListener服务启动后又停止了..........解决办法

    方法1.直接修改 listener.ora 我机器上的路径是: D:/Oracle/product/10.2.0/db_1/NETWORK/ADMIN/listener.ora 修改其中的 HOST ...

  3. 摘-BMC自动化解决方案产品概览

    以下内容摘自BMC解决方案白皮书 BMC 解决方案助力您的企业快速享受自动化带来的快速效益,并随时间推移实现这些优势的最大化. BMC 自动化技术可帮助您优化敏捷性,同时保持必要的治理和合规性控制.无 ...

  4. http_build_query()函数使用方法

    http_build_query()函数的作用是使用给出的关联(或下标)数组生成一个经过 URL-encode 的请求字符串. 写法格式:http_build_query ( mixed $query ...

  5. SEO—Meta标签优化

    Meta标签之一"标题": 标题是网站中很重要的一个标签,他在搜索引擎中是直接显示出来的,一般情况下要网站的核心关键词和网站名称都写进去,这样更有利于网站的排名.但是要注意标题的长 ...

  6. Ubuntu16.04下的2009q3交叉编译工具链的搭建

    环境搭建:    1.下载arm-2009q3.tar.bz2源码.  百度云链接  密码: rbui    2.将arm-2009q3.tar.bz2拷贝到/usr/local/arm(没有该目录就 ...

  7. 开源中文分词工具探析(五):Stanford CoreNLP

    CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...

  8. dubbo 线程池

    在dubbo调用过程中被调用方有两个线程池:io线程池,业务线程池. 这也是dubbo调优的点. 配置信息: <dubbo:protocol name="dubbo" dis ...

  9. Java内存回收机制基础[转]

    原文链接:http://blog.jobbole.com/37273/ 在Java中,它的内存管理包括两方面:内存分配(创建Java对象的时候)和内存回收,这两方面工作都是由JVM自动完成的,降低了J ...

  10. 51NOD 1821 最优集合 [并查集]

    传送门 题意: 一个集合S的优美值定义为:最大的x,满足对于任意i∈[1,x],都存在一个S的子集S',使得S'中元素之和为i. 给定n个集合,对于每一次询问,指定一个集合S1和一个集合S2,以及一个 ...