深入浅出数据结构C语言版（22）——排序决策树与桶式排序

　　在（17）中我们对排序算法进行了简单的分析，并得出了两个结论：

　　1.只进行相邻元素交换的排序算法时间复杂度为O(N²)

　　2.要想时间复杂度低于O(N²)，排序算法必须进行远距离的元素交换

　　而今天，我们将对排序算法进行进一步的分析，这一次的分析将针对“使用比较进行排序”的排序算法，到目前为止我们所讨论过的所有排序算法都在此范畴内。所谓“使用比较进行排序”，就是指这个算法实现排序靠的就是让元素互相比较，比如插入排序的元素与前一个元素比较，若反序则交换位置，再比如快速排序小于枢纽的元素分为一组，大于枢纽的元素分为另一组。它们都是依靠“比较”来完成排序工作。

　　要对使用比较进行排序的算法进行分析，我们首先要引入一个概念：决策树。

　　决策树就是这样的二叉树：树的根结点表示“元素的所有可能顺序”，树的每一条边表示“一种可能的结果”，一条边连接的孩子结点则是“父结点经过该边所代表的比较结果后剩余的可能顺序”。这样的解释很难理解，但有图搭配就可以好很多：

　　上图是一棵三元素排序决策树，根结点处表示所有可能的顺序，而从根延伸下来的两条边分别表示了两种“决策结果”，或者说“比较结果”，若符合该“决策结果”就可以得出剩余的可能情况，比如根结点的左孩子是经历决策“a<b”后剩余的可能。显然，叶子代表只剩一种可能顺序。

　　注意，决策树并没有代表任何排序算法，即没有哪个排序算法是这样工作的。但是决策树可以给我们这样一个信息：通过比较来排序的算法，本质上就是沿着该元素集合的决策树从根到某个叶子的路径比较下去。

　　因此，分析这条“路径”平均经过多少条边，就相当于分析使用比较的排序算法平均需要多少次比较。这也是本次分析与（17）的不同之处，在（17）中我们的分析针对的是排序算法的“交换”次数，这次我们分析的是“比较”次数，而比较次数显然更为特殊，因为不论元素是否远距离交换，比较总是存在的。

　　要分析使用比较进行排序的算法平均进行几次比较，我们就必须知晓以下定理。

　　定理1：深度为d的二叉树，最多拥有2^d个叶子

　　证明很简单：二叉树的深度d即二叉树中深度最大的叶子的深度d，若存在某个叶子深度不是d，则可以在该叶子下添加两个孩子而不改变树的深度，因此深度为d的二叉树要有最多的叶子则必为满二叉树，此时有叶子2^d个（深度为d的层最多有2^d个结点）

定理2：有Y个叶子的二叉树，深度至少为[logY]（底数默认为2）

　　证明：由定理1可以直接推出。

　　这个证明可能有点难懂，我们可以触类旁通一下：假如1元钱最多可以买5个糖，那么5个糖最少需要多少钱？答案是1元，恰好是反函数的关系。类似的，深度为x的二叉树最多有y个叶子，那么有y个叶子的二叉树最少有多少深度？答案就是x了。

　　定理3：N元素排序的决策树有N!个叶子结点

　　证明：N元素排序的可能顺序共有N!个，而决策树的叶子就是表示“仅剩的可能性”即某一种可能顺序，所以N元素排序的决策树共有N!个叶子

　　定理4：使用元素比较的排序算法至少需要O(logN!)次比较

　　证明：由定理2可知，有y个叶子的决策树，深度至少为[logy]，而N元素排序决策树叶子数量必为N!，所以N元素排序决策树深度至少为[logN!]，也即N元素排序决策树的任一叶子深度至少为[logN!]，而叶子的深度就表示了从根到该叶子的路径上经过的边的数量，也就是“比较”的次数，因此定理4成立。

　　定理5：使用元素比较的排序算法至少需要Ω(N*logN)次比较

　　证明：根据定理4进行继续计算：

　　logN!=log(N*(N-1)*(N-2)*……*2*1)

　　　　=logN+log(N-1)+log(N-1)+……+log2+log1

　　　　>=logN+log(N-1)+……log(N/2)

　　　　>=(N/2)*log(N/2)=(N/2)*log(N*1/2)=(N/2)*logN+(N/2)*log(1/2)

　　　　>=(N/2)*logN-N/2

　　　　=Ω(N*logN)

　　定理5就是我们这次分析的最终结果，并且我们可以将定理5进行一个推广：假设存在X种可能情形，确定具体情形的方法是不断地问“是或否”型的问题，那么累计需要问的次数至少是[logX]。

　　那么根据定理5，堆排序、合并排序和快速排序是否已经代表了排序的最快境界呢？不是的，因为定理5依然是有“限定”的，那就是通过比较进行排序的算法才符合，也就是说不是通过比较来完成排序的话，是可能突破这个界限的。

　　不通过比较来完成排序，是个什么样子？我们这里可以举一个简单的例子：桶式排序。其时间复杂度是O(N)。

　　现实生活中桶式排序的思想是不少见的，举个例子感受一下：

　　假设我们有很多硬币，一分、二分、五分、一角、五角和一元都有，现在我们想要将它们按从小到大排好序，该怎么做？手工模拟任意排序算法都可以完成这项工作，但没有人会这么傻。大部分人的做法都是：准备6个“桶”，分别存放这6种硬币，一分的扔进一分桶，一元的扔进一元桶，所有硬币扔进桶里了，再按顺序从桶里倒出来，排序就完成了。

　　将上述思想转换到计算机中就是这样：假设我们的元素都是自然数，且一定小于MAX，那我们只要准备MAX个空桶，即定义一个整形数组bucket[MAX]，并将其全部初始化为0。然后遍历所有元素，若元素为i，则令bucket[i]加1，最后统计数组bucket的情况，就可以得出元素的顺序：

//size为数组src的大小，也即元素个数

void BucketSort(unsigned int *src,unsigned int size)

{

    //MAX为宏，表示src中元素不会大于等于的值

    unsigned int bucket[MAX] = {  };

    //将元素们“扔进桶里”

    for (unsigned int i = ;i < size;++i)

        ++bucket[src[i]];

    //将桶里的元素“倒出来”

    unsigned int j = ;

    for (unsigned int i = ;i < MAX;++i)

        for (unsigned int x = ;x < bucket[i];++x)

            src[j++] = bucket[i];

}

　　显然，桶式排序的局限性在于要求元素必须是自然数，必须存在上限且上限不可过分大，因为元素的上限决定了桶的数量，而桶的数量并不是想要多少有多少，比如我的电脑就不支持分配一个大小为INT_MAX的数组。

　　桶式排序还有一种变种，只需要10个桶即可，感兴趣的可以去搜索“桶式排序”或“基数排序”，此处不做介绍。

　　本篇博文就是有关排序的最后一篇博文了，下一篇博文开始，我将会介绍图论算法，并不难，至少理解起来是不难（实现起来就难说了）。

深入浅出数据结构C语言版（22）——排序决策树与桶式排序的更多相关文章

深入浅出数据结构C语言版（16）——插入排序
从这一篇博文开始,我们将开始讨论排序算法.所谓排序算法,就是将给定数据根据关键字进行排序,最终实现数据依照关键字从小到大或从大到小的顺序存储.而这篇博文,就是要介绍一种简单的排序算法--插入排序(In ...
深入浅出数据结构C语言版（17）——有关排序算法的分析
这一篇博文我们将讨论一些与排序算法有关的定理,这些定理将解释插入排序博文中提出的疑问(为什么冒泡排序与插入排序总是执行同样数量的交换操作,而选择排序不一定),同时为讲述高级排序算法做铺垫(高级排序为什 ...
深入浅出数据结构C语言版（17）——希尔排序
在上一篇博文中我们提到:要令排序算法的时间复杂度低于O(n2),必须令算法执行"远距离的元素交换",使得平均每次交换减少不止1逆序数. 而希尔排序就是"简单地" ...
深入浅出数据结构C语言版（21）——合并排序
在讲解合并排序之前,我们先来想一想这样一个问题如何解决: 有两个数组A和B,它们都已各自按照从小到大的顺序排好了数据,现在我们要把它们合并为一个数组C,且要求C也是按从小到大的顺序排好,请问该怎么做? ...
深入浅出数据结构C语言版（5）——链表的操作
上一次我们从什么是表一直讲到了链表该怎么实现的想法上:http://www.cnblogs.com/mm93/p/6574912.html 而这一次我们就要实现所说的承诺,即实现链表应有的操作(至于游 ...
深入浅出数据结构C语言版（1）——什么是数据结构及算法
在很多数据结构相关的书籍,尤其是中文书籍中,常常把数据结构与算法"混合"起来讲,导致很多人初学时对于"数据结构"这个词的意思把握不准,从而降低了学习兴趣和学习信 ...
深入浅出数据结构C语言版（8）——后缀表达式、栈与四则运算计算器
在深入浅出数据结构(7)的末尾,我们提到了栈可以用于实现计算器,并且我们给出了存储表达式的数据结构(结构体及该结构体组成的数组),如下: //SIZE用于多个场合,如栈的大小.表达式数组的大小 #de ...
深入浅出数据结构C语言版（12）——从二分查找到二叉树
在很多有关数据结构和算法的书籍或文章中,作者往往是介绍完了什么是树后就直入主题的谈什么是二叉树balabala的.但我今天决定不按这个套路来.我个人觉得,一个东西或者说一种技术存在总该有一定的道理,不 ...
深入浅出数据结构C语言版（15）——优先队列（堆）
在普通队列中,元素出队的顺序是由元素入队时间决定的,也就是谁先入队,谁先出队.但是有时候我们希望有这样的一个队列:谁先入队不重要,重要的是谁的"优先级高",优先级越高越先出队.这样 ...

随机推荐

python专题-异常处理（基础）
之前在学习python的时候有整理过python异常处理的文章,不够简单也不够完整,所以决定再整理一篇,算做补充. http://www.cnblogs.com/cmt110/p/7464748.ht ...
jmeter系列------参数关联
接口请求中的一个变量需要用上一个接口道服务器返回响应的动态值(上个请求). 遇到这样的情况,我们就需要用到关联例如用户A发表了一个一条微信朋友圈,用户B想对这条朋友圈进行评论,就需要先获取到这个朋友 ...
Centos 7系统启动修复
author:JevonWei 版权声明:原创作品错误界面这个错误界面应该为/boot文件损坏,故应该修复/boot和grub2 修复/boot及grub 1 . chroot /mnt/sysi ...
详细教程：将本地项目上传到github
作为一个工程师,将本地项目上传到github进行备份和分享是一个不错的技能,一来可以方便以后的工作,二来可以分享自己的成果.所以下面本人详细教大家如何将本地项目上传到github,十分简单,一学就会 ...
eclipse没有联想功能的解决办法
1.我window->Preferences->Java->Editor->content assist 把 Enable auto activation 选项打上勾 :(如下 ...
jsp fmt标签详解
详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt326 JSTL标签提供了对国际化(I18N)的支持,它可以根据发出请求的客户 ...
zookeeper原理介绍
详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt354 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它 ...
Unity相对于Cocos2d-x的比较
1.unity:Code in C# or js cocos:(Code in C++) 2.unity:可以让美工.动画.码农在同一个平台上各司其职(一起玩) cocos:码 ...
IOS学习［Swift中跳转与传值］
Swift中页面跳转与传值: 1.简单方式首先,Swift的跳转可分为利用xib文件跳转与storyboard跳转两种方法,我这里选择使用storyboard的界面跳转方法. 1.通过在storyb ...
poj 2723 二分+2-sat判定
题意:给出n对钥匙,每对钥匙只能选其中一个,在给出每层门需要的两个钥匙,只要一个钥匙就能开门,问最多能到哪层. 思路:了解了2-SAT判定的问题之后主要就是建图的问题了,这里建图就是对于2*n个钥匙, ...

深入浅出数据结构C语言版（22）——排序决策树与桶式排序

深入浅出数据结构C语言版（22）——排序决策树与桶式排序的更多相关文章

随机推荐

热门专题