深入浅出数据结构C语言版（17）—

　　在上一篇博文中我们提到：要令排序算法的时间复杂度低于O(n²)，必须令算法执行“远距离的元素交换”，使得平均每次交换减少不止1逆序数。

　　而希尔排序就是“简单地”将这个道理应用到了插入排序中，将插入排序小小的升级了一下。那么，希尔排序是怎么将这个道理应用于插入排序的呢？我们先来回顾一下插入排序的代码：

void InsertionSort(int *a, unsigned int size)

{//StartPos表示执行插入操作的元素开始插入时的下标

   //令StartPos从1递增至size-1，对于每个a[StartPos]，我们执行向前插入的操作

   for (int StartPos = ;StartPos < size;++StartPos)

       for (int CurPos = StartPos;CurPos != ;--CurPos)

           if(a[CurPos - ] > a[CurPos])

              swap(&a[CurPos],&a[CurPos-]);   //令当前元素与前一元素交换

}

　　不难看出，在插入排序中，对于每一个元素，我们都令其执行“向前插入”操作，直至到达顺序位置。但是，在“向前插入”这个操作中，每一次“当前元素”都是与前一元素进行比较，而这也是插入排序时间复杂度没能低于O(n²)的原因。

　　所以，希尔排序与插入排序之间的区别就是：希尔排序在“向前插入”时，“当前元素”总是与前k元素（若当前元素下标为n，则前k元素即下标为n-k的元素）进行比较，并且第一个开始“插队”的元素不再是[1]，而是[k]。从代码角度来说，便是将插入排序的循环改为：

   //StartPos表示执行插入操作的元素开始插入时的下标

   //令StartPos从k递增至size-1，对于每个a[StartPos]，我们执行向前插入的操作

   for (int StartPos = k;StartPos < size;++StartPos)

       for (int CurPos = StartPos;CurPos >= k;CurPos-=k)

           if(a[CurPos - k] > a[CurPos])

              swap(&a[CurPos],&a[CurPos-k]);   //令当前元素与前k元素交换

　　不难看出，插入排序就是k=1的情况。经过上述代码处理后，数据可以保证如下属性：

　　a[n],a[n+k],a[n+2k]……a[n+x*k]有序，其中0=<n<size且n+x*k<size，也就是说：所有相隔距离为k的元素组成的数列都有序（当k为1时即全体有序）

　　举个实例来看看，假设数组如下，间距为3的元素用同色标注：

　　,,,,,,,,,,,,

　　令k=3，进行k=3的“插入排序”后，间距为3的元素互相有序：

　　,,,,,,,,,,,,

　　分析上例可以看出，当k>1时，间距为k的k-插入排序的交换可以实现“远距离交换元素”，上例中，3-的插入排序交换了5次元素，逆序数减少了9，平均一次交换减少了1.8逆序数。

　　同时可以看出，上述属性，只有在k为1时才能保证整个数组有序，也即普通插入排序的情况，而k>1时则不能。也就是说，要想“远距离交换元素”，就要令k>1，而k>1却又不能保证数组最后有序，那该怎么办呢？

　　万幸的是，我们有这么一个定理：

　　若数组已经进行过间距为k的k-插入排序，即已经确定间距为k的元素互相有序，则对数组进行间距为(k-1)的(k-1)-插入排序后，数组依然保持“间距为k的元素互相有序”

　　用大白话来说，就是：虽然k>1的k-插入排序不能保证数组完全有序，但可以保证不增加数组的逆序数。

　　于是，希尔排序的发明者唐纳德·希尔想出了这么一个办法，也就是希尔排序：先进行k比较大的“插入排序”，然后逐步减小k的值，直至k=1。这样一来，希尔排序就能保证最后数组有序。

　　接下来的问题就是，k的初始值该如何选？k又该如何减小至1？这一点至关重要，其重要性类似于哈希函数对于哈希表的意义。我们称k从初始值k_n减小至1的各值：k_n,k_n-1,k_n-2……1组成的序列称为“增量序列”，即“增量”（Increment，意指k的大小）组成的序列。希尔本人推荐的增量序列是初始值为size/2，任一k_n-1=k_n/2。这样一来，使用希尔增量序列的希尔排序完整算法如下：

void ShellSort(int *a, unsigned int size)

{

    unsigned int CurPos, Increment;  //CurPos表示执行插入的元素当下所处的下标，Increment即增量k

    int temp;   //用于暂存当前执行插入操作的元素值，可以减少交换操作

    //Increment从size/2开始，按Increment/=Increment的方式递减至1

    for (Increment = size / ;Increment > ;Increment /= )

        //下方代码与插入排序几乎相同，只是比较对象由[CurPos-1]变为[CurPos-Increment]

        for (unsigned int StartPos = Increment;StartPos < size;++StartPos)

        {

            temp = a[StartPos];

            for (CurPos = StartPos;CurPos >= Increment&&a[CurPos - Increment] > temp;CurPos -= Increment)

                a[CurPos] = a[CurPos - Increment];

            a[CurPos] = temp;

        }

}

　　接下来，我们以希尔增量序列为例，说明为什么增量序列的设定对于希尔排序性能至关重要：

　　设数据为：1,9,2,10,3,11,4,12，则对应增量序列为4,2,1

　　4-插入排序后：1,9,2,10,3,11,4,12

　　2-插入排序后：1,9,2,10,3,11,4,12

　　1-插入排序后：1,2,3,4,9,10,11,12

　　不难发现，这个例子中的增量序列很不好，4-排序和2-排序都没有任何的有效操作。这个例子告诉我们两件事：

　　1.增量序列对于希尔排序的性能非常重要，差的增量序列会减少需要本可以执行的“远距离交换”

　　2.希尔推荐的增量序列编程实现简单，但实际应用中表现并不好，原因在于其增量序列不互素。

　　并且可以确定的是，若需排序的数组a大小n为2的幂，任一x为偶数的a[x]均大于x为奇数的a[x]，且a[x]>a[x-2]，则希尔的增量序列只有在进行1-排序时才有交换操作。

　　举例来说：9,1,10,2,11,3,12,4,13,5,14,6,15,7,16,8。

　　其增量序列为8,4,2,1，但是8-排序、4-排序与2-排序都没有交换元素。

　　此外，若某元素排序前位于下标奇数处，排序后所在位置为i，则进行1-排序前，其位置在2*i+1处（如例中元素4，其下标为奇数，其有序位置应为3，1-排序前位置为7），而将其从位置2*i+1移动至i需要执行i+1次交换，这样的元素（下标奇数）共有n/2个，所以将这些元素移动至正确位置就需要(0+1)+(1+1)+(2+1)+……+(N/2+1)共N²/8-N/4，时间复杂度为O(n²)。可见，使用希尔增量序列希尔排序的最坏情况是O(n²)

　　那么，希尔排序的增量序列该如何选择呢？本文给出两个序列，它们都比希尔增量序列要好：

　　1.Hibbard序列：{1,3,7……2^k-1}，k为大于0的自然数，使用Hibbard序列的希尔排序平均运行时间为θ(n^5/4)，最坏情形为O(n^3/2)。

　　2.Sedgewick序列：令i为自然数，将9*4-9*2+1的所有结果与4-3*2+1的所有结果进行并集运算，所得数列{1,5,19,41,109……}。使用此序列的希尔排序最坏情形为O(n^4/3)，平均情形为O(n^7/6)

　　如何实现这两个序列的希尔排序并不是难事，Hibbard序列可以直接通过计算得出初始值（小于数组大小即可），而后每次令Increment=(Increment-1)/2即可。Sedgewick序列则稍稍麻烦点，需要先将序列计算出足够项（最后一项小于数组大小），而后存于某个数组，再不断从中取出元素作为增量。

　　希尔排序的性能（使用Sedgewick序列）在数据量较大时依然是不错的。如果说插入排序是我们的“初级排序”，用于较少数据或趋于有序数据的情况，那么希尔排序就是我们的“中级排序”，用于数据量偏多的情况。当然，当数据量极大时，我们将用上我们的“高级排序”——快速排序。至于怎么样算数据量偏多，这个就需要因情境而异了，数据的存储形式等都是需要考虑的问题，一般来说数据量为万级时我们使用希尔排序，数据量为十万、百万级时使用快速排序，而数据量为百、千级时插入排序和希尔排序都可以考虑。并且需要再次说明的是，数据越趋于有序，则插入排序越快。从这个角度来说，插入排序也不失为一个“高级排序”。

　　那么，我们学习堆时提到的用堆进行排序的想法，明明有着很好的时间界O(N*logN)，为什么不在考虑之列呢？我们下一篇博文就简单地分析分析。

深入浅出数据结构C语言版（17）——希尔排序的更多相关文章

深入浅出数据结构C语言版（17）——有关排序算法的分析
这一篇博文我们将讨论一些与排序算法有关的定理,这些定理将解释插入排序博文中提出的疑问(为什么冒泡排序与插入排序总是执行同样数量的交换操作,而选择排序不一定),同时为讲述高级排序算法做铺垫(高级排序为什 ...
深入浅出数据结构C语言版（19）——堆排序
在介绍优先队列的博文中,我们提到了数据结构二叉堆,并且说明了二叉堆的一个特殊用途--排序,同时给出了其时间复杂度O(N*logN).这个时间界是目前我们看到最好的(使用Sedgewick序列的希尔排序 ...
深入浅出数据结构C语言版（22）——排序决策树与桶式排序
在(17)中我们对排序算法进行了简单的分析,并得出了两个结论: 1.只进行相邻元素交换的排序算法时间复杂度为O(N2) 2.要想时间复杂度低于O(N2),算法必须进行远距离的元素交换而今天,我们将对 ...
深入浅出数据结构C语言版（21）——合并排序
在讲解合并排序之前,我们先来想一想这样一个问题如何解决: 有两个数组A和B,它们都已各自按照从小到大的顺序排好了数据,现在我们要把它们合并为一个数组C,且要求C也是按从小到大的顺序排好,请问该怎么做? ...
深入浅出数据结构C语言版（5）——链表的操作
上一次我们从什么是表一直讲到了链表该怎么实现的想法上:http://www.cnblogs.com/mm93/p/6574912.html 而这一次我们就要实现所说的承诺,即实现链表应有的操作(至于游 ...
深入浅出数据结构C语言版（1）——什么是数据结构及算法
在很多数据结构相关的书籍,尤其是中文书籍中,常常把数据结构与算法"混合"起来讲,导致很多人初学时对于"数据结构"这个词的意思把握不准,从而降低了学习兴趣和学习信 ...
深入浅出数据结构C语言版（8）——后缀表达式、栈与四则运算计算器
在深入浅出数据结构(7)的末尾,我们提到了栈可以用于实现计算器,并且我们给出了存储表达式的数据结构(结构体及该结构体组成的数组),如下: //SIZE用于多个场合,如栈的大小.表达式数组的大小 #de ...
深入浅出数据结构C语言版（12）——从二分查找到二叉树
在很多有关数据结构和算法的书籍或文章中,作者往往是介绍完了什么是树后就直入主题的谈什么是二叉树balabala的.但我今天决定不按这个套路来.我个人觉得,一个东西或者说一种技术存在总该有一定的道理,不 ...
深入浅出数据结构C语言版（15）——优先队列（堆）
在普通队列中,元素出队的顺序是由元素入队时间决定的,也就是谁先入队,谁先出队.但是有时候我们希望有这样的一个队列:谁先入队不重要,重要的是谁的"优先级高",优先级越高越先出队.这样 ...

随机推荐

Linux学习总结（十）—— Java开发环境搭建：JDK+Maven
Java开发环境最基础的两个开源软件是JDK和Maven. JDK 到Oracle官网下载相对应的源码包,这里我选择的是:Linux x64系统的jdk-8u131-linux-x64.tar.gz. ...
在配置wem.xml后，Tomcat遇到问题，启动失败的解决方法
前两天在写程序时,碰到了Tomcat无法启动的问题,就是在配置完web.xml后.想必好多小伙伴都有遇到吧. 如图: 出现这个错误的原因是:在配置web.xml的时候出现了错误! 如图所示,没有修改这 ...
HIVE—索引、分区和分桶的区别
一.索引简介 Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapRed ...
emacs命令记录
C-代表按住Ctrl键 M-代表按住Alt键,也可以用按一下ESC放开代替最先要记住的 M-x <cmd> 输入指令执行,在输入时用Tab可以自动补全或列出项目 C-g ...
Kickstart Round D 2017 problem A sightseeing 一道DP
这是现场完整做出来的唯一一道题Orz..而且还调了很久的bug.还是太弱了. Problem When you travel, you like to spend time sightseeing i ...
Java获取Object属性值
做了一个拦截参数的需求,需要获取普通参数和对象参数参数是Object类型,Object[] paramValues = pjp.getArgs(); 1.获取普通参数 ;i<paramValu ...
同形异义字：看我如何拿到TaoBao.com的解析权
*本文原创作者:expsky@MS509Team,本文属FreeBuf原创奖励计划同形异义字钓鱼攻击号称"几乎无法检测",是最狡猾的钓鱼攻击!这种攻击产生的原因是国际化域名IDN ...
cmder修改默认打开路径
win + alt + p //打开设置选择Startup-Task,修改{cmd::Cmder}项,把: *cmd /k "%ConEmuDir%\..\init.bat" - ...
Django数据库操作(增删改查）
Django数据库操作(增删改查) 创建数据库中的一个表 class Business(models.Model): #自动创建ID列 caption = models.CharField(max_l ...
python基础学习（十三）
re模块包含对正则表达式.本章会对re模块主要特征和正则表达式进行介绍. 什么是正则表达式正则表达式是可以匹配文本片段的模式.最简单的正则表达式就是普通字符串,可以匹配其自身.换包话说,正则表达式 ...

深入浅出数据结构C语言版（17）——希尔排序

深入浅出数据结构C语言版（17）——希尔排序的更多相关文章

随机推荐

热门专题