From: http://blog.jobbole.com/73517/


二分检索是查找有序数组最简单然而最有效的算法之一。现在的问题是,更复杂的算法能不能做的更好?我们先看一下其他方法。

有些情况下,散列整个数据集是不可行的,或者要求既查找位置,又查找数据本身。这个时候,用哈希表就不能实现O(1)的运行时间了。但对有序数组, 采用分治法通常可以实现O(log(n))的最坏运行时间。

在下结论前,有一点值得注意,那就是可以从很多方面“击败”一个算法:所需的空间,所需的运行时间,对底层数据结构的访问需求。接下来我们做一个运行时对比实验,实验中创建多个不同的随机数组,其元素个数均在10,000到81,920,000之间,元素均为4字节整型数据。

二分检索

二分检索算法的每一步,搜索空间总会减半,因此保证了运行时间。在数组中查找一个特定元素,可以保证在 O(log(n))时间内完成,而且如果找的正好是中间元素就更快了。也就是说,要从81,920,000个元素的数组中找某个元素的位置,只需要27个甚至更少的迭代。

由于二分检索的随机跳跃性,该算法并非缓存友好的,因此只要搜索空间小于特定值(64或者更少),一些微调的二分检索算法就会切换回线性检索继续查找。然而,这个最终的空间值是极其架构相关的,因此大部分框架都没有做这个优化。

快速检索;最后回归到二分检索的快速检索

如果由于某些原因,数组长度未知,快速检索可以识别初始的搜索域。这个算法从第一个元素开始,一直加倍搜索域的上界,直到这个上界已经大于待查关键字。

之后,根据实现不同,

  • 或者采用标准的二分检索查找,保证O(log(n)) 的运行时间
  • 或者开始另一轮的快速检索。更接近O(n)的运行时间。

如果我们要找的元素比较接近数组的开头,快速检索就非常有效。

抽样检索

抽样检索有点类似二分检索,不过在确定主要搜索区域之前,它会先从数组中拿几个样例。最后,如果范围足够小,就采用标准的二分检索确定待查元素的准确位置。这个理论很有趣,不过在实践中执行效果并不好。

插值检索;最后回归到顺序查找的插值检索

在被测的算法中,插值检索可以说是“最聪明”的一个算法。它类似于人类使用电话簿的方法,它试图通过假设元素在数组中均匀分布,来猜测元素的位置。

首先,它抽样选择出搜索空间的开头和结尾,然后猜测元素的位置。算法一直重复这个步骤,直到找到元素。

  • 如果猜测是准确的,比较的次数大概是O(log(log(n)),运行时间大概是O(log(n));
  • 但如果猜测的不对,运行时间就会是O(n)了。

插值检索的一个改进版本是,只要可推测我们猜测的元素位置是接近最终位置的,就开始执行顺序查找。相比二分检索,插值检索的每次迭代计算代价都很高,因此在最后一步采用顺序查找,无需猜测元素位置的复杂计算,很容易就可以从很小的区域(大概10个元素)中找到最终的元素位置。

围绕插值检索的一大疑问就是,O(log(log(n))的比较次数可能产生O(log(log(n))的运行时间。这并非个案,因为存储访问时间和计算下一次猜测的CPU时间相比,这两者之间要有所权衡。如果数据量很大,而且存储访问时间也很显著,比如在一个实际的硬盘上,插值检索轻松击败二分检索。然而,实验表明,如果访问时间很短,比如说RAM,插值检索可能不会产生任何好处。

 

试验结果

试验中的源代码都是用Java写的;每个实验在相同的数组上运行10次;数组是随机产生的整型数组,存储在内存中。

在插值检索中,首先会采用抽样检索,从检索空间拿20个样例,以确定接下来的搜索域。如果假定的域只有10个或更少的元素,就开始采用线性检索。另外,如果这个搜索域元素个数小于2000,就回退到标准的二分检索了。

作为参考,java默认的Arrays.binarySearch算法也被加入实验,以同自定义的算法对比运行时间。

 

Average search time / element, given the array size

 

Average comparisons / search, given the array size

尽管我们对插值检索期望很高,它的实际运行时间并未击败java默认的二分检索算法。如果存储访问时间长,结合采用某些类型的哈希树和B+树可能是一个更好的选择。但值得注意的是,对均匀分布的数组,组合使用插值检索和顺序检索在比较次数上总能胜过二分检索。不过平台的二分检索已经很高效,所以很多情况下,可能不需要用更复杂的算法来代替它。

原始数据 – 每个检索的平均运行时间

Size

Arrays.
binarySearch

Interpolation
+Seq

Interpolation

Sampling

Binary

Gallop

Gallop
+Binary

10,000 1.50E-04 ms 1.60E-04 ms 2.50E-04 ms 3.20E-04 ms 5.00E-05 ms 1.50E-04 ms 1.00E-04 ms
20,000 5.00E-05 ms 5.50E-05 ms 1.05E-04 ms 2.35E-04 ms 7.00E-05 ms 1.15E-04 ms 6.50E-05 ms
40,000 4.75E-05 ms 5.00E-05 ms 9.00E-05 ms 1.30E-04 ms 5.25E-05 ms 1.33E-04 ms 8.75E-05 ms
80,000 4.88E-05 ms 5.88E-05 ms 9.88E-05 ms 1.95E-04 ms 6.38E-05 ms 1.53E-04 ms 9.00E-05 ms
160,000 5.25E-05 ms 5.94E-05 ms 1.01E-04 ms 2.53E-04 ms 6.56E-05 ms 1.81E-04 ms 9.38E-05 ms
320,000 5.16E-05 ms 6.13E-05 ms 1.22E-04 ms 2.19E-04 ms 6.31E-05 ms 2.45E-04 ms 1.04E-04 ms
640,000 5.30E-05 ms 6.06E-05 ms 9.61E-05 ms 2.12E-04 ms 7.27E-05 ms 2.31E-04 ms 1.16E-04 ms
1,280,000 5.39E-05 ms 6.06E-05 ms 9.72E-05 ms 2.59E-04 ms 7.52E-05 ms 2.72E-04 ms 1.18E-04 ms
2,560,000 5.53E-05 ms 6.40E-05 ms 1.11E-04 ms 2.57E-04 ms 7.37E-05 ms 2.75E-04 ms 1.05E-04 ms
5,120,000 5.53E-05 ms 6.30E-05 ms 1.26E-04 ms 2.69E-04 ms 7.66E-05 ms 3.32E-04 ms 1.18E-04 ms
10,240,000 5.66E-05 ms 6.59E-05 ms 1.22E-04 ms 2.92E-04 ms 8.07E-05 ms 4.27E-04 ms 1.42E-04 ms
20,480,000 5.95E-05 ms 6.54E-05 ms 1.18E-04 ms 3.50E-04 ms 8.31E-05 ms 4.88E-04 ms 1.49E-04 ms
40,960,000 5.87E-05 ms 6.58E-05 ms 1.15E-04 ms 3.76E-04 ms 8.59E-05 ms 5.72E-04 ms 1.75E-04 ms
81,920,000 6.75E-05 ms 6.83E-05 ms 1.04E-04 ms 3.86E-04 ms 8.66E-05 ms 6.89E-04 ms 2.15E-04 ms

原始数据 – 每个检索的平均比较次数

Size

Arrays.
binarySearch

Interpolation
+Seq

Interpolation

Sampling

Binary

Gallop

Gallop
+Binary

10,000 ? 10.6 17.6 19.0 12.2 58.2 13.2
20,000 ? 11.3 20.7 19.0 13.2 66.3 14.2
40,000 ? 11.0 16.9 20.9 14.2 74.9 15.2
80,000 ? 12.1 19.9 38.0 15.2 84.0 16.2
160,000 ? 11.7 18.3 38.0 16.2 93.6 17.2
320,000 ? 12.4 25.3 38.2 17.2 103.8 18.2
640,000 ? 12.4 19.0 41.6 18.2 114.4 19.2
1,280,000 ? 12.5 20.2 57.0 19.2 125.5 20.2
2,560,000 ? 12.8 22.7 57.0 20.2 137.1 21.2
5,120,000 ? 12.7 26.5 57.5 21.2 149.2 22.2
10,240,000 ? 13.2 25.2 62.1 22.2 161.8 23.2
20,480,000 ? 13.4 23.4 76.0 23.2 175.0 24.2
40,960,000 ? 13.4 21.9 76.1 24.2 188.6 25.2
81,920,000 ? 14.0 19.7 77.0 25.2 202.7 26.2

源代码

点此获取检索算法的完整源代码。注意,代码不是产品级别的;比如,在某些例子里,可能有过多或过少的范围检查。

[Math] Beating the binary search algorithm – interpolation search, galloping search的更多相关文章

  1. [Algorithm] Beating the Binary Search algorithm – Interpolation Search, Galloping Search

    From: http://blog.jobbole.com/73517/ 二分检索是查找有序数组最简单然而最有效的算法之一.现在的问题是,更复杂的算法能不能做的更好?我们先看一下其他方法. 有些情况下 ...

  2. [Algorithms] Binary Search Algorithm using TypeScript

    (binary search trees) which form the basis of modern databases and immutable data structures. Binary ...

  3. js binary search algorithm

    js binary search algorithm js 二分查找算法 二分查找, 前置条件 存储在数组中 有序排列 理想条件: 数组是递增排列,数组中的元素互不相同; 重排 & 去重 顺序 ...

  4. 【437】Binary search algorithm,二分搜索算法

    Complexity: O(log(n)) Ref: Binary search algorithm or 二分搜索算法 Ref: C 版本 while 循环 C Language scripts b ...

  5. [Algorithm] A* Search Algorithm Basic

    A* is a best-first search, meaning that it solves problems by searching amoung all possible paths to ...

  6. TSearch & TFileSearch Version 2.2 -Boyer-Moore-Horspool search algorithm

    unit Searches; (*-----------------------------------------------------------------------------* | Co ...

  7. [Algorithm] Write a Depth First Search Algorithm for Graphs in JavaScript

    Depth first search is a graph search algorithm that starts at one node and uses recursion to travel ...

  8. [Algorithm] Breadth First JavaScript Search Algorithm for Graphs

    Breadth first search is a graph search algorithm that starts at one node and visits neighboring node ...

  9. 笔试算法题(48):简介 - A*搜索算法(A Star Search Algorithm)

    A*搜索算法(A Star Search Algorithm) A*算法主要用于在二维平面上寻找两个点之间的最短路径.在从起始点到目标点的过程中有很多个状态空间,DFS和BFS没有任何启发策略所以穷举 ...

随机推荐

  1. AngularJS的date 过滤器

    date 过滤器可以将日期格式化成需要的格式.AngularJS中内置了几种日期格式,如果没有指定使用任何格式,默认会采用 mediumDate 格式,下面的例子中展示了这个格式. ·下面是内置的支持 ...

  2. Android之把手机的3g流量共享出来让其他人连接这个wifi

    转自:http://blog.csdn.net/luoboo525/article/details/7883998   亲测可用 用过快牙的朋友应该知道它们在两天设备之间传输文件的时候使用的是wifi ...

  3. 禁用iOS的UIView长按默认操作

    * {    -webkit-touch-callout: none;    -webkit-user-select: none;    -webkit-tap-highlight-color: rg ...

  4. cocos2d-x 2.x版本接入bugly的总结

    最开始项目使用的是自己DIY的很简陋的上报系统,后来改成google breakpad来上报,发现其实都做的不太理想,游戏引擎因为版本历史问题存在一些崩溃问题.后来3.x接入了bugly,我这边抽了几 ...

  5. ThinkCMF 解决xss攻击问题

    最近使用ThinkCMF给某政府开发的一个平台,因为他们需要通过国家二级信息安全等级测试 所以自己先使用Appscan测试了一下,结果扫描出一个xss安全问题 测试的网址:http://www.xxx ...

  6. PPTP VPN 一键安装包(图文,OpenVZ适用)[zz]

    [介绍] VPN的英文全称是“Virtual Private Network”,中文名叫“虚拟专用网络”.VPN可以通过特殊加密的通讯协议连接到Internet上,在位于不同地方的两个或多个内部网之间 ...

  7. 小米2成功使用google组件的办法(为了coc游戏能登录google账户)

    1) 小米商店里下一个 “谷歌应用下载器”2) 用"谷歌应用下载器"安装相应的服务和应用(跟着提示把所有的服务都更新到最新版本就可以了,第3和第4可以不做)3) 小米商店里下一个 ...

  8. 纯CSS实现图片抖动

    实现方法: 1.将上文提到的以下JS内容删除: $(".imagelogo").mouseover(function() { obj = $(this); i = 5; timer ...

  9. 不停止MySQL服务增加从库的两种方式

    不停止MySQL服务增加从库的两种方式 转载自:http://lizhenliang.blog.51cto.com/7876557/1669829 现在生产环境MySQL数据库是一主一从,由于业务量访 ...

  10. MySQL、PostgreSQL、Ingres r3、MaxDB等开源数据库的详细比较

    1.MySQL 5 作为当今最流行的开放源码数据库之一,MySQL数据库为用户提供了一个相对简单的 解决方案,适用于广泛的应用程序部署,能够降低用户的TCO.MySQL是一个多线程.结构化查询语言(S ...