From: http://blog.jobbole.com/73517/


二分检索是查找有序数组最简单然而最有效的算法之一。现在的问题是,更复杂的算法能不能做的更好?我们先看一下其他方法。

有些情况下,散列整个数据集是不可行的,或者要求既查找位置,又查找数据本身。这个时候,用哈希表就不能实现O(1)的运行时间了。但对有序数组, 采用分治法通常可以实现O(log(n))的最坏运行时间。

在下结论前,有一点值得注意,那就是可以从很多方面“击败”一个算法:所需的空间,所需的运行时间,对底层数据结构的访问需求。接下来我们做一个运行时对比实验,实验中创建多个不同的随机数组,其元素个数均在10,000到81,920,000之间,元素均为4字节整型数据。

二分检索

二分检索算法的每一步,搜索空间总会减半,因此保证了运行时间。在数组中查找一个特定元素,可以保证在 O(log(n))时间内完成,而且如果找的正好是中间元素就更快了。也就是说,要从81,920,000个元素的数组中找某个元素的位置,只需要27个甚至更少的迭代。

由于二分检索的随机跳跃性,该算法并非缓存友好的,因此只要搜索空间小于特定值(64或者更少),一些微调的二分检索算法就会切换回线性检索继续查找。然而,这个最终的空间值是极其架构相关的,因此大部分框架都没有做这个优化。

快速检索;最后回归到二分检索的快速检索

如果由于某些原因,数组长度未知,快速检索可以识别初始的搜索域。这个算法从第一个元素开始,一直加倍搜索域的上界,直到这个上界已经大于待查关键字。

之后,根据实现不同,

  • 或者采用标准的二分检索查找,保证O(log(n)) 的运行时间
  • 或者开始另一轮的快速检索。更接近O(n)的运行时间。

如果我们要找的元素比较接近数组的开头,快速检索就非常有效。

抽样检索

抽样检索有点类似二分检索,不过在确定主要搜索区域之前,它会先从数组中拿几个样例。最后,如果范围足够小,就采用标准的二分检索确定待查元素的准确位置。这个理论很有趣,不过在实践中执行效果并不好。

插值检索;最后回归到顺序查找的插值检索

在被测的算法中,插值检索可以说是“最聪明”的一个算法。它类似于人类使用电话簿的方法,它试图通过假设元素在数组中均匀分布,来猜测元素的位置。

首先,它抽样选择出搜索空间的开头和结尾,然后猜测元素的位置。算法一直重复这个步骤,直到找到元素。

  • 如果猜测是准确的,比较的次数大概是O(log(log(n)),运行时间大概是O(log(n));
  • 但如果猜测的不对,运行时间就会是O(n)了。

插值检索的一个改进版本是,只要可推测我们猜测的元素位置是接近最终位置的,就开始执行顺序查找。相比二分检索,插值检索的每次迭代计算代价都很高,因此在最后一步采用顺序查找,无需猜测元素位置的复杂计算,很容易就可以从很小的区域(大概10个元素)中找到最终的元素位置。

围绕插值检索的一大疑问就是,O(log(log(n))的比较次数可能产生O(log(log(n))的运行时间。这并非个案,因为存储访问时间和计算下一次猜测的CPU时间相比,这两者之间要有所权衡。如果数据量很大,而且存储访问时间也很显著,比如在一个实际的硬盘上,插值检索轻松击败二分检索。然而,实验表明,如果访问时间很短,比如说RAM,插值检索可能不会产生任何好处。

 

试验结果

试验中的源代码都是用Java写的;每个实验在相同的数组上运行10次;数组是随机产生的整型数组,存储在内存中。

在插值检索中,首先会采用抽样检索,从检索空间拿20个样例,以确定接下来的搜索域。如果假定的域只有10个或更少的元素,就开始采用线性检索。另外,如果这个搜索域元素个数小于2000,就回退到标准的二分检索了。

作为参考,java默认的Arrays.binarySearch算法也被加入实验,以同自定义的算法对比运行时间。

 

Average search time / element, given the array size

 

Average comparisons / search, given the array size

尽管我们对插值检索期望很高,它的实际运行时间并未击败java默认的二分检索算法。如果存储访问时间长,结合采用某些类型的哈希树和B+树可能是一个更好的选择。但值得注意的是,对均匀分布的数组,组合使用插值检索和顺序检索在比较次数上总能胜过二分检索。不过平台的二分检索已经很高效,所以很多情况下,可能不需要用更复杂的算法来代替它。

原始数据 – 每个检索的平均运行时间

Size

Arrays.
binarySearch

Interpolation
+Seq

Interpolation

Sampling

Binary

Gallop

Gallop
+Binary

10,000 1.50E-04 ms 1.60E-04 ms 2.50E-04 ms 3.20E-04 ms 5.00E-05 ms 1.50E-04 ms 1.00E-04 ms
20,000 5.00E-05 ms 5.50E-05 ms 1.05E-04 ms 2.35E-04 ms 7.00E-05 ms 1.15E-04 ms 6.50E-05 ms
40,000 4.75E-05 ms 5.00E-05 ms 9.00E-05 ms 1.30E-04 ms 5.25E-05 ms 1.33E-04 ms 8.75E-05 ms
80,000 4.88E-05 ms 5.88E-05 ms 9.88E-05 ms 1.95E-04 ms 6.38E-05 ms 1.53E-04 ms 9.00E-05 ms
160,000 5.25E-05 ms 5.94E-05 ms 1.01E-04 ms 2.53E-04 ms 6.56E-05 ms 1.81E-04 ms 9.38E-05 ms
320,000 5.16E-05 ms 6.13E-05 ms 1.22E-04 ms 2.19E-04 ms 6.31E-05 ms 2.45E-04 ms 1.04E-04 ms
640,000 5.30E-05 ms 6.06E-05 ms 9.61E-05 ms 2.12E-04 ms 7.27E-05 ms 2.31E-04 ms 1.16E-04 ms
1,280,000 5.39E-05 ms 6.06E-05 ms 9.72E-05 ms 2.59E-04 ms 7.52E-05 ms 2.72E-04 ms 1.18E-04 ms
2,560,000 5.53E-05 ms 6.40E-05 ms 1.11E-04 ms 2.57E-04 ms 7.37E-05 ms 2.75E-04 ms 1.05E-04 ms
5,120,000 5.53E-05 ms 6.30E-05 ms 1.26E-04 ms 2.69E-04 ms 7.66E-05 ms 3.32E-04 ms 1.18E-04 ms
10,240,000 5.66E-05 ms 6.59E-05 ms 1.22E-04 ms 2.92E-04 ms 8.07E-05 ms 4.27E-04 ms 1.42E-04 ms
20,480,000 5.95E-05 ms 6.54E-05 ms 1.18E-04 ms 3.50E-04 ms 8.31E-05 ms 4.88E-04 ms 1.49E-04 ms
40,960,000 5.87E-05 ms 6.58E-05 ms 1.15E-04 ms 3.76E-04 ms 8.59E-05 ms 5.72E-04 ms 1.75E-04 ms
81,920,000 6.75E-05 ms 6.83E-05 ms 1.04E-04 ms 3.86E-04 ms 8.66E-05 ms 6.89E-04 ms 2.15E-04 ms

原始数据 – 每个检索的平均比较次数

Size

Arrays.
binarySearch

Interpolation
+Seq

Interpolation

Sampling

Binary

Gallop

Gallop
+Binary

10,000 ? 10.6 17.6 19.0 12.2 58.2 13.2
20,000 ? 11.3 20.7 19.0 13.2 66.3 14.2
40,000 ? 11.0 16.9 20.9 14.2 74.9 15.2
80,000 ? 12.1 19.9 38.0 15.2 84.0 16.2
160,000 ? 11.7 18.3 38.0 16.2 93.6 17.2
320,000 ? 12.4 25.3 38.2 17.2 103.8 18.2
640,000 ? 12.4 19.0 41.6 18.2 114.4 19.2
1,280,000 ? 12.5 20.2 57.0 19.2 125.5 20.2
2,560,000 ? 12.8 22.7 57.0 20.2 137.1 21.2
5,120,000 ? 12.7 26.5 57.5 21.2 149.2 22.2
10,240,000 ? 13.2 25.2 62.1 22.2 161.8 23.2
20,480,000 ? 13.4 23.4 76.0 23.2 175.0 24.2
40,960,000 ? 13.4 21.9 76.1 24.2 188.6 25.2
81,920,000 ? 14.0 19.7 77.0 25.2 202.7 26.2

源代码

点此获取检索算法的完整源代码。注意,代码不是产品级别的;比如,在某些例子里,可能有过多或过少的范围检查。

[Math] Beating the binary search algorithm – interpolation search, galloping search的更多相关文章

  1. [Algorithm] Beating the Binary Search algorithm – Interpolation Search, Galloping Search

    From: http://blog.jobbole.com/73517/ 二分检索是查找有序数组最简单然而最有效的算法之一.现在的问题是,更复杂的算法能不能做的更好?我们先看一下其他方法. 有些情况下 ...

  2. [Algorithms] Binary Search Algorithm using TypeScript

    (binary search trees) which form the basis of modern databases and immutable data structures. Binary ...

  3. js binary search algorithm

    js binary search algorithm js 二分查找算法 二分查找, 前置条件 存储在数组中 有序排列 理想条件: 数组是递增排列,数组中的元素互不相同; 重排 & 去重 顺序 ...

  4. 【437】Binary search algorithm,二分搜索算法

    Complexity: O(log(n)) Ref: Binary search algorithm or 二分搜索算法 Ref: C 版本 while 循环 C Language scripts b ...

  5. [Algorithm] A* Search Algorithm Basic

    A* is a best-first search, meaning that it solves problems by searching amoung all possible paths to ...

  6. TSearch & TFileSearch Version 2.2 -Boyer-Moore-Horspool search algorithm

    unit Searches; (*-----------------------------------------------------------------------------* | Co ...

  7. [Algorithm] Write a Depth First Search Algorithm for Graphs in JavaScript

    Depth first search is a graph search algorithm that starts at one node and uses recursion to travel ...

  8. [Algorithm] Breadth First JavaScript Search Algorithm for Graphs

    Breadth first search is a graph search algorithm that starts at one node and visits neighboring node ...

  9. 笔试算法题(48):简介 - A*搜索算法(A Star Search Algorithm)

    A*搜索算法(A Star Search Algorithm) A*算法主要用于在二维平面上寻找两个点之间的最短路径.在从起始点到目标点的过程中有很多个状态空间,DFS和BFS没有任何启发策略所以穷举 ...

随机推荐

  1. android: SQLite升级数据库

    如果你足够细心,一定会发现 MyDatabaseHelper 中还有一个空方法呢!没错,onUpgrade() 方法是用于对数据库进行升级的,它在整个数据库的管理工作当中起着非常重要的作用,可 千万不 ...

  2. C# .net中获取台式电脑中串口设备的名称

    来源:http://www.cnblogs.com/hshuzhao/p/4028856.html?utm_source=tuicool&utm_medium=referral .情境: 做项 ...

  3. IIS下使用appcmd批量搭建网站

    使用 cmd 运行如下命令 > %windir%\system32\inetsrv\appcmd list site /config /xml > d:\sites.xml 修改 d 盘 ...

  4. 兼容iOS 10 资料整理

    1.Notification(通知) 自从Notification被引入之后,苹果就不断的更新优化,但这些更新优化只是小打小闹,直至现在iOS 10开始真正的进行大改重构,这让开发者也体会到UserN ...

  5. StarUml:Exception EOleSysError in module StarUML.ex

    http://sourceforge.net/p/staruml/discussion/510442/thread/9fe12cac/ run as administrator.Works fine.

  6. 【原】MyEclipse8.5集成Tomcat7时启动错误:Exception in thread “main” java.lang.NoClassDefFoundError

    解决方法: MyEclipse->Window->Preferences->MyEclipse->Servers->Tomcat->Tomcat 6.x->L ...

  7. U深度利用iso文件制作U盘启动盘

    利用U盘装win10系统: 工具:U深度装机版   文件:win10.iso 步骤1:下载U深度装机版安装 步骤2:打开U深度,制作U盘启动盘,注意选择iso模式,如下图所示 接下来下一步即可,工具会 ...

  8. android studio 修改成自己jks(keystore)签名文件

    项目中有微信分享和微信支付,微信支付后台设置是正式签名md5值不便调试,最初直接在后台创建二个应用一个测试一个正式的,但二个人同时开发这个测试版本的md5又遇到麻烦,所以想到android studi ...

  9. BSTestRunner——一个丑在路上的python unnitest HTML报告生成Runner

    今天忽然看到HTMLTestRunner的样式,第一眼的感觉是样式有点过时了,稍微看了下源码,果然最后更新时间是几年前,由于实现比较简单,所以顺手将样式改一下. 效果图 设计思想 既然有UI,那么如果 ...

  10. Android SDK在线更新镜像服务器大全

    http://www.androiddevtools.cn/ 原文:http://www.jb51.net/article/73732.htm 由于一些原因,Google相关很多服务都无法访问,所以在 ...