本章介绍用HBase存储、高效查询地理位置信息。

Geohash空间索引

考虑LBS应用中常见的两个问题:1)查找离某地近期的k个地点。2)查找某区域内地点。

假设要用HBase实现高效查找,首先要考虑的是空间局部性(Spatial Locality),即位置上相近的点得物理存储在一起。

最简单的地理位置数据由两个维度组成:经度X和纬度Y。那么相相应最简单的Rowkey也能够由X和Y组成。Rowkey的有序性决定了数据首先依照经度X排序。再依照纬度Y排序,这样的方式最大的问题是经度值相等的A地点和B地点,可能纬度上相差十万八千里。

Geohash的解决思路是将经度和纬度以同样的权重构建空间索引。详细算法例如以下图:在经度范围[-180。180],纬度范围[-90,90]内不断进行二分查找,假设值位于上半区则记标识位为1,位于下半区则记标识位为0。终于结果由经度纬度标识位交叉组成。

(注:在HBase中能够存储标识位的Base32编码串,每一个字符是5个bit位的编码结果)

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaWRvbnR3YW50b2Jl/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

观察下面数据例子。可知geohash较好地反映了空间局部性:数据依照距离远近有序排列,距离相近的点geohash值有着很多其它的同样前缀。

查找近期K个邻居

通过扫描geohash前缀能够高效解决这个问题1:查找离某地近期的k个地点。

当然,须要选择合适的位数来进行前缀匹配扫描。使用较少的位数能降低扫描次数,但可能会返回多余的数据,而使用较多的位数能可能每次扫描返回的结果优先,导致须要多次扫描。

然而,geohash值也存在一些问题,不能使用简单的前缀匹配扫描来查找邻居,例如以下图:有限长度的geohash值在地图上表示为一个矩形区域。位于中间的是dr5ruzb区域,它下方的邻居区域和它有着5位长度的同样前缀,而上方的三个区域尽管位置相邻,但仅仅有这2位长度的同样前缀。

所以,假设要查找dr5ruzb的近期k个邻居,保险起见,能够一起查找它周围8个相邻区域的近期k个邻居。然后将全部查找到的点依照距离排序再得出终于结果。伪代码例如以下:takeN查找某个区域的近期n个点

queryKNN则使用takeN查找四周8个相邻区域的近期n个点。终于再排序取值。

区域内查找

来一个区域内查找的实例:在某某广场内有多少个wifi热点?解决思路分两步:

第一步。将区域内查找转化为对一系列geohash索引的扫描。

第二步。推断扫描到的坐标点是否包括在待查找区域多边形内。

工具方面。能够使用JTS Topology Suite(http://tsusiatsoftware.net/jts/main.html),JTS实现了常见几何对象、空间拓扑数据结构和操作算法。使用JTS查找待扫描的geohash坐标详细过程例如以下:

  1. 依据待查找区域的各个顶点初始化多边形对象Geometry。并得出多边形对象的质心Centroid。
  2. 对质心Centorid坐标进行geohash编码,精度取一定位数,假设geohash编码所代表的闭包已经覆盖了待查找多边形对象Geometry,那么直接返回质心作为待扫描的坐标。假设没有覆盖,继续步骤3。
  3. 与前一节类似做法找到质心Centroid的四周8个相邻区域,闭包的范围扩大至包括这8个相邻区域顶点,再次推断闭包是否覆盖待查找区域。

    假设覆盖,那么这9个点一起作为待扫描的坐标返回;假设还是不能覆盖。返回到步骤2。使用更短的geohash编码长度来扩大位置范围,直到覆盖待查找区域为止。

得到待扫描geohash坐标后,使用前一节近期K个邻居查找算法在HBase表中扫描出一系列附近坐标点,最后过滤掉不在待查找区域范围内的坐标点。当中,过滤步骤能够通过Filter过滤器完毕。能利用上HBase的分布式并行处理能力,降低到client的传输数据量。

读书笔记-HBase in Action-第三部分应用-(2)GIS系统的更多相关文章

  1. HBase in Action前三章笔记

    近期接触HBase,看了HBase In Action的英文版.開始认为还行,做了些笔记.可是兴许看下去,越来越感觉到实战这本书比較偏使用上的细节,对于HBase的具体设计涉及得很少.把前三章的一些笔 ...

  2. 读书笔记-HBase in Action-第一部分 HBase fundamentals

    新项目准备上HBase.HBase眼下由组里某牛负责.本着学会使用HBase的目标,先阅读下HBase in Action,一共十章组织成三部分,须要学习的内容包含HBase基本实现原理,用法,Sch ...

  3. 读书笔记-HBase in Action-第三部分应用-(1)OpenTSDB

    OpenTSDB是基于HBase的开源监控系统,能够支持上万规模集群监控和上亿数据点採集. 当中TSDB代表Time Series Database,OpenTSDB在时间序列数据的存储和查询上都做了 ...

  4. 读书笔记-HBase in Action-第二部分Advanced concepts-(2)Coprocessor

    Coprocessor是HBase 0.92.0引入的特性.使用Coprocessor.能够将一些计算逻辑下推到HBase节点,HBase由一个单纯的存储系统升级为分布式数据处理平台. Coproce ...

  5. Getting Started With Hazelcast 读书笔记(第二章、第三章)

    第二章 起步 本章就相当简单粗暴了,用一个个例子说明hazelcast怎么用. 1.map,set,list这些集合类都是开箱即用的,只要从Hazelcast的实例中获取一份就行. 2.增加了Mult ...

  6. 【读书笔记】.Net并行编程(三)---并行集合

    为了让共享的数组,集合能够被多线程更新,我们现在(.net4.0之后)可以使用并发集合来实现这个功能.而System.Collections和System.Collections.Generic命名空 ...

  7. 【读书笔记】iOS-开发技巧-三种收起键盘的方法

    - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view, typica ...

  8. 读书笔记-HBase in Action-第二部分Advanced concepts-(1)HBase table design

    本章以山寨版Twitter为例介绍HBase Schema设计模式.广义的HBase Schema设计不仅仅包含创建表时指定项,还应该综合考虑Column families/Column qualif ...

  9. unix-环境高级编程-读书笔记与习题解答-第三篇

    第一章 第五节 进程与控制 该小节比较粗略的阐述了unix操作系统中用于进程控制的三个函数,分别为 : fork , exec, waitpid, 其中 exec 有五种变体, 这些变体实现的功能全部 ...

随机推荐

  1. 关于MessageBox返回值

    风格设置MB_OK. 此时无论点击确定还是点击X,都返回IDOK.风格设置MB_OKCANCEL,点击确认返回IDOK,点击取消和X都返回IDCANCEL.风格设置MB_YESNO,点击是返回IDYE ...

  2. Android流行界面结构——Fragment通过ViewPager(带指示器)嵌套Fragment结构的创建方法详解

    原创文章,转载请注明出处http://www.cnblogs.com/baipengzhan/p/6287213.html 当前Android流行界面结构的一种——Fragment通过ViewPage ...

  3. CF633H Fibonacci-ish II

    题目描述 题解: 坑题搞了三天. 莫队+线段树. 还有一些和斐波那契数列有关的性质. 首先答案是$a_1f_1+a_2f_2+…+a_nf_n$, 考虑插进去一个元素对答案产生的影响. 比如插进去一个 ...

  4. [LOJ] 分块九题 6

    单点插入,单点查询. 优化了的链表. 链表老写错,干脆用vector,也不算慢. 注意链表退化的问题,及时(比如操作根号n次)就重新建块,实测速度可以提高一倍,这还是数据随机的情况,若涉及大量同一位置 ...

  5. 使用SimpleDateFormat 将毫秒转换成时分秒 格式:HH:mm:ss

    public static String dateFormatFromMilliSecond(long seconds) {        //初始化format格式    SimpleDateFor ...

  6. (十九)python 3 内嵌函数和闭包

    内嵌函数:函数里又嵌套一个函数 def fun1(): print('fun1()在被调用') def fun2(): print('fun2()在被调用') fun2() 闭包: 闭包是函数里面嵌套 ...

  7. LeetCode(51) N-Queens

    题目 The n-queens puzzle is the problem of placing n queens on an n×n chessboard such that no two quee ...

  8. 《算法导论》— Chapter 6 堆排序

    序 本文主要介绍堆排序算法(HeapSort),堆排序像合并排序而不像插入排序,堆排序的运行时间为O(nlgn):像插入排序而不像合并排序,它是一种原地(in place)排序算法.在任何时候,数组中 ...

  9. 《算法导论》 — Chapter 10 基本数据结构

    序 在本章中,要讨论如何通过使用了指针的简单数据结构表示动态集合.有很多的复杂的数据结构可以用指针来构造,本章介绍几种基本数据结构,包括栈.队列.链表,以及有根树. GitHub 第十章 程序实现代码 ...

  10. PTA 04-树4 是否同一棵二叉搜索树 (25分)

    题目地址 https://pta.patest.cn/pta/test/15/exam/4/question/712 5-4 是否同一棵二叉搜索树   (25分) 给定一个插入序列就可以唯一确定一棵二 ...